Aller au contenu principal
Symskill : co-invention de symboles et de compétences pour une manipulation réactive à long horizon, économe en données
IA physiquearXiv cs.RO5h

Symskill : co-invention de symboles et de compétences pour une manipulation réactive à long horizon, économe en données

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (2510.01661, version 3) SymSkill, un framework d'apprentissage robotique pour la manipulation séquentielle en environnements dynamiques. Le système apprend conjointement trois composantes à partir de démonstrations brutes, non étiquetées et non segmentées : des prédicats symboliques (conditions logiques décrivant l'état du monde), des opérateurs (représentations abstraites des actions), et des compétences motrices orientées vers des objectifs. En simulation RoboCasa, SymSkill réussit 12 tâches à étape unique avec un taux de 85 %, puis les compose en plans multi-étapes sans données supplémentaires. Sur un robot réel Franka, le système apprend à partir de cinq minutes de données de jeu libre et exécute des tâches à 12 étapes à partir de spécifications symboliques d'objectifs. La récupération en cas d'échec opère en temps réel, tant au niveau moteur que symbolique, via un contrôleur conforme permettant l'exécution sécurisée sous perturbations humaines ou environnementales.

L'intérêt de SymSkill tient à sa résolution d'une tension fondamentale en robotique industrielle : l'apprentissage par imitation (IL) est réactif mais ne généralise pas à des scènes inédites, tandis que la planification tâche-et-mouvement (TAMP) est compositionnelle mais trop lente pour la récupération en temps réel. SymSkill combine les deux en un seul cadre unifié : le planificateur symbolique réordonne dynamiquement les compétences selon l'état courant, sans nécessiter de réentraînement. Pour un intégrateur, cinq minutes de données suffire à couvrir une séquence de 12 étapes représente un gain de coût de labellisation considérable par rapport aux pipelines d'imitation classiques. Les résultats questionnent aussi l'hypothèse selon laquelle les modèles VLA (vision-langage-action) monolithiques suffisent pour la manipulation longue-horizon : la décomposition symbolique explicite offre ici une robustesse mesurable.

L'approche s'inscrit dans un débat de fond entre architectures neuronales end-to-end, comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, et les approches hybrides neuro-symboliques. SymSkill représente ce second camp, qui revendique meilleure interprétabilité et récupération d'échec structurée. Aucun déploiement industriel ni partenariat commercial n'est annoncé ; il s'agit d'un résultat de recherche académique avec code disponible sur symskill.github.io, et les performances en simulation restent à valider sur des tâches industrielles à plus haute variabilité. La prochaine étape naturelle serait de tester la scalabilité sur des horizons supérieurs à 12 étapes et des environnements moins contrôlés.

À lire aussi

ARM : modélisation des récompenses par avantage pour la manipulation à long horizon
1arXiv cs.RO 

ARM : modélisation des récompenses par avantage pour la manipulation à long horizon

Une équipe de chercheurs propose ARM (Advantage Reward Modeling, arXiv:2604.03037), un framework pour améliorer l'apprentissage par renforcement (RL) sur des tâches de manipulation robotique à long horizon. Le problème de fond : les récompenses éparses fournissent trop peu de signal pour guider l'apprentissage quand une tâche implique des dizaines d'étapes. ARM substitue la mesure de progression absolue par une estimation de l'avantage relatif, via un protocole de labeling à trois états : Progressif, Régressif, Stagnant. Ce schéma tri-état réduit la charge cognitive des annotateurs humains tout en assurant une forte cohérence inter-annotateurs. Intégré dans un pipeline de RL offline, il pondère les données de façon adaptative pour filtrer les échantillons sous-optimaux. Résultat annoncé : 99,4 % de réussite sur une tâche de pliage de serviette à long horizon, avec quasi-absence d'intervention humaine pendant l'entraînement. L'atout principal d'ARM est son coût d'annotation réduit face aux méthodes classiques de reward shaping dense, qui exigent une ingénierie fine de la fonction de récompense et peinent à modéliser des comportements non monotones comme le backtracking ou la récupération d'erreur. ARM ramène l'annotation à une classification intuitive, applicable aux démonstrations complètes comme aux données fragmentées issues de DAgger (imitation learning itératif). Les auteurs rapportent un gain sur les baselines VLA (Vision-Language-Action) actuels en stabilité et en efficacité des données, mais le benchmark se limite à un seul scénario de pliage de serviette : un résultat prometteur qui reste à confirmer sur un panel de tâches plus large et diversifié. La manipulation à long horizon demeure l'un des problèmes les plus ouverts de la robotique, au coeur de la compétition entre Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et d'autres architectures VLA. ARM s'inscrit dans le courant qui vise à rendre le RL applicable en conditions réelles sans dépendre massivement de la simulation (sim-to-real) ni de fonctions de récompense codifiées manuellement. Il s'agit d'un résultat de laboratoire : aucun déploiement terrain ni partenaire industriel n'est mentionné dans la publication. Les suites attendues sont une validation sur des tâches plus variées et des plateformes robotiques commerciales, notamment les humanoïdes actuellement en phase de commercialisation.

IA physiqueOpinion
1 source
GAP : pré-entraînement par ancrage géométrique pour un apprentissage visuomoteur économe en données des tâches de manipulation
2arXiv cs.RO 

GAP : pré-entraînement par ancrage géométrique pour un apprentissage visuomoteur économe en données des tâches de manipulation

Des chercheurs ont publié sur arXiv (référence 2605.15836) une méthode baptisée GAP (Geometric Anchor Pre-training), conçue pour améliorer l'apprentissage visuomoteur en manipulation robotique à partir d'un très faible nombre de démonstrations d'experts. L'approche repose sur une étape de pré-entraînement légère et sans actions, qui régularise l'adaptateur spatial d'un modèle de vision pré-entraîné (Vision Foundation Model, VFM) avant la phase d'imitation proprement dite. Cette étape de préchauffage entraîne la couche de pooling à produire des points-clés géométriquement stables, ancrés sur les objets, couvrant leur étendue spatiale et reproductibles dans le temps, à partir de masques simulés disponibles sans coût d'annotation. Le VFM reste gelé tout au long du processus. Évaluée sur les benchmarks RoboMimic et ManiSkill dans des conditions de pénurie sévère de données (15 à 50 démonstrations), GAP atteint 62 % de taux de réussite sur la tâche RoboMimic Can avec seulement 15 démonstrations (soit +16 points par rapport à la méthode AFA), 63 % sur la tâche longue et haute précision Tool Hang avec 50 démonstrations, et 61 % sur ManiSkill StackCube avec 30 démonstrations (+11 points face au fine-tuning complet). L'enjeu est considérable pour le déploiement industriel des robots manipulateurs : collecter des milliers de démonstrations humaines reste coûteux et difficile à mettre à l'échelle. GAP cible explicitement le régime peu de données (few-shot imitation learning) en corrigeant un défaut structurel des pipelines actuels. L'adaptateur spatial, censé extraire les caractéristiques pertinentes pour le contrôle depuis des représentations visuelles génériques, tend à s'accrocher à des raccourcis visuels non pertinents lorsqu'il est entraîné avec peu d'exemples, et perd son ancrage géométrique au moindre changement de scène. En forçant cet adaptateur à produire des ancres stables via une tâche proxy simulée, GAP améliore la robustesse aux perturbations de domaine, un problème bien documenté dans la littérature VLA. L'étape de pré-entraînement est entièrement découplée des tâches en aval, ce qui signifie qu'elle peut être réutilisée sans modification pour différentes compétences de manipulation, réduisant le coût marginal d'adaptation à de nouveaux environnements. Ce travail s'inscrit dans la dynamique récente d'intégration des Vision Foundation Models (tels que DINOv2 ou SigLIP) dans les pipelines de robotique, où le gel du backbone et l'adaptation légère par pooling spatial sont devenus une pratique courante pour limiter le besoin en données. GAP se positionne directement face aux poolers à base d'attention comme AFA (Attention Feature Aggregation), qu'il surpasse sur l'ensemble des benchmarks testés, ainsi que contre le fine-tuning bout-en-bout. Point de vigilance : toutes les expériences sont conduites en simulation, et aucune validation sur hardware physique n'est reportée, ce qui laisse ouverte la question du transfert sim-to-real à grande échelle. Aucun calendrier de déploiement ni partenariat industriel n'est mentionné. Les équipes européennes travaillant sur la manipulation à faibles données, notamment autour de l'INRIA ou des laboratoires de robotique cognitive, pourraient intégrer directement cette approche plug-and-play dans leurs pipelines d'imitation existants.

UELes équipes françaises et européennes travaillant sur la manipulation robotique (notamment autour de l'INRIA et des labos de robotique cognitive) pourraient intégrer directement cette approche plug-and-play dans leurs pipelines d'imitation existants pour réduire drastiquement le coût de collecte de démonstrations.

💬 15 démonstrations pour apprendre une tâche de manipulation, là où les pipelines classiques en réclament des milliers, c'est le chiffre qui compte. La méthode est légère, réutilisable entre tâches, et ça se branche directement sur les modèles de vision déjà en place. Tout se passe en simulation pour l'instant, et le transfert sur du vrai hardware reste la question sans réponse.

IA physiqueOpinion
1 source
Politique de force : apprentissage d'un contrôle hybride force-position en cadre d'interaction pour la manipulation en contact
3arXiv cs.RO 

Politique de force : apprentissage d'un contrôle hybride force-position en cadre d'interaction pour la manipulation en contact

Des chercheurs ont publié sur arXiv (2602.22088v2) "Force Policy", une architecture de contrôle pour la manipulation robotique en contact prolongé. L'approche repose sur une séparation architecturale nette entre deux régimes d'action : un module global guidé par la vision qui pilote les mouvements en espace libre, et un module local haute fréquence qui prend le relais dès qu'un contact est établi, en exploitant le retour d'effort pour exécuter un contrôle hybride force-position. Le coeur du système est ce que les auteurs appellent un "interaction frame" : un repère local instantané, récupéré automatiquement à partir de démonstrations humaines, qui découple la régulation de force de l'exécution du mouvement. Les expériences en conditions réelles couvrent plusieurs tâches à contact riche (assemblage, insertion, vissage) et démontrent des gains mesurables en stabilité de contact, précision de régulation de force et généralisation à des objets aux géométries et propriétés physiques variées. L'enjeu industriel est direct : la manipulation en contact riche reste le principal goulot d'étranglement des robots de production et d'assemblage. Les politiques d'apprentissage actuelles, qu'il s'agisse de Diffusion Policy, d'ACT ou des approches VLA, sont conçues pour l'espace libre et degradent significativement dès qu'un outil touche une pièce. En injectant le retour d'effort dans une boucle locale haute fréquence distincte de la boucle visuelle, Force Policy adresse structurellement ce découplage plutôt que de le noyer dans un réseau monolithique. La capacité à estimer le repère d'interaction à partir de démonstrations, sans hypothèse sur la structure de la tâche, réduit l'ingénierie manuelle nécessaire au déploiement. Ce travail s'inscrit dans une ligne de recherche active sur le contrôle hybride appris, aux côtés d'approches comme Pi-0 (Physical Intelligence) ou les travaux sur le compliance learning chez CMU et Stanford. Il reste à ce stade une démonstration académique, sans déploiement industriel annoncé ni partenariat constructeur mentionné. L'étape suivante naturelle serait une validation sur des cellules d'assemblage réelles, avec des volumes de cycle et des tolérances conformes aux standards industriels. Le code et les démonstrations vidéo sont disponibles sur force-policy.github.io.

IA physiquePaper
1 source
La dérive est une erreur d'échantillonnage : distributions de puissance adaptées au RSB pour la planification robotique à long horizon
4arXiv cs.RO 

La dérive est une erreur d'échantillonnage : distributions de puissance adaptées au RSB pour la planification robotique à long horizon

Des chercheurs ont publié en mai 2026 sur arXiv (référence 2605.09537) une méthode appelée CAPS (Context-Aware Power Sampling), conçue pour corriger un défaut récurrent des modèles Vision-Language-Action (VLA) : la dérive d'instruction dans les tâches longues. Leur thèse centrale est que cette dérive n'est pas un problème d'apprentissage mais une erreur systématique d'échantillonnage : le mode glouton local, dominant dans la plupart des inférences VLA actuelles, tend à tomber dans ce que les auteurs nomment des "Negative Pivotal Windows", des optima locaux irréversibles à haute probabilité locale qui coupent définitivement les chemins vers le succès global. CAPS opère entièrement à l'inférence, sans aucune mise à jour des paramètres du modèle, en exploitant des distributions puissance (power distributions) pour accentuer les probabilités de trajectoire globale, couplées à un mécanisme de contrôle métacognitif basé sur le rapport signal-sur-bruit (SNR) qui déclenche une recherche MCMC adaptative uniquement lorsqu'un risque de dérive est détecté. Évalué sur les benchmarks RoboTwin, Simpler-WindowX et Libero-long, CAPS surpasse des références solides comme OpenVLA et TACO sans aucun réentraînement. L'apport clé pour les intégrateurs et chercheurs en robotique est que CAPS est directement applicable à tout modèle VLA déjà déployé, sans modification architecturale. Le mécanisme SNR implémente en pratique une logique système 1 / système 2 à la Kahneman : l'inférence reste rapide par défaut et bascule en mode recherche lente et délibérative uniquement quand les signaux de dérive sont détectés, ce qui limite le surcoût computationnel. Sur les benchmarks long-horizon, talon d'Achille reconnu des VLA actuels, les gains de robustesse sont substantiels, bien que les auteurs ne fournissent pas de résultats sur robot physique, laissant ouverte la question du sim-to-real pour cette méthode spécifique. Les VLA ont connu une accélération notable depuis 2024, avec des modèles phares comme pi0 de Physical Intelligence, GR00T N2 de NVIDIA et OpenVLA issu de Stanford, chacun cherchant à allonger l'horizon de tâche et améliorer la généralisation dans des environnements non structurés. La dérive d'instruction était documentée comme l'une des limites structurelles non résolues de ces architectures. Ce papier propose une approche orthogonale au scaling des données ou du modèle, ce qui le rend potentiellement complémentaire aux efforts en cours plutôt que concurrent. Les prochaines étapes naturelles seraient des validations sur robots physiques et une intégration dans des pipelines de contrôle industriel, des éléments que les auteurs n'annoncent pas encore explicitement dans cette version préliminaire.

IA physiqueOpinion
1 source