RecherchearXiv cs.RO 18 juin 2026

Récupérer, Découvrir, Planifier : apprendre des compétences et des concepts à partir des échecs des robots

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs ont publié le 18 juin 2026 sur arXiv (2606.18328) un article présentant ReSYNC, pour Recovery-Driven Synthesis of Relational Concepts, un système d'apprentissage robotique capable d'extraire automatiquement des abstractions conceptuelles à partir de ses propres erreurs. Le principe repose sur un double cycle d'apprentissage incrémental : une phase d'apprentissage de compétences, où le robot utilise le renforcement (RL) pour récupérer d'échecs observés durant l'entraînement, et une phase d'apprentissage de concepts, où il construit et raffine des prédicats relationnels, c'est-à-dire des règles symboliques décrivant les états du monde pertinents pour éviter ces mêmes échecs. Testé sur quatre domaines simulés incluant des tâches de manipulation non préhensile (pousser, faire glisser des objets sans saisie ferme), ReSYNC surpasse les méthodes de référence de plus de 50 % sur des problèmes à horizon long et non vus à l'entraînement. Un transfert sim-to-réel est également démontré, avec exécution de comportements de manipulation en conditions physiques réelles.

L'enjeu industriel central que pointe ce travail est l'inefficacité structurelle du RL classique face à la diversité des pannes : entraîner une politique distincte pour chaque mode d'échec ne passe pas à l'échelle. ReSYNC propose une alternative en transformant des récupérations locales, apprises sur des tâches spécifiques, en capacité d'évitement global sur des scénarios inédits. Pour les intégrateurs industriels ou les équipes de robotique mobile, cela suggère un chemin vers des robots capables de se "réparer" conceptuellement sans intervention humaine entre chaque environnement de déploiement. Le transfert sim-to-réel reste cependant présenté sur des tâches de manipulation relativement contraintes, et les vidéos de démonstration sélectionnées dans un preprint ne permettent pas encore d'évaluer la robustesse sur des cycles de production réels.

ReSYNC s'inscrit dans un courant de recherche qui tente de réconcilier planification symbolique classique (TAMP, PDDL) et apprentissage par renforcement, un problème ouvert depuis plus d'une décennie. Des approches concurrentes incluent les méthodes guidées par LLM pour la génération de prédicats (Code as Policies, SayCan) ainsi que les travaux sur la découverte automatique de prédicats en TAMP (LEGO, GROOT). Ce qui distingue ReSYNC est son ancrage explicite dans l'expérience d'échec plutôt que dans des démonstrations d'expert. Le code et les environnements de simulation ne semblent pas encore publics au moment de la soumission, et aucun partenaire industriel ni calendrier de déploiement n'est mentionné, ce qui classe ce travail comme une contribution académique prometteuse plutôt qu'un produit opérationnel.

Dans nos dossiers

arXiv cs.RO

À lire aussi

1arXiv cs.RO

Décomposer et recomposer : inférer de nouvelles compétences robotiques à partir des capacités existantes

Une équipe de chercheurs a publié en mai 2025 sur arXiv (identifiant 2605.01448) un framework baptisé "Decompose and Recompose" visant à résoudre la généralisation inter-tâches en manipulation robotique en milieu ouvert. L'approche repose sur des paires compétence-action atomiques comme représentation intermédiaire : le système décompose des démonstrations de tâches connues en alignements interprétables, puis recompose ces compétences pour accomplir des tâches inconnues via un raisonnement compositionnel. Concrètement, la méthode construit une bibliothèque dynamique de démonstrations adaptative, fondée sur une récupération visuo-sémantique couplée aux séquences de compétences produites par un agent planificateur, complétée d'une bibliothèque statique sensible à la couverture pour combler les patterns manquants. Les expériences sont conduites sur le benchmark AGNOSTOS et en environnement réel, avec des résultats de généralisation zero-shot sur des tâches non présentées durant l'entraînement. La généralisation inter-tâches reste l'un des verrous fondamentaux pour déployer des robots manipulateurs polyvalents dans des environnements industriels non structurés. Les approches d'apprentissage en contexte existantes fournissent uniquement des séquences d'actions continues de bas niveau, conduisant les modèles à imiter superficiellement des trajectoires sans extraire de connaissances transférables. "Decompose and Recompose" introduit une couche d'abstraction explicite, les compétences atomiques, qui permet de raisonner sur la composition et l'ordonnancement des actions plutôt que de mémoriser des trajectoires. Pour les intégrateurs et décideurs industriels, cela ouvre une voie pour réduire le volume de démonstrations nécessaires lors du déploiement sur de nouvelles tâches, point de friction majeur dans l'industrialisation de la manipulation apprenante, sans nécessiter aucune mise à jour des paramètres du modèle. Cette recherche s'inscrit dans un courant actif d'apprentissage en contexte appliqué à la robotique, en contrepoint des approches fondées sur des modèles VLA (Vision-Language-Action) massivement entraînés comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, ou les politiques embarquées de Figure et 1X Technologies. Là où ces systèmes misent sur des jeux de données d'entraînement volumineux, "Decompose and Recompose" parie sur le raisonnement compositionnel à l'inférence. Le benchmark AGNOSTOS est conçu spécifiquement pour évaluer la généralisation à des tâches non vues, offrant un cadre plus rigoureux que les benchmarks standards comme RLBench ou MetaWorld. Ce travail en est au stade de preprint, sans annonce de déploiement industriel ni de partenariat commercial associé.

RecherchePaper

1 source

2arXiv cs.RO

Tâche hiérarchique de planification et de compétences : planification robotique hiérarchique avec des compétences en boîte noire

Des chercheurs publient sur arXiv (version 3, remplaçant une précédente) une méthode baptisée TASP (Task and Skill Planning), qui étend la planification hiérarchique de tâches et de mouvements (TAMP) pour intégrer des compétences robotiques hétérogènes déjà existantes : politiques apprises, contrôleurs à retour de force, et modules « boîte noire ». L'approche s'appuie sur les Composable Interaction Primitives (CIP) pour générer automatiquement des plans de mouvement de transition, en amont et en aval de chaque compétence, qui relient deux savoir-faire consécutifs entre eux. Ces primitives permettent d'ajuster la trajectoire aussi bien au moment de la planification qu'en cours d'exécution. Les auteurs valident leur système par des expériences réelles sur un manipulateur bimanuel et un manipulateur mobile, en résolvant des tâches longues et complexes, y compris des scénarios de manipulation mobile sur plusieurs pièces avec une structure de tâche non monotone, c'est-à-dire nécessitant de revenir en arrière ou de réordonner des sous-objectifs. L'intérêt pour l'industrie tient au fait que les méthodes TAMP classiques supposaient jusqu'ici que chaque action robotique se ramène à de la planification de mouvement cinématique pure, ce qui limitait leur usage aux tâches purement géométriques. En montrant qu'un planificateur hiérarchique peut combiner des compétences de nature très différente tout en conservant un raisonnement sur les échecs centré sur les objets, TASP ouvre une voie modulaire : un intégrateur peut assembler des politiques déjà entraînées séparément, sans devoir tout réentraîner dans un modèle unique. Cela nourrit le débat entre l'approche « tout-en-un » portée par les grands modèles vision-langage-action et une approche composite où des briques spécialisées restent pilotées par un planificateur symbolique classique, potentiellement plus robuste et plus facile à déboguer en environnement industriel. Ce travail s'inscrit dans une tendance récente de la recherche en robotique consistant à hybrider TAMP et contrôleurs en boucle fermée ou compétences apprises, plutôt que de s'en tenir à la planification de mouvement pure. Il se positionne en alternative modulaire face aux modèles génériques de type Pi-0, GR00T N2 ou Helix, qui visent au contraire une politique unique bout-en-bout. Il s'agit ici d'un article de recherche académique, sans annonce de produit commercial ni de calendrier de déploiement : les résultats montrent une faisabilité réelle sur deux plateformes robotiques distinctes, mais restent à ce stade du domaine expérimental plutôt qu'industriel.

RecherchePaper

1 source

3arXiv cs.RO

Représentation des préférences humaines déployable en robotique : apprendre des récompenses représentatives à partir de préférences humaines diverses

Une équipe de recherche a publié sur arXiv (2607.12466v1) un nouveau framework baptisé PREC (Preference-based REward Clustering), conçu pour aligner les politiques de contrôle robotique sur les préférences humaines lors du déploiement auprès d'utilisateurs finaux variés. Le problème que les auteurs cherchent à résoudre est concret : quand chaque utilisateur fournit un retour de préférence binaire (trajectoire A préférée à trajectoire B), ce signal est souvent trop rare et bruité pour apprendre une politique individualisée fiable, tandis qu'une politique unique partagée entre tous les utilisateurs écrase les préférences minoritaires. PREC contourne ce dilemme en mettant de côté les labels de préférence dans un premier temps pour apprendre un encodeur de trajectoires au niveau de la population entière, puis en regroupant les utilisateurs en clusters cohérents selon leurs préférences et en entraînant un modèle de récompense représentatif par cluster, à partir duquel une politique dédiée est optimisée. Les tests, menés sur des environnements de locomotion simulés, montrent que PREC identifie mieux les groupes d'utilisateurs aux préférences divergentes que les méthodes de référence, même avec un retour humain sparse et bruité. Pour l'industrie robotique, l'enjeu dépasse la simple curiosité académique : c'est un problème de scalabilité du déploiement. Multiplier les politiques individualisées pour chaque client rend la validation de sécurité intraitable avant mise en production, alors qu'une politique générique déçoit une partie des utilisateurs et nuit à l'adoption. En réduisant le nombre de politiques à un jeu de clusters gérable tout en couvrant les préférences hétérogènes, PREC propose un compromis directement pertinent pour les intégrateurs qui doivent certifier et maintenir un nombre limité de comportements robotiques plutôt qu'une politique par client. Ce travail s'inscrit dans la lignée des recherches sur l'alignement par préférences humaines (RLHF appliqué à la robotique), un champ qui a longtemps oscillé entre alignement individuel coûteux et alignement collectif appauvri. Les auteurs positionnent explicitement PREC face aux approches d'alignement par utilisateur et à l'alignement par politique unique partagée, sur lesquelles il montre des gains sur trois métriques de bien-être social. L'étude reste pour l'instant limitée à des environnements de locomotion simulés, sans validation sur robots physiques ni indication de partenaires industriels ou de calendrier de déploiement.

RecherchePaper

1 source

4arXiv cs.RO

Robots: apprentissage à double processus des compétences atomiques, découplant raisonnement sémantique et contrôle temps réel

Cette semaine, une équipe de recherche publie sur arXiv (référence 2607.10625v1) un nouveau framework baptisé DASL, pour Dual-Process Atomic Skill Learning, destiné à l'apprentissage par imitation conditionné par le langage pour les robots. Le problème visé est concret : quand un robot doit exécuter une instruction en langage naturel composée de plusieurs étapes, les approches hiérarchiques existantes, qui décomposent la tâche en compétences atomiques, souffrent d'instabilité à l'entraînement et d'un phénomène de "codebook collapse", causé par un couplage trop étroit entre le raisonnement de haut niveau et la génération d'actions bas niveau lorsque les deux sont entraînés conjointement. DASL répond à ça en séparant clairement deux modules : une Slow-Frequency Policy qui prédit des compétences discrètes et interprétables via quantification vectorielle, et une High-Frequency Policy qui s'appuie sur un modèle de diffusion latent combiné à un Decision Transformer pour générer les actions précises, conditionnées par ces compétences. Les deux tournent de façon asynchrone. Sur des benchmarks de simulation et des expériences réelles, DASL dépasse significativement les méthodes de référence de l'état de l'art, en particulier sur la généralisation compositionnelle à des instructions jamais vues à l'entraînement. Le code est disponible sur GitHub. L'enjeu dépasse la seule performance benchmark : c'est un signal de plus que la généralisation compositionnelle, le vrai goulot d'étranglement des modèles vision-langage-action (VLA) déployés en usine ou en logistique, reste un problème d'architecture autant que de données. Découpler la lenteur du raisonnement sémantique de la rapidité du contrôle moteur fait écho à une intuition déjà présente chez d'autres équipes travaillant sur les VLA à grande échelle, où le mélange des deux niveaux dans un seul réseau tend à fragiliser l'apprentissage dès que le nombre de compétences ou la diversité des instructions augmente. Le nom du framework s'inspire explicitement de la théorie du double processus en sciences cognitives, celle qui distingue une pensée rapide et intuitive d'une pensée lente et délibérative. DASL s'inscrit dans la lignée des travaux récents sur les politiques hiérarchiques pour la robotique conditionnée par le langage, où la tension entre interprétabilité des compétences et précision du contrôle reste un axe de recherche actif ; la publication du code laisse la porte ouverte à une réplication et une comparaison directe avec d'autres architectures du domaine.

RecherchePaper

1 source