Aller au contenu principal
Comment instruire un robot : les annotations linguistiques denses améliorent l'apprentissage de politiques
RecherchearXiv cs.RO6sem

Comment instruire un robot : les annotations linguistiques denses améliorent l'apprentissage de politiques

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs publient DeMiAn (Dense Multi-aspect Annotation), une méthode en deux étapes pour améliorer l'apprentissage de politiques robotiques sans collecter de nouvelles démonstrations. Elle ré-annote automatiquement des segments existants via un modèle vision-langage selon quatre axes complémentaires : mouvement physique, composition de la scène, posture du bras et raisonnement. Un module « instructeur » traduit ensuite, à chaque déploiement, une description de tâche et un instantané de scène initiale vers l'annotation la plus adaptée, de façon asynchrone afin de masquer la latence de génération derrière l'exécution de la politique. Évaluée sur plus d'un million de clips de manipulation robotique et 50 000 vidéos égocentrées humaines issues d'EgoVerse, la méthode améliore à la fois une politique vision-langage-action (VLA) classique et un world-action model vidéo. Sur le benchmark RoboCasa, l'instructeur gagne cinq points de taux de succès sur une baseline limitée à la description de tâche seule, et reste à trois points d'un oracle disposant d'annotations parfaites par tâche.

Le principal frein au scaling en robotique manipulatrice n'est pas le compute mais le coût de collecte de démonstrations physiques. DeMiAn inverse la contrainte : ré-annoter un corpus existant avec du langage dense revient nettement moins cher que rejouer des trajectoires en environnement réel. La méthode améliore également les performances sur les tâches composites et en distribution de test hors domaine, là précisément où les politiques VLA échouent le plus fréquemment en déploiement. Résultat non trivial : aucun des quatre axes d'annotation ne domine systématiquement l'ensemble des tâches, ce qui fait du choix de la description dense un problème de recherche à part entière. Les gains sont de surcroît calculés en intégrant le coût de génération des annotations en FLOPs, garantissant des comparaisons compute-performance honnêtes, une rigueur peu fréquente dans ce segment.

Ce travail s'inscrit dans la valorisation croissante des datasets égocentrés humains (EgoVerse, EPIC-Kitchens) comme ressources pour pré-entraîner des politiques de manipulation, en alternative aux pipelines de simulation massive de type IsaacLab. Du côté compétitif, Physical Intelligence avec Pi-0 et Google DeepMind avec RT-X misent également sur la supervision langage-action à grande échelle. DeMiAn se distingue par son caractère post-hoc : aucune modification du protocole de collecte n'est requise, ce qui le rend directement applicable à des corpus robotiques institutionnels existants. Le papier (arXiv 2605.17077, mai 2025) reste un preprint sans validation hardware end-to-end au-delà des benchmarks simulés, laissant ouverte la question du sim-to-real gap sur les gains annoncés.

À lire aussi

Les modèles de fondation tabulaires peuvent-ils guider l'exploration dans l'apprentissage de politiques robotiques ?
1arXiv cs.RO 

Les modèles de fondation tabulaires peuvent-ils guider l'exploration dans l'apprentissage de politiques robotiques ?

Une équipe de chercheurs a publié sur arXiv (référence 2604.27667) une méthode hybride dénommée TFM-S3, conçue pour améliorer l'exploration globale dans l'apprentissage de politiques robotiques tout en limitant le nombre de simulations nécessaires. L'approche alterne des mises à jour locales à haute fréquence avec des rondes de recherche globale intermittentes. À chaque ronde, TFM-S3 construit dynamiquement un sous-espace de politique de faible dimension via une décomposition en valeurs singulières (SVD), puis effectue un raffinement itératif guidé par un modèle de substitution (surrogate model). Ce modèle de fondation tabulaire pré-entraîné prédit les retours candidats à partir d'un petit ensemble de contextes, permettant un criblage à grande échelle sans multiplier les rollouts coûteux. Sur des benchmarks de contrôle continu standards, TFM-S3 accélère la convergence en phase initiale et améliore les performances finales par rapport à TD3 (Twin Delayed Deep Deterministic Policy Gradient) et des baselines à population, à budget de rollouts identique. L'enjeu central est le coût d'exploration. En robotique, l'apprentissage par renforcement dans des espaces d'action continus à haute dimension souffre d'un dilemme structurel : les méthodes locales convergent vite mais restent piégées dans des optima locaux, tandis que les méthodes globales sont plus robustes à l'initialisation mais très gourmandes en évaluations. TFM-S3 propose un compromis crédible en déléguant le criblage des candidats à un modèle tabulaire pré-entraîné. Si ces résultats se confirment sur des environnements physiques réels et pas seulement en simulation, ce serait un levier direct pour accélérer l'entraînement de politiques sur des robots industriels où chaque essai a un coût mécanique et temporel non négligeable. Cette publication s'inscrit dans une tendance croissante qui cherche à transférer les bénéfices des modèles de fondation (pré-entraînement massif, généralisation) au problème classique de l'optimisation de politique. Des approches concurrentes comme les VLA (Vision-Language-Action models) Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA misent sur l'apprentissage multimodal et l'imitation à grande échelle plutôt que sur le renforcement pur. TFM-S3 se positionne comme un outil orthogonal, compatible avec des pipelines RL existants. Il reste pour l'instant un preprint non relu par des pairs, et ses expériences se limitent aux benchmarks de contrôle continu standards de type MuJoCo, sans validation sur hardware physique annoncée à ce stade.

RecherchePaper
1 source
RoboGPT-R1 améliore la planification des tâches robotiques grâce à l'apprentissage par renforcement
2arXiv cs.RO 

RoboGPT-R1 améliore la planification des tâches robotiques grâce à l'apprentissage par renforcement

Des chercheurs ont publié RoboGPT-R1, un framework d'entraînement en deux étapes conçu pour améliorer la planification de tâches des agents robotiques incarnés, présenté dans un preprint arXiv (2510.14828, version 3). Le système repose sur une séquence supervisée classique, qui ancre les connaissances fondamentales via des démonstrations expertes, suivie d'un apprentissage par renforcement (RL) ciblé sur les lacunes en compréhension visuo-spatiale et en raisonnement multi-étapes. Le modèle de base choisi est Qwen2.5-VL-3B, un vision-language model open-source de 3 milliards de paramètres. Les résultats publiés sur le benchmark EmbodiedBench montrent que RoboGPT-R1 dépasse GPT-4o-mini de 21,33 points de pourcentage, et surclasse d'autres approches entraînées sur Qwen2.5-VL-7B de 20,33 points, ce dernier disposant pourtant de plus du double de paramètres. Le cœur technique du framework est une fonction de récompense basée sur des règles qui prend en compte simultanément les performances à long horizon et les contraintes d'action dans l'environnement physique simulé. Ces résultats viennent étayer une thèse qui s'impose progressivement dans la communauté robotique : le fine-tuning supervisé seul génère des agents fragiles hors distribution, en particulier pour les tâches de manipulation longue séquence dans des environnements non contrôlés. RoboGPT-R1 démontre qu'un modèle compact peut surpasser des architectures significativement plus grandes dès lors que le RL est utilisé pour affiner la compréhension physique et la cohérence des séquences d'actions. Pour les équipes d'intégration et les responsables techniques, cela pointe vers une trajectoire viable vers des solutions embarquables sur hardware contraint, sans sacrifier les capacités de planification complexe. Un écart de 21 points sur un benchmark spécialisé par rapport à GPT-4o-mini indique que la spécialisation domaine via RL compense largement le désavantage de taille brute. RoboGPT-R1 s'inscrit dans une dynamique post-SFT amplifiée depuis fin 2024, en large partie accélérée par les travaux DeepSeek-R1 qui ont popularisé le RL comme levier de raisonnement pour les LLMs. Dans le champ robotique, Physical Intelligence avec Pi-0 et Pi-0.5, Google DeepMind avec GR00T N2 et RT-X, ou encore OpenVLA, explorent des trajectoires d'alignement vision-language-action (VLA) comparables. RoboGPT-R1 se distingue par son positionnement sur la planification symbolique de haut niveau plutôt que le contrôle moteur bas niveau, et par sa base Qwen2.5-VL open-source qui favorise la reproductibilité. Important à noter : il s'agit à ce stade exclusivement d'une validation sur EmbodiedBench, un benchmark simulé. Aucun déploiement physique n'est annoncé et le sim-to-real gap, question centrale pour tout passage en production, reste une problématique que l'article ne traite pas.

RechercheOpinion
1 source
Quand les robots dorment : consolidation hors ligne des compétences pour l'apprentissage à politique partagée
3arXiv cs.RO 

Quand les robots dorment : consolidation hors ligne des compétences pour l'apprentissage à politique partagée

Des chercheurs ont publié mi-juin 2026 un article sur arXiv (réf. 2606.17493) présentant "Sleeping Robots", un framework d'apprentissage continu pour robots opérant sur de longues périodes. Le problème central visé est le suivant : lorsqu'un robot doit acquérir de nouvelles compétences séquentiellement, sans accès aux trajectoires ou aux fonctions de coût des tâches précédentes, les politiques partagées -- c'est-à-dire les contrôleurs unifiés sans têtes de décision ou adaptateurs spécifiques à chaque tâche -- tendent à se dégrader. Les auteurs mesurent une amélioration de 64 % du taux de succès moyen et un facteur x2,0 sur la fiabilité pairée par rapport à la meilleure baseline non-oracle sur le benchmark Meta-World MT5, composé de cinq tâches de manipulation. Des gains sont également rapportés sur SurgicAI, un benchmark de robotique chirurgicale. Ce travail adresse un angle mort structurel de la robotique déployée en conditions réelles : le "skill-coupling collapse". Ce phénomène, formalisé ici pour la première fois, désigne une pathologie subtile dans laquelle chaque compétence individuelle maintient un taux de succès acceptable, mais la fiabilité inter-tâches -- c'est-à-dire la capacité du robot à enchaîner ou alterner des tâches apparentées -- se détériore progressivement. Pour les intégrateurs industriels et les équipes R&D en robotique d'entrepôt ou chirurgicale, c'est une distinction critique : les métriques classiques de succès par tâche masquent une fragilité systémique qui ne se manifeste qu'en exploitation longue durée. La solution proposée, le cycle éveil-sommeil, apprend chaque nouvelle compétence en phase "wake" puis consolide hors-ligne la politique partagée en phase "sleep", en s'appuyant sur des "skill memories" gelées compactes -- des critiques gelés avec buffers d'états non ordonnés pour le renforcement, et des snapshots d'acteurs gelés avec buffers d'observations pour l'imitation. Les gradients issus de ces objectifs différentiables sont combinés via le théorème de négociation de Nash, avec ancrage adaptatif et excitabilité locale pour stabiliser la consolidation, ce qui représente une contribution algorithmique non triviale. L'apprentissage continu en robotique est un champ actif depuis plusieurs années, animé par la crainte du "catastrophic forgetting" documenté dans les réseaux de neurones depuis Kirkpatrick et al. (EWC, 2017). Les approches concurrentes incluent les méthodes à tête de décision par tâche (qui abandonnent l'idée d'une politique unifiée), le routage dynamique (mixture-of-experts), ou le rejeu d'expérience classique (Experience Replay) -- toutes supposant soit un accès aux données historiques, soit une architecture modulaire. Sleeping Robots se distingue en travaillant exclusivement avec des mémoires gelées compactes, sans accès aux données brutes passées, ce qui le rend compatible avec des contraintes de confidentialité ou de bande passante en déploiement embarqué. Côté acteurs, Google DeepMind (RT-2, SayCan), Physical Intelligence (Pi-0) et Figure (politique partagée sur Figure 02) travaillent tous sur des politiques générales multi-tâches, mais aucun n'a publié de mécanisme formalisé de consolidation hors-ligne comparable. Les prochaines étapes naturelles seraient une validation sur robots physiques réels (les résultats actuels sont en simulation) et un test sur des horizons temporels plus longs incluant des dizaines de tâches.

UEAucun acteur européen impliqué directement, mais les laboratoires EU (INRIA, CEA-List) et intégrateurs industriels travaillant sur des déploiements robotiques longue durée pourraient exploiter ce framework pour adresser la fragilité systémique inter-tâches non détectée par les métriques classiques.

RecherchePaper
1 source
Adaptation des politiques génériques de robots par apprentissage par renforcement sémantique
4arXiv cs.RO 

Adaptation des politiques génériques de robots par apprentissage par renforcement sémantique

Les auteurs de ce nouvel article arXiv (2606.31958v1) présentent SARL, pour Semantic Action Reinforcement Learning, une méthode d'apprentissage par renforcement pour adapter des politiques robotiques généralistes déjà pré-entraînées, c'est-à-dire des modèles vision-langage-action (VLA) capables d'un large répertoire de comportements. Au lieu d'optimiser directement l'espace des actions du robot, comme le font les approches RL classiques, SARL agit sur l'espace des prompts en langage naturel envoyés au modèle. Concrètement, l'algorithme apprend en ligne, par interaction avec l'environnement, à moduler les instructions textuelles données à la politique pour faire émerger et combiner des compétences déjà présentes dans son répertoire, plutôt que d'apprendre de nouveaux comportements depuis zéro. Les auteurs rapportent des validations à la fois en conditions réelles et sur des bancs d'essai simulés, avec des performances supérieures aux méthodes existantes d'amélioration de comportement en déploiement. L'intérêt de cette approche tient au problème qu'elle cherche à résoudre : les méthodes RL usuelles appliquées à un modèle généraliste supposent que sa distribution d'actions de départ est déjà proche d'une politique performante, une hypothèse qui s'effondre dès que la tâche est longue, complexe ou sort de la distribution d'entraînement initiale. En déplaçant l'optimisation vers l'espace sémantique des prompts, SARL rend l'exploration plus structurée et l'apprentissage en ligne beaucoup plus efficace en données, un enjeu central pour l'industrie robotique où le fine-tuning par interaction réelle reste coûteux et lent. Si les résultats se confirment à plus grande échelle, cela ouvrirait la voie à une adaptation rapide de robots généralistes à des tâches spécifiques d'un site industriel sans réentraînement lourd. Ce travail s'inscrit dans la lignée des politiques robotiques généralistes de type VLA, entraînées sur de larges corpus de démonstrations, dont l'adaptation post-déploiement est devenue un axe de recherche actif face aux limites du simple zéro-shot. Il rejoint d'autres tentatives d'affinage par renforcement de ces modèles, en proposant une alternative à l'optimisation directe des actions. Les auteurs annoncent vouloir approfondir les validations sur des tâches réelles à horizon plus long, sans toutefois préciser de calendrier de déploiement industriel.

RechercheActu
1 source