Aller au contenu principal
RecherchearXiv cs.RO4h

Entraînement de robots par LLM : génération automatisée de données via l'augmentation de démonstrations

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs de Carnegie Mellon University ont publié LLM Trainer (arXiv:2509.20070v2), un pipeline entièrement automatisé capable de transformer une poignée de démonstrations humaines, aussi peu qu'une seule, en un large jeu de données pour l'apprentissage par imitation robotique. Le système décompose la génération de nouvelles démonstrations en deux étapes : une annotation hors-ligne qui extrait des keyframes, des objets saillants et des relations pose-objet à partir des trajectoires originales, puis un retargeting de keyposes en ligne qui adapte ces keyframes à un nouvel environnement à partir d'une simple observation initiale. Le pipeline déforme ensuite géométriquement la trajectoire originale pour en produire une nouvelle, l'exécute sur le robot, et ne conserve les données que si l'exécution est concluante. Pour optimiser la qualité des annotations, réutilisables d'une scène à l'autre, l'équipe intègre un mécanisme de Thompson sampling qui améliore significativement le taux de succès. Les validations ont été conduites sur un bras Franka Emika Panda.

L'enjeu est structurant pour l'imitation learning en robotique industrielle : le goulot d'étranglement reste la collecte coûteuse de démonstrations humaines. LLM Trainer propose de contourner ce problème en mobilisant la connaissance du monde embarquée dans les LLMs pour générer des variantes de scènes plausibles sans intervention humaine supplémentaire. Les résultats montrent que la méthode d'annotation LLM surpasse systématiquement des baselines conçues par des experts humains. L'approche d'ensemble, combinant un plan feed-forward LLM optimisé et un contrôleur par imitation en feedback, ouvre une piste vers des politiques plus robustes à la variabilité des environnements réels, ce qui intéresse directement les intégrateurs confrontés à des lignes de production hétérogènes.

Ce travail s'inscrit dans une tendance forte en manipulation robotique : réduire la dépendance aux données humaines via l'augmentation synthétique, après des approches comme RoboAgent, DemoAugment ou les pipelines sim-to-real de Google DeepMind. Carnegie Mellon reste un acteur central de cet espace, aux côtés de Stanford (Mobile ALOHA), Berkeley (RoboVerse) et du MIT. Pour l'heure, LLM Trainer est uniquement validé sur un seul modèle de bras dans des conditions de laboratoire, ce qui laisse ouverte la question du passage à l'échelle vers des robots humanoïdes ou des environnements moins structurés. La version v2 publiée sur arXiv suggère des révisions post-soumission, probablement en vue d'une conférence comme CoRL 2025 ou ICRA 2026.

À lire aussi

RDGen : génération de démonstrations pour l'apprentissage robotique par renforcement
1arXiv cs.RO 

RDGen : génération de démonstrations pour l'apprentissage robotique par renforcement

Une équipe de chercheurs a publié le 30 mai 2026 sur arXiv (référence 2605.30957) un framework appelé RDGen, pour "Reinforcement Learning Demonstration Generation", destiné à automatiser la collecte de données d'entraînement pour les modèles Vision-Language-Action (VLA). Le système combine trois composants : un module d'analyse de tâches basé sur un modèle de langage visuel (VLM), un localisateur d'objets fondé sur Grounding DINO, et une politique de contrôle entraînée par apprentissage par renforcement (RL) en simulation puis transférée sur un robot réel. Testé sur une tâche de saisie et de dépose, RDGen atteint un taux de succès élevé après transfert sim-to-real, sans que les auteurs ne publient de chiffre précis dans le résumé disponible. Les trajectoires générées sont ensuite réutilisées directement comme données d'entraînement pour affiner des politiques VLA en aval. L'enjeu central est celui du goulot d'étranglement dans la chaîne d'entraînement des robots généralistes : la télé-opération humaine, méthode dominante pour collecter des démonstrations, est lente, coûteuse, et produit des trajectoires variables selon l'opérateur. RDGen propose de substituer cet effort humain par une politique RL, qui génère des trajectoires mécaniquement cohérentes et reproductibles, plus lisses selon les auteurs que ce que produit un opérateur humain, et avec un coût marginal quasi nul en simulation. Cela renforce l'hypothèse que le problème sim-to-real pour des tâches de manipulation simples est largement résolu, et déplace la question vers la scalabilité de la diversité des tâches plutôt que la qualité individuelle des démos. RDGen s'inscrit dans un débat actif sur la meilleure façon d'alimenter les VLA, dont les architectures de référence actuelles incluent pi0 (Physical Intelligence), OpenVLA et les travaux de RT-2/RT-X chez Google DeepMind. La collecte de données reste le principal frein industriel à leur déploiement, ce que tentent aussi d'adresser des approches concurrentes comme la génération vidéo synthétique (ex. travaux UniSim, Genie) ou l'augmentation par world models. La contribution de RDGen est plus modeste et ciblée : un pipeline sim-to-real structuré pour des tâches de manipulation définies, avec réutilisation des rollouts réussis. Il s'agit d'un preprint non encore peer-reviewed ; les expériences restent limitées à pick-and-place, et l'absence de métriques quantitatives précises dans le résumé invite à attendre la version complète avant d'en tirer des conclusions générales sur la scalabilité.

RechercheOpinion
1 source
BEACON : co-entraînement inter-domaines de politiques robotiques génératives par adaptation au mieux
2arXiv cs.RO 

BEACON : co-entraînement inter-domaines de politiques robotiques génératives par adaptation au mieux

Une équipe de chercheurs a publié sur arXiv en mai 2026 (arXiv:2605.08571) un cadre théorique baptisé BEACON -- acronyme de Best-Effort Adaptation for Cross-Domain Co-Training -- destiné à entraîner des politiques robotiques génératives lorsque les données dans le domaine cible sont rares. L'approche repose sur un mécanisme de pondération par importance : plutôt que de mélanger naïvement des démonstrations provenant de domaines sources abondants (simulation, autres environnements) avec un faible nombre de démonstrations réelles, BEACON apprend simultanément une politique visuomotrice basée sur la diffusion et des poids par échantillon source qui minimisent une fonction objectif garantissant la généralisation sur le domaine cible. Pour rendre cela praticable sur des séquences de haute dimension, les auteurs développent des estimateurs de divergence à l'échelle de l'instance, des mises à jour alternées stochastiques, et une extension multi-sources capable de pondérer des domaines sources hétérogènes. L'enjeu est directement lié au problème du sim-to-real gap, l'un des verrous principaux de la robotique de manipulation : collecter des démonstrations téléopérées dans le monde réel reste coûteux et lent, tandis que la simulation génère des données à bas coût mais au prix d'un écart de distribution souvent fatal au déploiement. BEACON montrerait, selon les auteurs, des gains de robustesse et d'efficacité de données par rapport à trois baselines majeures -- entraînement sur cibles seules, co-entraînement à ratio fixe, et alignement de features explicite -- dans des configurations sim-to-sim, sim-to-real et manipulation multi-sources. Le résultat le plus contre-intuitif est qu'en l'absence de tout objectif d'alignement explicite, BEACON produit néanmoins un alignement de représentations comme effet émergent de la pondération par divergence. Les auteurs ne fournissent pas de taux de réussite précis dans l'abstract, ce qui limite la comparaison directe avec des benchmarks publiés. Ce travail s'inscrit dans une vague de recherches sur le transfert de politiques entre domaines, portée notamment par des méthodes comme RoboAgent, DROID, ou les approches VLA (vision-language-action) de Physical Intelligence (Pi-0) et Google DeepMind (GR00T N2), qui cherchent elles aussi à tirer parti de données hétérogènes à grande échelle. Là où ces dernières misent sur des architectures généralistes entraînées sur des corpus massifs, BEACON propose un angle complémentaire et plus frugal : exploiter intelligemment des sources existantes sans disposer de millions de démonstrations. Le code et les expériences n'étant pas encore publics, il reste à confirmer si les résultats tiennent sur des tâches de manipulation réelle complexes hors du cadre contrôlé des évaluations présentées.

RechercheOpinion
1 source
Manipulation robotique par imitation de vidéos générées, sans démonstrations physiques
3arXiv cs.RO 

Manipulation robotique par imitation de vidéos générées, sans démonstrations physiques

Une équipe de chercheurs a publié sur arXiv (2507.00990) un système baptisé RIGVid (Robots Imitating Generated Videos) permettant à un robot de réaliser des tâches de manipulation complexe, comme verser un liquide, essuyer une surface ou mélanger des ingrédients, en imitant uniquement des vidéos générées par IA, sans aucune démonstration physique ni données d'entraînement spécifiques au robot. Le pipeline fonctionne en trois étapes : à partir d'une commande en langage naturel et d'une image de la scène initiale, un modèle de diffusion vidéo génère des vidéos de démonstration candidates, un VLM (vision-language model) filtre automatiquement celles qui ne correspondent pas à la commande, puis un tracker de pose 6D extrait les trajectoires d'objets. Ces trajectoires sont ensuite retargetées vers le robot de manière agnostique à l'embodiment, c'est-à-dire sans nécessiter de recalibration spécifique à la morphologie du bras utilisé. L'impact est notable pour les intégrateurs et les équipes de recherche en manipulation robotique : supprimer la collecte de démonstrations physiques, étape longue et coûteuse dans les pipelines d'imitation learning, est un verrou industriel majeur. Les évaluations en conditions réelles montrent que les vidéos générées et filtrées atteignent une efficacité équivalente aux démonstrations humaines réelles, et que la performance progresse avec la qualité du modèle génératif utilisé. Le système surpasse également des alternatives plus compactes comme la prédiction de keypoints via VLM, et le tracking 6D de pose s'avère supérieur au tracking dense de points de features. Ces résultats valident expérimentalement l'hypothèse que les générateurs vidéo state-of-the-art constituent une source de supervision viable pour la manipulation robotique, au moins sur des tâches de difficulté modérée. Ce travail s'inscrit dans un champ de recherche en effervescence autour du "learning from video" sans interaction physique, en concurrence directe avec des approches comme les VLA (vision-language-action) de Physical Intelligence (pi-0), les politiques de diffusion type Diffusion Policy, ou encore l'usage de données synthétiques issues de simulateurs. L'approche RIGVid se distingue par son absence totale de données robot et son pipeline entièrement basé sur des modèles généralistes off-the-shelf. À noter que ce papier est une prépublication arXiv (v3, donc ayant déjà subi plusieurs révisions), sans validation par peer-review complet à ce stade, et que les tâches évaluées restent relativement contraintes en termes de variabilité de scène et de généralisation out-of-distribution.

RechercheOpinion
1 source
UniDomain : préentraînement d'un domaine PDDL unifié à partir de démonstrations réelles pour la planification robotique généralisable
4arXiv cs.RO 

UniDomain : préentraînement d'un domaine PDDL unifié à partir de démonstrations réelles pour la planification robotique généralisable

Une équipe de chercheurs a publié UniDomain, un cadre de pré-entraînement qui construit automatiquement un domaine PDDL (Planning Domain Definition Language) unifié à partir de démonstrations robotiques réelles, pour être ensuite appliqué à la planification de tâches en ligne. Le système ingère 12 393 vidéos de manipulation robotique, en extrait des domaines atomiques, et les fusionne en un domaine unifié comprenant 3 137 opérateurs, 2 875 prédicats et 16 481 arêtes causales. Face à une nouvelle classe de tâches, UniDomain récupère les atomes pertinents et les assemble dynamiquement en méta-domaines adaptés. Les expériences sur des tâches réelles inédites montrent des gains allant jusqu'à 58 % sur le taux de succès et 160 % sur l'optimalité des plans, comparé aux meilleures bases LLM seuls et LLM couplés à PDDL manuel, le tout en mode zéro-shot. Ce résultat s'attaque à l'un des verrous centraux de la robotique manipulatrice : la capacité à raisonner sur des séquences longues d'actions avec des contraintes implicites issues du langage et de la vision. Les LLM et VLM actuels fournissent de bons priors sémantiques, mais peinent à maintenir une cohérence causale sur des horizons temporels étendus et à ancrer les symboles dans le réel. UniDomain propose une voie médiane : extraire la structure symbolique directement depuis des démonstrations, évitant ainsi la fragilité des domaines PDDL codés à la main, souvent trop étroits pour généraliser. La généralisation compositionnelle zéro-shot, validée sur des tâches jamais vues, est ici une affirmation forte, bien que la sélection des vidéos sources et des scénarios de test mériterait une vérification indépendante pour écarter un biais de distribution. La planification symbolique robotique via PDDL est un paradigme ancien, remontant aux travaux STRIPS des années 1970, mais qui a souffert du coût élevé de l'ingénierie des domaines. Des approches récentes comme SayCan (Google), Code-as-Policies (Google Brain) ou les travaux de planification LLM de MetaAI ont tenté de contourner ce problème par la génération de code ou de plans en langage naturel, avec des résultats limités en environnements ouverts. UniDomain repositionne PDDL non plus comme une contrainte d'ingénierie mais comme un artefact appris, ce qui le rapproche conceptuellement des travaux sur l'apprentissage de modèles du monde. Les prochaines étapes naturelles incluent l'extension à la manipulation déformable, l'intégration avec des architectures VLA comme pi-0 ou GR00T N2, et une validation en environnement industriel réel, aujourd'hui absente de l'article.

RecherchePaper
1 source