Aller au contenu principal
BEACON : co-entraînement inter-domaines de politiques robotiques génératives par adaptation au mieux
RecherchearXiv cs.RO6sem

BEACON : co-entraînement inter-domaines de politiques robotiques génératives par adaptation au mieux

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié sur arXiv en mai 2026 (arXiv:2605.08571) un cadre théorique baptisé BEACON -- acronyme de Best-Effort Adaptation for Cross-Domain Co-Training -- destiné à entraîner des politiques robotiques génératives lorsque les données dans le domaine cible sont rares. L'approche repose sur un mécanisme de pondération par importance : plutôt que de mélanger naïvement des démonstrations provenant de domaines sources abondants (simulation, autres environnements) avec un faible nombre de démonstrations réelles, BEACON apprend simultanément une politique visuomotrice basée sur la diffusion et des poids par échantillon source qui minimisent une fonction objectif garantissant la généralisation sur le domaine cible. Pour rendre cela praticable sur des séquences de haute dimension, les auteurs développent des estimateurs de divergence à l'échelle de l'instance, des mises à jour alternées stochastiques, et une extension multi-sources capable de pondérer des domaines sources hétérogènes.

L'enjeu est directement lié au problème du sim-to-real gap, l'un des verrous principaux de la robotique de manipulation : collecter des démonstrations téléopérées dans le monde réel reste coûteux et lent, tandis que la simulation génère des données à bas coût mais au prix d'un écart de distribution souvent fatal au déploiement. BEACON montrerait, selon les auteurs, des gains de robustesse et d'efficacité de données par rapport à trois baselines majeures -- entraînement sur cibles seules, co-entraînement à ratio fixe, et alignement de features explicite -- dans des configurations sim-to-sim, sim-to-real et manipulation multi-sources. Le résultat le plus contre-intuitif est qu'en l'absence de tout objectif d'alignement explicite, BEACON produit néanmoins un alignement de représentations comme effet émergent de la pondération par divergence. Les auteurs ne fournissent pas de taux de réussite précis dans l'abstract, ce qui limite la comparaison directe avec des benchmarks publiés.

Ce travail s'inscrit dans une vague de recherches sur le transfert de politiques entre domaines, portée notamment par des méthodes comme RoboAgent, DROID, ou les approches VLA (vision-language-action) de Physical Intelligence (Pi-0) et Google DeepMind (GR00T N2), qui cherchent elles aussi à tirer parti de données hétérogènes à grande échelle. Là où ces dernières misent sur des architectures généralistes entraînées sur des corpus massifs, BEACON propose un angle complémentaire et plus frugal : exploiter intelligemment des sources existantes sans disposer de millions de démonstrations. Le code et les expériences n'étant pas encore publics, il reste à confirmer si les résultats tiennent sur des tâches de manipulation réelle complexes hors du cadre contrôlé des évaluations présentées.

À lire aussi

DADP : politique de diffusion adaptative au domaine
1arXiv cs.RO 

DADP : politique de diffusion adaptative au domaine

Des chercheurs ont publié le 19 juin 2026 la troisième version de DADP (Domain Adaptive Diffusion Policy), un framework de contrôle robotique conçu pour généraliser à des dynamiques physiques inconnues sans nécessiter de réentraînement. Le problème central adressé est la capacité d'une politique apprise en simulation ou dans un environnement donné à fonctionner dans un autre contexte aux propriétés mécaniques différentes, friction, masse, compliance des articulations, ce que l'on appelle l'adaptation zéro-shot. Les auteurs identifient un défaut structurel dans les approches existantes de domain representation learning : lorsqu'un modèle extrait sa représentation du domaine à partir d'un contexte temporel adjacent à l'étape courante, il mélange involontairement des informations statiques (les constantes du domaine physique) avec des propriétés dynamiques transitoires (la vitesse ou la posture instantanée). DADP répond par deux contributions techniques : d'abord le Lagged Context Dynamical Prediction, qui conditionne l'estimation d'état futur sur un contexte historique décalé dans le temps, augmenter ce délai force le modèle à filtrer les propriétés transitoires et à extraire uniquement les invariants du domaine, sans supervision explicite. Ensuite, les représentations de domaine ainsi disentangled sont injectées directement dans le processus génératif du diffusion model, en biaisant la distribution a priori et en reformulant la cible de diffusion. Les résultats sur des benchmarks de locomotion et de manipulation dépassent les méthodes antérieures sur ces axes combinés. L'intérêt pour les intégrateurs robotiques et les équipes R&D est double. Premièrement, DADP aborde directement le sim-to-real gap en proposant une séparation non supervisée entre ce qui appartient à la physique du robot (masse, friction) et ce qui relève de la trajectoire en cours, une distinction que les approches précédentes laissaient au réseau à résoudre implicitement, avec des résultats fragiles. Deuxièmement, l'injection de la représentation domaine dans le processus de diffusion plutôt qu'en simple conditionnement de politique représente un changement architectural notable : cela signifie que la politique génère des actions dont la distribution est intrinsèquement calibrée sur le domaine courant, et non pas simplement corrigée a posteriori. Pour les équipes travaillant sur des déploiements multi-sites ou sur des flottes hétérogènes de manipulateurs industriels, cela ouvre une voie pour réduire le coût de calibration par site. Il convient de nuancer : les benchmarks présentés restent des environnements simulés standardisés (MuJoCo-type), et aucune validation hardware sur un robot physique n'est revendiquée dans l'abstract, un gap classique entre publication académique et déploiement terrain. DADP s'inscrit dans un courant de recherche actif qui cherche à combiner les diffusion policies, popularisées par les travaux de Chi et al. (2023) sur le Diffusion Policy et désormais intégrées dans des systèmes comme pi-zéro de Physical Intelligence ou les pipelines GR00T de NVIDIA, avec des mécanismes d'adaptation contextuelle au domaine physique. Les approches concurrentes incluent les méthodes de domain randomization (entraînement sur une large distribution de dynamiques) et les architectures méta-RL comme PEARL ou MAML, qui supposent un accès à quelques épisodes d'adaptation. DADP se positionne en zéro-shot sans rollouts d'adaptation, ce qui est une contrainte opérationnelle réaliste pour des déploiements industriels où le temps de mise en service est limité. La présence d'un site de visualisation dédié (outsider86.github.io/DomainAdaptiveDiffusionPolicy) et l'itération en version 3 suggèrent une réponse active à la communauté ; une validation expérimentale sur hardware physique constituerait la prochaine étape logique pour ancrer ces résultats dans la réalité industrielle.

RecherchePaper
1 source
Entraînement de robots par LLM : génération automatisée de données via l'augmentation de démonstrations
2arXiv cs.RO 

Entraînement de robots par LLM : génération automatisée de données via l'augmentation de démonstrations

Des chercheurs de Carnegie Mellon University ont publié LLM Trainer (arXiv:2509.20070v2), un pipeline entièrement automatisé capable de transformer une poignée de démonstrations humaines, aussi peu qu'une seule, en un large jeu de données pour l'apprentissage par imitation robotique. Le système décompose la génération de nouvelles démonstrations en deux étapes : une annotation hors-ligne qui extrait des keyframes, des objets saillants et des relations pose-objet à partir des trajectoires originales, puis un retargeting de keyposes en ligne qui adapte ces keyframes à un nouvel environnement à partir d'une simple observation initiale. Le pipeline déforme ensuite géométriquement la trajectoire originale pour en produire une nouvelle, l'exécute sur le robot, et ne conserve les données que si l'exécution est concluante. Pour optimiser la qualité des annotations, réutilisables d'une scène à l'autre, l'équipe intègre un mécanisme de Thompson sampling qui améliore significativement le taux de succès. Les validations ont été conduites sur un bras Franka Emika Panda. L'enjeu est structurant pour l'imitation learning en robotique industrielle : le goulot d'étranglement reste la collecte coûteuse de démonstrations humaines. LLM Trainer propose de contourner ce problème en mobilisant la connaissance du monde embarquée dans les LLMs pour générer des variantes de scènes plausibles sans intervention humaine supplémentaire. Les résultats montrent que la méthode d'annotation LLM surpasse systématiquement des baselines conçues par des experts humains. L'approche d'ensemble, combinant un plan feed-forward LLM optimisé et un contrôleur par imitation en feedback, ouvre une piste vers des politiques plus robustes à la variabilité des environnements réels, ce qui intéresse directement les intégrateurs confrontés à des lignes de production hétérogènes. Ce travail s'inscrit dans une tendance forte en manipulation robotique : réduire la dépendance aux données humaines via l'augmentation synthétique, après des approches comme RoboAgent, DemoAugment ou les pipelines sim-to-real de Google DeepMind. Carnegie Mellon reste un acteur central de cet espace, aux côtés de Stanford (Mobile ALOHA), Berkeley (RoboVerse) et du MIT. Pour l'heure, LLM Trainer est uniquement validé sur un seul modèle de bras dans des conditions de laboratoire, ce qui laisse ouverte la question du passage à l'échelle vers des robots humanoïdes ou des environnements moins structurés. La version v2 publiée sur arXiv suggère des révisions post-soumission, probablement en vue d'une conférence comme CoRL 2025 ou ICRA 2026.

RecherchePaper
1 source
APT : le pré-entraînement par expertise d'action améliore la généralisation des politiques VLA aux nouvelles instructions
3arXiv cs.RO 

APT : le pré-entraînement par expertise d'action améliore la généralisation des politiques VLA aux nouvelles instructions

Une équipe de chercheurs a publié le 11 juin 2026 sur arXiv (identifiant 2606.12366) APT (Action expert PreTraining), une méthode d'entraînement en deux étapes conçue pour améliorer la généralisation des politiques robotiques Vision-Langage-Action (VLA) face à des instructions en langage naturel hors distribution. Le problème ciblé : les modèles VLA actuels, qui couplent un grand modèle de vision-langage (VLM) préentraîné à un expert d'action continu, peinent à exécuter des consignes qu'ils n'ont pas vues pendant l'entraînement. La méthode s'applique aux architectures mainstream du domaine, notamment les architectures de style pi (Physical Intelligence) et GR00T (NVIDIA), et démontre des gains cohérents sur des instructions inédites et des tâches compositionnelles selon les expériences rapportées dans l'article. Le problème fondamental identifié par les auteurs est un déséquilibre structurel dans les données VLA : la diversité linguistique y est bien plus faible que la diversité visuelle ou motrice, ce qui pousse les politiques à s'appuyer sur des raccourcis visuels plutôt que sur les instructions textuelles. Les méthodes à actions discrètes, comme OpenVLA, atténuent ce biais via un co-entraînement vision-langage, mais les experts d'action continus, initialisés aléatoirement, génèrent des gradients bruités qui corrompent le VLM et n'exploitent pas sa capacité de compréhension linguistique. APT résout cela par une factorisation bayésienne : l'expert d'action est d'abord préentraîné comme un prior vision-action sans supervision linguistique, sur un VLM gelé (étape 1), puis les tokens de langage sont injectés via un mécanisme de fusion à porte (gated fusion) qui intègre les représentations du VLM tout en préservant le prior visuomoteur appris (étape 2). Cette séparation empêche l'imbalance linguistique de polluer l'apprentissage moteur initial. Le domaine des VLA robotiques connaît depuis 2024 une accélération notable avec pi0 de Physical Intelligence, GR00T N2 de NVIDIA, et Helix de Figure AI, tous construits autour du paradigme VLM couplé à un expert d'action continu. La généralisation aux instructions non vues reste l'un des défis non résolus du secteur : les démos en laboratoire reposent souvent sur des jeux de consignes étroits, loin de la variabilité d'un déploiement industriel réel, ce qui constitue un frein concret à la commercialisation. APT propose une réponse méthodologique à ce gap sans modifier les architectures cibles, en réordonnant uniquement leur processus d'entraînement. Les prochaines étapes naturelles incluront des validations indépendantes sur des benchmarks standardisés comme LIBERO ou RoboSuite, ainsi que des tests à l'échelle sur robots physiques en environnement non structuré.

RechercheActu
1 source
Ancrage physique des politiques génératives : diffusion guidée par l'optimisation pour le contrôle robotique
4arXiv cs.RO 

Ancrage physique des politiques génératives : diffusion guidée par l'optimisation pour le contrôle robotique

Des chercheurs ont publié le 24 juin 2026 sur arXiv (référence 2606.24208) une méthode visant à corriger un angle mort des politiques robotiques génératives : les sorties produites par les modèles de diffusion peuvent être statistiquement valides mais physiquement infaisables. En pratique, un modèle génératif de haute qualité peut planifier une saisie (grasp), un waypoint ou une trajectoire qui viole des contraintes d'atteignabilité (reachability), d'évitement de collision ou d'exécutabilité en boucle fermée, rendant le déploiement direct sur robot impossible. Les auteurs proposent un cadre d'optimisation à l'inférence qui formule le guidage diffusionnel comme un problème d'optimisation sous contraintes. La clé : remplacer la perturbation d'échantillonnage dans le processus de débruitage (backward process) par une correction optimisée, ce qui permet d'imposer des contraintes dures ou souples lors du sampling sans ré-entraîner le modèle. Évalué sur la synthèse de saisies dextères avec contraintes de reachability et d'évitement de collision, et sur la manipulation dynamique avec contraintes de suivi au niveau contrôleur, la méthode améliore le taux de succès jusqu'à 20 points de pourcentage sur la saisie dextère et 23 points de pourcentage sur la manipulation visuomotrice par rapport à la meilleure baseline testée. L'enjeu est ce que les auteurs nomment l'"embodiment gap" : une politique entraînée dans un espace de tâches générique peut produire des comportements conceptuellement transférables, mais leur exécution sur un corps physique spécifique échoue faute de contraintes cinématiques ou dynamiques respectées. Pour les intégrateurs et les OEM robotiques, cela signifie que les modèles généralistes comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) ne peuvent pas être déployés tels quels sur n'importe quel bras ou manipulateur sans couche d'adaptation. L'approche proposée ici opère uniquement en temps d'inférence, sans modification des poids du modèle, ce qui réduit drastiquement le coût d'adaptation à un nouvel embodiment et la rend potentiellement intégrable dans des pipelines existants sans refonte de l'architecture. Le travail s'inscrit dans la dynamique des politiques de diffusion en robotique, initiée notamment par Diffusion Policy (Chi et al., 2023) et prolongée par les architectures VLA de nouvelle génération. Les méthodes concurrentes de guidage par gradient (gradient guidance) et de projection constituent les baselines, et la méthode proposée les surpasse en préservant mieux la qualité des saisies tout en augmentant l'exécutabilité au niveau contrôleur. Dans un secteur où Physical Intelligence, Covariant ou 1X Technologies misent sur des politiques génératives à grande échelle pour atteindre la généralisation inter-robots, cette approche d'optimisation à l'inférence offre un levier d'adaptation pragmatique sans nécessiter de nouvelles données d'entraînement ni de fine-tuning coûteux.

RechercheActu
1 source