Aller au contenu principal
Préentraînement séparé des dynamiques directe et inverse pour un apprentissage robotique découplé
RecherchearXiv cs.RO6sem

Préentraînement séparé des dynamiques directe et inverse pour un apprentissage robotique découplé

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié le 23 avril 2026 sur arXiv un article présentant DeFI (Decoupled visual Forward and Inverse dynamics pretraining), un framework d'apprentissage pour robots généralistes qui dissocie explicitement la prédiction visuelle de la prédiction d'actions motrices. L'architecture repose sur deux modules distincts : le General Forward Dynamics Model (GFDM), pré-entraîné sur des vidéos humaines et robotiques pour anticiper l'évolution visuelle d'une scène, et le General Inverse Dynamics Model (GIDM), entraîné par auto-supervision pour inférer des "actions latentes" à partir de transitions vidéo non annotées. Les deux modules sont ensuite fusionnés dans une architecture unifiée et affinés conjointement sur des tâches cibles. Sur le benchmark CALVIN ABC-D, DeFI atteint une longueur de tâche moyenne de 4,51, un score de 51,2 % sur SimplerEnv-Fractal, et un taux de succès de 81,3 % en déploiement réel, surpassant selon les auteurs les méthodes antérieures sur chacun de ces indicateurs.

L'enjeu technique central que DeFI prétend résoudre est le "sim-to-real gap" structurel propre aux modèles VLA classiques : ces derniers entraînent conjointement la prédiction d'images 2D et la génération d'actions 3D, deux objectifs dont les gradients entrent en conflit. La dissociation proposée permet surtout d'exploiter des vidéos web à grande échelle sans annotation d'actions, une ressource quasi-illimitée comparée aux datasets robotiques labellisés, rares et coûteux. Pour les intégrateurs et les équipes R&D industrielles, cela signifie potentiellement réduire le coût de collecte de données de démonstration, un goulot d'étranglement bien documenté dans le déploiement de robots manipulateurs polyvalents.

DeFI s'inscrit dans une dynamique de recherche très active autour des VLA, portée notamment par Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et les travaux OpenVLA. La principale limite à évaluer ici est celle de tout papier arXiv sans validation industrielle externe : les 81,3 % en "déploiement réel" correspondent à un environnement de laboratoire contrôlé, pas à une ligne de production. Les benchmarks CALVIN et SimplerEnv sont désormais saturés par de nombreuses méthodes concurrentes, ce qui en rend l'interprétation délicate sans contexte de variance et de répétabilité. Aucun partenariat industriel ni timeline de commercialisation n'est mentionné dans l'article.

À lire aussi

Apprentissage de politiques dynamiques pour robots à pattes : préentraînement sur modèle simplifié et transfert inspiré de l'homotopie
1arXiv cs.RO 

Apprentissage de politiques dynamiques pour robots à pattes : préentraînement sur modèle simplifié et transfert inspiré de l'homotopie

Des chercheurs ont publié sur arXiv (arXiv:2512.24698v2, soumis fin 2025) un cadre d'apprentissage par renforcement baptisé "continuation-based learning" pour générer des comportements dynamiques complexes sur robots à pattes. L'approche se décompose en deux phases : un pré-entraînement de la politique de contrôle sur un modèle d'ordre réduit dit "corps rigide unique" (Single Rigid Body, SRB), qui simplifie le robot à un seul segment de masse, suivi d'un transfert progressif vers la dynamique corps-complet via une stratégie de continuation inspirée de l'homotopie mathématique. Ce transfert consiste à redistribuer graduellement la masse et l'inertie entre le tronc et les membres du robot, en définissant un chemin paramétrique continu entre les deux représentations. Le framework a été validé sur des tâches hautement dynamiques, saltos, manoeuvres assistées par un mur, et déployé avec succès sur un robot quadrupède réel, sans préciser le modèle matériel ni les métriques quantitatives de performance finale. L'intérêt technique est de s'attaquer directement au "sim-to-real gap" pour des comportements extrêmes, là où l'apprentissage par renforcement classique achoppe : produire un salto ou une manoeuvre murale exige une récompense finement calibrée ou des démonstrations de haute qualité, deux ressources coûteuses. En préentraînant sur un modèle SRB, la politique capture rapidement les patrons de mouvement essentiels dans un espace d'état simplifié, puis la continuation homotopique réduit les pertes de performance lors du passage au modèle complet. Les auteurs rapportent une convergence plus rapide et une stabilité supérieure aux méthodes de référence (fine-tuning direct, curriculum naïf), ce qui suggère que la structure géométrique du chemin de transition compte autant que la quantité de données d'entraînement. Pour un intégrateur ou un responsable R&D robotique, c'est un signal que le sim-to-real sur comportements acrobatiques devient méthodologiquement adressable, même sans démonstrations humaines. Ce travail s'inscrit dans un courant actif qui cherche à combiner modèles analytiques réduits et apprentissage profond pour dépasser les limites de chacun : les méthodes purement model-based (MPC sur SRB, très utilisées chez Boston Dynamics, ETH Zurich et ANYbotics) peinent sur les mouvements hors-domaine de validité du modèle, tandis que le RL pur souffre d'une exploration inefficace pour les comportements extrêmes. Des travaux récents comme ceux du groupe de Pieter Abbeel (UC Berkeley) ou de Zhuang Chen (CMU) explorent des voies similaires de curriculum progressif. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans la publication ; l'article reste à ce stade un résultat de laboratoire, sans validation sur des plateformes commerciales comme Unitree B2, Spot ou ANYmal.

RecherchePaper
1 source
Politique de contrainte de surface pour l'apprentissage de compétences robotiques contraintes et dynamiquement réalisables
2arXiv cs.RO 

Politique de contrainte de surface pour l'apprentissage de compétences robotiques contraintes et dynamiquement réalisables

Des chercheurs ont déposé en mai 2026 sur arXiv (identifiant 2605.31321) un article présentant la Surface Constraint Policy (SCP), une méthode destinée à améliorer la fiabilité des robots dans des tâches de manipulation dextre impliquant des contraintes de surface complexes et de forme libre. L'approche encode la géométrie de surface à partir de démonstrations humaines via une fonction noyau gaussien pondérée en deux dimensions. Sur cette base, une politique de diffusion infère des intentions d'action à partir d'entrées multimodales (observations visuelles et retour d'état du robot), qui sont ensuite transformées en primitives de mouvement dynamique contraintes à la surface (DMPs, Dynamic Movement Primitives) via une méthode de mapping par similarité. Ce pipeline produit des trajectoires à la fois géométriquement admissibles et dynamiquement réalisables. Les auteurs font état de taux de succès et d'une stabilité de contact supérieurs aux méthodes comparées, sans que le résumé ne détaille les métriques précises ni les benchmarks utilisés. Ce travail pointe un angle mort persistant des approches actuelles d'apprentissage par imitation à base de diffusion : les politiques classiques génèrent des actions de manière stochastique, sans modéliser explicitement la géométrie de la surface de contact. En pratique, cela se traduit par des glissements, des décrochages ou des trajectoires physiquement inadmissibles, problèmes rédhibitoires pour des applications industrielles comme le polissage, l'assemblage surfacique ou le soudage. L'originalité de SCP tient à l'intégration des contraintes géométriques dès la génération d'action, couplée à des DMPs qui garantissent la faisabilité dynamique. Pour les intégrateurs et les équipes R&D, cette approche représente un pas concret vers la répétabilité requise en production, là où la stabilité du contact prime sur la généralisation toutes-tâches. Ce travail s'inscrit dans une vague de recherche intense autour des politiques de diffusion pour la manipulation robotique, initiée par Diffusion Policy (Chi et al., 2023, Columbia University) et accélérée par des acteurs comme Physical Intelligence avec pi0, Google DeepMind avec RT-2, ou encore ACT de Stanford. Les primitives de mouvement dynamique mobilisées ici sont un outil classique de la robotique depuis les travaux de Schaal dans les années 2000, mais leur couplage avec un pipeline de diffusion moderne pour gérer des contraintes surfaciques constitue l'apport original de la méthode. Les limitations pointées par les auteurs sont partagées par la plupart des architectures VLA actuelles, ce qui signale un axe de recherche pertinent pour quiconque vise le déploiement industriel. Les prochaines étapes naturelles incluraient une validation sur des surfaces déformables ou en mouvement, ainsi qu'un test de passage à l'échelle avec une plus grande diversité de tâches et de morphologies robotiques.

RecherchePaper
1 source
Mask World Model : prédire l'essentiel pour un apprentissage robuste des politiques robotiques
3arXiv cs.RO 

Mask World Model : prédire l'essentiel pour un apprentissage robuste des politiques robotiques

Des chercheurs ont publié sur arXiv (réf. 2604.19683) le Mask World Model (MWM), une architecture de world model pour l'apprentissage de politiques robotiques robustes. Contrairement aux approches dominantes qui entraînent des modèles génératifs sur de la vidéo RGB, MWM prédit l'évolution de masques sémantiques, des représentations géométriques des objets en scène, à l'aide d'une architecture de diffusion vidéo. Une tête de politique basée sur la diffusion est intégrée en aval pour un contrôle bout-en-bout. Évalué sur les benchmarks de simulation LIBERO et RLBench, MWM surpasse significativement les world models RGB de l'état de l'art. Un protocole de robustesse par élagage aléatoire de tokens et des expériences en conditions réelles confirment la résilience du modèle face à la perte partielle d'information visuelle. Le problème ciblé est structurel : les world models entraînés à prédire des pixels RGB mémorisent des corrélations parasites liées aux arrière-plans dynamiques, aux variations d'éclairage ou aux textures changeantes. Ces distracteurs produisent des politiques fragiles qui échouent hors distribution, phénomène central du "demo-to-real gap" qui freine le déploiement industriel des robots apprenants. En contraignant le modèle à opérer sur des masques géométriques plutôt que sur des pixels bruts, MWM impose un goulot d'information qui force la représentation interne à capturer ce qui importe réellement pour la manipulation : dynamiques physiques, relations de contact, géométrie des objets. C'est une contribution méthodologique notable dans le débat sur ce que les world models doivent apprendre pour être fiables à l'échelle opérationnelle. Les world models pour la robotique ont émergé comme paradigme dominant ces deux dernières années, portés par des architectures comme UniSim, Dreamer, ou les VLA récents de Physical Intelligence (pi-0), Google DeepMind (GR00T N2) et Figure Robotics, qui misent presque tous sur la fidélité de reconstruction RGB. MWM propose une alternative centrée sur l'abstraction géométrique, un positionnement distinct dans cet écosystème en pleine consolidation. Il convient de noter qu'il s'agit d'une prépublication non encore relue par des pairs, et que les expériences en conditions réelles restent limitées en échelle et en diversité de tâches. Les suites naturelles incluent une validation sur des manipulateurs industriels en environnement non contrôlé, étape que les auteurs n'ont pas encore franchie.

RechercheOpinion
1 source
Apprentissage de la prise-et-dépose dynamique pour un manipulateur à pattes
4arXiv cs.RO 

Apprentissage de la prise-et-dépose dynamique pour un manipulateur à pattes

Des chercheurs ont publié le 21 mai 2026 sur arXiv (réf. 2605.15713) un framework d'apprentissage par renforcement hiérarchique permettant à un robot quadrupède équipé d'un bras à 6 degrés de liberté (6-DOF) d'effectuer des tâches de pick-and-place dynamiques avec des charges allant jusqu'à 2,3 kg en simulation et 1,3 kg en environnement réel. Le système intègre un module explicite d'estimation de masse qui adapte en temps réel le contrôle whole-body en fonction du poids de l'objet saisi. En simulation, le taux de succès atteint 86,05 %. Sur six scénarios réels combinant variations de taille, de masse et de hauteur de dépôt, le système affiche un taux de succès moyen de 73,3 % dans un espace de travail vertical allant du sol à des surfaces à 1,1 m de hauteur, avec un temps d'exécution moyen de 4,06 secondes par cycle. Ce résultat est notable pour deux raisons techniques. D'abord, le système exécute locomotion et manipulation en simultané, abandonnant l'approche séquentielle (se déplacer, s'arrêter, saisir) qui dominait les travaux antérieurs et limitait la cadence opérationnelle. Ensuite, le module d'estimation de masse compense dynamiquement les variations de charge, ce qui est un prérequis pour tout déploiement industriel réel où les objets ne sont pas homogènes. La chute de performance entre simulation et réel (de 86 % à 73 %) illustre que le sim-to-real gap n'est pas encore résolu, mais reste dans une plage acceptable pour des scénarios semi-contrôlés. Les charges manipulées restent modestes comparées aux bras industriels fixes, et les vidéos de démonstration sélectionnées ne couvrent pas de conditions adverses (surfaces glissantes, occlusions). Le robot quadrupède mobile doté d'un bras manipulateur est un segment en forte croissance, porté par des plateformes commerciales comme le Spot d'Boston Dynamics (avec son bras optionnel), l'ANYmal d'ANYbotics, ou le B2 d'Unitree couplé à des bras tiers. Ce travail de recherche, non affilié à un produit commercial annoncé, s'inscrit dans la lignée des travaux sur les manipulateurs mobiles à pattes publiés ces deux dernières années par ETH Zurich, CMU et des équipes chinoises. La prochaine étape attendue dans ce domaine est la généralisation à des objets non rigides ou à géométrie inconnue, ainsi qu'une intégration de la perception visuelle en boucle fermée pour réduire la dépendance aux modèles d'objet préenregistrés.

RecherchePaper
1 source