Aller au contenu principal
RecherchearXiv cs.RO2h

Distribution contractive RL : maîtriser une compétence, du modèle a priori au modèle expert

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs viennent de publier une version révisée (v2) de leurs travaux sur arXiv (2603.10263), intitulée "From Prior to Pro: Efficient Skill Mastery via Distribution Contractive RL Finetuning". Ils y présentent DICE-RL (Distribution Contractive Reinforcement Learning), une méthode pour affiner des politiques robotiques génératives pré-entraînées. Le principe : entraîner d'abord une politique de type diffusion ou flow matching sur une large base de démonstrations, pour couvrir un maximum de comportements possibles, puis la raffiner via un apprentissage par renforcement hors politique (off-policy), résiduel et peu gourmand en données. Cette phase de finetuning combine une régularisation comportementale sélective avec une sélection d'actions guidée par la fonction de valeur, l'objectif étant de transformer une politique généraliste ("prior") en politique experte ("pro") en amplifiant les comportements qui réussissent le plus souvent. Les auteurs rapportent des résultats stables et efficaces en échantillons, validés à la fois en simulation et sur un robot réel, sur des tâches de manipulation complexes et longues, directement à partir d'images brutes en pixels.

L'enjeu dépasse la simple curiosité académique : c'est le problème central des politiques génératives apprises par imitation, comme les modèles de diffusion ou les architectures vision-langage-action popularisées ces deux dernières années. Ces politiques couvrent bien la diversité des comportements de démonstration, mais peinent à devenir fiables sur des tâches longues et exigeantes, un écart bien connu entre performance en démo et robustesse en conditions réelles. Si le renforcement post-entraînement proposé ici tient ses promesses de stabilité et d'efficacité, cela offrirait aux équipes de R&D robotique un chemin plus praticable pour faire passer un modèle du stade "ça marche parfois en labo" au stade "déployable de façon fiable", sans devoir tout réentraîner depuis zéro ni collecter des volumes massifs de données réelles.

Ce travail s'inscrit dans une tendance de fond du secteur : combiner pré-entraînement génératif à grande échelle (diffusion policies, flow matching, modèles VLA type Pi-0 ou GR00T) avec des phases de renforcement plus ciblées pour gagner en fiabilité. Les auteurs ne mentionnent pas de partenariat industriel ni de calendrier de déploiement ; il s'agit à ce stade d'une contribution de recherche, avec un site de projet dédié pour consulter démonstrations et détails techniques.

À lire aussi

Évolution continue des compétences dans un modèle vision-langage-action (VLA)
1arXiv cs.RO 

Évolution continue des compétences dans un modèle vision-langage-action (VLA)

Des chercheurs ont publié Stellar VLA (arXiv:2511.18085v3), un cadre d'apprentissage continu par imitation (continual imitation learning, CIL) pour les modèles Vision-Langage-Action (VLA). La méthode propose deux variantes progressives : T-Stellar, fondée sur une modélisation plate centrée sur les tâches, et TS-Stellar, organisée en structure hiérarchique tâche-compétence. Les expériences menées sur le benchmark LIBERO, référence standard pour les tâches de manipulation robotique, montrent que les deux variantes surpassent les baselines VLA et CIL actuelles, avec seulement 1 % de rejeu de données. Une validation en conditions réelles sur une plateforme bi-bras, avec des configurations de scènes et d'embodiments distincts, confirme que le transfert de connaissances entre tâches reste effectif au-delà du simulateur. Le principal apport de Stellar VLA est d'adresser un frein structurel au déploiement des grands modèles VLA : les méthodes CIL existantes nécessitent des paramètres additionnels ou des modules externes, ce qui les rend difficilement scalables lorsque le modèle de base est déjà massif. En optimisant conjointement des représentations de tâches et un espace de connaissances partagé, Stellar VLA introduit un mécanisme de routage expert guidé par la sémantique, sélectionnant les K embeddings les plus proches pour orienter le modèle vers la compétence pertinente, sans alourdir l'architecture. Pour les équipes qui déploient des robots polyvalents en production, cela ouvre la voie à l'apprentissage incrémental de nouvelles tâches avec un coût de fine-tuning réduit. TS-Stellar se distingue notamment sur les manipulations hiérarchiques complexes, et les visualisations publiées illustrent une rétention robuste des compétences acquises ainsi qu'une capacité de découverte automatique de nouvelles tâches. Les VLA constituent un axe de recherche en accélération depuis 2023, portés par Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA), OpenVLA (UC Berkeley) ou encore RT-2 (Google DeepMind), qui cherchent à généraliser la manipulation robotique via un préentraînement multimodal massif. La question du catastrophic forgetting, c'est-à-dire la perte des compétences antérieures lors de l'apprentissage d'une nouvelle tâche, reste un verrou non résolu à l'échelle industrielle. Stellar VLA se positionne comme une surcouche légère applicable à des VLA existants, sans retraining complet. Le projet est documenté sur stellarvla.github.io ; aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans la publication, qui reste à ce stade un travail de recherche académique.

RechercheOpinion
1 source
Contrôle robuste aux distributions via l'inférence de Stein pour la manipulation au contact
2arXiv cs.RO 

Contrôle robuste aux distributions via l'inférence de Stein pour la manipulation au contact

Une équipe de chercheurs publie sur arXiv (référence 2605.19029) une méthode de contrôle robuste pour la manipulation robotique en contact riche, domaine couvrant la saisie, l'assemblage et l'insertion précise d'objets. Le travail formalise le problème comme une optimisation de contrôle robuste aux distributions (distributionally robust control), résolue via l'inférence variationnelle de Stein, une technique probabiliste déterministe issue du machine learning bayésien. Les contrôleurs qui en résultent modélisent explicitement l'incertitude paramétrique liée aux contacts, sans nécessiter les volumes massifs de données d'entraînement qu'exigent les approches data-driven modernes. Les résultats expérimentaux rapportés indiquent une robustesse améliorée jusqu'à un facteur 3 par rapport aux méthodes classiques à base de modèles, sur une gamme de tâches avec incertitude paramétrique large. Ce chiffre est à nuancer : il provient des propres benchmarks des auteurs, sans validation indépendante. La manipulation en contact riche reste l'un des goulots d'étranglement critiques pour le déploiement de robots industriels polyvalents. Les approches VLA (Vision-Language-Action models), comme pi-0 de Physical Intelligence, offrent une flexibilité remarquable mais se dégradent fortement lorsque les données d'entraînement sont rares, ce qui limite leur adoption dans des environnements industriels où les jeux de données sont difficiles à constituer. Les contrôleurs classiques à base de modèles, à l'inverse, sont computationnellement efficaces mais peinent à représenter l'incertitude task-sensitive, c'est-à-dire celle qui impacte réellement la performance sur une tâche précise. L'approche proposée tente de combler ce fossé en injectant une modélisation probabiliste flexible dans le cadre déterministe des contrôleurs classiques, un compromis potentiellement attractif pour les intégrateurs industriels cherchant fiabilité sans pipeline de données massif. Ce travail s'inscrit dans une tendance académique cherchant à réconcilier le model-based engineering (Boston Dynamics, ABB) et les learned policies (Physical Intelligence avec pi-0, Google DeepMind avec ses architectures GR00T-style). L'inférence variationnelle de Stein, popularisée par Liu et Wang en 2016, est ici adaptée au contrôle optimal, ce qui représente une contribution méthodologique notable. Le résumé disponible ne mentionne ni déploiements réels ni partenaires industriels, signalant clairement un stade de recherche fondamentale, probablement conduite en simulation ou sur bancs d'essai de laboratoire. Une validation sur des plateformes hardware standardisées comme les bras Franka Emika ou UR10, dont les propriétés de contact sont bien documentées, constituerait la prochaine étape logique avant toute perspective d'industrialisation.

RecherchePaper
1 source
Distillation de simulation : pré-entraîner des modèles du monde en simulation pour une adaptation rapide au réel
3arXiv cs.RO 

Distillation de simulation : pré-entraîner des modèles du monde en simulation pour une adaptation rapide au réel

Une équipe de recherche a publié sur arXiv (arXiv:2603.15759) un cadre appelé Simulation Distillation (SimDist), conçu pour entraîner des world models robotiques en simulation physique avant de les adapter rapidement au monde réel avec peu de données. L'approche se décompose en deux phases distinctes : un préentraînement dans un simulateur physique qui distille des priors structurels dans un world model capable de planifier à partir d'observations brutes, suivi d'une adaptation réelle dans laquelle seul le modèle de dynamiques latentes est mis à jour via des pertes de prédiction issues de données terrain. L'encodeur, le modèle de récompense et la fonction de valeur appris en simulation sont directement transférés sans modification. Les auteurs valident SimDist sur deux catégories de tâches : manipulation en contact riche (préhension, assemblage) et locomotion quadrupède. L'enjeu central que SimDist adresse est le coût prohibitif de la collecte de données d'interaction diverse et de qualité mixte pour entraîner des world models directement dans le monde réel. En réduisant l'adaptation à une forme d'identification de système supervisée, le cadre conserve les signaux de planification denses sur horizon long nécessaires à l'amélioration en ligne, là où les méthodes de fine-tuning de politiques end-to-end restent inefficaces et fragiles sur les tâches longue durée. Les expériences montrent que SimDist progresse régulièrement avec l'expérience accumulée, alors que les approches d'adaptation concurrentes stagnent ou se dégradent durant le fine-tuning en ligne. C'est un résultat notable : la question de savoir si les world models tiennent leurs promesses à l'échelle sur des tâches en contact réel restait ouverte. Les world models robotiques -- dont Dreamer (DeepMind) est le représentant le plus connu -- ont démontré leur potentiel en simulation et dans des domaines à faible dimensionnalité, mais leur passage aux tâches manipulation réelles était resté laborieux, nécessitant des volumes de données difficiles à obtenir en dehors de laboratoires très équipés. SimDist s'inscrit dans un courant récent qui tente de résoudre le sim-to-real gap non pas par le transfert direct de politique, mais par le transfert de représentations et de modèles de planification. Le projet est accompagné d'une page dédiée et d'un dépôt de code (sim-dist.github.io), ce qui facilitera la reproductibilité et les comparaisons tierces. Les prochaines étapes probables incluent l'extension à des manipulateurs à dextérité plus élevée et à des environnements moins structurés, deux domaines où la rareté des données réelles est encore plus critique.

RecherchePaper
1 source
Being-H0.7 : un modèle du monde-action en perspective égocentrique
4arXiv cs.RO 

Being-H0.7 : un modèle du monde-action en perspective égocentrique

Being-H0.7, un modèle de contrôle robotique publié sur arXiv début mai 2026 (référence 2605.00078), introduit une architecture dite "latent world-action model" pour les politiques robotiques généralisées. Le système repose sur une conception à double branche : une branche "prior" déployable en production, qui infère des états latents à partir de l'observation courante, et une branche "posterior" réservée à l'entraînement, qui enrichit ces états avec des embeddings issus d'observations futures. À l'inférence, seule la branche prior est active, sans génération de frames vidéo. Évalué sur six benchmarks de simulation standard et des tâches en environnement réel, Being-H0.7 atteint des performances à l'état de l'art ou comparables aux meilleurs modèles du moment. Le problème central que résout cette architecture est bien documenté dans la communauté VLA (Visual-Language-Action) : une supervision trop sparse sur les actions pousse les modèles à apprendre des correspondances raccourcies, sans représentation interne des dynamiques physiques, des contacts ni de la progression de la tâche. Les tentatives antérieures d'intégrer des world models au contrôle robotique passaient par la prédiction en espace pixel, ce qui multiplie le coût computationnel à l'entraînement et à l'inférence, et oblige le modèle à modéliser des détails visuels sans valeur pour la décision motrice. Being-H0.7 contourne ce goulot en imposant le raisonnement futur dans un espace latent compact, via des "latent queries" apprises intercalées entre le module de perception et la tête d'action. Le résultat est un modèle qui raisonne comme un world model pendant l'entraînement, mais se déploie avec la latence d'une politique VLA directe. Les VLA généralisés ont connu une accélération significative depuis 2023, portée par RT-2 (Google DeepMind), OpenVLA (UC Berkeley) et Pi-0 (Physical Intelligence). Sur le front des world models appliqués à la robotique, des approches comme Dreamer ou les travaux de NVIDIA autour de GR00T N2 ont exploré la prédiction de trajectoires, au prix d'une complexité d'inférence élevée. Being-H0.7, dont l'affiliation institutionnelle n'est pas précisée dans l'abstract, se positionne dans cet espace avec un compromis différent : intégrer la connaissance du futur sans jamais le générer. Le suffixe "H" suggère un ciblage humanoïde, mais l'absence de métriques opérationnelles détaillées dans la prépublication invite à attendre la version complète avant toute comparaison chiffrée définitive.

RechercheOpinion
1 source