Aller au contenu principal
IA physiquearXiv cs.RO2h

Point de vue : les bons modèles de récompense incarnés ont besoin de données de mauvais comportements

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Un article de position déposé sur arXiv en juin 2026 (arXiv:2606.01036) soulève un problème structurel dans l'entraînement des robots fondationnels : les modèles de récompense embarqués (embodied reward models), centraux dans toute boucle d'apprentissage par renforcement, sont quasi-exclusivement entraînés sur des comportements réussis. Les auteurs ont évalué trois modèles de récompense de l'état de l'art et constatent qu'ils sur-récompensent systématiquement trois catégories de comportements qu'un évaluateur humain pénaliserait : interactions non sécurisées avec l'environnement, exécution de mauvaise qualité, et stratégies de raccourci qui satisfont l'apparence d'une tâche sans en remplir l'objectif réel. La cause pointée est le manque chronique de données négatives dans les datasets robotiques existants : comportements ratés, sous-optimaux ou dangereux, coûteux à collecter et systématiquement filtrés ou retenus par les équipes.

Ce biais a des implications directes pour tout déploiement de robot généraliste en environnement industriel. Un modèle de récompense qui valide des comportements non sécurisés ou des raccourcis fonctionne comme un juge défaillant au coeur même de la boucle d'entraînement, produisant des systèmes validés en simulation mais problématiques en production. Les auteurs montrent qu'une exposition modeste à de vraies données de comportements négatifs améliore l'alignement avec les préférences humaines et réduit les faux positifs coûteux, argument pour une action corrective accessible à court terme plutôt qu'un problème structurel insoluble.

La problématique s'impose avec l'essor des modèles vision-langage-action (VLA) tels que Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou Helix de Figure. Dans ce contexte, collecter des données d'échec reste plus contraignant qu'en NLP : chaque trajectoire ratée mobilise du matériel physique et présente un risque opérationnel réel. Les auteurs appellent la communauté à quatre actions concrètes : publier les données négatives aujourd'hui retenues, construire des moteurs de génération synthétique de mauvais comportements, déployer des systèmes d'évaluation physique décentralisés, et créer des benchmarks dédiés à l'évaluation fine des reward models. Aucun partenaire institutionnel ni calendrier opérationnel n'est annoncé dans le document, ce qui en fait pour l'instant un manifeste académique sans engagement opérationnel identifié.

À lire aussi

Guide, Pense, Agit : le raisonnement incarné interactif dans les modèles vision-langage-action (VLA)
1arXiv cs.RO 

Guide, Pense, Agit : le raisonnement incarné interactif dans les modèles vision-langage-action (VLA)

Des chercheurs ont déposé sur arXiv (arXiv:2605.13632, mai 2026) GTA-VLA (Guide, Think, Act), un framework Vision-Language-Action interactif qui permet d'injecter des indices visuels explicites dans le raisonnement d'un robot avant l'exécution. Contrairement aux VLA classiques qui appliquent un mapping direct perception-action appris sur données d'entraînement, GTA-VLA introduit une étape de raisonnement spatial conditionné : l'opérateur peut fournir des points d'affordance, des boîtes englobantes ou des trajectoires dessinées sur l'image, que le modèle intègre dans une chaîne de pensée (Chain-of-Thought, CoT) avant de générer les commandes motrices. Une tête d'action légère ("reactive action head") assure ensuite l'exécution. Sur le benchmark SimplerEnv WidowX en conditions in-domain, le système atteint un taux de succès de 81,2 %, présenté comme état de l'art sur cette tâche. Les auteurs rapportent qu'une seule interaction visuelle suffit à améliorer substantiellement les performances sous perturbations visuelles ou ambiguïtés spatiales hors distribution (OOD). Ce résultat pointe une limite structurelle des VLA actuels : leur fragilité face aux shifts de distribution, c'est-à-dire dès que l'environnement de déploiement diffère des données d'entraînement. Les approches CoT existantes exposent le raisonnement intermédiaire mais restent aveugles à la guidance humaine, rendant la reprise sur erreur difficile sans réentraînement. GTA-VLA propose une troisième voie : maintenir l'autonomie du modèle tout en ouvrant un canal de correction humain minimal, ciblé sur l'espace visuel. Pour un intégrateur industriel, c'est un argument concret contre le demo-to-reality gap : si le robot échoue, l'opérateur désigne visuellement l'objet cible plutôt que de réécrire une instruction texte. La métrique de 81,2 % sur SimplerEnv mérite toutefois d'être contextualisée : ce benchmark reste un environnement simulé contrôlé, et aucun résultat sur hardware réel n'est communiqué dans le papier. GTA-VLA s'inscrit dans l'effervescence des architectures VLA depuis Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou Helix de Figure AI, qui ont tous cherché à coupler raisonnement de haut niveau et exécution robotique fluide. L'apport spécifique est de rendre ce raisonnement "steerable" via des priors spatiaux explicites, là où Pi-0 ou GR00T N2 restent essentiellement autonomes une fois déployés. Publié en preprint non encore évalué par des pairs, le papier ne mentionne ni déploiement sur plateforme physique ni partenariats industriels annoncés. Les prochaines étapes naturelles seraient une validation sur manipulateurs réels (WidowX physique, Franka) et une évaluation de la robustesse de l'interface de guidance en conditions industrielles réelles.

IA physiqueOpinion
1 source
Les modèles VLA peuvent-ils apprendre en continu depuis des données réelles sans oublier ?
2arXiv cs.RO 

Les modèles VLA peuvent-ils apprendre en continu depuis des données réelles sans oublier ?

Une équipe de chercheurs a publié sur arXiv (référence 2605.26820) une étude empirique sur la capacité des modèles VLA (Vision-Language-Action) à apprendre de nouvelles tâches sans oublier les compétences acquises précédemment. Pour ce faire, les auteurs ont constitué un jeu de données réel de type apprentissage continu, structuré en quatre tâches de manipulation séquentielles : saisie et dépose d'objets rigides, appui avec contact (contact-rich pressing), pliage d'objets déformables, et une quatrième tâche couvrant des configurations hétérogènes. Contrairement aux travaux antérieurs qui s'appuyaient sur des environnements simulés étroitement contrôlés, ce benchmark est intégralement collecté dans le monde physique, avec des démonstrations réelles. Résultat central : les modèles VLA souffrent massivement du phénomène d'oubli catastrophique (catastrophic forgetting) lorsqu'ils sont entraînés séquentiellement sur ces données hétérogènes. Les chercheurs ont également évalué l'experience replay comme stratégie d'atténuation, en identifiant les facteurs d'implémentation déterminants pour son efficacité. Ce travail pointe un angle mort critique dans la trajectoire de commercialisation des robots polyvalents. Un VLA performant en lab sur une tâche figée ne suffit pas pour un déploiement industriel où les lignes évoluent, les références changent, et les opérateurs ajoutent des compétences sans repartir de zéro. L'oubli catastrophique est une limite connue du deep learning, mais jusqu'ici peu documentée sur données réelles pour les politiques robotiques de type VLA. Cette étude démontre que le problème persiste même avec des architectures modernes, et que l'experience replay, bien configuré, offre une piste praticable. Pour un intégrateur ou un COO industriel, c'est un signal clair : toute feuille de route robotique basée sur des VLA doit intégrer une stratégie d'apprentissage continu avant passage à l'échelle. Les modèles VLA sont au coeur d'une course technologique impliquant Physical Intelligence (Pi-0), Google DeepMind (RT-2, OpenVLA), et plus récemment Figure AI et Apptronik avec leurs propres pipelines de politiques généralisées. Jusqu'à présent, la majorité des benchmarks de continual learning en robotique restaient cantonnés à la simulation (RoboSuite, MetaWorld), ce qui limitait la transposabilité des conclusions. Cette étude est présentée comme le premier bilan empirique sur données réelles pour les VLA, un signal que la communauté commence à confronter ces modèles aux contraintes opérationnelles réelles plutôt qu'aux conditions idéales de laboratoire. Les prochaines étapes probables incluent l'extension du benchmark à davantage de tâches et de morphologies de robots, ainsi que l'intégration de méthodes plus sophistiquées (EWC, LoRA-based replay) pour comparer leur robustesse à l'oubli sur scénarios industriels longs.

UEImpact indirect : les équipes R&D et intégrateurs européens travaillant sur des déploiements VLA industriels doivent anticiper une stratégie d'apprentissage continu dans leur feuille de route avant tout passage à l'échelle.

💬 L'oubli catastrophique, tout le monde le connaît en théorie. Là on a enfin un benchmark sur données réelles, pas de la sim, et le verdict est brutal : les VLA oublient massivement dès qu'on enchaîne des tâches hétérogènes. Bonne nouvelle, l'experience replay tient la route si bien configuré, mais ça signifie aussi que toute feuille de route VLA sans stratégie d'apprentissage continu part sur des bases fragiles.

IA physiqueOpinion
1 source
ExpressMM : des comportements de manipulation mobile expressifs dans les interactions humain-robot
3arXiv cs.RO 

ExpressMM : des comportements de manipulation mobile expressifs dans les interactions humain-robot

Des chercheurs ont présenté ExpressMM, un framework destiné aux manipulateurs mobiles déployés en environnements humains, capable de générer des comportements expressifs en temps réel pendant l'exécution de tâches collaboratives. Publié sur arXiv (2604.05320v3), le système repose sur une architecture à deux niveaux : un planificateur de haut niveau fondé sur un modèle vision-langage (VLM) prend en charge la perception et le raisonnement conversationnel, tandis qu'une politique vision-langage-action (VLA) de bas niveau produit les mouvements expressifs du robot. Élément distinctif : ExpressMM supporte les interactions interruptibles, c'est-à-dire que l'utilisateur peut modifier ou rediriger les instructions du robot en cours d'exécution. L'évaluation a été conduite sur un manipulateur mobile réel lors d'un scénario d'assemblage collaboratif, avec des démonstrations en direct devant un public et des questionnaires post-session. La majorité des travaux antérieurs sur les comportements expressifs des robots s'appuyaient sur des mouvements préprogrammés ou appris par démonstration, et n'anticipaient pas les interruptions en cours de tâche, un cas pourtant courant dès qu'un humain travaille aux côtés d'un robot. ExpressMM traite cette lacune en couplant une VLA capable de s'adapter dynamiquement aux nouvelles instructions avec un raisonnement langage-vision pour maintenir la cohérence sociale de l'interaction. Les résultats des questionnaires indiquent que les observateurs ont trouvé les actions du robot clairement interprétables, les interactions socialement appropriées, et le comportement prévisible et sûr. Pour les intégrateurs industriels et les équipes opérations, c'est un signal fort : les robots collaboratifs ne peuvent plus se contenter d'accomplir une tâche ; ils doivent être lisibles par les humains qui partagent l'espace de travail. Le sujet de l'expressivité robotique est activement exploré depuis plusieurs années dans la communauté HRI, mais les approches précédentes peinaient à généraliser au-delà de comportements scénarisés ou de démos contrôlées. L'utilisation conjointe d'un VLM et d'une VLA dans un seul pipeline interruptible représente une progression architecturale significative. Sur le plan concurrentiel, des acteurs comme Boston Dynamics (avec Spot) ou des startups HRI telles que Enchanted Tools en France (robot Miroki) travaillent également sur la dimension sociale des robots collaboratifs, mais peu publient des évaluations HRI aussi structurées en conditions réelles. Les prochaines étapes logiques pour ExpressMM seraient des déploiements en environnements industriels ou de service à plus grande échelle, où la variété des interactions humaines dépasse largement les scénarios d'assemblage contrôlés.

UELa recherche est directement pertinente pour Enchanted Tools (France, robot Miroki), qui travaille sur des problématiques similaires d'expressivité sociale et d'interaction humain-robot collaboratif.

IA physiqueOpinion
1 source
Benchmark COIN : quand le raisonnement rencontre l'interaction incarnée
4arXiv cs.RO 

Benchmark COIN : quand le raisonnement rencontre l'interaction incarnée

Une équipe de chercheurs a publié sur arXiv (2604.16886) COIN, pour Chain Of Interaction Benchmark, un nouveau protocole d'évaluation conçu pour mesurer la capacité des agents robotiques généralistes à raisonner et agir de manière interactive sur des tâches à horizon long. Le benchmark se structure en trois sous-ensembles : COIN-50, qui regroupe 50 tâches en environnement quotidien réaliste ; COIN-Primitive, consacré aux primitives d'action causalement dépendantes ; et COIN-Composition, de complexité intermédiaire, ciblant l'apprentissage et la généralisation de compétences. Pour constituer les données d'entraînement, les auteurs ont développé un système de télé-opération mobile en réalité augmentée à faible coût, permettant de collecter 1 000 démonstrations, 50 par tâche primitive. Trois familles d'approches ont été évaluées : CodeAsPolicy (génération de code exécutable par LLM), VLA (Vision-Language-Action models), et H-VLA (VLA hiérarchiques conditionnés au langage). Les résultats révèlent des lacunes critiques dans l'état de l'art actuel. Tous les modèles testés échouent significativement sur les tâches nécessitant un raisonnement interactif séquentiel, par exemple, ouvrir plusieurs tiroirs successifs avant de localiser et saisir un objet sous observabilité partielle. Le fossé constaté ne se situe pas tant dans la compréhension visuelle que dans le passage à l'exécution motrice : les modèles peinent à mettre à jour leurs plans en temps réel en fonction des nouvelles informations acquises à chaque étape. Ce résultat pèse directement sur les prétentions des VLA à opérer en autonomie dans des environnements non contrôlés, un signal d'alarme pour les intégrateurs qui anticipent des déploiements industriels à court terme. COIN s'inscrit dans une vague de benchmarks d'embodied AI cherchant à combler le manque de protocoles standardisés au-delà des tâches statiques de pick-and-place. Des travaux comme LIBERO, RLBench ou BEHAVIOR-1K ont posé des bases, mais aucun n'adressait explicitement la chaîne causale d'interactions sous observabilité partielle à cette granularité. La publication intervient alors que les laboratoires industriels, Physical Intelligence (pi) avec Pi-0, Google DeepMind avec RT-2 ou GR00T N2 de NVIDIA, multiplient les annonces sur la généralisation des VLA. COIN fournit un outil de comparaison indépendant, encore académique, dont l'adoption comme standard de facto dépendra de sa capacité à attirer des soumissions extérieures et à être intégré dans les pipelines d'évaluation des acteurs commerciaux.

IA physiqueActu
1 source