RecherchearXiv cs.RO 1 juin 2026

Ne pas se faire avoir deux fois : s'adapter à l'adversité en conditions réelles grâce au raisonnement par expérience

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des robots mobiles autonomes déployés en environnements réels accumulent des erreurs qu'ils ne peuvent pas anticiper, et une équipe de chercheurs a publié sur arXiv (réf. 2605.31119) un cadre d'apprentissage continu baptisé "Don't Fool Me Twice" pour traiter ce problème. Le système observe les perturbations subies par le robot, en décrit les effets en langage naturel, puis interroge un VLM (vision-language model) enrichi de contexte visuel pour inférer leurs causes probables. La caractérisation locale de chaque perturbation s'effectue par régression à noyau, permettant une modélisation efficace en très peu d'exemples (few-shot). L'ensemble s'appuie sur un modèle spatial voxélique sémantique qui estime l'incertitude épistémique de chaque zone, permettant au robot de planifier ses trajectoires futures en tenant compte de ce qu'il a appris. Le cadre a été validé en simulation et sur matériel réel, sur plusieurs morphologies robotiques et types d'adversité, autour de quatre hypothèses formalisées dans le papier.

Ce travail comble un angle mort des approches actuelles : les VLMs peuvent dresser une liste générique des dangers d'un environnement, mais peinent à anticiper les adversités propres à une morphologie spécifique (les risques d'un robot à roues diffèrent de ceux d'un quadrupède). En basculant vers un apprentissage online post-déploiement, le système réduit l'écart sim-to-real qui handicape encore la plupart des solutions de navigation autonome en milieux ouverts. La modélisation de l'incertitude épistémique permet des comportements de récupération plus nuancés : le robot raisonne sémantiquement sur l'origine du problème, pas seulement sur l'évitement réactif.

L'approche s'inscrit dans un contexte de forte activité autour de la navigation AMR en milieux non structurés, où des acteurs comme Boston Dynamics, Clearpath Robotics ou ANYbotics cherchent à réduire la dépendance à une cartographie exhaustive préalable. Les travaux récents sur les VLMs appliqués à la prédiction de dangers, portés notamment par des groupes de CMU, ETH Zurich et Google DeepMind, se concentraient sur la prévention statique plutôt que sur l'adaptation continue après incident. "Don't Fool Me Twice" repositionne le problème sur l'apprentissage incrémental post-déploiement. Ce preprint arXiv ne mentionne ni partenaire industriel ni timeline de transfert technologique, et aucun résultat quantitatif précis n'est disponible dans le résumé soumis.

Dans nos dossiers

Boston Dynamics arXiv cs.RO

À lire aussi

1arXiv cs.RO

HandelBot : jouer du piano en conditions réelles grâce à l'adaptation rapide de politiques de manipulation dextérique

Des chercheurs présentent HandelBot, un système robotique capable de jouer du piano à deux mains avec des robots à doigts multiples, détaillé dans un preprint arXiv (arXiv:2603.12243). Le cœur de l'approche repose sur un pipeline en deux étapes : une politique initiale entraînée entièrement en simulation, suivie d'une phase d'adaptation rapide sur matériel réel. La première étape applique un raffinement structuré qui corrige les désalignements spatiaux en ajustant les articulations latérales des doigts à partir de séquences physiques réelles. La seconde étape utilise du reinforcement learning résiduel pour apprendre de manière autonome des corrections fines sur les actions. Testé sur cinq morceaux de musique reconnus, le système dépasse de 1,8x les performances d'un déploiement direct de la politique simulée, et ne nécessite que 30 minutes de données d'interaction physique pour atteindre ce niveau. Ce résultat s'attaque directement à l'un des verrous majeurs du transfert sim-to-real : les tâches exigeant une précision millimétrique. Le jeu de piano bimanuel constitue à ce titre un banc d'essai exigeant, car toute erreur de placement de doigt de l'ordre du millimètre produit une note fausse, une erreur objectivement mesurable. L'approche en RL résiduel est particulièrement pragmatique : plutôt que de rejeter la politique simulée ou de collecter des dizaines d'heures de démonstrations humaines, elle capitalise sur la simulation pour le comportement global et délègue les corrections fines à l'apprentissage sur robot réel. La faiblesse du volume de données requis, 30 minutes, est notable et pourrait réduire le coût d'adaptation pour d'autres tâches de manipulation de précision, en assemblage industriel ou en chirurgie assistée par exemple. La manipulation dextre avec des mains à doigts multiples est un problème ouvert depuis plusieurs décennies en robotique. OpenAI avait marqué le domaine en 2019 avec Dactyl, capable de résoudre un Rubik's Cube via simulation massivement distribuée, mais au prix de ressources de calcul considérables et sans généralisation démontrée. Les approches récentes s'appuient plutôt sur la téleopération (ACT, DROID) ou sur des mains sous-actionnées pour contourner la complexité de contrôle. HandelBot choisit une voie intermédiaire, en conservant la simulation comme point de départ mais en l'ancrant rapidement dans le monde physique. Le travail reste, à ce stade, une démonstration de recherche sans déploiement industriel annoncé, et les conditions de test (piano fixe, environnement contrôlé) laissent ouvertes les questions de robustesse en conditions variables. Les prochaines étapes naturelles concerneraient la généralisation à d'autres tâches de haute précision et la validation sur des plateformes matérielles variées.

RecherchePaper

1 source

2arXiv cs.RO

ManipArena : évaluation exhaustive en conditions réelles de la manipulation robotique généraliste orientée raisonnement

Le laboratoire à l'origine de ce papier arXiv (identifiant 2603.28545, version 2, soumission de type remplacement) présente ManipArena, un cadre d'évaluation standardisé pour la manipulation robotique en conditions réelles. Le benchmark couvre 20 tâches distinctes, s'appuie sur 10 812 trajectoires expertes et 13,5 millions d'images, pour un total d'environ 188 heures de fonctionnement robotique cumulées sur des scénarios de manipulation de table et de manipulation mobile. Le protocole combine variation de tâches définie par schéma, essais stratifiés en distribution, en décalage visuel et hors distribution sémantique, notation par crédit partiel au niveau des sous-tâches, annotations linguistiques à trois niveaux de granularité, signaux moteurs bas niveau, et environnements simulés jumeaux reconstruits à partir de scènes physiques réelles. Les chercheurs ont utilisé ce dispositif pour évaluer sept configurations de manipulation de table, couvrant à la fois des modèles vision-langage-action (VLA) et des modèles dits world-action. L'enjeu dépasse la simple création d'un nouveau jeu de tests. Les benchmarks en simulateur, bien que reproductibles et faciles à mettre à l'échelle, ne capturent pas fidèlement l'écart entre simulation et réel, ce dernier étant causé par le bruit de perception, la dynamique de contact, la latence et les erreurs de calibration. À l'inverse, les évaluations sur robots physiques existantes sont dispersées entre plateformes, scènes et règles de notation différentes, ce qui rend toute comparaison rigoureuse quasi impossible. Résultat clé de l'étude: les performances mesurées sur robot réel ne dépendent pas seulement de l'architecture du modèle, mais aussi de sa provenance, du régime de fine-tuning, de l'échantillonnage des données d'entraînement et de la granularité des annotations. Pour les intégrateurs et décideurs industriels, ce constat invite à relativiser fortement les annonces de performance basées uniquement sur des démonstrations vidéo ou des scores en simulation. Ce travail s'inscrit dans la course actuelle autour des modèles généralistes de contrôle robotique (VLA et world-action), un domaine où les affirmations de généralisation restent difficiles à vérifier faute de méthodologie commune. En proposant un référentiel reproductible avec attribution fine des échecs, ManipArena vise à devenir un outil diagnostique de référence pour mesurer les véritables limites de capacité de ces modèles, plutôt qu'un simple classement de plus.

RecherchePaper

1 source

3arXiv cs.RO

Raisonnement guidé par ontologie pour des explications fondées sur les affordances en navigation robotique

Des chercheurs ont publié en juin 2026 sur arXiv (2606.00117) une méthode d'explication de la navigation robotique fondée sur le raisonnement ontologique et la théorie des affordances. L'approche construit, en temps réel, une ontologie locale représentant les entités proches du robot avec leurs affordances (ce qu'elles permettent de faire), leurs états possibles, et leurs relations spatiales qualitatives. Face à un obstacle, le système ne se contente pas de détecter le blocage : il évalue des hypothèses de changement d'état -- une porte peut-elle être ouverte, une chaise déplacée -- afin de générer des explications actionnables sur la manière de poursuivre la navigation. L'approche est validée sur un benchmark centré sur un scénario de robot bibliothécaire, avec des cas de navigation générés de manière procédurale. Les résultats montrent que le raisonnement ontologique identifie les facteurs d'explication pertinents avec une précision supérieure à une approche purement sémantique (semantic-only baseline), et reste robuste lorsque la densité d'objets non pertinents augmente -- ce qu'on appelle le semantic clutter, l'un des talons d'Achille des systèmes de navigation en environnement humain réel. Pour un intégrateur déployant des robots dans des espaces partagés (entrepôts mixtes, hôpitaux, bureaux), la capacité à expliquer les décisions de navigation répond à une exigence opérationnelle et réglementaire croissante, notamment sous l'AI Act européen. L'explication n'est pas ici cosmétique : elle est structurellement liée au raisonnement, ce qui la rend vérifiable et auditable par un opérateur humain. L'approche s'inscrit dans le courant de l'IA explicable (XAI) appliquée à la robotique. La théorie des affordances, conceptualisée par le psychologue James Gibson dans les années 1970, connaît un regain d'intérêt depuis l'émergence des vision-language models (VLMs) et des LLMs. Les approches concurrentes incluent les scene graphs sémantiques utilisés par Boston Dynamics et Sanctuary AI, ainsi que les planificateurs fondés sur LLM comme SayCan (Google DeepMind). Par rapport à ces méthodes, l'ontologie locale proposée ici est plus légère et plus explicite formellement, mais reste évaluée sur un benchmark synthétique limité -- le passage à des environnements réels non contrôlés reste à démontrer. Aucun partenariat industriel ni timeline de déploiement n'est mentionné : ce travail est une contribution académique de fond, pas un produit en voie de commercialisation.

UEL'approche répond structurellement aux exigences de l'AI Act pour les systèmes autonomes navigant en environnement humain, en fournissant des explications auditables sur les décisions de navigation, pertinent pour les intégrateurs européens déployant des robots en espaces partagés.

RecherchePaper

1 source

4arXiv cs.RO

EgoWAM : des modèles monde-action au-delà des pixels grâce à des données humaines égocentriques en conditions réelles

Des chercheurs du laboratoire RL2 de Georgia Tech publient EgoWAM, un cadre de "World Action Models" qui exploite des vidéos égocentriques humaines filmées en conditions réelles pour entraîner des politiques de manipulation robotique. Le problème identifié: le clonage de comportement classique mélange des éléments transférables comme les objets, les scènes et la sémantique des tâches, avec des facteurs propres à l'humain (morphologie, mouvements de tête, style gestuel) qui n'ont rien à voir avec un bras robotique. Les auteurs testent trois cibles de prédiction du monde différentes, à backbone de politique, tête d'action et mélange de données identiques: la prédiction de pixels bruts, des caractéristiques visuelles DINO, et le flux de mouvement 3D. Sur trois tâches bimanuelles réelles, la prédiction pixel se révèle peu efficace pour le transfert humain-robot, tandis que DINO améliore la généralisation hors distribution (nouveaux objets, nouvelles scènes) jusqu'à 4 fois, et le flux 3D augmente la performance en distribution de 20 à 30%. Le résultat tranche un débat central pour l'industrie robotique: peut-on utiliser la masse de vidéos humaines disponibles sur le web comme signal d'entraînement bon marché, à la manière dont les modèles VLA (vision-langage-action) type Pi-0 de Physical Intelligence ou GR00T de NVIDIA cherchent à le faire? EgoWAM montre que oui, mais pas en imitant les pixels tels quels: il faut une représentation qui abstrait l'apparence et isole les effets physiques indépendants de l'agent, en séparant le mouvement de caméra du changement réel de l'environnement. Pour les intégrateurs et laboratoires qui misent sur la vidéo à l'échelle pour réduire le coût de collecte de données robotiques, cela oriente concrètement le choix des représentations à privilégier plutôt que la simple accumulation de séquences pixel. Le travail s'inscrit dans la lignée des modèles du monde appliqués à la robotique et des jeux de données égocentriques type Ego4D, en réponse aux limites connues du clonage de comportement pur. Le code, les tâches et les détails expérimentaux sont publiés sur gatech-rl2.github.io/egowam.github.io, sans annonce de déploiement industriel à ce stade: il s'agit d'un résultat de recherche contrôlé, pas d'un produit prêt à intégrer.

RechercheActu

1 source