Aller au contenu principal
Ne pas se faire avoir deux fois : s'adapter à l'adversité en conditions réelles grâce au raisonnement par expérience
RecherchearXiv cs.RO1h

Ne pas se faire avoir deux fois : s'adapter à l'adversité en conditions réelles grâce au raisonnement par expérience

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des robots mobiles autonomes déployés en environnements réels accumulent des erreurs qu'ils ne peuvent pas anticiper, et une équipe de chercheurs a publié sur arXiv (réf. 2605.31119) un cadre d'apprentissage continu baptisé "Don't Fool Me Twice" pour traiter ce problème. Le système observe les perturbations subies par le robot, en décrit les effets en langage naturel, puis interroge un VLM (vision-language model) enrichi de contexte visuel pour inférer leurs causes probables. La caractérisation locale de chaque perturbation s'effectue par régression à noyau, permettant une modélisation efficace en très peu d'exemples (few-shot). L'ensemble s'appuie sur un modèle spatial voxélique sémantique qui estime l'incertitude épistémique de chaque zone, permettant au robot de planifier ses trajectoires futures en tenant compte de ce qu'il a appris. Le cadre a été validé en simulation et sur matériel réel, sur plusieurs morphologies robotiques et types d'adversité, autour de quatre hypothèses formalisées dans le papier.

Ce travail comble un angle mort des approches actuelles : les VLMs peuvent dresser une liste générique des dangers d'un environnement, mais peinent à anticiper les adversités propres à une morphologie spécifique (les risques d'un robot à roues diffèrent de ceux d'un quadrupède). En basculant vers un apprentissage online post-déploiement, le système réduit l'écart sim-to-real qui handicape encore la plupart des solutions de navigation autonome en milieux ouverts. La modélisation de l'incertitude épistémique permet des comportements de récupération plus nuancés : le robot raisonne sémantiquement sur l'origine du problème, pas seulement sur l'évitement réactif.

L'approche s'inscrit dans un contexte de forte activité autour de la navigation AMR en milieux non structurés, où des acteurs comme Boston Dynamics, Clearpath Robotics ou ANYbotics cherchent à réduire la dépendance à une cartographie exhaustive préalable. Les travaux récents sur les VLMs appliqués à la prédiction de dangers, portés notamment par des groupes de CMU, ETH Zurich et Google DeepMind, se concentraient sur la prévention statique plutôt que sur l'adaptation continue après incident. "Don't Fool Me Twice" repositionne le problème sur l'apprentissage incrémental post-déploiement. Ce preprint arXiv ne mentionne ni partenaire industriel ni timeline de transfert technologique, et aucun résultat quantitatif précis n'est disponible dans le résumé soumis.

À lire aussi

HandelBot : jouer du piano en conditions réelles grâce à l'adaptation rapide de politiques de manipulation dextérique
1arXiv cs.RO 

HandelBot : jouer du piano en conditions réelles grâce à l'adaptation rapide de politiques de manipulation dextérique

Des chercheurs présentent HandelBot, un système robotique capable de jouer du piano à deux mains avec des robots à doigts multiples, détaillé dans un preprint arXiv (arXiv:2603.12243). Le cœur de l'approche repose sur un pipeline en deux étapes : une politique initiale entraînée entièrement en simulation, suivie d'une phase d'adaptation rapide sur matériel réel. La première étape applique un raffinement structuré qui corrige les désalignements spatiaux en ajustant les articulations latérales des doigts à partir de séquences physiques réelles. La seconde étape utilise du reinforcement learning résiduel pour apprendre de manière autonome des corrections fines sur les actions. Testé sur cinq morceaux de musique reconnus, le système dépasse de 1,8x les performances d'un déploiement direct de la politique simulée, et ne nécessite que 30 minutes de données d'interaction physique pour atteindre ce niveau. Ce résultat s'attaque directement à l'un des verrous majeurs du transfert sim-to-real : les tâches exigeant une précision millimétrique. Le jeu de piano bimanuel constitue à ce titre un banc d'essai exigeant, car toute erreur de placement de doigt de l'ordre du millimètre produit une note fausse, une erreur objectivement mesurable. L'approche en RL résiduel est particulièrement pragmatique : plutôt que de rejeter la politique simulée ou de collecter des dizaines d'heures de démonstrations humaines, elle capitalise sur la simulation pour le comportement global et délègue les corrections fines à l'apprentissage sur robot réel. La faiblesse du volume de données requis, 30 minutes, est notable et pourrait réduire le coût d'adaptation pour d'autres tâches de manipulation de précision, en assemblage industriel ou en chirurgie assistée par exemple. La manipulation dextre avec des mains à doigts multiples est un problème ouvert depuis plusieurs décennies en robotique. OpenAI avait marqué le domaine en 2019 avec Dactyl, capable de résoudre un Rubik's Cube via simulation massivement distribuée, mais au prix de ressources de calcul considérables et sans généralisation démontrée. Les approches récentes s'appuient plutôt sur la téleopération (ACT, DROID) ou sur des mains sous-actionnées pour contourner la complexité de contrôle. HandelBot choisit une voie intermédiaire, en conservant la simulation comme point de départ mais en l'ancrant rapidement dans le monde physique. Le travail reste, à ce stade, une démonstration de recherche sans déploiement industriel annoncé, et les conditions de test (piano fixe, environnement contrôlé) laissent ouvertes les questions de robustesse en conditions variables. Les prochaines étapes naturelles concerneraient la généralisation à d'autres tâches de haute précision et la validation sur des plateformes matérielles variées.

RecherchePaper
1 source
BEACON : co-entraînement inter-domaines de politiques robotiques génératives par adaptation au mieux
2arXiv cs.RO 

BEACON : co-entraînement inter-domaines de politiques robotiques génératives par adaptation au mieux

Une équipe de chercheurs a publié sur arXiv en mai 2026 (arXiv:2605.08571) un cadre théorique baptisé BEACON -- acronyme de Best-Effort Adaptation for Cross-Domain Co-Training -- destiné à entraîner des politiques robotiques génératives lorsque les données dans le domaine cible sont rares. L'approche repose sur un mécanisme de pondération par importance : plutôt que de mélanger naïvement des démonstrations provenant de domaines sources abondants (simulation, autres environnements) avec un faible nombre de démonstrations réelles, BEACON apprend simultanément une politique visuomotrice basée sur la diffusion et des poids par échantillon source qui minimisent une fonction objectif garantissant la généralisation sur le domaine cible. Pour rendre cela praticable sur des séquences de haute dimension, les auteurs développent des estimateurs de divergence à l'échelle de l'instance, des mises à jour alternées stochastiques, et une extension multi-sources capable de pondérer des domaines sources hétérogènes. L'enjeu est directement lié au problème du sim-to-real gap, l'un des verrous principaux de la robotique de manipulation : collecter des démonstrations téléopérées dans le monde réel reste coûteux et lent, tandis que la simulation génère des données à bas coût mais au prix d'un écart de distribution souvent fatal au déploiement. BEACON montrerait, selon les auteurs, des gains de robustesse et d'efficacité de données par rapport à trois baselines majeures -- entraînement sur cibles seules, co-entraînement à ratio fixe, et alignement de features explicite -- dans des configurations sim-to-sim, sim-to-real et manipulation multi-sources. Le résultat le plus contre-intuitif est qu'en l'absence de tout objectif d'alignement explicite, BEACON produit néanmoins un alignement de représentations comme effet émergent de la pondération par divergence. Les auteurs ne fournissent pas de taux de réussite précis dans l'abstract, ce qui limite la comparaison directe avec des benchmarks publiés. Ce travail s'inscrit dans une vague de recherches sur le transfert de politiques entre domaines, portée notamment par des méthodes comme RoboAgent, DROID, ou les approches VLA (vision-language-action) de Physical Intelligence (Pi-0) et Google DeepMind (GR00T N2), qui cherchent elles aussi à tirer parti de données hétérogènes à grande échelle. Là où ces dernières misent sur des architectures généralistes entraînées sur des corpus massifs, BEACON propose un angle complémentaire et plus frugal : exploiter intelligemment des sources existantes sans disposer de millions de démonstrations. Le code et les expériences n'étant pas encore publics, il reste à confirmer si les résultats tiennent sur des tâches de manipulation réelle complexes hors du cadre contrôlé des évaluations présentées.

RechercheOpinion
1 source
De zéro à l'autonomie en temps réel : adaptation en ligne de la dynamique dans des environnements non structurés
3arXiv cs.RO 

De zéro à l'autonomie en temps réel : adaptation en ligne de la dynamique dans des environnements non structurés

Une équipe de chercheurs propose, dans un préprint arXiv (réf. 2509.12516 v2, septembre 2025), une méthode d'adaptation en ligne des dynamiques robotiques capable de passer de zéro connaissance préalable à un contrôle sûr en quelques secondes. L'algorithme combine des encodeurs de fonctions ("function encoders") avec les moindres carrés récursifs (RLS) : les coefficients de l'encodeur sont traités comme des états latents mis à jour en continu depuis l'odométrie du robot en streaming. L'estimation s'effectue en temps constant, sans boucle interne à base de gradients, ce qui la distingue structurellement des approches de méta-apprentissage. Les expériences portent sur trois configurations : un système de Van der Pol pour valider le comportement algorithmique, un simulateur Unity pour la navigation tout-terrain haute fidélité, et un robot Clearpath Jackal en conditions réelles, notamment sur la glace d'une patinoire locale. Dans toutes ces configurations, la méthode réduit le nombre de collisions par rapport aux baselines statiques et de méta-apprentissage. L'enjeu opérationnel est direct : les transitions abruptes de terrain, comme du bitume vers de la glace ou du gravier vers de la boue, déstabilisent les planificateurs de trajectoire si le modèle dynamique ne se met pas à jour assez vite. Là où des approches comme MAML nécessitent de nombreux pas de gradient pour converger vers un nouveau régime dynamique, ce système extrait une représentation exploitable à partir de quelques secondes de données odométriques. La validation sur glace physique, environnement à très faible coefficient de frottement, renforce la crédibilité de la démonstration au-delà du seul simulateur et constitue un argument sérieux contre le "dynamics gap" souvent reproché aux méthodes d'adaptation sim-to-real. Cette recherche s'inscrit dans un courant actif autour de l'adaptation rapide pour robots mobiles, en concurrence directe avec RMA (Rapid Motor Adaptation, ETH Zürich) pour les quadrupèdes et les travaux de Berkeley sur l'adaptation contextuelle via réseaux d'encodage. Le Clearpath Jackal, plateforme différentielle de référence dans la recherche académique, facilite la reproductibilité des résultats. L'article ne mentionne aucun déploiement industriel ni partenariat commercial, mais la complexité temporelle constante de l'algorithme le rend compatible avec des contraintes embarquées réelles. La prochaine étape logique serait une validation sur flottes AMR en environnement logistique ou sur des quadrupèdes exposés à des changements de surface similaires.

RecherchePaper
1 source
SuReNav : navigation par graphe de superpixels avec relaxation de contraintes en environnements sur-contraints
4arXiv cs.RO 

SuReNav : navigation par graphe de superpixels avec relaxation de contraintes en environnements sur-contraints

Des chercheurs ont publié sur arXiv (identifiant 2602.06807) SuReNav, une méthode de navigation robotique conçue pour les environnements dits "sur-contraints", où aucun chemin ne permet d'éviter l'intégralité des obstacles. Le problème visé est concret : dans des espaces semi-statiques (couloirs partiellement encombrés, zones urbaines, campus), les planificateurs classiques échouent ou bloquent faute de solution "parfaite". SuReNav repose sur trois composantes : une carte en graphe de superpixels encodant des contraintes régionales hiérarchisées, un réseau de neurones sur graphe (GNN) entraîné sur des démonstrations humaines pour relâcher sélectivement ces contraintes, et un mécanisme d'entrelacement entre relaxation, planification et exécution en temps réel. La méthode a été évaluée sur des cartes sémantiques 2D et des environnements 3D issus d'OpenStreetMap, obtenant le meilleur score de "ressemblance humaine" parmi les baselines testées. Une démonstration en navigation urbaine réelle a été réalisée avec un quadrupède Spot de Boston Dynamics. L'apport principal est de dépasser les limites des planificateurs à coûts prédéfinis, peu transférables à des environnements inédits. En s'appuyant sur des démonstrations humaines, le GNN apprend à distinguer les zones passables "en dernier recours" des zones strictement interdites, une nuance que les heuristiques fixes peinent à capturer sans sur-estimation systématique. Pour les intégrateurs déployant des robots mobiles en milieux semi-statiques, l'enjeu est direct : le robot cesse de bloquer face à une impasse et produit une solution "best-effort" minimisant le risque traversé. La généralisation sans reconfiguration manuelle des coûts est particulièrement pertinente pour des déploiements à grande échelle. Il convient toutefois de noter que les métriques de "human-likeness" restent auto-définies par les auteurs, et que les vidéos disponibles ne couvrent qu'un sous-ensemble de scénarios. SuReNav s'inscrit dans la tendance à l'apprentissage par imitation pour la navigation mobile, un axe activement exploré par des équipes comme ETH Zurich, CMU Robotics Institute ou dans le cadre de projets EU sur la robotique en espace public. La méthode se distingue des approches VLA (Vision-Language-Action) pures par son ancrage dans une représentation spatiale structurée plutôt que dans un modèle de langage génératif, ce qui la rend plus interprétable et plus légère computationnellement. Les principaux concurrents sur ce créneau incluent des planificateurs à champ de potentiel augmentés et des méthodes de navigation par apprentissage par renforcement. Aucun déploiement commercial n'est annoncé : il s'agit d'un résultat de recherche avec validation expérimentale sur Spot, dont le code est publié sur sure-nav.github.io, ouvrant la voie à des reproductions et pilotes industriels.

UELa méthode est directement pertinente pour les projets européens déployant des robots mobiles en espaces publics semi-statiques (couloirs, campus, zones urbaines), un axe exploré par ETH Zurich et plusieurs consortiums EU, et le code ouvert facilite des pilotes industriels sur le Vieux Continent.

RecherchePaper
1 source