Aller au contenu principal
RecherchearXiv cs.RO3h

CART : adaptation au terrain sensible au contexte par sélection de séquences temporelles pour robots à pattes

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié CART (Context-Aware Terrain Adaptation), un contrôleur de locomotion conçu pour permettre aux robots à pattes de naviguer sur des terrains complexes non structurés. Le système fusionne deux sources d'information embarquées: la proprioception (couples articulaires, accélérations du torse, contacts au sol) et l'extéroception (vision par caméra), via une architecture de sélection de séquences temporelles. Les expériences ont été réalisées sur trois plateformes: le Unitree Go2 et l'ANYmal-C d'ANYbotics en simulation sous NVIDIA IsaacSim, et un Boston Dynamics SPOT pour les essais en conditions réelles. Les gains mesurés sont significatifs: +5 % de taux de traversée réussi par rapport aux méthodes de référence, -41 % d'oscillation de la base du robot en simulation, et -22 % en conditions réelles, sans dégradation du temps de mission.

Le problème central que CART adresse est ce que les auteurs nomment le "Visual-Texture Paradox": ce que le capteur visuel détecte peut différer radicalement de ce que le robot ressent lors du contact physique (béton recouvert de sable, herbe sur substrat rocheux, revêtements peints imitant une autre texture). La majorité des systèmes d'adaptation de terrain actuels ne modélisent pas explicitement cette discordance, ce qui se traduit par des chutes ou des récupérations erratiques sur terrains difficiles. En liant l'historique des interactions proprioceptives récentes à l'apparence extéroceptive courante, CART construit une représentation contextuelle du terrain plus fiable que la vision seule. C'est une propriété directement utile pour des déploiements en extérieur: inspection d'infrastructure, logistique sur chantier, robotique minière.

La locomotion adaptative pour robots à pattes a connu des avancées majeures depuis les travaux fondateurs d'ETH Zurich sur ANYmal (2016-2022), avec des méthodes d'apprentissage par renforcement en simulation démontrant un transfert sim-to-real robuste. Boston Dynamics SPOT reste la référence commerciale sur terrains difficiles, tandis que le Unitree Go2 s'impose dans la recherche académique grâce à son coût réduit. CART se positionne comme une couche de contrôle agnostique à la plateforme, sans modification matérielle requise. Il s'agit d'un preprint arXiv (identifiant 2604.14344, avril 2026), sans déploiement ni partenaire industriel annoncé à ce stade. La validation sur des conditions météorologiques adverses et des scénarios multi-terrains plus variés constitue la prochaine étape attendue.

Impact France/UE

Impact indirect via ANYbotics (Suisse, hors UE) et l'héritage ETH Zurich sur ANYmal, mais aucun déploiement ni partenaire européen annoncé à ce stade.

À lire aussi

1arXiv cs.RO 

Seq-DeepIPC : captation séquentielle pour le contrôle de bout en bout dans la navigation de robots à pattes

Des chercheurs présentent Seq-DeepIPC (arXiv:2510.23057v2), un modèle de navigation bout-en-bout pour robots à pattes reposant sur une fusion multi-modale RGB-D et GNSS. Contrairement aux approches classiques qui séparent perception et contrôle, le système prédit conjointement la segmentation sémantique et l'estimation de profondeur à partir d'entrées séquentielles, puis génère directement les commandes moteur. L'estimation du cap global est assurée non pas par une centrale inertielle (IMU), jugée trop bruitée, mais par une analyse différentielle de coordonnées GNSS successives. Pour le déploiement embarqué, un encodeur léger réduit la charge de calcul sans dégradation significative de précision. Le système a été validé sur un robot quadrupède sur deux types de terrain, route et gazon, à partir d'un jeu de données collecté spécifiquement pour couvrir cette diversité. Le code sera mis en accès libre sur GitHub (github.com/oskarnatan/Seq-DeepIPC). L'apport principal réside dans l'extension de la navigation end-to-end, jusqu'ici dominée par les robots à roues, aux systèmes à pattes, beaucoup plus complexes cinématiquement. Les études ablatives confirment que les entrées séquentielles améliorent à la fois la perception et le contrôle dans Seq-DeepIPC, alors que les baselines testées n'en bénéficient pas, ce qui suggère une dépendance forte à la temporalité propre à la démarche quadrupède. La suppression de l'IMU est un choix architectural audacieux: elle simplifie l'intégration matérielle et évite la dérive gyroscopique, mais le papier reconnaît une fiabilité moindre du cap GNSS-seul en environnement urbain dense. Pour un intégrateur, cela signifie que le système est crédible en extérieur ouvert, mais nécessiterait une fusion sensorielle supplémentaire en milieu confiné ou bâti. La navigation end-to-end pour robots à pattes s'inscrit dans un effort de recherche plus large visant à réduire le gap de spécialisation entre planification et locomotion. Des travaux comme DeepIPC (dont Seq-DeepIPC est la suite directe) ou les architectures VLA (Vision-Language-Action) de Boston Dynamics, Unitree et ANYbotics explorent des pipelines similaires, avec des approches différentes sur la représentation de l'espace et la gestion de la mémoire temporelle. Seq-DeepIPC se distingue par sa sobriété sensorielle et sa cible embarquée, mais reste un prototype de laboratoire validé en conditions semi-contrôlées. La prochaine étape logique serait un test en environnements plus adversariaux, notamment urbains, pour quantifier les limites réelles du cap GNSS différentiel annoncées dans le papier.

RecherchePaper
1 source
Apprentissage du contrôle corps entier adapté au terrain pour la loco-manipulation perceptive de robots à pattes
2arXiv cs.RO 

Apprentissage du contrôle corps entier adapté au terrain pour la loco-manipulation perceptive de robots à pattes

Une équipe de chercheurs a publié sur arXiv (référence 2605.31343, mai 2026) un framework baptisé TA-WBC (Terrain-Aware Whole-Body Control) destiné aux manipulateurs à pattes, c'est-à-dire des robots combinant membres locomoteurs (quadrupèdes ou bipèdes) et bras articulés. Le coeur du système est une politique unifiée entraînée par apprentissage par renforcement (RL) qui pilote simultanément les jambes et le bras lors de tâches de loco-manipulation, terme désignant la capacité à se déplacer et manipuler des objets en même temps. L'architecture repose sur trois briques techniques : un encodeur d'extéroception hybride qui extrait en temps réel les caractéristiques du terrain, une méthode d'échantillonnage de l'effecteur final ancrée sur le plan de contact des pieds pour découpler la cible de manipulation des oscillations du torse, et un module de distillation à double politique pour intégrer motricité étendue et adaptabilité sans effacement catastrophique des compétences acquises. Les expériences en simulation et en environnement réel montrent une zone atteignable agrandie, une erreur de tracking réduite et moins de trébuchements imprévus. Ce travail s'attaque à une limitation structurelle des contrôleurs corps entier existants : leur dépendance quasi exclusive à la proprioception (capteurs internes, IMU, encodeurs) au détriment de l'extéroception (perception externe du terrain). En milieux industriels complexes comme les chantiers, les entrepôts en hauteur variable ou les sites nucléaires, cette lacune rend les plateformes mobiles-manipulatrices peu fiables dès que le sol n'est plus plan. Le découplage effecteur/torse est particulièrement notable pour les intégrateurs : il signifie que le bras peut maintenir une trajectoire stable même quand le corps compense une marche irrégulière, ce qui est un prérequis non négociable pour tout assemblage ou saisie de précision en terrain dégradé. La validation sim-to-real, même partielle, renforce la crédibilité d'une approche qui reste à ce stade un preprint non commercialisé. Les manipulateurs à pattes constituent une catégorie en pleine structuration. Boston Dynamics commercialise Spot avec bras depuis 2021, Unitree propose le B2W équipé d'un bras, et plusieurs laboratoires académiques majeurs (ETH Zurich, CMU, Berkeley) publient régulièrement sur la loco-manipulation. Le verrou que TA-WBC cherche à lever, la perception de topologie de terrain couplée au contrôle corps entier, est précisément ce qui freine le déploiement de ces plateformes au-delà des environnements structurés. Ce preprint n'annonce pas de produit ni de partenaire industriel ; il pose néanmoins une brique algorithmique que des acteurs comme Agility Robotics, Apptronik ou les équipes robotique de Google DeepMind pourraient intégrer dans leurs chaînes d'entraînement.

UETravail de recherche applicable aux déploiements industriels en environnements dégradés (sites nucléaires, entrepôts à topologie variable) présents en Europe, mais sans implication directe d'acteurs français ou européens.

RecherchePaper
1 source
3arXiv cs.RO 

Reconnexion spatio-temporelle pour réseaux multi-robots via des CBFs à temps prescrit adaptatif

Des chercheurs ont publié sur arXiv (ref. 2606.01526) un cadre de contrôle baptisé "adaptive prescribed-time control barrier function" (adaptive PT-CBF) pour les systèmes multi-robots. Le problème central est la gestion de la connectivité du graphe de communication : dans les déploiements réels, imposer à chaque robot de rester en permanence à portée de ses voisins est souvent incompatible avec l'efficacité opérationnelle, notamment lorsque la flotte évolue dans de grands espaces avec des portées radio limitées. Le cadre proposé permet à chaque unité de se déconnecter temporairement du réseau maillé, puis de revenir dans la plage de communication dans un délai fini, ajustable et garanti formellement. Les auteurs introduisent également un mécanisme de déclenchement de reconnexion qui pondère deux critères simultanément : l'urgence de la tâche en cours et l'urgence de la reconnexion, ce qui permet de décider de façon raisonnée à quel moment un robot doit interrompre sa mission pour rejoindre le graphe. Les résultats expérimentaux montrent une amélioration de l'efficacité des tâches avec des reconnexions respectant les délais prescrits. Ce travail s'attaque à une limitation structurelle des flottes AMR et des robots de recherche distribuée : la contrainte de connectivité permanente force souvent les robots à des trajectoires sous-optimales, réduisant le throughput global. En garantissant mathématiquement la reconnexion dans un temps fini configurable, ce cadre ouvre la voie à des politiques de déploiement plus souples sans sacrifier la cohérence de l'information au niveau de l'équipe. Pour les intégrateurs industriels, cela signifie potentiellement des architectures de flotte où des robots peuvent s'aventurer en zones de faible signal pour des tâches d'inspection ou de pick, puis revenir dans le réseau selon un budget-temps maîtrisé. Le mécanisme de déclenchement basé sur une double urgence est particulièrement pertinent pour les systèmes à contraintes temporelles (livraison, surveillance d'événement). Les control barrier functions (CBFs) sont depuis plusieurs années un outil central en robotique à sécurité critique, permettant de formuler des garanties formelles sur les contraintes d'état. Les PT-CBF, ou CBFs à temps prescrit, en sont une extension permettant de borner non seulement la satisfaction d'une contrainte, mais aussi l'horizon temporel de cette satisfaction. Ce papier s'inscrit dans un courant de recherche actif, notamment en concurrence avec des approches de consensus distribué et de communication opportuniste développées par des équipes aux États-Unis, en Europe et en Chine. Les suites naturelles incluent la validation sur des flottes physiques hétérogènes, l'extension à des topologies dynamiques et l'intégration dans des planificateurs de tâches multi-agents. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans la prépublication.

RecherchePaper
1 source
4arXiv cs.RO 

Enrichir le contexte spatial et temporel pour l'apprentissage par imitation robotique avec des graphes de scène

Des chercheurs ont publié le 1er juin 2026 sur arXiv (2606.01072) une méthode d'apprentissage par imitation qui exploite des graphes de scène dynamiques comme mécanisme de mémoire structurée pour les robots mobiles. Le principe : pendant l'exécution d'une tâche, le robot maintient un graphe de scène mis à jour en continu, qui encode les relations entre objets et leur évolution dans le temps. Plutôt que de traiter uniquement les observations courantes du capteur, le système capitalise sur l'historique accrété de l'environnement pour inférer des politiques d'action. Les validations couvrent deux régimes : manipulation mobile en simulation (environnements à grande échelle spatialement) et manipulation sur table en conditions réelles. Les auteurs rapportent une amélioration substantielle des performances par rapport aux baselines, particulièrement sur des tâches nécessitant un raisonnement à long terme, sans donner de métriques chiffrées précises dans l'abstract. Ce travail s'attaque à deux verrous persistants du déploiement de robots apprenants dans des environnements non-structurés. Le premier est l'observabilité partielle : dans un appartement ou un bureau, le champ de vision d'un robot ne capture qu'une fraction de l'espace pertinent, et les objets manipulés disparaissent régulièrement du cadre. Le second est l'horizon temporel : des tâches comme "ranger la cuisine" enchaînent des dizaines de sous-tâches dont les dépendances ne sont pas localement visibles. En substituant un graphe de scène explicite et structuré à une mémoire implicite (fenêtre d'observations brutes, état caché LSTM), l'approche donne au robot une représentation interprétable et modulaire du contexte. Pour les intégrateurs industriels et les équipes qui déploient des politiques d'imitation dans des environnements semi-structurés, c'est une piste crédible pour réduire le gap entre démo de labo et robustesse opérationnelle, même si les expériences restent pour l'instant confinées à la simulation et au tabletop. L'apprentissage par imitation (behavioral cloning, GAIL, DAgger) a connu un regain d'intérêt majeur avec l'essor des Visual Language Action models (VLA) comme Pi-0 de Physical Intelligence, RT-2 de Google DeepMind, ou OpenVLA. Les graphes de scène sont une technique éprouvée en vision par ordinateur et en navigation robotique (travaux de Armeni, Rosinol, Chang notamment), mais leur intégration dans des pipelines d'imitation learning reste peu explorée. Les approches concurrentes pour gérer la mémoire à long terme incluent les transformers avec attention sur un historique d'observations, les représentations de tâches hiérarchiques (task graphs), et les world models latents. Ce preprint n'étant pas encore évalué par les pairs, ses résultats méritent confirmation sur des benchmarks plus larges et des environnements réellement non-structurés avant de pouvoir orienter des décisions d'architecture. Les auteurs n'annoncent pas de code public ni de suite industrielle à ce stade.

RechercheOpinion
1 source