Aller au contenu principal
Apprentissage de la locomotion sur terrain discret via une détection minimale de proximité
RecherchearXiv cs.RO49min

Apprentissage de la locomotion sur terrain discret via une détection minimale de proximité

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de recherche propose d'intégrer des capteurs de proximité infrarouges directement dans les pattes d'un robot quadrupède, pour lui donner une perception "pré-contact" du terrain avant même que le pied ne touche le sol. Contrairement aux caméras de profondeur ou aux LiDAR, ces capteurs sont peu coûteux, fonctionnent à haute fréquence et restent insensibles aux auto-occlusions propres à la locomotion dynamique. Les signaux qu'ils produisent sont intégrés dans un pipeline d'apprentissage par renforcement, entraîné en simulation puis transféré sur le robot réel avec, selon les auteurs, une bonne fidélité. Les tests ont porté sur des terrains discontinus, trous et pierres de gué, des configurations réputées difficiles pour les systèmes de perception globale classiques, sujets aux occlusions et à la dérive d'estimation d'état. Le site du projet (sites.google.com/view/foot-tof) présente les démonstrations associées, qu'il convient toutefois de considérer comme des résultats de laboratoire plutôt que comme une validation en conditions réelles à grande échelle.

L'intérêt de l'approche tient à la position qu'elle occupe entre deux extrêmes du secteur : les suites de perception globale (LiDAR, caméras de profondeur), puissantes mais lourdes en calcul et sensibles aux latences et aux occlusions, et la proprioception pure, qui ne réagit qu'après l'impact. En ajoutant une couche de perception locale et quasi instantanée, ce travail illustre une tendance de fond dans la robotique locomotrice : réduire la dépendance à des pipelines de vision denses et coûteux au profit de capteurs simples exploités intelligemment par du RL. Pour les intégrateurs de robots quadrupèdes destinés à des environnements non structurés, chantiers, sites industriels, terrains extérieurs, cela ouvre la voie à des architectures moins gourmandes en puissance de calcul embarquée.

Ce travail s'inscrit dans la lignée des recherches récentes en apprentissage par renforcement pour la locomotion dynamique, qui ont déjà permis à des robots quadrupèdes de franchir des obstacles complexes en s'appuyant sur des perceptions visuelles riches. En proposant une alternative ou un complément low-cost et low-latency à ces stacks visuels, l'étude ouvre des pistes pour des déploiements ultérieurs combinant capteurs de contact et perception globale, sans toutefois préciser à ce stade de calendrier d'industrialisation.

À lire aussi

Apprentissage par renforcement neuromorphique pour la locomotion de robots quadrupèdes sur terrain accidenté
1arXiv cs.RO 

Apprentissage par renforcement neuromorphique pour la locomotion de robots quadrupèdes sur terrain accidenté

Une équipe de chercheurs a publié mi-mai 2026 sur arXiv (réf. 2605.09595) un framework d'apprentissage par renforcement basé sur l'équilibrium propagation (EP) pour contrôler la locomotion d'un quadrupède Unitree A1 à 12 degrés de liberté sur terrain accidenté. Plutôt que la rétropropagation classique, ils substituent les gradients globaux par des règles d'apprentissage locales pilotées par les états neuronaux, compatibles avec les substrats neuromorphiques et de calcul en mémoire. Le contrôleur combine un générateur de motif central (CPG) bio-inspiré avec une politique d'ajustement postural résiduel, entraîné via une variante PPO (Proximal Policy Optimization) adaptée à l'EP avec un mécanisme de clipping bilatéral du ratio pour stabiliser les mises à jour lors de la relaxation. Les résultats montrent des performances comparables à une baseline PPO classique en taux de succès, suivi de vitesse, consommation des actionneurs et stabilité corporelle, tout en réduisant la mémoire GPU de 4,3× par rapport à la rétropropagation à travers le temps (BPTT). L'ensemble des expériences reste en simulation, aucun déploiement terrain n'est documenté dans la publication. L'enjeu structurel est clair : les politiques de locomotion RL actuelles sont entraînées hors-ligne en simulation massivement parallèle, puis figées au déploiement. Elles ne s'adaptent pas à l'usure des actionneurs, aux variations de charge utile, ou au drift mécanique sur robot réel, limites critiques pour une industrialisation. En remplaçant la rétropropagation par un apprentissage local compatible avec des puces neuromorphiques (type Intel Loihi), cette approche ouvre la voie à une adaptation continue on-robot à faible consommation, sans dépendance à un GPU externe. Le gain de 4,3× en mémoire est déjà tangible pour les équipes embarquées, même si la validation reste entièrement simulée. Ces travaux s'inscrivent dans l'intense activité autour de la locomotion quadrupède par RL, dominée par l'ETH Zurich sur ANYmal et les robots Unitree. L'équilibrium propagation, formalisé par Scellier et Bengio en 2017, reste peu exploré pour le contrôle continu haute dimension, c'est l'une des premières démonstrations sur un robot à 12 DOF. Les approches concurrentes pour l'adaptation en ligne incluent RMA (Rapid Motor Adaptation, UC Berkeley) et les politiques méta-adaptatives de type MAML. L'étape suivante critique serait de valider sur hardware réel avec une puce neuromorphique embarquée et de mesurer la consommation effective en watts, deux points absents de la publication actuelle.

RecherchePaper
1 source
GuideWalk : apprentissage de la navigation autonome et de la locomotion unifiées pour robots humanoïdes sur terrains variés
2arXiv cs.RO 

GuideWalk : apprentissage de la navigation autonome et de la locomotion unifiées pour robots humanoïdes sur terrains variés

Des chercheurs présentent GuideWalk (arXiv:2606.10449, juin 2026), un framework unifié qui couple navigation autonome et locomotion adaptative pour robots humanoïdes sur terrains variés. L'architecture repose sur trois composantes : un module de navigation qui génère des guidances de vitesse explicites en tenant compte de la traversabilité du terrain, un schéma de distillation à enseignants composites qui agrège commandes directionnelles et actions dynamiquement cohérentes dans une politique unique, puis un affinement par apprentissage par renforcement (RL) couplé à un objectif auxiliaire de clonage comportemental (behavior cloning). Ce dernier mécanisme vise à maintenir les comportements souhaitables issus des enseignants tout en favorisant l'exploration. L'article reste au stade de preprint arXiv sans déploiement industriel annoncé ni métriques benchmarkées publiées dans l'abstract. Le problème technique adressé est structurant pour la robotique humanoïde : l'évitement d'obstacles et la locomotion dynamique sont habituellement traités en silos, ce qui crée des incohérences lorsqu'un robot planifie sur escaliers, sol accidenté ou transitions sol dur/mou. GuideWalk découple explicitement la planification d'obstacles de l'état du terrain, ce qui est une approche architecturale plus propre que les solutions end-to-end brutes ou les pipelines hiérarchiques rigides. Pour les intégrateurs et décideurs B2B, le vrai enjeu est le sim-to-real gap sur locomotion hétérogène : si cette architecture tient ses promesses en évaluation externe, elle pourrait réduire le besoin d'ingénierie terrain-spécifique lors du déploiement en entrepôt ou en environnement industriel non structuré. La navigation humanoïde sur terrains complexes reste un des derniers verrous majeurs avant déploiement opérationnel large, là où la locomotion pure en terrain plat est désormais relativement résolue chez Unitree (H1, G1), Boston Dynamics (Atlas) ou Agility Robotics (Digit). Des approches concurrentes comme GR00T N2 de NVIDIA ou les travaux de Physical Intelligence (Pi-0) s'attaquent au même problème via des Visual Language Action models (VLA) généralisés, tandis que des labos académiques comme CMU ou Berkeley publient régulièrement sur le sim-to-real en locomotion adaptative. GuideWalk s'inscrit dans cette vague mais avec une contribution méthodologique spécifique sur le couplage navigation-locomotion. Les prochaines étapes naturelles seraient une évaluation sur hardware réel (le preprint ne précise pas le robot utilisé) et une comparaison quantitative avec des baselines établies.

RecherchePaper
1 source
Apprentissage par renforcement sur graphe adapté à la morphologie pour la locomotion de robots tenségrité
3arXiv cs.RO 

Apprentissage par renforcement sur graphe adapté à la morphologie pour la locomotion de robots tenségrité

Des chercheurs ont publié sur arXiv (référence 2510.26067, version 2, octobre 2025) un framework d'apprentissage par renforcement intégrant un réseau de neurones à graphes (GNN) dans l'algorithme Soft Actor-Critic (SAC) pour contrôler la locomotion de robots tenségrité. Le système représente la topologie physique du robot sous forme de graphe, où chaque nœud correspond à un composant structurel (tige rigide ou câble élastique) et chaque arête encode les couplages mécaniques. Validé sur un robot tenségrité à 3 barres, le framework maîtrise trois primitives de déplacement : suivi de trajectoire en ligne droite et virage bidirectionnel. Aucun réglage supplémentaire n'a été nécessaire pour le passage simulation-vers-matériel, et les politiques apprises s'exécutent directement sur le robot physique avec une locomotion stable. Le résultat le plus significatif pour les intégrateurs et concepteurs de robots est le transfert sim-to-real sans fine-tuning : c'est précisément le point d'échec habituel des méthodes RL appliquées aux structures à dynamique fortement couplée. Les robots tenségrité combinent tiges rigides et câbles élastiques en tension permanente, ce qui rend leur dynamique sous-actionnée et difficile à modéliser fidèlement, un écart classique entre simulation et réalité. Le fait que le GNN encode explicitement les contraintes topologiques du robot explique en partie cette robustesse : la politique apprend la physique structurelle, pas seulement une carte entrée-sortie. Les résultats montrent également une meilleure efficacité d'échantillonnage et une tolérance accrue aux variations de bruit et de raideur des câbles, deux paramètres qui fluctuent inévitablement sur matériel réel. Les robots tenségrité ont émergé comme plateforme de recherche sérieuse notamment via les travaux de la NASA (robot SUPERball) et des universités comme UC Berkeley, en raison de leur légèreté et de leur résilience aux chocs, des atouts pour l'exploration spatiale ou la recherche et le sauvetage. Jusqu'ici, leur contrôle reposait essentiellement sur des politiques MLP standard ou des méthodes de contrôle classique, peu adaptées à la complexité des couplages internes. Ce travail s'inscrit dans une tendance plus large d'architectures GNN pour robots morphologiquement complexes, en compétition avec des approches comme les transformers de morphologie ou le contrôle basé modèle avec apprentissage des paramètres. Les prochaines étapes naturelles incluent l'extension à des structures plus complexes (6 barres, tenségrités sphériques) et des environnements non structurés, domaines où aucun déploiement industriel n'est encore annoncé à ce stade.

RecherchePaper
1 source
Apprentissage de la coordination visuomotrice prédictive
4arXiv cs.RO 

Apprentissage de la coordination visuomotrice prédictive

Des chercheurs ont publié sur arXiv (référence 2503.23300, version 2, juin 2026) un système de prédiction de la coordination visuomotrice humaine à partir de flux égocentrés. Concrètement, le modèle prend en entrée des images capturées par une caméra portée par l'utilisateur ainsi que des données cinématiques (positions et orientations corporelles), et prédit en sortie la pose de la tête, la direction du regard et les mouvements du haut du corps. L'architecture proposée, baptisée Visuomotor Coordination Representation (VCR), apprend des dépendances temporelles structurées entre ces signaux multimodaux. Elle s'appuie sur un cadre de modélisation du mouvement par diffusion, une famille de modèles génératifs capables de produire des trajectoires cohérentes dans le temps. L'évaluation porte sur EgoExo4D, le jeu de données à grande échelle de Meta combinant vidéos égocentrées et exocentrées d'activités du quotidien, ce qui confère aux résultats une portée de généralisation sur des scénarios variés. L'enjeu pratique est significatif pour la robotique collaborative et les interfaces homme-machine. Anticiper où un opérateur va regarder et comment il va bouger son bras dans la seconde à venir est une brique fondamentale pour des robots industriels capables d'adapter leur trajectoire sans collision, ou pour des exosquelettes qui doivent pré-charger l'assistance musculaire avant le geste. L'approche démontre que la fusion vision-cinématique surpasse les approches unimodales, ce qui valide l'hypothèse que le regard et le mouvement corporel sont couplés de façon prévisible et exploitable par un modèle appris. Pour les technologies d'assistance (aide à la mobilité, interfaces de compensation du handicap), la prédiction de l'intention motrice ouvre des pistes concrètes de réduction de latence. Ce travail s'inscrit dans un courant de recherche en pleine accélération autour de la modélisation du comportement humain en vue première personne, nourri par la montée en puissance de dispositifs portables comme les lunettes AR et les capteurs inertiels embarqués. Les approches concurrentes incluent les modèles de prédiction de gaze sur vidéo statique (Aleatoric, GazeTR) et les frameworks de prédiction de mouvement full-body comme HumanMAC ou MDM, mais peu croisent explicitement regard et cinématique dans un cadre de prédiction temporelle unifiée. La publication ne mentionne pas de calendrier de déploiement industriel ni de partenariat applicatif ; il s'agit pour l'instant d'une contribution académique, avec page projet disponible, dont la suite naturelle serait une intégration dans des pipelines d'imitation learning pour robots humanoïdes ou cobots.

RecherchePaper
1 source