RecherchearXiv cs.RO 15 juin 2026

GAIT : estimation proprioceptive de l'état d'un robot à pattes par attention sur tokens inertiels

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié sur arXiv (2606.14160) une nouvelle méthode d'estimation d'état proprioceptive pour robots à pattes, baptisée GAIT. L'approche repose sur une tokenisation inertielle-jambe (Inertial-Leg, IL) couplée à un réseau d'attention : plutôt que de concaténer l'ensemble des données capteurs en un seul vecteur plat, l'architecture représente les mesures inertielles et les mesures par jambe comme des tokens distincts, puis utilise un mécanisme d'attention pour pondérer dynamiquement chaque source selon les conditions de contact courantes. La méthode a été validée sur un robot quadrupède Unitree Go1, sur des terrains encombrés de débris absents de la simulation d'entraînement, et sur des allures (gait patterns) non présentées lors de l'apprentissage.

L'enjeu de GAIT est de résoudre un problème central des estimateurs à pattes : la fiabilité des mesures de cinématique directe dépend du contact effectif du pied avec le sol. Les estimateurs classiques "contact-aided" contournent ce problème via un module de détection de contact explicite et l'hypothèse d'un appui stationnaire, ce qui les rend fragiles sur terrains irréguliers ou lors de transitions d'allure. GAIT apprend ce comportement de repondération directement depuis les données, sans estimateur de contact dédié, éliminant une source d'erreur en cascade. Les résultats montrent une supériorité sur les estimateurs d'apprentissage existants pour des allures non vues, ainsi qu'une amélioration par rapport aux méthodes modèles contact-aided, confirmant que les architectures à attention peuvent réduire le gap sim-to-real sur l'estimation proprioceptive bas-niveau.

L'estimation d'état proprioceptive reste un défi persistant en robotique à pattes : les filtres de Kalman étendu (EKF) et variantes invariantes dominent en production chez Boston Dynamics et Unitree, mais peinent sur terrains non structurés. Les approches d'apprentissage antérieures traitaient généralement les capteurs comme un vecteur plat homogène, sans différenciation structurelle entre inertielles et cinématiques. GAIT s'inscrit dans la tendance 2024-2026 d'appliquer des mécanismes d'attention aux données robotiques bas-niveau, une direction convergente avec les architectures VLA (Vision-Language-Action) pour la commande motrice. Le code n'est pas encore publié ; la prochaine étape naturelle serait une validation sur plateformes bipèdes telles que l'Unitree H1 ou le Boston Dynamics Atlas, où la phase de vol rend l'estimation d'état encore plus critique.

Dans nos dossiers

Boston Dynamics Unitree arXiv cs.RO

À lire aussi

1arXiv cs.RO

Estimation d'état proprioceptive invariante pour robots humanoïdes sur sol non inertiel

Des chercheurs proposent sur arXiv (2606.19512) un filtre de Kalman étendu invariant (InEKF) pour estimer en temps réel l'état d'un robot humanoïde se déplaçant sur un sol en mouvement, sans aucun capteur externe. L'approche exploite uniquement les IMU montées aux pieds et la cinématique du robot pour estimer la position et la vitesse de la base dans le référentiel d'un sol non-inertiel, qu'il tangue, oscille ou pivote. Testée sur le robot Digit d'Agility Robotics en station debout avec tangage et oscillation latérale, puis en marche sur un sol en rotation uni-axiale, la méthode affiche une accélération de 96 % du taux de convergence et une réduction de 80 % des erreurs de position face aux InEKF classiques. En déplacement, l'erreur moyenne reste inférieure à 9 cm pour une erreur initiale pouvant atteindre 1 mètre. L'intérêt est immédiat pour tout déploiement hors sol fixe : bateaux, véhicules logistiques, quais portuaires, plateformes vibrantes d'usine. Reposer entièrement sur la proprioception embarquée supprime la dépendance aux systèmes de localisation externe (LIDAR, caméras, motion capture) souvent absents ou peu fiables dans ces contextes. L'analyse formelle d'observabilité démontre les conditions sous lesquelles position et vitesse relatives demeurent estimables malgré l'accélération du sol, ce qui dépasse le simple résultat empirique. Les expériences ont été conduites en conditions physiques réelles plutôt qu'en simulation seule, ce qui renforce la validité des métriques, même si les scénarios restent relativement contrôlés (mono-axial, uni-directionnel). Digit est développé par Agility Robotics, spin-off de l'Oregon State University rachetée par Amazon, qui déploie l'humanoïde dans des entrepôts logistiques. La méthode InEKF pour humanoïdes s'inscrit dans un corpus académique centré sur les groupes de Lie appliqués à l'estimation en robotique de terrain. Dans la course commerciale, Tesla (Optimus), Figure (Figure 03), Boston Dynamics (Atlas) et Unitree (H1, G1) investissent massivement dans la locomotion en milieux variés, mais le sol non-inertiel demeure un angle mort des pipelines de contrôle actuels. Ce preprint est vraisemblablement soumis à IROS 2026 ou ICRA 2027 et ne représente pas encore une capacité déployée en production.

RecherchePaper

1 source

2arXiv cs.RO

Filtre de Kalman neuronal à mécanisme d'attention pour l'estimation d'état des robots à pattes

Une équipe de chercheurs a publié sur arXiv (2601.18569v2) un filtre hybride baptisé AttenNKF (Attention-Based Neural-Augmented Kalman Filter), conçu pour améliorer l'estimation d'état sur les robots à pattes. Le glissement de pied constitue la principale source d'erreur dans ces systèmes : lorsqu'un pied glisse sur une surface, la mesure cinématique viole l'hypothèse de non-glissement et injecte un biais dans l'étape de mise à jour du filtre, dégradant l'estimation de position, vitesse et orientation. La solution augmente un InEKF (Invariant Extended Kalman Filter) avec un compensateur neuronal à mécanisme d'attention, qui infère l'erreur induite par le glissement en fonction de sa sévérité et l'applique en correction post-mise-à-jour sur l'état du filtre. Ce compensateur est entraîné dans un espace latent pour réduire la sensibilité aux échelles brutes des entrées et encourager des corrections structurées, tout en préservant la récursion mathématique de l'InEKF. L'enjeu est concret pour les équipes de locomotion et les intégrateurs industriels : l'estimation d'état est la brique fondamentale du contrôle d'un robot à pattes, et une erreur non corrigée se propage dans la boucle de contrôle jusqu'à provoquer des chutes ou des trajectoires aberrantes, notamment sur sols glissants, rampes ou surfaces variables en environnement d'usine. L'approche hybride filtres classiques plus réseau de neurones léger préserve les garanties mathématiques de l'InEKF tout en ajoutant une adaptabilité aux conditions non modélisées, sans reformuler entièrement le pipeline d'estimation. Les expériences montrent des performances supérieures aux estimateurs existants sous conditions de glissement, bien que les plateformes hardware testées ne soient pas précisées dans la version publiée, ce qui limite l'évaluation comparative. L'InEKF s'est imposé comme référence pour les robots à pattes grâce à des travaux de l'Université du Michigan vers 2019-2020 sur le bipède Cassie d'Agility Robotics, exploitant son invariance aux symétries de groupe de Lie. L'augmentation par réseaux neuronaux pour corriger les non-linéarités résiduelles est une direction active chez plusieurs groupes de recherche, dont ETH Zurich sur ANYmal, MIT et Carnegie Mellon. Les déploiements réels de Spot (Boston Dynamics), Digit (Agility Robotics) et Figure 02 font tous face au problème d'estimation sous glissement en conditions industrielles, ce qui donne à cette approche une pertinence directe pour le transfert sim-to-real vers des systèmes commerciaux. La prochaine étape naturelle sera une validation embarquée sous contraintes temps-réel sur des plateformes standardisées avec benchmarks publics.

RecherchePaper

1 source

3arXiv cs.RO

Penser par proprioception : une sélection de tokens visuels ancrée sur l'état pour les modèles VLA

Voici l'article traduit et résumé : Des chercheurs présentent ThinkProprio, une nouvelle architecture pour les modèles vision-langage-action (VLA) qui pilotent les robots. Contrairement aux approches classiques où la proprioception, c'est-à-dire l'état interne du robot comme la position de ses articulations, n'intervient qu'en toute fin de traitement comme simple signal de conditionnement passif, ThinkProprio discrétise cette information en tokens compatibles avec le vocabulaire du modèle de vision-langage. Ces tokens sont ensuite utilisés conjointement avec l'instruction textuelle pour filtrer les patches visuels avant même que le calcul du VLM ne démarre. Résultat clé des expériences menées sur les bancs d'essai CALVIN et LIBERO ainsi qu'en manipulation réelle : ne conserver qu'environ 12% des tokens visuels suffit à dépasser les performances d'une baseline utilisant l'intégralité des tokens sur le protocole CALVIN ABC vers D, tout en réduisant la latence d'inférence de bout en bout. L'apport est significatif pour le secteur car il renverse une hypothèse répandue : ajouter la proprioception comme simple signal supplémentaire ne change quasiment rien aux performances, contrairement à ce qu'on pourrait attendre. La valeur n'apparaît que lorsque l'état du robot sert de requête active, en sélectionnant en amont quelles informations visuelles méritent d'être traitées. Pour les intégrateurs et équipes robotique confrontées au goulot d'étranglement de la latence d'inférence lors du déploiement de VLA sur du matériel réel, cette piste ouvre une voie concrète pour accélérer l'exécution sans sacrifier la précision des actions. Cette contribution s'inscrit dans une tendance de fond de la recherche en VLA, où des modèles comme GR00T N2, Pi-0 ou Helix intègrent généralement la proprioception de façon tardive et peu exploitée architecturalement. Face à la pression pour rendre ces modèles exécutables en temps réel embarqué, l'efficacité de l'inférence devient un axe de recherche aussi central que la précision des tâches. Les auteurs valident leur approche par des ablations systématiques montrant la supériorité des tokens de vocabulaire VLM sur des projecteurs appris, ouvrant la voie à une adoption potentielle par les laboratoires développant des modèles fondation pour la robotique embarquée.

RechercheActu

1 source

4arXiv cs.RO

PRIME : estimation inertielle et de mouvement physiquement cohérente pour robots à pattes et humanoïdes

Une équipe de chercheurs a présenté PRIME (Physically-consistent Robotic Inertial and Motion Estimation), une méthode d'estimation de mouvement pour robots à pattes et humanoïdes publiée sur arXiv en mai 2026 (arXiv:2605.17681). Là où les pipelines conventionnels basés sur des filtres de Kalman étendus (EKF) ou la capture de mouvement externe ne reconstruisent que la cinématique, PRIME formule le problème comme une estimation MAP (Maximum A Posteriori) qui raffine simultanément les données proprioceptives brutes et les commandes des actionneurs pour produire une trajectoire dynamiquement cohérente. L'algorithme estime conjointement les forces de contact frictionnelles et les paramètres inertiels du robot (masses, centres de masse, moments d'inertie), via une modélisation différentiable de la dynamique de contact avec contraintes de complémentarité lissées et un modèle de friction d'Anitescu. Les validations ont été conduites sur des robots quadrupèdes et sur l'humanoïde Unitree G1, lors de séquences de locomotion à contacts multiples en déploiement réel. Le problème abordé est structurel : les pipelines de perception robotique actuels ignorent les forces de contact et les paramètres inertiels effectifs du système, ce qui entraîne des reconstructions qui violent régulièrement la dynamique des corps rigides, en particulier lors des phases de contact. Cette incohérence dégrade la qualité des données d'entraînement et limite la robustesse des contrôleurs en boucle fermée. PRIME produit des reconstructions de mouvement annotées en forces et contacts directement depuis des robots en déploiement terrain, sans infrastructure de laboratoire. Pour les équipes qui développent des modèles de fondation robotiques ou des architectures Visual-Language-Action (VLA), cette capacité représente une source de données haute qualité exploitable à grande échelle, là où la rareté d'annotations dynamiques fiables reste un goulot d'étranglement reconnu. L'estimation d'état pour robots à pattes est un problème ancien, historiquement traité par EKF couplés à la proprioception, la capture de mouvement restant cantonnée aux laboratoires. PRIME se distingue en proposant une solution embarquée et déployable en conditions réelles, sans dépendance à une infrastructure externe. L'humanoïde Unitree G1, commercialisé autour de 16 000 dollars et très présent dans la recherche académique mondiale, sert de banc de validation représentatif. Dans un contexte où Boston Dynamics, Figure AI, Agility Robotics, 1X et Unitree accumulent des données de déploiement pour alimenter leurs pipelines d'apprentissage, PRIME propose une brique méthodologique transversale pour enrichir ces corpus avec des annotations dynamiques fiables. Les applications naturelles incluent l'imitation learning, le transfert sim-to-real et l'entraînement de modèles de fondation à partir de données terrain.

UELes équipes de recherche européennes en locomotion robotique (INRIA, LAAS-CNRS) pourraient exploiter PRIME pour enrichir leurs pipelines d'entraînement sans infrastructure de laboratoire, mais aucun acteur ou institution européen n'est directement impliqué.

RecherchePaper

1 source