Aller au contenu principal
Apprentissage de la représentation du contact pour l'odométrie des jambes
RecherchearXiv cs.RO2h

Apprentissage de la représentation du contact pour l'odométrie des jambes

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié sur arXiv (référence 2606.05501) une approche d'apprentissage de représentation auto-supervisée pour la détection de contact dans les robots à pattes, visant à améliorer l'odométrie locomotrice sans recourir à des capteurs de force aux extrémités. Le système repose exclusivement sur les encodeurs articulaires standard, présents sur la quasi-totalité des plateformes commerciales existantes. En modélisant les phases d'appui et de vol (stance et swing) de façon probabiliste, le framework permet d'estimer la vitesse du corps principal à partir de la chaîne cinématique des membres, en s'appuyant sur l'hypothèse classique que la vitesse du pied par rapport au monde est nulle en phase d'appui. Les résultats expérimentaux indiquent des performances supérieures aux méthodes supervisées nécessitant des capteurs additionnels et aux approches probabilistes de référence. Le code est publié en open source.

L'enjeu est concret : l'odométrie par jambes est une brique fondamentale pour la navigation autonome des robots quadrupèdes et bipèdes, notamment lorsque le GNSS ou la vision sont dégradés. Or, les capteurs de réaction au sol (GRF sensors) alourdissent les pieds, augmentent la complexité mécanique et sont souvent aveugles aux glissements en contact, ce qui produit des dérives d'estimation même lorsque le pied est techniquement "posé". En éliminant cette dépendance sensorielle, cette approche ouvre la voie à un déploiement sur des plateformes à budget contraint, et surtout améliore la robustesse sur surfaces glissantes ou irrégulières, scénario typique des environnements industriels ou d'inspection. La nature auto-supervisée supprime également le coût d'annotation de données, un frein classique dans les pipelines de locomotion.

Le problème de la détection fiable de la phase d'appui est étudié depuis l'essor des robots quadrupèdes comme ANYmal (ANYbotics) et Go1/Go2 (Unitree), ainsi que des bipèdes comme Spot (Boston Dynamics) ou Atlas. La majorité des stacks d'odométrie actuels, y compris ceux utilisés dans des frameworks open source comme Legged Gym ou OCS2, conservent une dépendance aux GRF sensors ou à des heuristiques de seuillage. Cette contribution s'inscrit dans une tendance plus large visant à rendre la locomotion avancée accessible sur des plateformes sans instrumentation de pointe, une direction également explorée par des labos européens comme le DLR ou l'INRIA. La prochaine étape naturelle sera la validation sur plusieurs morphologies de robots et dans des conditions de terrain dégradé, un benchmark que les auteurs n'ont pas encore publié.

Impact France/UE

L'approche intéresse directement des équipes comme l'INRIA qui travaillent sur la locomotion avancée, et pourrait être intégrée sans modification matérielle sur des plateformes européennes à budget contraint.

À lire aussi

SCAR : apprentissage auto-supervisé de représentations d'actions continues
1arXiv cs.RO 

SCAR : apprentissage auto-supervisé de représentations d'actions continues

Une équipe de chercheurs a publié début mai 2026 sur arXiv (référence 2605.16412) un framework baptisé SCAR, pour Self-Supervised Continuous Action Representation Learning, visant à apprendre des représentations d'actions unifiées et transférables entre différents robots à partir de simples transitions visuelles. L'architecture repose sur un backbone génératif préentraîné, couplé à deux modules complémentaires : un modèle de dynamique inverse (IDM) qui infère des actions latentes à partir de paires d'observations, et un modèle de dynamique directe (FDM) qui prédit les états futurs conditionnés sur ces actions latentes. Pour éviter que l'espace latent ne devienne un simple goulot d'étranglement visuel générique, les auteurs régularisent la distribution postérieure des actions vers un prior gaussien standard, et introduisent une contrainte d'invariance adversariale pour supprimer les facteurs propres à chaque morphologie de robot ou à chaque environnement. Les expériences sont conduites sur les benchmarks Procgen et Robotwin, et montrent que SCAR surpasse les actions brutes spécifiques à chaque embodiment comme interface de conditionnement pour les world models, notamment en régimes de faibles données. L'enjeu industriel est significatif : l'un des verrous les plus coûteux du déploiement robotique est précisément le besoin de recollecte massive de données à chaque changement de plateforme matérielle. Si une représentation d'action partagée peut effectivement abstraire le "changement contrôlable" indépendamment de l'actuation physique, les intégrateurs pourraient réutiliser des world models pré-entraînés sur un robot pour en adapter un autre avec beaucoup moins d'exemples. SCAR apporte un argument empirique au débat sur la transférabilité des VLA (Vision-Language-Action models) : là où des architectures comme pi-0 ou GR00T N2 s'appuient sur des actions en espace proprioceptif brut, l'approche latente supervisée de façon auto-cohérente pourrait constituer une interface de conditionnement plus robuste. Le contexte est celui d'une compétition intense autour des world models pour la robotique, portée côté industrie par des acteurs comme Physical Intelligence (pi-0), NVIDIA (GR00T), et Figure AI, et côté académique par des travaux sur les modèles d'espace d'état et les représentations de politique. SCAR se distingue en traitant l'action non comme un signal de contrôle auxiliaire mais comme un facteur représentationnel à part entière, ce qui est une position théorique distincte des approches VLA classiques. Les auteurs ne mentionnent pas de code public ni de partenariat industriel dans la prépublication, et les résultats restent à confirmer sur des benchmarks physiques réels, Procgen et Robotwin étant deux environnements de simulation. L'absence de métriques sur du matériel réel est à garder à l'esprit avant toute extrapolation vers des cas industriels.

UESi validé sur matériel physique, ce framework de représentation d'actions transférables pourrait réduire les coûts de ré-entraînement pour les intégrateurs robotiques européens lors du changement de plateforme matérielle.

RechercheOpinion
1 source
LACE : représentation visuelle latente pour l'apprentissage multi-robots
2arXiv cs.RO 

LACE : représentation visuelle latente pour l'apprentissage multi-robots

Une équipe de chercheurs a publié en mai 2026 sur arXiv (référence 2605.16743) un cadre d'apprentissage appelé LACE (Latent Visual Representation for Cross-Embodiment Learning), conçu pour réduire le fossé visuel entre démonstrations humaines et politiques robotiques. Les backbones d'apprentissage auto-supervisé (SSL) comme DINOv2 encodent une riche sémantique d'objets généraux, mais échouent à établir des correspondances spatiales entre mains humaines et mains robotiques. LACE aligne les représentations visuelles des deux embodiments dans l'espace latent de ces backbones, en utilisant comme supervision clairsemée les correspondances entre parties corporelles partagées, obtenues automatiquement par cinématique directe (forward kinematics). Une seule démonstration robot suffit à entraîner le modèle. L'évaluation rapporte un gain de 65 % en transfert zéro-shot pour LACE-DINO face à DINO seul, avec des améliorations consistantes en régimes de faibles données et en environnements hors-distribution. Ce résultat touche l'un des goulets d'étranglement les plus concrets du déploiement robotique: la pénurie de démonstrations robot. Collecter des trajectoires téléopérées coûte cher et ralentit l'itération. Si l'alignement inter-embodiment de LACE tient à l'échelle, les intégrateurs pourraient tirer parti de corpus vidéo humains existants (YouTube, Ego4D, etc.) pour initialiser des politiques sans investissement lourd en données robot. Le gain annoncé de 65 % mérite toutefois d'être contextualisé: le preprint ne détaille pas le nombre de tâches évaluées ni la complexité des scènes, deux facteurs déterminants pour juger de la généralisabilité réelle. LACE s'inscrit dans une vague de travaux sur le transfert cross-embodiment qui a pris de l'ampleur depuis 2023 avec des méthodes comme AnyPoint et les politiques de Physical Intelligence (Pi-0). L'approche dominante consiste à entraîner des VLA (Vision-Language-Action models) à grande échelle sur des données mixtes humain-robot, stratégie portée par DeepMind, Stanford (ALOHA/ACT) et Berkeley (OpenVLA). LACE propose une alternative plus frugale, centrée sur l'alignement de représentations plutôt que sur le volume de données. Aucun pilote industriel ni calendrier de déploiement n'est mentionné; l'article reste au stade de preprint non soumis à révision par les pairs.

RecherchePaper
1 source
HARP-VLA : apprentissage de représentations alignées humain-robot pour modèle vision-langage-action
3arXiv cs.RO 

HARP-VLA : apprentissage de représentations alignées humain-robot pour modèle vision-langage-action

Des chercheurs ont publié le 31 mai 2026 HARP-VLA (Human-Robot Aligned Representation Learning for Vision-Language-Action), un framework de pré-entraînement conçu pour exploiter les vastes corpus de vidéos humaines dans l'apprentissage de politiques de manipulation robotique. Le coeur de l'approche repose sur deux composants entraînés conjointement : un encodeur visuel adapté aux robots et un modèle d'action latente. L'entraînement combine un petit nombre de démonstrations appariées humain-robot utilisées comme ponts inter-embodiment, et une quantité bien plus importante de vidéos non appariées des deux types comme supervision de dynamique. Sur le benchmark CALVIN ABC-D, HARP-VLA atteint un score moyen de 4,481 tâches consécutives réussies, et enregistre un gain de 7,1 points de pourcentage de taux de succès en conditions réelles par rapport à la meilleure baseline testée. Le problème que résout HARP est structurel pour tout le champ des VLA (Vision-Language-Action models) : les vidéos humaines sont abondantes et bon marché, mais les représentations visuelles qu'on en extrait sont mal alignées avec celles d'un robot, ce qui rend le co-entraînement inefficace voire contre-productif. Les modèles d'action latente existants, comme ceux utilisés dans les travaux sur UniPi ou Genie, réduisaient déjà le gap d'exécution en apprenant des abstractions d'action, mais restaient dépendants de features visuelles non alignées induisant des actions latentes domain-dépendantes. HARP introduit une perte d'alignement par discrimination relative de paires (source-relative pair-discriminative alignment loss) qui adapte les représentations robot vers la sémantique humaine sans effacer la discrimination inter-paires. Pour les intégrateurs et les équipes de recherche en manipulation, c'est un signal concret que le sim-to-real gap peut être partiellement adressé au niveau de la représentation, pas seulement du domaine de simulation. Ce travail s'inscrit dans une lignée de recherches sur l'apprentissage inter-embodiment qui a pris de l'ampleur depuis RT-2 (Google DeepMind, 2023) et OpenVLA (2024), lesquels montraient qu'un pré-entraînement sur données humaines ou web pouvait transférer vers des politiques robotiques. Les approches concurrentes directes incluent Octo, pi-0 de Physical Intelligence, et GR00T N2 de NVIDIA, tous confrontés à la même tension entre généralisation cross-embodiment et performance sur tâches précises. HARP se distingue en n'exigeant que peu de démonstrations appariées, ce qui réduit le coût de collecte de données. L'article reste pour l'instant une publication arXiv sans déploiement industriel annoncé, et les résultats en conditions réelles, bien que positifs, portent sur un nombre limité de configurations de manipulation.

RechercheOpinion
1 source
ViTacFormer : apprentissage de représentations cross-modales pour la manipulation dextérique vision-tactile
4arXiv cs.RO 

ViTacFormer : apprentissage de représentations cross-modales pour la manipulation dextérique vision-tactile

Une équipe de chercheurs a publié en juin 2025 ViTacFormer, une architecture d'apprentissage de représentations multi-modales pour la manipulation dextre robotique. Le système couple un encodeur cross-attention fusionnant vision haute résolution et données tactiles avec une tête de prédiction autoregressive des signaux de contact futurs, entraîné selon un curriculum progressif allant des tâches simples aux plus complexes. La représentation apprise pilote un module d'imitation learning pour des mains anthropomorphes multi-doigts. Sur des benchmarks réels en laboratoire, ViTacFormer dépasse les systèmes état de l'art précédents d'environ 50 %, enchaîne jusqu'à 11 étapes séquentielles sans intervention humaine et maintient une opération continue de 2,5 minutes sur des tâches de manipulation de précision. L'architecture répond à un verrou concret de la manipulation fine : les occlusions visuelles rendent la vision seule insuffisante lorsque la main cache l'objet, un problème que les capteurs tactiles résolvent mais que peu de systèmes intègrent de façon apprenante. La prédiction anticipée des contacts plutôt que leur simple détection réactive réduit la latence de contrôle, décisive pour les gestes de précision. La capacité à enchaîner 11 sous-tâches ouvre une voie pour l'assemblage multi-étapes industriel, où les robots classiques nécessitent actuellement une programmation explicite à chaque étape. Ces résultats restent cependant des benchmarks de laboratoire contrôlés ; la distance avec un déploiement en ligne de production réelle, où la variabilité des pièces et la robustesse du capteur tactile dans le temps sont critiques, demeure entière. ViTacFormer s'inscrit dans une vague de travaux combinant modèles VLA (Vision-Language-Action) et retour haptique, explorée également par Google DeepMind (Robotic Transformer), Physical Intelligence (Pi-0) et des startups comme Dexterous AI. Côté matériel, la dépendance aux mains anthropomorphes multi-doigts reste un frein à la commercialisation : Shadow Robot (UK) et Inspire-Robots (CN) dominent ce segment, mais à des coûts et avec une fiabilité mécanique qui limitent encore les déploiements industriels à grande échelle. Le travail est publié sous forme de preprint arXiv (arXiv:2506.15953), sans code ni dataset public annoncé à ce stade ; la transition vers des résultats reproductibles et des pilotes hors laboratoire constitue l'étape critique à surveiller.

RechercheOpinion
1 source