RecherchearXiv cs.RO 5 juin 2026

Apprentissage de la représentation du contact pour l'odométrie des jambes

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié sur arXiv (référence 2606.05501) une approche d'apprentissage de représentation auto-supervisée pour la détection de contact dans les robots à pattes, visant à améliorer l'odométrie locomotrice sans recourir à des capteurs de force aux extrémités. Le système repose exclusivement sur les encodeurs articulaires standard, présents sur la quasi-totalité des plateformes commerciales existantes. En modélisant les phases d'appui et de vol (stance et swing) de façon probabiliste, le framework permet d'estimer la vitesse du corps principal à partir de la chaîne cinématique des membres, en s'appuyant sur l'hypothèse classique que la vitesse du pied par rapport au monde est nulle en phase d'appui. Les résultats expérimentaux indiquent des performances supérieures aux méthodes supervisées nécessitant des capteurs additionnels et aux approches probabilistes de référence. Le code est publié en open source.

L'enjeu est concret : l'odométrie par jambes est une brique fondamentale pour la navigation autonome des robots quadrupèdes et bipèdes, notamment lorsque le GNSS ou la vision sont dégradés. Or, les capteurs de réaction au sol (GRF sensors) alourdissent les pieds, augmentent la complexité mécanique et sont souvent aveugles aux glissements en contact, ce qui produit des dérives d'estimation même lorsque le pied est techniquement "posé". En éliminant cette dépendance sensorielle, cette approche ouvre la voie à un déploiement sur des plateformes à budget contraint, et surtout améliore la robustesse sur surfaces glissantes ou irrégulières, scénario typique des environnements industriels ou d'inspection. La nature auto-supervisée supprime également le coût d'annotation de données, un frein classique dans les pipelines de locomotion.

Le problème de la détection fiable de la phase d'appui est étudié depuis l'essor des robots quadrupèdes comme ANYmal (ANYbotics) et Go1/Go2 (Unitree), ainsi que des bipèdes comme Spot (Boston Dynamics) ou Atlas. La majorité des stacks d'odométrie actuels, y compris ceux utilisés dans des frameworks open source comme Legged Gym ou OCS2, conservent une dépendance aux GRF sensors ou à des heuristiques de seuillage. Cette contribution s'inscrit dans une tendance plus large visant à rendre la locomotion avancée accessible sur des plateformes sans instrumentation de pointe, une direction également explorée par des labos européens comme le DLR ou l'INRIA. La prochaine étape naturelle sera la validation sur plusieurs morphologies de robots et dans des conditions de terrain dégradé, un benchmark que les auteurs n'ont pas encore publié.

Impact France/UE

L'approche intéresse directement des équipes comme l'INRIA qui travaillent sur la locomotion avancée, et pourrait être intégrée sans modification matérielle sur des plateformes européennes à budget contraint.

Dans nos dossiers

Boston Dynamics Unitree arXiv cs.RO

À lire aussi

1arXiv cs.RO

Modélisation de représentations volumétriques pour l'apprentissage de politiques de manipulation : VolumeDP

Une équipe de recherche présente VolumeDP, une nouvelle architecture pour l'apprentissage par imitation en robotique manipulatrice, décrite dans une version révisée d'un article arXiv (2603.17720v2). Le problème visé est concret : la plupart des méthodes actuelles font correspondre directement des observations d'images 2D à des sorties d'action 3D, un décalage géométrique qui nuit au raisonnement spatial et fragilise la robustesse des politiques apprises. VolumeDP corrige ce défaut en raisonnant explicitement en trois dimensions : les features issues des images sont d'abord projetées dans une représentation volumétrique via un mécanisme d'attention croisée, puis un module apprenable sélectionne les voxels pertinents pour la tâche et les convertit en un ensemble compact de tokens spatiaux, ce qui réduit fortement le calcul sans perdre la géométrie utile à l'action. Un décodeur multi-tokens exploite ensuite l'ensemble de ces tokens pour prédire les actions, évitant l'agrégation destructrice qui réduit plusieurs indices spatiaux à un seul descripteur. Résultat chiffré : 88,8% de taux de réussite moyen sur le benchmark de simulation LIBERO, soit 14,8 points de mieux que la meilleure méthode concurrente, avec des gains également marqués sur ManiSkill et LIBERO-Plus. Des essais en conditions réelles confirment la généralisation à de nouvelles dispositions spatiales, de nouveaux points de vue caméra et de nouveaux environnements. Pour les équipes qui développent des politiques de manipulation robotique, ce travail illustre une limite structurelle des architectures VLA qui traitent la 3D comme un simple sous-produit d'un flux d'images : sans représentation spatiale explicite, la robustesse aux changements de caméra ou de décor s'effondre, un problème récurrent dès qu'on sort du laboratoire. VolumeDP montre qu'ajouter un raisonnement volumétrique explicite, plutôt que de compter uniquement sur l'échelle des données ou du modèle, améliore sensiblement la généralisation, ce qui nuance l'idée reçue selon laquelle scaler les VLA suffirait à résoudre le problème spatial. Le travail s'inscrit dans la lignée des méthodes d'apprentissage par imitation ayant précédemment tenté d'intégrer une composante 3D, comme les approches de type Diffusion Policy en 3D, mais en visant une représentation volumétrique plus efficiente en calcul. Il s'agit à ce stade d'une contribution académique, publiée sur arXiv avec code et vidéos disponibles sur une page projet dédiée, et non d'un produit ou d'un système déployé commercialement. Les benchmarks utilisés (LIBERO, ManiSkill) restent des environnements de recherche standard, ce qui laissera aux prochaines étapes le soin de confirmer la tenue de ces résultats sur des tâches industrielles plus complexes.

RecherchePaper

1 source

2arXiv cs.RO

SCAR : apprentissage auto-supervisé de représentations d'actions continues

Une équipe de chercheurs a publié début mai 2026 sur arXiv (référence 2605.16412) un framework baptisé SCAR, pour Self-Supervised Continuous Action Representation Learning, visant à apprendre des représentations d'actions unifiées et transférables entre différents robots à partir de simples transitions visuelles. L'architecture repose sur un backbone génératif préentraîné, couplé à deux modules complémentaires : un modèle de dynamique inverse (IDM) qui infère des actions latentes à partir de paires d'observations, et un modèle de dynamique directe (FDM) qui prédit les états futurs conditionnés sur ces actions latentes. Pour éviter que l'espace latent ne devienne un simple goulot d'étranglement visuel générique, les auteurs régularisent la distribution postérieure des actions vers un prior gaussien standard, et introduisent une contrainte d'invariance adversariale pour supprimer les facteurs propres à chaque morphologie de robot ou à chaque environnement. Les expériences sont conduites sur les benchmarks Procgen et Robotwin, et montrent que SCAR surpasse les actions brutes spécifiques à chaque embodiment comme interface de conditionnement pour les world models, notamment en régimes de faibles données. L'enjeu industriel est significatif : l'un des verrous les plus coûteux du déploiement robotique est précisément le besoin de recollecte massive de données à chaque changement de plateforme matérielle. Si une représentation d'action partagée peut effectivement abstraire le "changement contrôlable" indépendamment de l'actuation physique, les intégrateurs pourraient réutiliser des world models pré-entraînés sur un robot pour en adapter un autre avec beaucoup moins d'exemples. SCAR apporte un argument empirique au débat sur la transférabilité des VLA (Vision-Language-Action models) : là où des architectures comme pi-0 ou GR00T N2 s'appuient sur des actions en espace proprioceptif brut, l'approche latente supervisée de façon auto-cohérente pourrait constituer une interface de conditionnement plus robuste. Le contexte est celui d'une compétition intense autour des world models pour la robotique, portée côté industrie par des acteurs comme Physical Intelligence (pi-0), NVIDIA (GR00T), et Figure AI, et côté académique par des travaux sur les modèles d'espace d'état et les représentations de politique. SCAR se distingue en traitant l'action non comme un signal de contrôle auxiliaire mais comme un facteur représentationnel à part entière, ce qui est une position théorique distincte des approches VLA classiques. Les auteurs ne mentionnent pas de code public ni de partenariat industriel dans la prépublication, et les résultats restent à confirmer sur des benchmarks physiques réels, Procgen et Robotwin étant deux environnements de simulation. L'absence de métriques sur du matériel réel est à garder à l'esprit avant toute extrapolation vers des cas industriels.

UESi validé sur matériel physique, ce framework de représentation d'actions transférables pourrait réduire les coûts de ré-entraînement pour les intégrateurs robotiques européens lors du changement de plateforme matérielle.

RechercheOpinion

1 source

3arXiv cs.RO

LACE : représentation visuelle latente pour l'apprentissage multi-robots

Une équipe de chercheurs a publié en mai 2026 sur arXiv (référence 2605.16743) un cadre d'apprentissage appelé LACE (Latent Visual Representation for Cross-Embodiment Learning), conçu pour réduire le fossé visuel entre démonstrations humaines et politiques robotiques. Les backbones d'apprentissage auto-supervisé (SSL) comme DINOv2 encodent une riche sémantique d'objets généraux, mais échouent à établir des correspondances spatiales entre mains humaines et mains robotiques. LACE aligne les représentations visuelles des deux embodiments dans l'espace latent de ces backbones, en utilisant comme supervision clairsemée les correspondances entre parties corporelles partagées, obtenues automatiquement par cinématique directe (forward kinematics). Une seule démonstration robot suffit à entraîner le modèle. L'évaluation rapporte un gain de 65 % en transfert zéro-shot pour LACE-DINO face à DINO seul, avec des améliorations consistantes en régimes de faibles données et en environnements hors-distribution. Ce résultat touche l'un des goulets d'étranglement les plus concrets du déploiement robotique: la pénurie de démonstrations robot. Collecter des trajectoires téléopérées coûte cher et ralentit l'itération. Si l'alignement inter-embodiment de LACE tient à l'échelle, les intégrateurs pourraient tirer parti de corpus vidéo humains existants (YouTube, Ego4D, etc.) pour initialiser des politiques sans investissement lourd en données robot. Le gain annoncé de 65 % mérite toutefois d'être contextualisé: le preprint ne détaille pas le nombre de tâches évaluées ni la complexité des scènes, deux facteurs déterminants pour juger de la généralisabilité réelle. LACE s'inscrit dans une vague de travaux sur le transfert cross-embodiment qui a pris de l'ampleur depuis 2023 avec des méthodes comme AnyPoint et les politiques de Physical Intelligence (Pi-0). L'approche dominante consiste à entraîner des VLA (Vision-Language-Action models) à grande échelle sur des données mixtes humain-robot, stratégie portée par DeepMind, Stanford (ALOHA/ACT) et Berkeley (OpenVLA). LACE propose une alternative plus frugale, centrée sur l'alignement de représentations plutôt que sur le volume de données. Aucun pilote industriel ni calendrier de déploiement n'est mentionné; l'article reste au stade de preprint non soumis à révision par les pairs.

RecherchePaper

1 source

4arXiv cs.RO

Data et apprentissage là où ça compte pour la manipulation à contact riche

Des chercheurs proposent une nouvelle méthode de collecte de données pour l'apprentissage de tâches de manipulation robotique à contact riche, où la précision est critique (insertion, assemblage, etc.). Décrite dans un article publié sur arXiv (arXiv:2607.15982v1), l'approche part d'un constat : les politiques apprises de bout en bout sur de larges jeux de données restent fragiles sur les tâches de haute précision et généralisent mal, notamment parce que la collecte de données manque de structure et de ciblage. Les auteurs proposent donc de concentrer la collecte dense de données uniquement sur le segment critique de contact, en s'appuyant sur une planification classique pour les mouvements simples en espace libre. Un schéma de collecte automatisée, combiné à de l'apprentissage par renforcement profond hors ligne, traite spécifiquement la phase de contact, sans dépendre de la dextérité d'un téléopérateur humain ni de mises à jour de politique en ligne. Sur quatre tâches réelles jugées difficiles, seulement 2 à 2,5 heures de collecte de données autonome suffisent pour atteindre un taux de réussite moyen de 96 %, contre 55 % pour la meilleure référence testée. Pour l'industrie robotique, ce résultat s'attaque directement à un problème central de la manipulation fine par apprentissage : le fossé entre démonstration et performance réelle, en particulier en dehors des conditions d'entraînement. Les approches de bout en bout perdent généralement en fiabilité sur des scénarios hors distribution, alors que la méthode proposée conserve un taux de réussite élevé dans ces conditions, ce qui suggère que cibler la collecte de données sur la phase de contact, plutôt que de tout apprendre uniformément, réduit la dépendance à des volumes massifs de démonstrations. Pour les intégrateurs et décideurs industriels, cela ouvre la voie à des déploiements de politiques d'assemblage ou d'insertion nécessitant beaucoup moins d'heures d'acquisition de données, et sans mobiliser un opérateur expert pendant tout le processus. Ce travail s'inscrit dans une tendance récente de la recherche en apprentissage par renforcement appliqué à la robotique, qui cherche à réduire le coût et la complexité de la téléopération humaine tout en conservant les gains de robustesse permis par l'apprentissage profond. En combinant planification traditionnelle et RL hors ligne de façon segmentée plutôt que de miser sur un unique modèle bout en bout, les auteurs proposent une piste concrète pour industrialiser les tâches de précision, un domaine où la robotique humanoïde et les bras manipulateurs peinent encore à passer de la démonstration en laboratoire au déploiement fiable en usine.

RecherchePaper

1 source