CloSE : une représentation d'état du tissu…

43

1arXiv cs.RO

EDAR : apprentissage de représentations d'actions dépendantes de l'environnement pour la manipulation robotique

EDAR (Environment-Dependent Action Representation) est une nouvelle méthode d'apprentissage de représentations d'actions pour la manipulation robotique, présentée dans un article publié sur arXiv (référence 2607.11427v1). Le problème que les auteurs cherchent à résoudre est que les trajectoires de contrôle brutes utilisées pour entraîner des politiques robotiques sont bruitées, redondantes et difficiles à modéliser telles quelles. Les approches existantes se contentent généralement d'encoder la structure du flux d'actions lui-même, sans tenir compte explicitement de l'environnement dans lequel ces actions sont exécutées. EDAR propose au contraire de coupler les commandes moteur avec leurs effets visuels attendus, conditionnés par le contexte de la scène, afin que la représentation apprise capture la sémantique de l'interaction plutôt que de simples motifs au niveau des commandes. Les auteurs ont testé leur méthode sur des bancs d'essai de manipulation à la fois simulés et sur robot réel. Cette approche s'attaque à un angle mort connu des architectures VLA (vision-language-action) actuelles: le même segment d'action peut produire des résultats radicalement différents selon la disposition des objets, les propriétés physiques de la scène ou l'état initial de l'environnement. En ancrant les tokens d'action dans les conséquences visuelles attendues plutôt que dans la seule structure de commande, EDAR vise à améliorer la généralisation des politiques apprises, en particulier sur des tâches de manipulation à long horizon, où les erreurs de représentation s'accumulent au fil des étapes. Pour les équipes qui développent des politiques de manipulation généralistes, ce type de travail illustre une tendance de fond: le passage d'une modélisation purement centrée sur le contrôle vers des représentations conjointes action-perception, jugées nécessaires pour que les modèles de fondation robotiques (dans la lignée de GR00T N2, Pi-0 ou Helix) tiennent leurs promesses au-delà des démonstrations en environnement contrôlé. Le papier s'inscrit dans un courant de recherche plus large sur les représentations d'actions pour la robotique, où plusieurs travaux récents ont exploré la tokenisation d'actions, l'apprentissage par imitation conditionné par la vision, ou les modèles du monde pour anticiper les conséquences des actions. EDAR se positionne comme une contribution méthodologique plutôt qu'un produit ou un système déployé: il n'y a pas d'annonce de déploiement industriel ni de partenariat commercial associé à ce travail, qui reste à ce stade une publication de recherche évaluée sur des bancs d'essai académiques. Les prochaines étapes attendues pour ce type de travaux sont généralement l'intégration dans des pipelines VLA plus larges et des tests de transfert sur des plateformes robotiques commerciales, mais aucune feuille de route de ce type n'est mentionnée dans l'abstract.

RecherchePaper

1 source

Apprentissage de la représentation du contact pour l'odométrie des jambes

47

2arXiv cs.RO

Apprentissage de la représentation du contact pour l'odométrie des jambes

Une équipe de chercheurs a publié sur arXiv (référence 2606.05501) une approche d'apprentissage de représentation auto-supervisée pour la détection de contact dans les robots à pattes, visant à améliorer l'odométrie locomotrice sans recourir à des capteurs de force aux extrémités. Le système repose exclusivement sur les encodeurs articulaires standard, présents sur la quasi-totalité des plateformes commerciales existantes. En modélisant les phases d'appui et de vol (stance et swing) de façon probabiliste, le framework permet d'estimer la vitesse du corps principal à partir de la chaîne cinématique des membres, en s'appuyant sur l'hypothèse classique que la vitesse du pied par rapport au monde est nulle en phase d'appui. Les résultats expérimentaux indiquent des performances supérieures aux méthodes supervisées nécessitant des capteurs additionnels et aux approches probabilistes de référence. Le code est publié en open source. L'enjeu est concret : l'odométrie par jambes est une brique fondamentale pour la navigation autonome des robots quadrupèdes et bipèdes, notamment lorsque le GNSS ou la vision sont dégradés. Or, les capteurs de réaction au sol (GRF sensors) alourdissent les pieds, augmentent la complexité mécanique et sont souvent aveugles aux glissements en contact, ce qui produit des dérives d'estimation même lorsque le pied est techniquement "posé". En éliminant cette dépendance sensorielle, cette approche ouvre la voie à un déploiement sur des plateformes à budget contraint, et surtout améliore la robustesse sur surfaces glissantes ou irrégulières, scénario typique des environnements industriels ou d'inspection. La nature auto-supervisée supprime également le coût d'annotation de données, un frein classique dans les pipelines de locomotion. Le problème de la détection fiable de la phase d'appui est étudié depuis l'essor des robots quadrupèdes comme ANYmal (ANYbotics) et Go1/Go2 (Unitree), ainsi que des bipèdes comme Spot (Boston Dynamics) ou Atlas. La majorité des stacks d'odométrie actuels, y compris ceux utilisés dans des frameworks open source comme Legged Gym ou OCS2, conservent une dépendance aux GRF sensors ou à des heuristiques de seuillage. Cette contribution s'inscrit dans une tendance plus large visant à rendre la locomotion avancée accessible sur des plateformes sans instrumentation de pointe, une direction également explorée par des labos européens comme le DLR ou l'INRIA. La prochaine étape naturelle sera la validation sur plusieurs morphologies de robots et dans des conditions de terrain dégradé, un benchmark que les auteurs n'ont pas encore publié.

UEL'approche intéresse directement des équipes comme l'INRIA qui travaillent sur la locomotion avancée, et pourrait être intégrée sans modification matérielle sur des plateformes européennes à budget contraint.

RecherchePaper

1 source

Un modèle de représentation universel pour la manipulation dextérique unifiée

42

3arXiv cs.RO

Un modèle de représentation universel pour la manipulation dextérique unifiée

Une équipe de chercheurs propose OHRA (One Hand to Rule Them All), un cadre de représentation canonique paramétrisée visant à unifier les politiques de manipulation dextère sur des mains robotiques de morphologies très différentes. Constat de départ : les politiques d'apprentissage actuelles supposent une architecture de main fixe et ne se transfèrent pas sans réentraînement complet. Le système combine un espace de paramètres unifié capturant les variations cinématiques et morphologiques essentielles, et un format URDF canonique standardisant l'espace d'action tout en préservant les propriétés dynamiques de chaque main d'origine. Un VAE (Variational Autoencoder) est entraîné sur cet espace pour produire un plongement latent compact et sémantiquement cohérent. Résultat clé : la politique de préhension conditionnée sur cette représentation atteint 81,9 % de succès en transfert zéro-shot sur une LEAP Hand à 3 doigts, morphologie non vue pendant l'entraînement, validée en simulation et sur tâches réelles. L'enjeu est directement industriel : la fragmentation des designs de mains, Shadow Robotics, LEAP, Allegro, Ability Hand, rend les politiques non portables d'un hardware à l'autre. Un cadre partagé permettrait à un intégrateur de réentraîner une politique existante sur un nouveau manipulateur sans repartir de zéro, comprimant les coûts de déploiement. Le score de 81,9 % en zéro-shot sur une configuration inédite est un signal mesurable que le "morphology gap", l'analogue du sim-to-real gap appliqué aux architectures de mains, commence à être adressé. Le fait que les interpolations dans l'espace latent produisent des transitions morphologiques physiquement cohérentes indique que le VAE capture une géométrie fonctionnelle, pas seulement statistique. Ce travail s'inscrit dans la dynamique plus large de l'apprentissage cross-embodiment, aux côtés de travaux comme UniDexGrasp, DexGraspNet ou les approches fondées sur des VLA (Vision-Language-Action models). Sur le plan concurrentiel, Google DeepMind, Physical Intelligence (Pi-0) et Unitree investissent dans des politiques généralisables, mais l'angle "unification par représentation canonique de la morphologie de main" reste peu exploré industriellement. Les suites naturelles incluent l'extension à la manipulation bimanuelle, aux mains à plus de 5 doigts, et l'intégration dans des pipelines de téléopération. Aucun déploiement commercial ni partenariat industriel n'est annoncé à ce stade.

RecherchePaper

1 source

MotionVLA : intégration du mouvement géométrique dans un modèle vision-langage-action (VLA)

41

4arXiv cs.RO

MotionVLA : intégration du mouvement géométrique dans un modèle vision-langage-action (VLA)

Un preprint déposé sur arXiv le 9 juin 2026 (arXiv:2606.08288) introduit MotionVLA, une interface de mémoire motrice conçue pour améliorer les modèles vision-language-action appliqués à la manipulation robotique longue portée. Le principe : plutôt qu'alimenter le modèle avec une séquence d'images passées traitées indépendamment, MotionVLA convertit une courte fenêtre vidéo récente en tokens de champ de trajectoire (trajectory-field tokens), compacts et temporellement continus. Ces tokens encodent le mouvement cohérent entre les observations, et les tokens visuels courants les interrogent pour extraire les informations de mouvement pertinentes à la tâche en cours. Le tout est réinjecté dans le flux VLA via une supervision ancrée sur les trajectoires. Les auteurs rapportent des améliorations sur des benchmarks de simulation ainsi que des essais préliminaires sur robot réel, avec des exécutions décrites comme plus fluides et plus directes. L'enjeu est théorique, mais les implications pratiques sont directes. Les VLA actuels -- pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure) -- cherchent à résoudre l'ambiguïté des tâches longues en injectant toujours plus de contexte : historique d'images, profondeur, features 4D. L'hypothèse implicite est "plus de contexte spatio-temporel équivaut à une meilleure politique". MotionVLA conteste cette hypothèse : un contexte incohérent en termes de mouvement introduit de la dérive géométrique, des indices temporels fragmentés et une génération d'actions instable. Reformuler la mémoire comme un champ de mouvement plutôt que comme un empilement de frames résout le problème à la source, ce qui intéresse directement les équipes cherchant à stabiliser des VLA en déploiement industriel sans exploser le budget de calcul. Ce travail s'inscrit dans une course intense à l'architecture VLA optimale. Les approches concurrentes incluent les modèles à base de profondeur (SpatialVLA), de features 4D (CogACT), ou de diffusion de trajectoires (pi-0). MotionVLA se rapproche davantage des travaux sur le flot optique dense et les représentations de mouvement continu. Deux mises en garde s'imposent : les résultats sur robot réel sont explicitement qualifiés de "préliminaires" par les auteurs, et aucun chiffre de benchmark précis n'est disponible dans la publication actuelle. À ce stade, il s'agit d'une contribution de recherche, non d'un produit industrialisé ni d'une démonstration validée à l'échelle.

RechercheOpinion

1 source

CloSE : une représentation d'état du tissu indépendante de la forme géométrique

À lire aussi

EDAR : apprentissage de représentations d'actions dépendantes de l'environnement pour la manipulation robotique

Apprentissage de la représentation du contact pour l'odométrie des jambes

Un modèle de représentation universel pour la manipulation dextérique unifiée

MotionVLA : intégration du mouvement géométrique dans un modèle vision-langage-action (VLA)