RecherchearXiv cs.RO 10 juin 2026

Politiques hiérarchiques à partir de signaux verbaux et égocentrés pour l'interaction naturelle homme-robot

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs ont présenté EDITH (Egocentric Data for Intent from The Human), un cadre de contrôle robotique qui intègre les signaux non-verbaux humains, notamment le regard et la vue égo-centrique, comme entrées directes d'une politique de robot, en complément des instructions verbales. Le système repose sur des lunettes intelligentes portées par l'opérateur, qui diffusent en temps réel un flux vidéo à la première personne, le point de regard (gaze tracking) et la parole transcrite automatiquement en texte. Une architecture hiérarchique à deux niveaux traite ces signaux : un module haut niveau infère l'intention et génère une séquence de sous-tâches, chacune représentée par une instruction textuelle fine associée à une image-clé (keyframe) ancrant l'objet cible dans la scène ; un module bas niveau exécute ensuite ces sous-tâches sur le robot physique. Les expériences sur des tâches interactives montrent qu'EDITH réagit à des signaux non-verbaux exprimés très brièvement et réduit significativement l'effort de communication par rapport à une interface purement textuelle.

L'enjeu industriel est direct : les politiques robotiques actuelles reposent exclusivement sur des commandes linguistiques explicites, forçant l'opérateur à verbaliser chaque intention, une friction significative dans les environnements collaboratifs et sur les lignes d'assemblage. En capturant le geste et le regard comme canaux implicites, EDITH rapproche l'interaction humain-robot des modes naturels de collaboration entre humains et ouvre une voie vers des manipulateurs plus accessibles à des opérateurs non formés. La représentation en keyframe ancre l'intention dans la scène réelle plutôt que dans un espace de tokens abstrait, adressant partiellement le gap entre instructions ambiguës et exécution physique précise, une limitation bien documentée des approches VLA (Vision-Language-Action) à entrée textuelle seule.

EDITH s'inscrit dans un mouvement plus large de politiques multimodales pour la manipulation robotique, aux côtés de travaux comme Pi-0 de Physical Intelligence, OpenVLA ou GR00T N2 de NVIDIA, qui combinent vision et langage mais conservent le texte comme unique interface d'intention. L'originalité d'EDITH réside dans l'exploitation du gaze tracking comme signal de sélection d'objet implicite, une approche étudiée en recherche mais rarement intégrée dans une politique bout-en-bout déployée sur robot réel. Le travail, publié en preprint sur arXiv (2606.10276), inclut le code source et des vidéos de démonstration sur robot physique, mais ne mentionne aucun partenaire industriel ni timeline de déploiement commercial. Les prochaines étapes naturelles concerneront la robustesse du gaze tracking en environnement industriel bruité et la validation sur des tâches d'assemblage plus complexes.

Dans nos dossiers

NVIDIA GR00T Physical Intelligence — π0 OpenVLA / RT-X Manipulation robotique

À lire aussi

1arXiv cs.RO

ZeroWBC : apprentissage de l'interaction naturelle corps entier pour humanoïdes à partir de données égocentrées humaines

Une équipe de recherche a publié sur arXiv (référence 2603.09170v2) ZeroWBC, un cadre d'apprentissage du contrôle corporel complet pour robots humanoïdes qui se passe entièrement de données de télé-opération. Le système apprend à partir de vidéos égocentrées humaines -- c'est-à-dire filmées du point de vue d'un opérateur -- associées à des annotations de mouvement corps-entier et de texte. Concrètement, une image initiale prise en vue subjective est combinée à une instruction en langage naturel ; un modèle vision-langage (VLM) affiné génère alors des tokens de mouvement humain futur, qui sont décodés en trajectoires continues et retargetés vers le robot humanoïde. Ces mouvements de référence, accompagnés des trajectoires de la racine et des parties clés du corps, alimentent ensuite une politique de suivi de mouvement interactif. Les expériences ont été conduites sur le robot Unitree G1, un humanoïde compact commercialisé à environ 16 000 dollars. L'apport central de ZeroWBC réside dans l'élimination du coût de collecte des données de télé-opération, traditionnellement un verrou majeur pour l'apprentissage du contrôle corps-entier à grande échelle. En exploitant le stock immense de vidéos humaines égocentrées déjà disponibles, la méthode ouvre un paradigme de scalabilité que les approches par démonstration robotique directe ne peuvent pas égaler facilement. L'introduction d'une récompense de suivi orientée interaction -- qui priorise l'alignement global des trajectoires tout en préservant la naturalité du mouvement -- tente de combler le gap entre génération de gestes plausibles et exécution physiquement cohérente. C'est un résultat de recherche académique, pas un produit déployé en production : les vidéos présentées montrent des comportements variés en scène statique, mais les conditions réelles d'un environnement industriel dynamique n'ont pas été testées. ZeroWBC s'inscrit dans un courant plus large de méthodes "zéro-démonstration robot" qui cherchent à transférer la richesse des données humaines vers des systèmes incarnés, à l'instar des travaux sur les politiques visuomotrices à base de VLA (Vision-Language-Action). Sur le terrain concurrent, des approches comme ACT, UMI ou les pipelines de diffusion de Physical Intelligence (Pi-0) misent encore largement sur la télé-opération directe ou les données simulées. Unitree, constructeur chinois dont le G1 est l'une des plateformes humanoïdes les plus accessibles du marché, bénéficie ici d'une visibilité croissante comme banc d'essai académique de référence. Les prochaines étapes naturelles seraient d'étendre ZeroWBC à des scènes dynamiques, de tester la robustesse en dehors du labo, et d'évaluer si le sim-to-real tient face à la variabilité réelle des interactions objet-robot.

RechercheOpinion

1 source

2Robohub

Simulateur de monde interactif pour l'entraînement et l'évaluation des politiques de robots

Une équipe de recherche présente un simulateur de monde interactif destiné à l'entraînement et à l'évaluation de politiques robotiques, conçu pour remplacer une partie du travail réalisé aujourd'hui sur robot réel. Il s'agit d'un modèle de prédiction vidéo conditionné par l'action, entraîné sans aucun moteur physique intégré : à partir d'une image et d'une séquence d'actions robotiques, le système prédit les frames suivantes directement en pixels. Concrètement, un opérateur peut brancher un dispositif de téléopération et piloter un bras robotique à travers ce modèle appris pendant plus de dix minutes, à 15 images par seconde, sur une seule carte graphique RTX 4090, tout en conservant une vidéo stable et physiquement plausible. Le modèle a été entraîné sur quatre tâches de manipulation aux régimes physiques très différents : le poussage d'un objet en T (contact rigide), le routage d'une corde dans un clip (interaction déformable-rigide), la préhension d'une tasse (dynamique fine de la pince) et le balayage de tas d'objets. L'architecture repose sur deux étapes : un autoencodeur compresse d'abord les images RGB en représentations latentes compactes, puis un modèle de dynamique conditionné par l'action, entraîné dans cet espace latent gelé, prédit les états latents futurs qui sont ensuite décodés en images, de manière autorégressive. L'enjeu dépasse la simple démonstration technique. La collecte de démonstrations et l'évaluation de politiques sur robot réel restent les deux goulots d'étranglement classiques de l'apprentissage robotique : matériel qui casse, éclairage qui varie, objets qui dérivent, chaque nouvelle tâche exigeant des heures de manipulation en laboratoire. Si un simulateur appris atteint un niveau de fidélité suffisant, il devient possible de générer des données d'entraînement à moindre coût directement dans le simulateur, et surtout d'évaluer plusieurs politiques dans des conditions rigoureusement identiques et reproductibles, ce qu'un banc de test physique ne permet pas. Les exemples montrés, comme la distinction correcte entre une corde effectivement insérée dans un clip et une corde qui le frôle sans contact, ou la simulation d'une tasse qui glisse hors de la pince, suggèrent que le modèle capture des dynamiques fines sans recourir à des a priori physiques codés en dur, un point que le secteur observe de près depuis l'essor des modèles VLA (vision-language-action). Cette approche s'inscrit dans une lignée de travaux sur les "world models" appliqués à la robotique, où l'ambition est de remplacer les simulateurs physiques classiques, coûteux à construire et souvent imparfaitement fidèles à la réalité, par des modèles vidéo appris directement à partir de données d'interaction. Le projet met à disposition une démonstration interactive en ligne, jouable au clavier depuis un navigateur, ce qui permet une vérification indépendante des affirmations avancées. Les prochaines étapes attendues par le secteur portent sur le passage à l'échelle vers davantage de tâches et de configurations matérielles, ainsi que sur la démonstration effective que des politiques entraînées dans ce simulateur transfèrent avec succès vers des robots réels, condition encore non confirmée à ce stade par l'article.

RecherchePaper

1 source

3arXiv cs.RO

GHOST : politiques hiérarchiques à sous-objectifs pour généraliser la manipulation robotique

Des chercheurs ont publié le 10 juin 2026 un preprint arXiv (2606.10025) présentant GHOST, un framework pour politiques visuomotrices de manipulation robotique capables de généraliser au-delà de leur distribution d'entraînement. L'architecture repose sur une factorisation hiérarchique en deux niveaux : une politique haut niveau qui prédit le prochain sous-objectif sous forme de distribution sur les poses 3D de l'effecteur terminal à partir d'observations RGB-D multi-vues, et un contrôleur bas niveau conditionné sur ces objectifs qui génère les actions spécifiques à l'embodiment physique du robot. Pour relier les deux niveaux, les auteurs introduisent une interface spatiale qui projette les sous-objectifs 3D prédits dans le plan image sous forme de heatmaps de l'effecteur, une représentation volontairement simple mais compatible avec les pipelines d'entraînement existants. La politique haut niveau est entraînée sur des vidéos de démonstrations humaines brutes, sans retargeting d'actions, tandis que la politique bas niveau reste entraînée exclusivement sur des données robot. Le résultat central est que cette décomposition hiérarchique améliore systématiquement les performances et la robustesse par rapport à une Diffusion Policy plate (architecture de référence populaire depuis les travaux de Chi et al. en 2023) sur une suite de tâches de manipulation. L'insight clé est que les sous-objectifs en espace cartésien de l'effecteur sont largement "embodiment-agnostic" : la même politique haut niveau peut s'appliquer à différentes architectures de robots sans réentraînement complet. Cela contourne un goulot d'étranglement majeur dans le domaine, le retargeting d'actions depuis les démonstrations humaines, qui introduit habituellement un bruit significatif et limite la qualité des données d'entraînement. GHOST s'inscrit dans un courant actif de recherche sur l'utilisation des vidéos humaines comme source de supervision low-cost pour la robotique de manipulation, aux côtés d'approches comme pi-0 de Physical Intelligence ou des travaux sur les VLA (Visual-Language-Action models) de Google DeepMind avec RT-2 et GR00T N2 de NVIDIA. La principale limitation à noter : il s'agit d'un preprint non encore peer-reviewed, sans données de déploiement réel ni métriques de cycle time en contexte industriel. Les résultats concernent une suite de tâches de laboratoire ; la tenue à l'échelle dans des environnements moins contrôlés reste à démontrer. Aucun partenariat industriel ni timeline de commercialisation n'est annoncé.

RecherchePaper

1 source

4arXiv cs.RO

Suivi du visage ou du corps pour l'interaction humain-robot : un jeu de données égocentrique

Des chercheurs ont publié en juin 2026 sur arXiv (arXiv:2606.03694) une évaluation systématique des méthodes de suivi visuel pour la robotique sociale, en s'appuyant sur un jeu de données original capturé via le robot social Furhat. L'enjeu central est la continuité d'identification des utilisateurs pendant une interaction : lorsqu'un robot perd de vue son interlocuteur, même brièvement, il peut confondre deux personnes distinctes, phénomène désigné sous le terme "identity switch" (IDSW). L'étude compare deux approches (suivi par le visage versus suivi par le corps entier) et évalue l'effet de deux mécanismes complémentaires : la mémoire spatiale étendue et la réidentification par apparence (ReID). Le pipeline optimisé qui en résulte réduit les IDSW de 49 %, limitant ainsi les ruptures de dialogue entre humains et robots. Les résultats mettent en lumière une tension technique inattendue : la ReID améliore substantiellement la stabilité du suivi corporel, mais dégrade celui du visage en raison d'une sensibilité aux angles de profil. Ce comportement antagoniste n'est pas anodin pour les intégrateurs de systèmes HRI, qui ne peuvent pas transposer mécaniquement les mêmes optimisations à toutes les modalités de tracking. Plus fondamentalement, l'étude confirme que les modèles de vision par ordinateur les plus performants, conçus pour la vidéosurveillance ou la conduite autonome, ne couvrent pas les contraintes propres à la robotique sociale : occlusions mutuelles entre interlocuteurs, mouvements brusques, sorties et rentrées dans le champ de vision à courte distance. Le fossé entre démo contrôlée et déploiement réel reste ouvert pour les systèmes HRI en environnements denses. Furhat Robotics, entreprise suédoise spécialisée dans les robots conversationnels à tête projetée, fournit ici la plateforme matérielle, ce qui oriente naturellement l'évaluation vers les contextes face-à-face rapprochés. Dans le secteur plus large de la perception pour l'interaction humain-robot, des laboratoires académiques européens comme l'INRIA ou TU Delft, ainsi que des acteurs industriels tels SoftBank Robotics, travaillent sur des problématiques proches. Le point de friction central souligné par les auteurs reste l'absence de benchmarks publics capturant des occlusions denses à courte distance : sans jeux de données nativement sociaux, la validation des modèles de perception HRI demeure partielle. Les prochaines étapes naturelles consisteraient à tester ce pipeline sur d'autres plateformes et en conditions multi-utilisateurs réelles.

UEFurhat Robotics (Suède, UE) fournit la plateforme matérielle de l'étude, et l'INRIA est cité parmi les laboratoires européens travaillant sur des problématiques similaires, ce qui ancre ces avancées en perception HRI dans l'écosystème de recherche européen.

RecherchePaper

1 source