
Politiques hiérarchiques à partir de signaux verbaux et égocentrés pour l'interaction naturelle homme-robot
Des chercheurs ont présenté EDITH (Egocentric Data for Intent from The Human), un cadre de contrôle robotique qui intègre les signaux non-verbaux humains, notamment le regard et la vue égo-centrique, comme entrées directes d'une politique de robot, en complément des instructions verbales. Le système repose sur des lunettes intelligentes portées par l'opérateur, qui diffusent en temps réel un flux vidéo à la première personne, le point de regard (gaze tracking) et la parole transcrite automatiquement en texte. Une architecture hiérarchique à deux niveaux traite ces signaux : un module haut niveau infère l'intention et génère une séquence de sous-tâches, chacune représentée par une instruction textuelle fine associée à une image-clé (keyframe) ancrant l'objet cible dans la scène ; un module bas niveau exécute ensuite ces sous-tâches sur le robot physique. Les expériences sur des tâches interactives montrent qu'EDITH réagit à des signaux non-verbaux exprimés très brièvement et réduit significativement l'effort de communication par rapport à une interface purement textuelle.
L'enjeu industriel est direct : les politiques robotiques actuelles reposent exclusivement sur des commandes linguistiques explicites, forçant l'opérateur à verbaliser chaque intention, une friction significative dans les environnements collaboratifs et sur les lignes d'assemblage. En capturant le geste et le regard comme canaux implicites, EDITH rapproche l'interaction humain-robot des modes naturels de collaboration entre humains et ouvre une voie vers des manipulateurs plus accessibles à des opérateurs non formés. La représentation en keyframe ancre l'intention dans la scène réelle plutôt que dans un espace de tokens abstrait, adressant partiellement le gap entre instructions ambiguës et exécution physique précise, une limitation bien documentée des approches VLA (Vision-Language-Action) à entrée textuelle seule.
EDITH s'inscrit dans un mouvement plus large de politiques multimodales pour la manipulation robotique, aux côtés de travaux comme Pi-0 de Physical Intelligence, OpenVLA ou GR00T N2 de NVIDIA, qui combinent vision et langage mais conservent le texte comme unique interface d'intention. L'originalité d'EDITH réside dans l'exploitation du gaze tracking comme signal de sélection d'objet implicite, une approche étudiée en recherche mais rarement intégrée dans une politique bout-en-bout déployée sur robot réel. Le travail, publié en preprint sur arXiv (2606.10276), inclut le code source et des vidéos de démonstration sur robot physique, mais ne mentionne aucun partenaire industriel ni timeline de déploiement commercial. Les prochaines étapes naturelles concerneront la robustesse du gaze tracking en environnement industriel bruité et la validation sur des tâches d'assemblage plus complexes.




