
Distill : comprendre les intentions réelles dans la communication humain-robot
Une équipe de chercheurs présente dans un article déposé sur arXiv en mai 2026 (arXiv:2605.14262) une approche baptisée Distill, conçue pour extraire l'intention réelle d'un utilisateur lorsqu'il formule une tâche à un robot. Le problème de départ est bien documenté : le langage naturel, aussi intuitif soit-il, reste ambigu et imprécis, tandis que la programmation par l'utilisateur final tend à l'inverse à être trop littérale, incapable de capturer la généralité de ce que l'utilisateur souhaite réellement accomplir. Distill opère en trois étapes sur une spécification de tâche fournie par l'utilisateur : il supprime les étapes superflues, généralise le sens derrière chaque étape individuelle, et relâche les contraintes d'ordonnancement entre ces étapes. L'approche a été implémentée sous forme d'interface web et évaluée via une étude crowdsourcée auprès d'utilisateurs réels.
L'enjeu pour l'industrie robotique est concret : la distance entre ce qu'un opérateur dit et ce qu'il veut réellement constitue l'un des principaux freins au déploiement de robots autonomes dans des environnements non structurés. Les interfaces à langage naturel prolifèrent, portées par les modèles VLA (Vision-Language-Action) et les LLMs embarqués dans des plateformes comme Figure 02, Spot ou les robots collaboratifs industriels, mais elles buttent systématiquement sur cette ambiguïté sémantique. Une approche capable de distiller l'intention générale derrière une instruction floue ou sur-spécifiée réduirait le besoin de reformulation itérative et abaisserait la barrière d'adoption pour des opérateurs non-experts en programmation. Ce type de raffinement d'intention est également utile pour la génération automatique de programmes comportementaux dans des architectures de type task planning.
Ce travail s'inscrit dans une vague de recherches visant à combler le fossé entre langage humain et représentations formelles exploitables par les robots, un champ actif impliquant des laboratoires comme Stanford, MIT CSAIL ou le groupe Human-Robot Interaction de l'Inria en France. Les approches concurrentes incluent la correction de programme par retour utilisateur (LLM Repair), la programmation par démonstration (PbD) et les interfaces de dialogue multi-tours. Distill se distingue par son orientation vers la généralisation automatique plutôt que la simple transcription ou la correction d'erreurs. Les prochaines étapes attendues concernent l'intégration sur des plateformes robotiques physiques et l'évaluation de robustesse face à des tâches à longue séquence ou à contraintes temporelles strictes. Il s'agit pour l'instant d'un preprint non évalué par les pairs, sans déploiement industriel annoncé.
L'Inria (groupe Human-Robot Interaction) est cité comme acteur du même champ de recherche, positionnant la France dans les travaux sur l'interprétation d'intention en robotique, sans implication directe dans ce preprint.
Dans nos dossiers




