
Les LLM aident les robots à comprendre les instructions vagues et à se concentrer sur les détails clés
Des chercheurs du MIT Computer Science and Artificial Intelligence Laboratory (CSAIL) ont publié un système appelé "Masked Inverse Reinforcement Learning" (Masked IRL) qui permet à un robot d'interpréter des instructions vagues et de sélectionner automatiquement les informations pertinentes dans son environnement. Le système repose sur deux grands modèles de langage (LLM) en cascade et nécessite jusqu'à cinq fois moins de données de démonstration que les approches conventionnelles. L'apprentissage passe par des démonstrations kinesthésiques : un opérateur humain guide physiquement le bras du robot pour lui montrer comment saisir, déplacer et poser des objets. Un premier LLM compare la trajectoire effectuée au chemin le plus court et reformule automatiquement les consignes ambiguës : une instruction comme "reste proche" devient "reste proche de la surface de la table". Un second LLM évalue ensuite chaque élément de l'environnement capté par les capteurs du robot et lui attribue un score binaire, 1 (pertinent) ou 0 (ignoré), avant qu'un algorithme de planification de mouvement ne génère le plan d'action final à partir des seuls éléments notés 1.
L'intérêt industriel de cette approche réside dans sa capacité à réduire le fardeau de l'annotation et de la démonstration, deux des principaux goulets d'étranglement du déploiement robotique en environnement non structuré. En entreprise, la plupart des opérateurs ne formalisent pas les contraintes implicites d'une tâche : ne pas s'approcher d'un écran pendant une visioconférence, contourner une étagère dans un entrepôt, ne pas heurter un ordinateur portable posé sur un bureau. Masked IRL automatise la découverte de ces contraintes à partir d'une poignée de démonstrations, sans qu'il soit nécessaire de les spécifier dans le code. Pour les intégrateurs robotiques, cela réduit potentiellement le coût de configuration d'un nouveau poste de travail et rend les systèmes plus adaptables à des layouts changeants.
Le travail s'inscrit dans la tendance plus large des Vision-Language-Action models (VLA) qui cherchent à ancrer le raisonnement des LLM dans des contraintes physiques réelles. Des équipes comme Physical Intelligence (pi.ai, avec Pi-0) ou les laboratoires de Boston Dynamics, Figure et 1X explorent des directions similaires pour réduire le "sim-to-real gap" et rendre les politiques de manipulation robustes hors laboratoire. L'approche du MIT se distingue par son mécanisme de masquage explicite qui rend l'attribution de pertinence interprétable, contrairement à la plupart des architectures end-to-end où la sélection des features reste opaque. Minyoung Hwang, doctorant au CSAIL et auteur principal de l'article, indique que le système a été validé sur des tâches de manipulation en environnement 3D simulé et en conditions réelles. Aucune date de transfert industriel ni partenariat de déploiement n'a été annoncé à ce stade : il s'agit d'un résultat de recherche académique, pas d'un produit commercialisé.
Dans nos dossiers




