Aller au contenu principal
Les LLM aident les robots à comprendre les instructions vagues et à se concentrer sur les détails clés
IA physiqueMIT News Robotics2h

Les LLM aident les robots à comprendre les instructions vagues et à se concentrer sur les détails clés

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs du MIT Computer Science and Artificial Intelligence Laboratory (CSAIL) ont publié un système appelé "Masked Inverse Reinforcement Learning" (Masked IRL) qui permet à un robot d'interpréter des instructions vagues et de sélectionner automatiquement les informations pertinentes dans son environnement. Le système repose sur deux grands modèles de langage (LLM) en cascade et nécessite jusqu'à cinq fois moins de données de démonstration que les approches conventionnelles. L'apprentissage passe par des démonstrations kinesthésiques : un opérateur humain guide physiquement le bras du robot pour lui montrer comment saisir, déplacer et poser des objets. Un premier LLM compare la trajectoire effectuée au chemin le plus court et reformule automatiquement les consignes ambiguës : une instruction comme "reste proche" devient "reste proche de la surface de la table". Un second LLM évalue ensuite chaque élément de l'environnement capté par les capteurs du robot et lui attribue un score binaire, 1 (pertinent) ou 0 (ignoré), avant qu'un algorithme de planification de mouvement ne génère le plan d'action final à partir des seuls éléments notés 1.

L'intérêt industriel de cette approche réside dans sa capacité à réduire le fardeau de l'annotation et de la démonstration, deux des principaux goulets d'étranglement du déploiement robotique en environnement non structuré. En entreprise, la plupart des opérateurs ne formalisent pas les contraintes implicites d'une tâche : ne pas s'approcher d'un écran pendant une visioconférence, contourner une étagère dans un entrepôt, ne pas heurter un ordinateur portable posé sur un bureau. Masked IRL automatise la découverte de ces contraintes à partir d'une poignée de démonstrations, sans qu'il soit nécessaire de les spécifier dans le code. Pour les intégrateurs robotiques, cela réduit potentiellement le coût de configuration d'un nouveau poste de travail et rend les systèmes plus adaptables à des layouts changeants.

Le travail s'inscrit dans la tendance plus large des Vision-Language-Action models (VLA) qui cherchent à ancrer le raisonnement des LLM dans des contraintes physiques réelles. Des équipes comme Physical Intelligence (pi.ai, avec Pi-0) ou les laboratoires de Boston Dynamics, Figure et 1X explorent des directions similaires pour réduire le "sim-to-real gap" et rendre les politiques de manipulation robustes hors laboratoire. L'approche du MIT se distingue par son mécanisme de masquage explicite qui rend l'attribution de pertinence interprétable, contrairement à la plupart des architectures end-to-end où la sélection des features reste opaque. Minyoung Hwang, doctorant au CSAIL et auteur principal de l'article, indique que le système a été validé sur des tâches de manipulation en environnement 3D simulé et en conditions réelles. Aucune date de transfert industriel ni partenariat de déploiement n'a été annoncé à ce stade : il s'agit d'un résultat de recherche académique, pas d'un produit commercialisé.

À lire aussi

Apprendre la physique à partir de modèles vidéo préentraînés : modèles du monde continus et séquentiels pour la manipulation robotique
1arXiv cs.RO 

Apprendre la physique à partir de modèles vidéo préentraînés : modèles du monde continus et séquentiels pour la manipulation robotique

Une équipe de chercheurs propose PhysGen, un cadre d'apprentissage publié en prépublication sur arXiv (réf. 2603.00110v2), qui exploite des modèles de génération vidéo pré-entraînés comme substituts de simulateurs physiques pour la manipulation robotique. L'idée centrale est de traiter la vidéo générée de manière autorégressive comme un proxy du monde physique, et d'y greffer des actions robotiques continues via une représentation unifiée baptisée "physical tokens", des jetons partagés qui fusionnent la modalité vidéo et les commandes motrices. Pour assurer la convergence, PhysGen intègre du masquage causal, de la cinématique inverse, une prédiction multi-tokens anticipative (L-MTP) et du cache clé-valeur (KV caching). Sur les benchmarks Libero et ManiSkill, le système surpasse OpenVLA de 13,8 points et WorldVLA de 8,8 points. Plus frappant : en conditions réelles, PhysGen atteint les performances de π₀ (Physical Intelligence) sur des tâches physiquement exigeantes, notamment la saisie d'objets transparents, sans avoir bénéficié d'un pré-entraînement spécifique aux données d'action. L'enjeu pour l'industrie est direct : la pénurie de données robotiques à grande échelle reste le principal frein à la généralisation des politiques de manipulation. PhysGen contourne ce goulot en recyclant des modèles vidéo entraînés sur des corpus massifs d'internet pour en extraire une intuition physique implicite, permanence des objets, dynamique de contact, sans collecter de trajectoires robot. Le fait de rivaliser avec π₀ sans son pré-entraînement propriétaire sur des données d'action est une validation partielle de l'hypothèse que le "sim-to-real gap" peut être réduit par la connaissance du monde visuel plutôt que par des démonstrations téléopérées. Cela dit, les résultats restent issus d'un papier de recherche avec des benchmarks sélectifs ; la robustesse sur des scènes industrielles non structurées reste à démontrer. PhysGen s'inscrit dans un courant actif qui voit les laboratoires de robotique piller les architectures de génération multimodale pour nourrir leurs politiques de contrôle : UniSim, Genie, et surtout WorldVLA avaient déjà exploré cette piste. Physical Intelligence (π₀) représente aujourd'hui la référence en termes de performances sur tâches réelles grâce à son pré-entraînement massif sur données d'action hétérogènes, ce qui rend la comparaison de PhysGen d'autant plus significative. OpenVLA (Berkeley) constitue le concurrent open-source direct. La prochaine étape logique pour les auteurs serait une évaluation sur des manipulateurs industriels multi-DOF en environnement non contrôlé, et une intégration avec des pipelines de données synthétiques pour réduire encore la dépendance aux démonstrations humaines.

IA physiqueOpinion
1 source
Fail-RAG : un cadre fondé sur la RAG pour l'identification des défaillances des robots
2arXiv cs.RO 

Fail-RAG : un cadre fondé sur la RAG pour l'identification des défaillances des robots

Des chercheurs ont publié sur arXiv (2606.19598, juin 2026) Fail-RAG, un framework de détection automatique de pannes pour robots industriels combinant RAG (Retrieval Augmented Generation) et modèles vision-langage (VLM). Le principe : des images de défaillances et leurs métadonnées contextuelles sont indexées dans une base vectorielle ; lors d'un incident, le système calcule la similarité entre l'événement observé et les entrées de cette base, puis soumet les cas les plus proches à un VLM qui analyse la situation en suivant un gabarit d'instructions structuré. Les expériences ont porté sur cinq types d'opérations courantes en logistique entrepôt, testées à la fois en simulation et en environnement physique, sur des bras robotiques fixes et un manipulateur mobile. Résultat mesuré : +25 points de précision en moyenne par rapport à l'utilisation directe d'un VLM généraliste sans couche RAG. Le gain de 25 points est significatif dans un contexte où les VLM "out-of-the-shelf" peinent à fiabiliser la détection de pannes en conditions réelles, notamment face à la diversité des échecs possibles dans des environnements dynamiques. Les méthodes à base de règles (classiques en automatisation industrielle) se révèlent fragiles dès que les tâches ou l'environnement évoluent, un problème structurel dans les entrepôts à forte variabilité. Fail-RAG répond à ce défaut en construisant une mémoire des défaillances passées plutôt qu'en codant des règles figées, ce qui le rend potentiellement plus robuste aux variantes nouvelles. C'est une approche pertinente pour les intégrateurs cherchant à réduire les arrêts non planifiés sans avoir à réentraîner un modèle complet à chaque nouveau type d'incident. Le contexte académique de ce travail est celui de la montée des robots généralistes et de l'IA incarnée dans les contextes manufacturiers, portée notamment par la pénurie de main-d'oeuvre en logistique. La recherche sur la détection de pannes par vision reste un chantier ouvert : des acteurs comme Boston Dynamics, Intrinsic (Google) ou les labos universitaires travaillant sur des VLA (Vision-Language-Action models) s'intéressent à des approches similaires de résilience autonome. Fail-RAG reste à ce stade un prototype de recherche avec validation expérimentale limitée en termes de diversité de scènes et d'équipements. Les prochaines étapes naturelles seraient un déploiement pilote chez un opérateur logistique et une évaluation sur des robots mobiles autonomes (AMR) à plus large échelle.

💬 25 points de précision en plus juste en ajoutant une mémoire des pannes passées, c'est le genre de résultat qui devrait faire réfléchir les intégrateurs robotiques avant de coder leur prochaine règle métier en dur. Le principe est simple mais efficace : plutôt que de réentraîner un modèle complet à chaque nouveau type d'incident, le système récupère les cas similaires et demande au VLM de trancher en contexte. Proto de recherche pour l'instant, mais l'architecture a du sens.

IA physiquePaper
1 source
Apprendre à agir par le contact : une vision unifiée de l'apprentissage multi-tâches pour les robots
3arXiv cs.RO 

Apprendre à agir par le contact : une vision unifiée de l'apprentissage multi-tâches pour les robots

Des chercheurs ont publié sur arXiv (2510.03599v2) un cadre unifié d'apprentissage de politiques pour la locomotion et la manipulation robotique multi-tâches, fondé sur une représentation dite "contact-explicite". Le principe central consiste à définir chaque tâche non pas par des trajectoires articulaires spécifiques, mais par une séquence d'objectifs de contact: positions de contact souhaitées, timings, et effecteurs actifs. Une politique unique, entraînée par apprentissage par renforcement (RL) conditionné aux objectifs, prend ces plans de contact en entrée et les exécute. Le framework a été validé sur plusieurs morphologies robotiques: un quadrupède exécutant différentes allures (trot, galop, etc.), un humanoïde réalisant des locomotions bipèdes et quadrupèdes, et ce même humanoïde effectuant des tâches de manipulation bimanuelles d'objets. Dans les trois cas, une seule politique gère l'ensemble des comportements. L'intérêt industriel est direct: l'approche contact-explicite améliore significativement la généralisation à des scénarios non vus pendant l'entraînement, ce qui s'attaque frontalement au "sim-to-real gap" qui pénalise la plupart des politiques entraînées en simulation. Pour un intégrateur ou un OEM robotique, cela signifie moins de politiques spécialisées à maintenir, moins de re-training à chaque variante de tâche, et une architecture potentiellement plus robuste aux variations de terrain ou d'objet. Le fait qu'une seule politique puisse couvrir à la fois locomotion et manipulation (loco-manipulation) dans un cadre commun réduit également la complexité d'orchestration en production. Les résultats présentés semblent solides en simulation, mais les auteurs n'annoncent pas de déploiement physique à l'échelle, ce qui invite à distinguer démonstration de recherche et produit shipé. Les approches classiques traitent locomotion et manipulation comme deux sous-problèmes séparés, avec des planificateurs et des politiques dédiées. L'espace des politiques générales est aujourd'hui dominé par des VLA (Vision-Language-Action models) comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui s'appuient sur de larges datasets visuels et du transfert de fondation. La contribution ici prend le parti inverse: une représentation géométrique structurée des contacts, plus frugale en données mais plus contrainte en hypothèses. Dans le domaine de la locomotion quadrupède unifiée, les groupes de l'ETH Zurich (ANYmal), de CMU et de Berkeley restent les références. La suite logique de ces travaux serait d'interfacer la planification de contacts avec un module de compréhension du langage naturel, pour permettre des instructions de haut niveau, une direction déjà explorée par plusieurs laboratoires académiques et startups de la robotique incarnée.

IA physiquePaper
1 source
Built Robotics et Penn xLAB s'associent pour développer une IA physique dédiée à la construction
4Robotics Business Review 

Built Robotics et Penn xLAB s'associent pour développer une IA physique dédiée à la construction

Built Robotics, spécialiste américain de l'automatisation des engins de chantier fondé en 2016, s'associe au Safe Autonomous Systems Lab (xLAB) de l'Université de Pennsylvanie pour développer des modèles d'IA physiques adaptés aux environnements de construction. Le partenariat repose sur le déploiement de petits robots mobiles équipés de suites de capteurs, chargés de collecter des données sur des chantiers actifs : postures corporelles atypiques, occultations, conditions d'éclairage dégradées, comportements humains imprévus. Ces cas limites viennent enrichir un jeu de données déjà conséquent : Built revendique plus de 50 000 heures d'opérations terrain, l'installation de plus de 3 gigawatts de panneaux solaires et une présence sur plus de 40 sites. Depuis son entrée sur le marché du solaire à grande échelle en 2023 avec le RPD 35 (Robotic Pile Driver, son robot de battage de pieux autonome), la société a accumulé des volumes de données opérationnelles dans certains des environnements industriels les plus contraignants du secteur. L'objectif déclaré est de construire un "world foundation model" pour la coexistence sûre entre machines autonomes et opérateurs humains sur site. L'enjeu est structurant pour l'industrie de la construction, l'un des secteurs les plus accidentogènes au monde et l'un des derniers à amorcer sa transition vers l'autonomie robotique à grande échelle. Le partenariat cible explicitement le "sim-to-real gap" : l'écart entre la performance validée en environnement contrôlé et la robustesse réelle sur chantier, avec des centaines d'ouvriers sur des sites pouvant s'étendre sur plusieurs milliers d'acres. Le modèle edge AI de détection de personnes développé en interne par Built sera affiné à partir de ces données d'edge cases, avec l'ambition d'atteindre une perception dite "surhumaine", capable de détecter des dangers transitoires qu'un opérateur humain pourrait manquer. Pour les intégrateurs et les décideurs industriels, ce travail représente un pas vers une certifiabilité effective des systèmes autonomes outdoor, domaine où les standards de sécurité restent embryonnaires. Built est par ailleurs membre de l'Association of Equipment Manufacturers (AEM) et siège au Futures Council de l'organisation, dont Erol Ahmed, VP communications de Built, assure la présidence. Built Robotics a été fondé par Noah Ready-Campbell, diplômé de Penn, ce qui explique en partie la fluidité du rapprochement avec xLAB, dirigé par Rahul Mangharam, professeur en ingénierie électrique et des systèmes. Sur le plan concurrentiel, le segment des robots de construction autonomes voit émerger plusieurs acteurs : Caterpillar et Komatsu investissent dans l'autonomie de leurs engins lourds, tandis que des startups comme Dusty Robotics (traçage au sol) ou Trimble (géolocalisation de chantier) avancent sur des niches complémentaires. En Europe, des initiatives restent plus discrètes sur ce front spécifique. La phase initiale du pilote de recherche porte sur le déploiement du modèle edge AI de Built sur des chantiers actifs avec cartographie haute fidélité, avant une montée en puissance vers un modèle de fondation plus généraliste dont les contours et la timeline publique n'ont pas encore été précisés.

UEL'émergence d'un standard de perception 'surhumaine' et de certifiabilité pour robots autonomes outdoor pourrait servir de référence aux acteurs européens de la construction, encore en retrait sur ce segment spécifique.

IA physiqueOpinion
1 source