RechercheMIT News Robotics 17 juin 2026

L'IA pourrait-elle vous dire où vous avez laissé vos clés ?

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs du MIT ont présenté à la conférence CVPR un cadre de mémoire à long terme pour robots mobiles, baptisé DAAAM (Describe Anything, Anywhere, Anytime, at Any Moment). Développé par Luca Carlone, professeur associé au département d'AéroAstro du MIT et directeur du laboratoire SPARK, avec le doctorant Nicolas Gorlo comme auteur principal et Lukas Schmid, désormais professeur à l'Université de technologie de Nuremberg, le système permet à un robot de construire une carte 3D enrichie de descriptions sémantiques en langage naturel, au fil de ses déplacements. Concrètement, un robot équipé de DAAAM peut enregistrer qu'un vélo rouge avec un pneu crevé est garé sur le rack devant le Stata Center, ou qu'un composant partiellement assemblé occupe tel bac de stockage dans une usine, et répondre ensuite à des requêtes formulées en langage courant. La méthode surpasse les approches de l'état de l'art en précision de réponse et s'exécute assez rapidement pour fonctionner en temps réel sur un robot mobile.

Ce que DAAAM résout est un verrou bien identifié en robotique industrielle et de service : la mémoire spatiotemporelle. Un opérateur humain sait spontanément où il a posé un composant la veille et peut déléguer la récupération avec une simple instruction verbale. Les robots, même dotés de cartographie 3D avancée, échouaient jusqu'ici à ce niveau de raisonnement contextuel. DAAAM fusionne deux lignées de recherche distinctes : les modèles de vision multimodale, qui décrivent richement les scènes mais traitent une annotation à la fois, et les frameworks de cartographie robotique, qui couvrent de grands espaces mais sans sémantique fine ni ancrage temporel. En combinant les deux dans une représentation unifiée et interrogeable en langage naturel, le MIT ouvre la voie à des robots capables de recevoir et exécuter des consignes verbales sans interface spécialisée, ce que Carlone formule ainsi : « le robot doit parler la même langue que les humains ».

Le laboratoire SPARK du MIT travaille depuis plusieurs années sur la cartographie sémantique pour robots autonomes, dans un contexte de convergence accélérée entre grands modèles de langage et robotique embarquée. DAAAM s'inscrit dans la tendance plus large des cartes de scène en langage naturel, où des équipes comme celles de Google DeepMind, Stanford ou Carnegie Mellon explorent des architectures comparables. Les applications envisagées par les auteurs dépassent la robotique industrielle : maintenance assistée par réalité augmentée et guidage en environnement complexe sont explicitement citées. Aucun calendrier de validation hors campus ni partenariat industriel n'est annoncé, ce qui situe DAAAM clairement au stade de prototype de recherche publié, pas encore d'un système en cours de déploiement commercial.

Impact France/UE

Un co-auteur, Lukas Schmid, est désormais professeur à l'Université de technologie de Nuremberg, ancrant une partie de cette recherche en Europe, mais aucun partenariat industriel ni déploiement européen n'est annoncé à ce stade.

À lire aussi

1arXiv cs.RO

Amortissement de l'optimisation de trajectoire pour la MPC résiduelle via différentiation implicite du contact

Cette étude publiée sur arXiv (2607.24959v1) s'attaque à un goulot d'étranglement classique de la robotique de contact : l'optimisation de trajectoire dans des simulateurs différentiables. Les chercheurs introduisent une méthode de dérivation implicite assistée par différentiation automatique (AD), appliquée au moteur MuJoCo MJX et fondée sur le théorème des fonctions implicites (IFT). Contrairement aux différences finies, coûteuses et sensibles au choix du pas, ou au déroulement complet de l'AD à travers un solveur de contact itératif, qui fait exploser la trace de calcul stockée en mémoire, leur approche différencie directement le résidu de stationnarité à la solution convergée, sans reconstruire à la main les systèmes KKT propres à chaque solveur. Résultat mesuré : la mémoire temporaire compilée reste quasi constante quel que soit l'effort du solveur, avec moins de 4% de variation entre une et dix itérations, contre une croissance de 10,6 fois pour l'AD déroulée classique. Le gain s'accentue avec la complexité du problème : 20 fois moins de mémoire à 256 contacts actifs, 6 fois moins à 16 contacts et 96 degrés de liberté. L'équipe va plus loin avec une technique de "distillation d'optimiseur" pour le contrôle prédictif résiduel (residual MPC) : un iLQR complet, calculé en batch sur tout l'horizon temporel, est condensé en une politique qui guide ensuite un iLQR résiduel à horizon court, bien moins coûteux à exécuter en ligne. Sur trois bancs d'essai (Finger, bras Franka, quadrupède Unitree), cette approche améliore le taux de succès à six pas de 28 à 98 points de pourcentage par rapport à un iLQR standard. Pour les équipes qui développent du contrôle robotique riche en contacts, manipulation fine, locomotion sur terrain irrégulier, l'intérêt est double : réduire drastiquement l'empreinte mémoire permet de faire tourner des simulations différentiables à plus grande échelle ou en temps réel embarqué, tandis que la distillation d'optimiseur offre une voie pour transférer la qualité d'une planification hors-ligne coûteuse vers un contrôleur exécutable en boucle rapide sur le robot. Le travail s'inscrit dans la lignée des efforts récents autour de MuJoCo MJX et de la simulation différentiable pour la robotique, un axe de recherche actif depuis que des laboratoires comme DeepMind ou des groupes académiques cherchent à exploiter les gradients de simulateurs physiques pour accélérer l'apprentissage et la planification, plutôt que de s'appuyer uniquement sur l'apprentissage par renforcement sans modèle. La méthode proposée ici comble un vide méthodologique entre les approches génériques mais gourmandes en mémoire et les dérivations KKT sur mesure, difficiles à maintenir et à généraliser d'un solveur à l'autre. Les auteurs ne précisent pas de calendrier de publication du code ni de partenariat industriel, mais la validation croisée sur des plateformes hétérogènes (doigt robotique, bras manipulateur Franka, quadrupède Unitree) suggère une ambition de généralisation au-delà d'un cas d'usage unique, avec un potentiel d'intégration dans des piles de contrôle MPC pour la manipulation ou la locomotion dynamique.

RecherchePaper

1 source

2arXiv cs.RO

GUIDE : compréhension directionnelle initialisée par l'objectif pour la navigation visuelle de bout en bout

Des chercheurs ont publié sur arXiv (référence 2606.10832, juin 2026) un framework d'apprentissage par renforcement baptisé GUIDE (Goal-Initialized Directional Understanding for End-to-End), conçu pour la navigation visuelle autonome de robots à pattes. Le principe fondamental est simple : contrairement aux systèmes existants qui alimentent le robot en mises à jour continues de sa cible depuis des modules d'estimation d'état hiérarchiques, GUIDE ne fournit la cible qu'une seule fois, au début de l'épisode. Le robot doit ensuite naviguer en s'appuyant exclusivement sur sa mémoire spatiale interne. Deux composants structurent le système : un prédicteur d'ancre spatiale qui exploite l'historique proprioceptif multi-fréquences pour construire des représentations d'egomouvement, et un flux de profondeur brut pour percevoir la géométrie locale. Les expériences ont été conduites sur un robot quadrupède, en simulation et en environnement réel, dans des scènes encombrées et des labyrinthes structurés, sans carte préalable. L'enjeu pour les intégrateurs est direct : supprimer la dépendance aux modules d'estimation d'état externes simplifie le stack de déploiement et réduit les points de défaillance. Les architectures hiérarchiques actuelles (localisation + cartographie + planification) sont coûteuses à calibrer et fragiles dans des environnements non cartographiés. GUIDE démontre qu'un robot peut maintenir une conscience directionnelle persistante grâce à la mémoire proprioceptive, sans SLAM ni GPS, un résultat qui renforce l'hypothèse que la proprioception peut partiellement suppléer la localisation explicite. La politique étant déployée de bout en bout sans modules séparés à l'inférence, la complexité opérationnelle en production s'en trouve réduite -- un argument concret pour les équipes industrielles. La navigation sans carte pour robots à pattes est un sujet actif : les travaux sur ANYmal (ETH Zurich), les politiques locomotrices de Unitree ou les recherches de CMU s'appuient encore majoritairement sur des représentations géométriques explicites. GUIDE s'inscrit dans la tendance "fully end-to-end" qui cherche à éliminer ces modules intermédiaires, tendance visible également dans les VLA (Vision-Language-Action models) appliqués à la manipulation. Il faut néanmoins rappeler qu'il s'agit d'une publication académique, sans pilote industriel ni déploiement commercial annoncé. Les suites naturelles incluent des tests dans des environnements non structurés à grande échelle et l'intégration avec des modèles de fondation visuels pour la spécification dynamique de la cible.

RecherchePaper

1 source

3MIT News Robotics

Une nouvelle puce pourrait aider les petits robots à traverser des environnements complexes

Des chercheurs du MIT ont conçu un système-sur-puce baptisé Gleanmer, capable de générer des cartes 3D en temps réel à partir d'un flux de caméra de profondeur, avec une consommation d'environ 6 milliwatts, soit l'équivalent d'une LED. Cette performance s'obtient grâce à une co-conception algorithme-matériel : l'équipe, menée par la professeure Vivienne Sze (EECS/RLE) et le professeur Sertac Karaman (aéronautique, directeur du LIDS), a couplé leur algorithme de cartographie GMMap à un accélérateur matériel dédié. Les co-premiers auteurs Zih-Sing Fu et Peter Zhi Xuan Li ont présenté ces travaux à l'IEEE Very Large-Scale Integrated Circuits Symposium. L'application cible annoncée : de petits UAVs à batterie limitée, comme ceux qui pourraient inspecter des conduits HVAC industriels pour détecter des fuites de gaz en naviguant dans des espaces confinés avec évitement d'obstacles. La différence technique réside dans la représentation géométrique. Là où les approches classiques modélisent l'espace en voxels, des cubes 3D qui demandent de charger et retraiter chaque image de profondeur plusieurs fois, Gleanmer utilise des gaussiennes, des ellipsoïdes dont la taille, la forme et l'orientation s'adaptent librement à la géométrie des objets. Un seul ellipsoïde allongé peut remplacer des dizaines de voxels pour représenter une surface courbe, ce qui réduit drastiquement l'empreinte mémoire. L'innovation clé est une technique de génération de gaussiennes en un seul passage sur l'image de profondeur : une fois traitée, l'image est effacée et n'a pas besoin d'être stockée. Résultat : des cartes denses incluant obstacles et espace libre, suffisantes pour planifier un chemin sans collision, générées sans le GPU ni la mémoire vive que requièrent habituellement les pipelines de cartographie dense. Pour un intégrateur robotique, cela signifie qu'il devient envisageable d'embarquer de la navigation autonome sur des plateformes où la contrainte énergétique était jusqu'ici rédhibitoire. Ce travail s'inscrit dans un effort plus large de miniaturisation des capacités de cartographie et de localisation simultanées (SLAM). Les systèmes embarqués actuels capables de cartographie 3D dense en temps réel, qu'il s'agisse de solutions comme Intel RealSense couplées à des SBC, ou des implémentations GPU embarquées type Nvidia Jetson, consomment plusieurs watts à quelques dizaines de watts, plusieurs ordres de grandeur au-dessus des 6 mW de Gleanmer. Les auteurs mentionnent aussi un second débouché : les casques de réalité augmentée légers, pour des applications médicales ou de maintenance industrielle, où l'autonomie de la batterie conditionne l'usage prolongé. Le composant n'est pour l'instant qu'un prototype de recherche présenté en symposium ; aucun partenariat industriel ni calendrier de productisation n'a été annoncé. Les prochaines étapes naturelles seraient une validation sur plateforme réelle en vol, et une intégration dans une chaîne SLAM complète incluant localisation, pas seulement cartographie.

RecherchePaper

1 source

4arXiv cs.RO

L'effondrement neuronal ordinal comme a priori de représentation pour la navigation visuelle

Une équipe de recherche a publié en juin 2026 sur arXiv (2606.26839) ORION, une méthode d'apprentissage de politiques de navigation visuelle pour robots mobiles. Le problème de départ est celui de l'imitation learning de bout en bout : lorsqu'on entraîne conjointement un encodeur visuel et un décodeur d'actions via une unique loss d'action, le signal de supervision reste indirect pour l'encodeur. Résultat : l'encodeur apprend des représentations dites "action-agnostic", insensibles aux distinctions qui comptent pour la navigation. Dans les environnements réels, avec leurs distracteurs visuels et la variabilité des scènes, ces représentations ambiguës se traduisent par des actions incohérentes aux carrefours et aux intersections complexes, générant des échecs de navigation. ORION impose explicitement une structure ordinale à l'espace de représentation de l'encodeur : les catégories de commandes ego-centriques (de "Far Left" à "Far Right") forment une séquence naturelle où les classes voisines partagent des contextes visuels similaires. L'encodeur est contraint d'organiser ces classes le long d'un axe discriminant unique, en supprimant la variance hors-axe au sein de chaque classe. Cet encodeur pré-entraîné est ensuite intégré dans un framework de navigation basé sur la diffusion, puis affiné end-to-end. Les expériences, conduites en simulation et en conditions réelles, montrent que ORION surpasse les baselines end-to-end et neural collapse classiques sur le taux de succès de navigation et la progression vers l'objectif, avec des gains particulièrement marqués aux intersections multi-voies. L'intérêt de cette approche réside dans sa réponse à un problème structurel des VLA (Vision-Language-Action models) et plus généralement de l'imitation learning visuelle : la supervision indirecte de l'encodeur. En robotique mobile autonome, notamment pour les AGV et AMR déployés en entrepôt ou en milieu urbain, les représentations "action-agnostic" sont un vecteur d'échec documenté et coûteux en production. L'idée d'exploiter la structure ordinale naturelle des commandes directionnelles pour contraindre l'espace latent est élégante et transférable : elle n'exige pas de données supplémentaires, mais réorganise le signal de supervision existant. La démonstration de gains concrets sur des intersections complexes est particulièrement pertinente pour les intégrateurs de robots de livraison ou de surveillance en environnements non structurés. Cela confirme une hypothèse émergente dans le secteur : la qualité de la représentation visuelle, et non la puissance brute du décodeur, est souvent le goulet d'étranglement dans le passage du labo au terrain. Le concept de "neural collapse" est emprunté à la littérature sur la classification supervisée, où il décrit la convergence des représentations de dernière couche vers des structures géométriques idéales en fin d'entraînement. ORION étend ce cadre à la navigation en y ajoutant la dimension ordinale, ce qui le distingue des travaux précédents qui appliquaient neural collapse sans tenir compte de la relation sémantique entre classes de commandes. Dans l'écosystème des frameworks de navigation diffusion-based, on retrouve des travaux proches comme NoMaD ou GNFactor, ainsi que des approches VLA comme pi-0 de Physical Intelligence. Les auteurs n'annoncent pas de déploiement commercial ni de partenariat industriel identifiable dans ce preprint ; les prochaines étapes naturelles seraient une validation à plus grande échelle sur des plateformes comme Clearpath ou Boston Dynamics Spot, et une extension aux politiques multimodales intégrant des instructions en langage naturel.

RechercheOpinion

1 source