
L'IA pourrait-elle vous dire où vous avez laissé vos clés ?
Des chercheurs du MIT ont présenté à la conférence CVPR un cadre de mémoire à long terme pour robots mobiles, baptisé DAAAM (Describe Anything, Anywhere, Anytime, at Any Moment). Développé par Luca Carlone, professeur associé au département d'AéroAstro du MIT et directeur du laboratoire SPARK, avec le doctorant Nicolas Gorlo comme auteur principal et Lukas Schmid, désormais professeur à l'Université de technologie de Nuremberg, le système permet à un robot de construire une carte 3D enrichie de descriptions sémantiques en langage naturel, au fil de ses déplacements. Concrètement, un robot équipé de DAAAM peut enregistrer qu'un vélo rouge avec un pneu crevé est garé sur le rack devant le Stata Center, ou qu'un composant partiellement assemblé occupe tel bac de stockage dans une usine, et répondre ensuite à des requêtes formulées en langage courant. La méthode surpasse les approches de l'état de l'art en précision de réponse et s'exécute assez rapidement pour fonctionner en temps réel sur un robot mobile.
Ce que DAAAM résout est un verrou bien identifié en robotique industrielle et de service : la mémoire spatiotemporelle. Un opérateur humain sait spontanément où il a posé un composant la veille et peut déléguer la récupération avec une simple instruction verbale. Les robots, même dotés de cartographie 3D avancée, échouaient jusqu'ici à ce niveau de raisonnement contextuel. DAAAM fusionne deux lignées de recherche distinctes : les modèles de vision multimodale, qui décrivent richement les scènes mais traitent une annotation à la fois, et les frameworks de cartographie robotique, qui couvrent de grands espaces mais sans sémantique fine ni ancrage temporel. En combinant les deux dans une représentation unifiée et interrogeable en langage naturel, le MIT ouvre la voie à des robots capables de recevoir et exécuter des consignes verbales sans interface spécialisée, ce que Carlone formule ainsi : « le robot doit parler la même langue que les humains ».
Le laboratoire SPARK du MIT travaille depuis plusieurs années sur la cartographie sémantique pour robots autonomes, dans un contexte de convergence accélérée entre grands modèles de langage et robotique embarquée. DAAAM s'inscrit dans la tendance plus large des cartes de scène en langage naturel, où des équipes comme celles de Google DeepMind, Stanford ou Carnegie Mellon explorent des architectures comparables. Les applications envisagées par les auteurs dépassent la robotique industrielle : maintenance assistée par réalité augmentée et guidage en environnement complexe sont explicitement citées. Aucun calendrier de validation hors campus ni partenariat industriel n'est annoncé, ce qui situe DAAAM clairement au stade de prototype de recherche publié, pas encore d'un système en cours de déploiement commercial.
Un co-auteur, Lukas Schmid, est désormais professeur à l'Université de technologie de Nuremberg, ancrant une partie de cette recherche en Europe, mais aucun partenariat industriel ni déploiement européen n'est annoncé à ce stade.




