Dialogue multi-agents à plusieurs tours pour la…

CoMo3R-SLAM : SLAM dense monoculaire collaboratif avec priors de reconstruction 3D appris pour systèmes multi-agents en extérieur

44

1arXiv cs.RO

CoMo3R-SLAM : SLAM dense monoculaire collaboratif avec priors de reconstruction 3D appris pour systèmes multi-agents en extérieur

CoMo3R-SLAM est un système de SLAM dense collaboratif monoculaire présenté en preprint sur arXiv (2605.30488) en mai 2026. Il permet à plusieurs robots de construire ensemble une carte 3D dense d'un environnement extérieur en n'utilisant que des caméras RGB monoculaires, sans capteurs de profondeur de type LiDAR ou RGB-D. Chaque agent embarque un front-end guidé par des priors de reconstruction appris pour assurer le suivi en temps réel et la fusion dense locale. Un coordinateur centralisé prend ensuite en charge la cohérence globale via correspondance de pointmaps denses, synchronisation géométrique Sim(3) en forme fermée, et ajustement de faisceaux global accéléré GPU avec optimisation de profondeur par segments. Le système ne requiert ni capteur de profondeur ni calibration d'intrinsèques paramétriques. Tournant en ligne à 8 FPS, il obtient le meilleur ATE (erreur de trajectoire absolue) sur trois des quatre scènes Tanks and Temples, et des résultats compétitifs sur les séquences Waymo, égalant ou dépassant les méthodes RGB-D état de l'art. L'impact concret pour l'industrie est d'abord matériel : supprimer les capteurs de profondeur réduit significativement le poids embarqué, le coût unitaire et la complexité de calibration des plateformes robotiques. LiDAR et caméras RGB-D représentent souvent plusieurs kilogrammes et plusieurs milliers d'euros par unité, ce qui pénalise le déploiement en flotte. Que des priors d'apprentissage profond permettent de lever l'ambiguïté d'échelle monoculaire en extérieur valide une hypothèse forte du secteur : les modèles feed-forward de reconstruction 3D sont désormais suffisamment robustes pour opérer hors conditions contrôlées. Pour les intégrateurs et décideurs B2B, cela ouvre la voie à des flottes de robots légers capables de cartographier collaborativement des environnements vastes sans infrastructure capteur lourde. Le SLAM collaboratif dense est un défi ouvert depuis une décennie. Des systèmes comme COVINS ou Kimera-Multi s'appuient encore majoritairement sur des capteurs de profondeur ou des environnements intérieurs. La montée en puissance des modèles de reconstruction 3D appris, notamment DUSt3R (2023) et MASt3R (2024), issus de Naver Labs Europe à Grenoble, a rendu accessible la reconstruction dense monoculaire sans calibration explicite. CoMo3R-SLAM est la première application de ces priors dans un cadre multi-agents outdoor. Les benchmarks Tanks and Temples et Waymo constituent une validation pertinente pour des conditions de déploiement réelles. Côté concurrents, les systèmes multi-robots embarqués de Boston Dynamics, ANYbotics ou de spécialistes SLAM comme SLAMcore restent ancrés sur des architectures multi-capteurs. Ce preprint, non encore évalué par les pairs, ouvre la voie à des pilotes sur drones d'inspection ou robots mobiles légers où le rapport poids/performance est critique.

UECoMo3R-SLAM s'appuie directement sur DUSt3R et MASt3R développés par Naver Labs Europe à Grenoble, validant l'apport fondamental de la recherche française comme socle des futurs systèmes SLAM multi-agents légers en extérieur.

RecherchePaper

1 source

AssemLM : un modèle de langage multimodal pour le raisonnement spatial en assemblage robotique

44

2arXiv cs.RO

AssemLM : un modèle de langage multimodal pour le raisonnement spatial en assemblage robotique

Des chercheurs ont publié AssemLM (arXiv:2604.08983), un modèle multimodal de raisonnement spatial pour la robotique d'assemblage. Le système fusionne trois sources (manuels d'assemblage, nuages de points 3D, instructions textuelles) pour prédire des poses 6D, c'est-à-dire la position et l'orientation complètes d'une pièce dans l'espace tridimensionnel. Un encodeur de nuages de points spécialisé extrait des caractéristiques géométriques et rotationnelles fines, transmises ensuite à un LLM multimodal pour le raisonnement spatial de haut niveau. Les auteurs publient également AssemBench, un benchmark de plus de 900 000 échantillons multimodaux avec annotations de poses 6D précises, étendant l'évaluation classique du grounding 2D à l'inférence géométrique 3D complète. Des tests sur robot réel valident des performances à l'état de l'art sur des tâches d'assemblage multi-étapes en conditions réelles. Le verrou ciblé est central en manipulation fine industrielle: les VLMs courants opèrent sur des images 2D et peinent à raisonner sur la géométrie précise qu'exigent le vissage, l'emboîtement ou l'alignement de composants au sous-millimètre. En intégrant les nuages de points comme modalité native, AssemLM raisonne sur l'orientation exacte d'une pièce, pas seulement sur sa présence dans le champ visuel. Pour un intégrateur ou une équipe R&D en automatisation industrielle, prédire des poses 6D depuis un manuel PDF et une capture 3D ouvre la voie à des cellules d'assemblage reconfigurables sans reprogrammation manuelle entre chaque référence produit. AssemBench, avec ses 900 000 échantillons annotés, comble par ailleurs un manque d'infrastructure de comparaison rigoureuse dans ce sous-domaine. Le raisonnement spatial est un défi persistant pour les modèles de vision-langage, majoritairement entraînés sur des tâches 2D (captioning, grounding d'objets, VQA). Les modèles VLA (Vision-Language-Action) récents, comme pi0 de Physical Intelligence, OpenVLA ou les travaux de Google DeepMind sur RoboVLMs, progressent sur la manipulation généraliste, mais l'assemblage industriel structuré avec ses contraintes de précision sub-millimétrique reste peu adressé par ces approches. AssemLM se positionne dans cette niche en ciblant explicitement les tâches avec documentation formalisée (manuels, nomenclatures). Les auteurs annoncent la mise à disposition publique du code, des modèles et du dataset AssemBench, point d'entrée potentiel pour la communauté académique et les industriels souhaitant affiner le modèle sur leurs propres composants. Aucun partenaire industriel ni déploiement commercial n'est mentionné: il s'agit à ce stade d'une publication de recherche, sans produit ni pilote planifié.

UELa publication en open-source d'AssemBench (900 000 échantillons annotés 6D) constitue une ressource d'entraînement et d'évaluation directement exploitable par les labos européens travaillant sur la manipulation industrielle précise, sans acteur FR/EU impliqué à ce stade.

RechercheOpinion

1 source

Raisonnement robuste sur l'état d'assemblage par reconnaissance d'actions pour la collaboration homme-robot

50

3arXiv cs.RO

Raisonnement robuste sur l'état d'assemblage par reconnaissance d'actions pour la collaboration homme-robot

Une étude publiée sur arXiv (identifiant 2606.20150) en juin 2026 évalue de manière systématique cinq méthodes de suivi d'état d'assemblage à partir de la reconnaissance d'actions humaines (HAR), dans le cadre de la collaboration homme-robot (HRC). Les chercheurs ont testé des approches à base de règles logiques, de modèles de Markov cachés (HMM) et de réseaux de neurones (NN) sur deux jeux de données aux caractéristiques différentes. Les tests combinent des entrées simulées avec différents niveaux de bruit et des entrées réalistes issues d'un modèle HAR opérationnel. L'objectif est de déterminer quelle méthode permet de suivre fidèlement l'état d'une tâche d'assemblage coopérative, étape par étape, à partir de la seule reconnaissance des gestes humains. Les résultats contredisent l'hypothèse dominante selon laquelle les approches par réseaux de neurones surpassent systématiquement les méthodes classiques. Les NN et HMM affichent de bonnes performances sur des tâches à faible variabilité, mais se révèlent fragiles face à des séquences atypiques ou bruitées. Les méthodes logiques, bien que moins sophistiquées, se montrent plus robustes dans les scénarios à haute variabilité. Par ailleurs, la modélisation de la durée attendue des actions s'avère critique pour les tâches comportant des actions répétées, notamment lorsqu'aucun capteur complémentaire ne fournit de signal de confirmation. Ce constat a des implications directes pour les intégrateurs industriels qui déploient des cellules HRC sur des lignes d'assemblage réelles : choisir un modèle d'inférence d'état inadapté au profil de la tâche peut entraîner des erreurs de synchronisation robot-opérateur difficiles à diagnostiquer. Ce travail s'inscrit dans un domaine de recherche en pleine effervescence, porté par l'essor des robots collaboratifs (cobots) dans les environnements manufacturiers. Des acteurs comme Universal Robots, FANUC ou encore des laboratoires européens tels que ceux du LAAS-CNRS et de Fraunhofer travaillent sur des pipelines HAR similaires pour des applications d'assistance à l'assemblage. La difficulté centrale, le "demo-to-reality gap" entre conditions de laboratoire et déploiement en usine, reste entière. Cette étude ne propose pas de solution universelle mais établit une carte comparative utile, à condition que les praticiens caractérisent d'abord la variabilité réelle de leur tâche avant de sélectionner une architecture de suivi d'état.

UELe LAAS-CNRS et Fraunhofer sont explicitement cités comme acteurs travaillant sur des pipelines HAR similaires, et les conclusions comparatives offrent une grille de décision directement utilisable par les intégrateurs européens qui déploient des cellules cobot sur des lignes d'assemblage réelles.

RecherchePaper

1 source

La fonction des objets plutôt que leur nature : espaces latents fonctionnels pour le raisonnement sur les affordances

44

4arXiv cs.RO

La fonction des objets plutôt que leur nature : espaces latents fonctionnels pour le raisonnement sur les affordances

Une équipe de chercheurs présente A4D, un système de planification robotique qui raisonne sur ce que les objets permettent de faire plutôt que sur leur apparence visuelle. Publié sur arXiv (ref. 2606.05533), le système encode les observations visuelles dans un espace latent dit "fonctionnel", structuré autour d'affordances comme "déplaçable" ou "saisissable", au lieu de regrouper les objets par similitude visuelle. Les performances annoncées : 94 % de précision sur les affordances connues, soit plus de 15 points au-dessus des approches de l'état de l'art, une montée de 70 % à plus de 90 % de précision sur des affordances inédites avec moins de 10 % des données d'entraînement initiales, et une inférence 100 fois plus rapide. Un mécanisme de découverte automatique d'affordances permet au système de s'adapter aux scénarios non vus en étendant dynamiquement cet espace latent. Le problème que cible A4D est central en manipulation robotique : la généralisation à des objets nouveaux. Les systèmes actuels échouent dès qu'un robot rencontre un objet visuellement différent de ceux vus à l'entraînement, même si sa fonction est identique. Raisonner par fonction plutôt que par apparence permettrait aux robots industriels et de service de s'adapter sans cycle de réentraînement complet, ce qui représente un verrou majeur pour le déploiement en environnements non structurés. L'efficacité en données est ici particulièrement notable : atteindre 90 % de précision sur de nouvelles catégories avec moins de 10 % du dataset original réduit drastiquement le coût d'intégration pour un nouvel environnement de travail. Ces résultats restent toutefois issus d'évaluations de laboratoire, et la robustesse en conditions industrielles réelles n'est pas encore documentée. Le concept d'affordance en robotique est hérité de la psychologie écologique de James Gibson (années 1970), mais son opérationnalisation dans des systèmes de planification automatisée reste un défi ouvert depuis deux décennies. Les approches concurrentes incluent les Vision-Language-Action models (VLA) type pi0 de Physical Intelligence ou OpenVLA, qui misent sur des modèles fondation massifs pour la généralisation, et les méthodes de représentation basées sur des descripteurs sémantiques. A4D se positionne comme une alternative plus légère et interprétable. Le code, les vidéos et les données sont disponibles sur le site du projet ; aucun partenariat industriel ni déploiement pilote n'est annoncé à ce stade.

RecherchePaper

1 source

Dialogue multi-agents à plusieurs tours pour la reconstruction collaborative améliore légèrement les performances des VLM en raisonnement spatial

À lire aussi

CoMo3R-SLAM : SLAM dense monoculaire collaboratif avec priors de reconstruction 3D appris pour systèmes multi-agents en extérieur

AssemLM : un modèle de langage multimodal pour le raisonnement spatial en assemblage robotique

Raisonnement robuste sur l'état d'assemblage par reconnaissance d'actions pour la collaboration homme-robot

La fonction des objets plutôt que leur nature : espaces latents fonctionnels pour le raisonnement sur les affordances