Aller au contenu principal
Auto-reconnaissance sensorimotrice dans les robots pilotés par des LLM multimodaux
RecherchearXiv cs.RO6sem

Auto-reconnaissance sensorimotrice dans les robots pilotés par des LLM multimodaux

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (référence 2505.19237) une étude portant sur la capacité des grands modèles de langage multimodaux (LLM multimodaux) à développer une forme de conscience proprioceptive lorsqu'ils sont embarqués sur un robot mobile autonome. L'équipe a intégré un LLM multimodal directement dans la boucle de contrôle d'un robot mobile, puis a évalué si le système pouvait construire une représentation interne de son propre corps dans l'environnement, sans programmation explicite de cette capacité. Les résultats montrent que le robot démontre trois propriétés distinctes : une conscience environnementale (perception cohérente du monde extérieur), une auto-identification (le système infère lui-même sa nature robotique et ses caractéristiques de mouvement), et une conscience prédictive (anticipation de ses propres états futurs). Les chercheurs ont utilisé la modélisation par équations structurelles (SEM) pour quantifier comment l'intégration sensorielle influence les différentes dimensions du "soi minimal", et ont conduit des tests d'ablation sur les entrées sensorielles pour isoler le rôle de la mémoire épisodique et structurée.

Ces résultats ont des implications concrètes pour les intégrateurs et les équipes de développement travaillant sur des architectures d'agents incarnés. Jusqu'ici, la conscience de soi dans les systèmes robotiques reposait sur des modèles cinématiques codés en dur ou des estimateurs d'état dédiés. Démontrer qu'un LLM peut inférer sa propre nature physique à partir de l'expérience sensorimotrice ouvre la voie à des robots plus adaptatifs, capables de recalibrer leur comportement sans reconfiguration manuelle. Les tests d'ablation confirment que les capteurs se compensent mutuellement en cas de défaillance partielle, ce qui est un indicateur de robustesse opérationnelle réelle, pas seulement de performance en conditions idéales. La mémoire épisodique s'avère indispensable, ce qui renforce l'intérêt des architectures de type RAG (retrieval-augmented generation) pour la robotique embarquée.

Ce travail s'inscrit dans un mouvement plus large visant à unifier les capacités cognitives des LLM avec l'action physique, un champ que des acteurs comme Physical Intelligence (Pi-0), Figure AI ou le projet GR00T de NVIDIA explorent depuis 2023-2024 sous l'angle des architectures VLA (Vision-Language-Action). La particularité ici est de remonter à une couche plus fondamentale : non pas "comment le robot agit" mais "comment le robot se sait robot", ce que les philosophes cognitifs appellent le "soi minimal". Aucun acteur européen n'est directement cité dans ce papier académique, mais des laboratoires comme celui de Wandercraft à Paris ou des groupes de recherche en robotique cognitive à l'INRIA travaillent sur des questions adjacentes. La prochaine étape naturelle sera de tester cette architecture sur des plateformes humanoïdes à degrés de liberté élevés, où l'auto-modélisation corporelle devient critique pour la sécurité et la planification de mouvement.

Impact France/UE

Aucun acteur européen n'est impliqué directement, mais l'INRIA et des groupes de robotique cognitive français travaillent sur des problématiques adjacentes susceptibles de bénéficier de ces résultats sur l'auto-modélisation embarquée.

À lire aussi

Propagation d'actions dangereuses dans une collaboration multi-robots pilotée par LLM via un seul robot compromis
1arXiv cs.RO 

Propagation d'actions dangereuses dans une collaboration multi-robots pilotée par LLM via un seul robot compromis

Des chercheurs ont publié sur arXiv (arXiv:2605.15641, mai 2026) un nouveau paradigme d'attaque ciblant les systèmes multi-robots pilotés par des grands modèles de langage (LLM). Le principe : compromettre un seul robot d'un essaim suffit à propager des instructions malveillantes à l'ensemble du système via la communication inter-robots. L'équipe a évalué l'attaque sur trois dimensions à haut risque, abandon de mission, compromission de données privées, et mise en danger de la sécurité publique, en la quantifiant avec trois métriques : obéissance (taux d'exécution des instructions malveillantes), infectiosité (proportion de robots compromis), et furtivité. Les résultats sont nets : le score d'obéissance atteint 1,00 dans les cas les plus défavorables, l'infectiosité monte à 0,90, et l'attaque complète la propagation en seulement 3,0 rounds en moyenne, tout en maintenant un score de furtivité de 0,81. Le code est disponible publiquement sur GitHub (InfectBot). Ce travail met en évidence un angle mort majeur dans la sécurité des flottes robotiques industrielles et logistiques pilotées par LLM : jusqu'ici, la recherche en sécurité s'était concentrée sur les robots isolés. Or, les architectures multi-robots en production, entrepôts automatisés, chantiers collaboratifs, environnements hospitaliers, reposent précisément sur la communication pair-à-pair pour la coordination. Le mécanisme de consensus qui rend ces systèmes efficaces devient ici un vecteur d'amplification : dans les situations critiques (urgences, conflits de priorité), les instructions adversariales peuvent supplanter les garde-fous de sécurité sans déclencher d'alerte. La persistance du contrôle attaquant (obéissance à 1,00) indique que les alignements de sécurité actuels des planificateurs LLM ne sont pas conçus pour résister à une pression latérale venant d'un pair de confiance. Les LLM comme planificateurs embarqués sont une tendance lourde : des entreprises comme Figure AI, Physical Intelligence (pi0), Boston Dynamics et Agility Robotics intègrent des couches de raisonnement à haut niveau dans leurs architectures. NVIDIA GR00T N2 et les frameworks VLA (Vision-Language-Action) poussent dans la même direction. Ce paper s'inscrit dans un corpus émergent qui questionne la robustesse de ces systèmes face à des attaques adversariales physiquement concrètes, non plus des jailbreaks textuels, mais des actions dans le monde réel. Les prochaines étapes probables incluent des défenses basées sur la vérification cryptographique des instructions inter-robots et des mécanismes de consensus multi-signatures, pistes déjà explorées dans la robotique en essaim mais rarement couplées aux LLM.

UELes flottes robotiques LLM déployées en Europe (entrepôts automatisés, industrie, hôpitaux) sont exposées à ce vecteur d'attaque latérale, et l'AI Act impose aux fournisseurs de systèmes à haut risque de documenter et tester leurs mécanismes de sécurité face à ce type de compromission pair-à-pair.

RechercheOpinion
1 source
De la requête à l'actuation physique : modélisation holistique des menaces dans les systèmes robotiques pilotés par LLM
2arXiv cs.RO 

De la requête à l'actuation physique : modélisation holistique des menaces dans les systèmes robotiques pilotés par LLM

Une étude publiée sur arXiv (référence 2604.27267) propose la première modélisation unifiée des menaces de sécurité pour les systèmes robotiques autonomes pilotés par des grands modèles de langage (LLM). Les auteurs ont modélisé un robot autonome déployé en architecture edge-cloud sous la forme d'un Data Flow Diagram (DFD) hiérarchique, puis appliqué la méthode STRIDE-per-interaction sur six points de franchissement de frontières de confiance. Cette analyse identifie trois familles de menaces distinctes : les menaces cyber conventionnelles (injections réseau, falsification de données), les menaces adversariales (attaques sur la perception visuelle ou sensorielle) et les menaces conversationnelles (prompt injection, manipulation des sorties du LLM). Trois chaînes d'attaque cross-boundary sont tracées de l'entrée externe jusqu'à l'actionnement physique non sécurisé du robot. Ce travail est significatif parce qu'il démontre que ces trois catégories de menaces convergent aux mêmes points d'interface architecturale, ce qui invalide l'hypothèse implicite de nombreux intégrateurs selon laquelle les couches perception, planification et actuation peuvent être sécurisées indépendamment. L'étude expose trois failles structurelles distinctes : l'absence de validation sémantique indépendante entre l'entrée utilisateur et la commande d'actionneur, la translation cross-modale de la perception visuelle vers l'instruction LLM, et le franchissement non médié des frontières via les outils côté fournisseur (tool use). Pour un COO industriel ou un intégrateur déployant des robots LLM-enabled en production, ces résultats impliquent que le pipeline perception-planification-actuation constitue une surface d'attaque continue, et non un empilement de composants isolables. Le contexte est celui d'une intégration accélérée des LLM dans la robotique autonome, portée par des acteurs comme Figure AI, 1X Technologies, Boston Dynamics ou Physical Intelligence (pi0), qui utilisent des architectures VLA (Vision-Language-Action) pour le contrôle haut niveau. Les travaux antérieurs traitaient séparément la cybersécurité robotique, les attaques adversariales sur la perception et la sécurité des LLM, sans modèle architectural unifié. Cette étude, encore au stade preprint et non évaluée par les pairs, comble ce vide méthodologique et devrait alimenter les discussions dans les groupes de standardisation (ISO TC 299, IEC) sur la certification des systèmes robotiques cognitifs. Les auteurs ne précisent pas d'affiliations institutionnelles spécifiques ni de financements dans l'abstract.

UECette étude devrait alimenter les groupes de standardisation européens (IEC, ISO TC 299) travaillant sur la certification des systèmes robotiques cognitifs dans le cadre de l'AI Act, en fournissant une méthodologie unifiée manquante.

RechercheOpinion
1 source
Reconnaissance gestuelle multimodale interprétable pour la téléopération de drones et robots mobiles par fusion de rapports de vraisemblance
3arXiv cs.RO 

Reconnaissance gestuelle multimodale interprétable pour la téléopération de drones et robots mobiles par fusion de rapports de vraisemblance

Une équipe de recherche a publié sur arXiv (réf. 2602.23694, troisième révision) un framework de reconnaissance gestuelle multimodale destiné à la téléopération sans contact physique de robots mobiles et de drones en environnements dangereux. Le système combine des données inertielles issues d'Apple Watches portées aux deux poignets -- accéléromètre, gyroscope et orientation -- avec des signaux de capacitance provenant de gants instrumentés développés spécifiquement pour l'étude. L'architecture repose sur une fusion tardive fondée sur le rapport de vraisemblance logarithmique (log-likelihood ratio, LLR), appliquée à un vocabulaire de 20 gestes distincts inspirés des signaux de balisage utilisés par les marshalls aéroportuaires. Les chercheurs publient simultanément un dataset synchronisant vidéo RGB, données IMU et capteurs capacitifs pour l'ensemble de ces 20 gestes. L'intérêt principal de cette approche réside dans sa robustesse face aux conditions qui font défaillir les systèmes purement visuels : occultations, variations d'éclairage, arrière-plans encombrés -- autant de contraintes courantes sur les sites industriels ou en zone de catastrophe. Les résultats expérimentaux indiquent des performances comparables à une baseline vision state-of-the-art, avec une empreinte computationnelle, une taille de modèle et un temps d'entraînement significativement réduits, ce qui le rend compatible avec du contrôle robotique temps réel. Le mécanisme LLR apporte également une propriété d'interprétabilité rare dans ce domaine : il quantifie la contribution de chaque modalité à la décision finale, ce qui peut intéresser les intégrateurs soumis à des exigences de traçabilité ou de certification. La téléopération par gestes fait l'objet d'une compétition active, notamment entre les approches EMG (électromyographie), les interfaces cerveau-machine et la reconnaissance visuelle pure. Ce travail positionne la fusion IMU-capacitance comme une alternative robuste et légère, sans nécessiter de caméra orientée vers l'opérateur. Il s'agit pour l'instant d'un preprint non encore évalué par les pairs, sans déploiement annoncé sur du matériel de production. Aucun partenaire industriel n'est mentionné, et les prochaines étapes logiques seraient une validation sur des robots commerciaux (AMR, drones quadrotors) dans des conditions terrain réelles, ainsi qu'une intégration avec des middlewares robotiques standards tels que ROS 2.

RecherchePaper
1 source
Une théorie cinétique de la propagation d'information par rencontres dans les systèmes multi-robots
4arXiv cs.RO 

Une théorie cinétique de la propagation d'information par rencontres dans les systèmes multi-robots

Une équipe de chercheurs a publié sur arXiv (arXiv:2606.02296v1) un cadre théorique pour modéliser la propagation d'information dans les essaims de robots mobiles opérant sans connectivité réseau permanente. L'étude aborde le problème via le cas d'usage du suivi de cible (target tracking) : dans ces systèmes, les robots n'échangent des données que lors de rencontres physiques, transformant chaque interaction en un événement de transport d'information. Les auteurs formalisent trois limites structurelles qui gouvernent la performance collective. La première, la limite d'accès, stipule que l'information ne peut coordonner l'équipe que si elle se propage au-delà des robots ayant directement observé la cible. La deuxième, la limite de fraîcheur (staleness), traduit la perte de valeur d'une donnée à mesure que la cible se déplace entre le moment de la collecte et celui de l'utilisation. La troisième, la limite géométrique, correspond au régime de saturation où la vitesse de déplacement de la cible dépasse la capacité de transport d'information du réseau, rendant les améliorations de communication seules sans effet mesurable sur l'erreur de suivi. La validation repose sur des simulations à grande échelle faisant varier la taille de l'équipe, la superficie de la zone d'opération, la portée de communication et la vitesse de la cible. Ce travail apporte une valeur analytique concrète aux concepteurs de systèmes multi-robots déployés dans des environnements dégradés, typiquement la logistique d'entrepôt autonome, la surveillance de périmètre ou les opérations en zone sans infrastructure. La décomposition accès-fraîcheur-géométrie offre aux ingénieurs un outil de diagnostic : avant d'investir dans une augmentation de la portée radio ou de la densité d'agents, il est possible de déterminer quelle limite est effectivement contraignante dans un scénario donné. Le résultat le plus opérationnellement utile est la linéarité locale de la réponse en régime contraint, qui autorise des approximations de conception simples, contrastant avec le comportement non-linéaire observé sur des plages plus larges de paramètres. En pratique, cela signifie qu'un intégrateur AMR ne peut pas simplement extrapoler les performances d'un petit essai pilote à un déploiement à grande échelle sans tenir compte des transitions de régime identifiées ici. Ce papier s'inscrit dans un corpus croissant autour des réseaux robotiques intermittents, un domaine stimulé par les limites des communications sans fil en milieu industriel et la montée en puissance des flottes autonomes hétérogènes. Les approches concurrentes mobilisent généralement soit la théorie des graphes dynamiques (temporal networks), soit les modèles épidémiques pour modéliser la diffusion d'information, tandis que cette contribution emprunte explicitement au formalisme cinétique inspiré de la physique statistique, ce qui en distingue l'angle. Côté acteurs, des laboratoires comme MIT CSAIL, CMU Robotics et ETH Zurich travaillent sur des problématiques connexes de coordination sans infrastructure. En France, des équipes comme celle de l'INRIA sur les systèmes multi-agents embarqués ou les travaux de recherche liés à Exotec sur la coordination de flotte pourraient trouver dans ce cadre des outils théoriques applicables. La prochaine étape naturelle pour ce type de travail est l'intégration dans des boucles de planification de mouvement adaptatives, où la politique de déplacement des robots serait directement optimisée pour maximiser les rencontres informationnellement utiles.

UEDes équipes françaises comme l'INRIA et des industriels comme Exotec pourraient exploiter ce cadre théorique pour dimensionner et diagnostiquer leurs flottes AMR en environnements sans infrastructure réseau permanente, avant de passer à grande échelle.

RecherchePaper
1 source