Aller au contenu principal
RecherchearXiv cs.RO59min

IA à base d'agents, pilotée par LLM : synthèse d'actions robotiques à partir de la parole, des gestes et de la musique

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs publient sur arXiv (arXiv:2606.31158, soumission nouvelle non encore validée par les pairs) un framework qui utilise un grand modèle de langage (LLM) pour générer des actions robotiques à partir d'entrées humaines multimodales combinant parole naturelle, gestes de la main et musique ou rythme sonore. L'architecture assemble trois briques : un module de transcription vocale, un module de reconnaissance de gestes, et un pipeline de traitement du signal dédié à la détection de battements musicaux. Ces flux sont contextualisés via des templates de prompts, puis transmis à un LLM qui, informé d'un espace d'actions robotiques prédéfini, raisonne sur l'ensemble pour produire une séquence d'actions cohérente. Cette séquence alimente une file d'exécution pilotée via ROS (Robot Operating System) sur un robot quadrupède. L'abstract ne précise ni le modèle de LLM utilisé, ni de métriques de performance chiffrées, ni le nom commercial du robot testé : à ce stade, il s'agit d'une preuve de concept méthodologique documentée dans un preprint, pas d'un produit ou d'un déploiement.

L'intérêt tient à la fusion de trois canaux hétérogènes dans un seul raisonnement : commandes sémantiques issues de la parole, information déictique (pointage, direction) issue des gestes, et cues rythmiques issues de la musique. Cela dépasse les systèmes de commande rigides et pré-programmés qui dominent encore l'interaction homme-robot (HRI), et s'inscrit dans la tendance plus large consistant à confier aux LLM le rôle de "cerveau de raisonnement" pour des comportements robotiques créatifs et contextuels, plutôt que pour la seule manipulation d'objets. Ce type d'approche vise davantage les robots d'accueil, de divertissement ou compagnons sociaux que l'industrie lourde, le quadrupède servant ici de plateforme de démonstration générique.

Le travail s'inscrit dans la vague récente de recherches associant LLM et VLA (vision-language-action) à la robotique, aux côtés d'efforts comme GR00T N2 ou Pi-0 orientés manipulation. Ce papier se distingue en ciblant spécifiquement l'interaction créative multimodale plutôt que la tâche industrielle. L'abstract ne mentionne ni affiliation ni auteurs identifiables, ni calendrier de suite ; les prochaines étapes attendues pour ce type de travail restent une évaluation utilisateur et l'extension à d'autres morphologies de robots.

Dans nos dossiers

À lire aussi

De la requête à l'actuation physique : modélisation holistique des menaces dans les systèmes robotiques pilotés par LLM
1arXiv cs.RO 

De la requête à l'actuation physique : modélisation holistique des menaces dans les systèmes robotiques pilotés par LLM

Une étude publiée sur arXiv (référence 2604.27267) propose la première modélisation unifiée des menaces de sécurité pour les systèmes robotiques autonomes pilotés par des grands modèles de langage (LLM). Les auteurs ont modélisé un robot autonome déployé en architecture edge-cloud sous la forme d'un Data Flow Diagram (DFD) hiérarchique, puis appliqué la méthode STRIDE-per-interaction sur six points de franchissement de frontières de confiance. Cette analyse identifie trois familles de menaces distinctes : les menaces cyber conventionnelles (injections réseau, falsification de données), les menaces adversariales (attaques sur la perception visuelle ou sensorielle) et les menaces conversationnelles (prompt injection, manipulation des sorties du LLM). Trois chaînes d'attaque cross-boundary sont tracées de l'entrée externe jusqu'à l'actionnement physique non sécurisé du robot. Ce travail est significatif parce qu'il démontre que ces trois catégories de menaces convergent aux mêmes points d'interface architecturale, ce qui invalide l'hypothèse implicite de nombreux intégrateurs selon laquelle les couches perception, planification et actuation peuvent être sécurisées indépendamment. L'étude expose trois failles structurelles distinctes : l'absence de validation sémantique indépendante entre l'entrée utilisateur et la commande d'actionneur, la translation cross-modale de la perception visuelle vers l'instruction LLM, et le franchissement non médié des frontières via les outils côté fournisseur (tool use). Pour un COO industriel ou un intégrateur déployant des robots LLM-enabled en production, ces résultats impliquent que le pipeline perception-planification-actuation constitue une surface d'attaque continue, et non un empilement de composants isolables. Le contexte est celui d'une intégration accélérée des LLM dans la robotique autonome, portée par des acteurs comme Figure AI, 1X Technologies, Boston Dynamics ou Physical Intelligence (pi0), qui utilisent des architectures VLA (Vision-Language-Action) pour le contrôle haut niveau. Les travaux antérieurs traitaient séparément la cybersécurité robotique, les attaques adversariales sur la perception et la sécurité des LLM, sans modèle architectural unifié. Cette étude, encore au stade preprint et non évaluée par les pairs, comble ce vide méthodologique et devrait alimenter les discussions dans les groupes de standardisation (ISO TC 299, IEC) sur la certification des systèmes robotiques cognitifs. Les auteurs ne précisent pas d'affiliations institutionnelles spécifiques ni de financements dans l'abstract.

UECette étude devrait alimenter les groupes de standardisation européens (IEC, ISO TC 299) travaillant sur la certification des systèmes robotiques cognitifs dans le cadre de l'AI Act, en fournissant une méthodologie unifiée manquante.

RechercheOpinion
1 source
SR-Platform : un pipeline à base d'agents pour la synthèse d'environnements de simulation robotique en langage naturel
2arXiv cs.RO 

SR-Platform : un pipeline à base d'agents pour la synthèse d'environnements de simulation robotique en langage naturel

SR-Platform est un pipeline agentique, publié en preprint arXiv (2605.14700) en mai 2026, qui convertit des descriptions en langage naturel en environnements de simulation MuJoCo exécutables et physiquement valides. Le système décompose la génération de scènes en quatre étapes : un orchestrateur LLM qui structure l'intention utilisateur en plan de scène ; un "asset forge" qui récupère des géométries en cache ou en génère de nouvelles via synthèse LLM-CadQuery ; un "layout architect" qui assigne les poses des objets et vérifie les contraintes spatiales ; et une couche bridge qui assemble le fichier MJCF final en intégrant le modèle de robot cible. Déployé comme stack Docker à neuf services (MinIO pour les meshes, Qdrant pour la récupération sémantique d'assets, Redis pour l'état des jobs, InfluxDB pour la télémétrie), SR-Platform affiche une latence médiane d'environ 50 secondes pour des scènes à cinq objets, tombant à 30-40 secondes avec cache d'assets actif, sur une base de 611 appels LLM réussis en 30 jours de production. Le taux de retry de l'asset forge atteint 11,3 %, avec récupération automatique. Construire manuellement une scène MuJoCo prête à l'entraînement exige une expertise croisée en modélisation 3D, spécification MJCF, gestion des collisions et intégration robot, un processus qui représente typiquement plusieurs heures par scène. Ramener cette étape à moins d'une minute via une invite en langage naturel est un levier direct pour produire des environnements d'entraînement plus variés, facteur clé de la généralisation sim-to-real des politiques robotiques. Pour les équipes de robot learning, cette friction de configuration est réelle et souvent sous-estimée dans les pipelines de données synthétiques. Les métriques publiées portent cependant sur des scènes limitées à cinq objets dans un cadre contrôlé, et la robustesse du pipeline sur des configurations plus complexes ou des descriptions ambiguës reste à démontrer. La génération automatisée d'environnements de simulation est un goulot d'étranglement reconnu dans les pipelines de robot learning, que ce soit pour le reinforcement learning, l'imitation learning ou l'entraînement de modèles vision-langage-action (VLA). MuJoCo, maintenu par DeepMind, est le moteur physique de référence pour ces travaux. NVIDIA Isaac Lab et le framework open-source Genesis couvrent également cet espace ; Physical Intelligence (pi.ai) mise de son côté sur des pipelines d'entraînement à très large échelle. SR-Platform se positionne en amont, sur la génération de scènes plutôt que de politiques, avec un accent sur l'accessibilité via le langage naturel. Son code source n'est pas publié en open-source et le contexte précis du déploiement qualifié de "production" n'est pas explicité dans le preprint.

RecherchePaper
1 source
AGILE : reconstruction des interactions main-objet à partir de vidéo par génération à base d'agents
3arXiv cs.RO 

AGILE : reconstruction des interactions main-objet à partir de vidéo par génération à base d'agents

Une équipe de chercheurs a présenté AGILE (arXiv:2602.04672v3), un framework de reconstruction d'interactions dynamiques main-objet à partir de vidéos monoculaires, ciblant deux applications majeures : la collecte de données pour la manipulation dextère en robotique et la création de jumeaux numériques pour la simulation et la réalité virtuelle. La méthode s'attaque à deux verrous techniques qui paralysent les approches existantes : d'une part, le rendu neuronal classique produit sous forte occultation des géométries fragmentées, inutilisables directement en simulation physique ; d'autre part, l'initialisation par Structure-from-Motion (SfM) est notoriellement fragile sur des vidéos captées en conditions réelles. AGILE bascule du paradigme de reconstruction vers ce que les auteurs appellent une "génération agentique" : un Vision-Language Model (VLM) pilote un modèle génératif pour synthétiser un mesh objet complet, fermé (watertight) et texturé haute fidélité, sans dépendre du contenu vidéo occulté. Une stratégie dite "anchor-and-track" initialise la pose de l'objet sur une unique frame d'interaction via un modèle fondation, puis propage cette pose temporellement en exploitant la similarité visuelle entre l'asset généré et les frames vidéo. Une optimisation finale dite contact-aware intègre des contraintes sémantiques, géométriques et de stabilité d'interaction pour garantir la plausibilité physique. Sur les benchmarks HO3D, DexYCB et ARCTIC, AGILE surpasse les baselines en précision géométrique globale. L'intérêt industriel de cette approche réside dans la production d'assets directement exploitables en simulation, une propriété validée par les auteurs via du retargeting real-to-sim pour des applications robotiques. C'est précisément le point de friction qui freinait l'adoption des pipelines de reconstruction vidéo dans les boucles d'entraînement de politiques de manipulation : les meshes obtenus par NeRF ou reconstruction multi-vues classique nécessitaient un travail de remaillage manuel avant d'être injectables dans un moteur physique comme MuJoCo ou Isaac Sim. En contournant le SfM, AGILE devient également utilisable sur des données de terrain non contrôlées, ce qui ouvre la voie à la collecte passive de démos humaines à grande échelle, un prérequis pour les approches VLA (Vision-Language-Action) qui peinent encore à obtenir suffisamment de trajectoires dextères annotées. Le problème de la reconstruction main-objet est étudié depuis plusieurs années, avec des datasets de référence comme HO-3D (2020) et DexYCB (2021), et des méthodes basées sur les modèles paramétriques MANO pour la main. L'originalité d'AGILE est de déporter la reconstruction de l'objet vers une génération guidée, plutôt que de l'estimer directement depuis le signal vidéo dégradé. Les concurrents directs sont les méthodes NeRF-based adaptées aux scènes dynamiques (D-NeRF, HO-NeRF) et les pipelines SfM+MVS classiques, tous sensibles aux occultations. Du côté des acteurs industriels, cette direction intéresse directement les équipes travaillant sur la télé-opération et l'imitation learning pour bras robotiques dextères, notamment chez Dexterous Robotics, Physical Intelligence (Pi) ou les labos académiques proches de Figure et Apptronik. Le projet dispose d'une page dédiée (agile-hoi.github.io) ; aucun code ni dataset supplémentaire n'est annoncé à ce stade.

RecherchePaper
1 source
Concevoir pour les gestionnaires de robots : synthèse de la littérature et de la pratique
4arXiv cs.RO 

Concevoir pour les gestionnaires de robots : synthèse de la littérature et de la pratique

Une équipe de chercheurs en interaction humain-robot a publié fin mai 2025 sur arXiv (référence 2605.15892) une étude portant sur une figure méconnue mais critique des déploiements robotiques : le "robot wrangler", soit l'opérateur chargé de configurer, surveiller et dépanner les robots évoluant dans des espaces publics ou semi-publics. Les contextes visés sont concrets et en forte croissance : livraisons en milieu hospitalier, accueil de visiteurs dans les musées, réassortiment en entrepôts. Pour cerner les besoins de ce profil, les auteurs ont conduit une revue systématique de la littérature académique sur le sujet, complétée par une réflexion sur leurs propres expériences directes et projetées en tant que wranglers dans leurs domaines respectifs. Le résultat central est une typologie des activités de wrangling, accompagnée d'un ensemble de recommandations de conception destinées à mieux outiller ces opérateurs. L'apport principal de cette recherche est de nommer et de formaliser un travail qui reste largement invisible dans les projets de déploiement robotique. Le terme "wrangling" recouvre en réalité un espace d'activités extrêmement hétérogène : configuration initiale, supervision en temps réel, reprise manuelle en cas de panne, médiation avec le public, gestion des exceptions. Cette dispersion rend le rôle difficile à qualifier dans les organigrammes et les contrats de service, ce qui constitue un angle mort opérationnel pour les intégrateurs et les décideurs industriels. À mesure que les flottes de robots se déploient à plus grande échelle, l'absence de support outillé pour ce rôle devient un vecteur de défaillance systémique, indépendamment des performances intrinsèques du robot. Ce travail s'inscrit dans un corpus croissant d'études de terrain sur la cohabitation humain-robot dans des environnements non contrôlés, un champ qui gagne en urgence avec l'accélération des déploiements de robots de livraison (Keenon, Savioke, Bear Robotics dans les hôtels et hôpitaux) et de robots de service en entrepôts, où des acteurs français comme Exotec opèrent à grande échelle. Les implications de conception dégagées par les auteurs -- interfaces de supervision adaptées, documentation contextuelle, outils de remontée d'incidents -- constituent des spécifications fonctionnelles directement exploitables par les équipes produit des fournisseurs de robots. La prochaine étape logique, non précisée dans le papier, serait de valider ces recommandations par des études in situ auprès d'opérateurs en conditions réelles.

UELes recommandations de conception (interfaces de supervision, documentation contextuelle, outils de remontée d'incidents) sont directement applicables aux équipes produit de fournisseurs européens comme Exotec, qui déploie des flottes robotiques à grande échelle dans des entrepôts.

RecherchePaper
1 source