Primitives de mouvement par le langage : ancrer les mod…

Multi-agent : contrôle robotique par modèles vision-langage embarqués

48

1arXiv cs.RO

Multi-agent : contrôle robotique par modèles vision-langage embarqués

Une équipe de recherche présente, dans un article publié sur arXiv (arXiv:2607.07403v1), une architecture multi-agents (MAS) pour le contrôle robotique conçue pour fonctionner entièrement en local, sans dépendre d'une infrastructure de calcul externe. Le système pilote un manipulateur mobile autonome polyvalent dans un entrepôt industriel simulé, où il exécute cinq catégories de tâches : inspection de sécurité, maintenance de l'entrepôt, recherche d'objets, vérification de la qualité des colis, et réponse aux demandes humaines. L'architecture s'appuie sur des modèles vision-langage (VLM) compacts, entre 3 et 20 milliards de paramètres, avec un fine-tuning appliqué spécifiquement pour améliorer la précision de l'inspection des colis. Un agent d'orchestration baptisé "Megamind" a été conçu pour limiter les pertes de contexte que subissent les petits modèles sur des tâches de planification à long horizon. Le système a été validé en configuration hardware-in-the-loop, sur un mini PC AMD Ryzen AI, combinant simulation et matériel embarqué réel. Ce travail s'attaque à trois limites récurrentes des VLM et des modèles vision-langage-action (VLA) appliqués à la robotique : l'explicabilité, la généralisation et les besoins en calcul. En s'appuyant sur des modèles compacts exécutés localement plutôt que sur des VLA massifs hébergés dans le cloud, l'approche promet une réduction des coûts d'infrastructure et une latence moindre, deux critères déterminants pour les intégrateurs industriels qui veulent déployer des robots autonomes sans dépendre d'une connectivité permanente. Les auteurs présentent leurs résultats comme une preuve qu'une architecture multi-agents entièrement embarquée constitue une alternative viable et économique aux déploiements dépendants du cloud, avec un potentiel de transfert vers le réel. Ces résultats restent toutefois obtenus en environnement simulé ; le passage à un robot physique en conditions réelles d'entrepôt demeure l'étape déterminante pour confirmer la promesse. L'essor de VLA comme Pi-0, GR00T N2 ou Helix a mis en évidence la dépendance de nombreux systèmes robotiques à des clusters de calcul distants, un frein pour les déploiements industriels à grande échelle. En misant sur des modèles plus petits orchestrés collectivement plutôt que sur un modèle monolithique unique, cette recherche se distingue des approches dominantes centrées sur des VLA de grande taille. Les chercheurs ont publié l'environnement de simulation en open source sous licence Apache 2.0, ouvrant la voie à des extensions et comparaisons par la communauté robotique. Les prochaines étapes attendues concernent la validation sur robot physique en entrepôt réel ainsi que l'élargissement des catégories de tâches couvertes par le système.

RecherchePaper

1 source

SPECTRA : primitives de mouvement spectrales conditionnées par le contexte pour la généralisation des compétences robotiques

51

2arXiv cs.RO

SPECTRA : primitives de mouvement spectrales conditionnées par le contexte pour la généralisation des compétences robotiques

Des chercheurs proposent SPECTRA (Spectral Movement Primitive, SMP), un framework d'apprentissage par imitation dans le domaine fréquentiel pour la manipulation robotique, décrit dans un article publié sur arXiv (2607.06978v1). Le principe consiste à représenter les démonstrations de trajectoire par des coefficients de Fourier tronqués sur horizon fini, plutôt que par des points temporels bruts. Une bande de fréquences basses, sélectionnée empiriquement, capture la géométrie dominante du mouvement, tandis que les harmoniques plus élevées, responsables d'une croissance disproportionnée des dérivées (vitesse, accélération, jerk), sont écartées. Un modèle GMM/GMR (mélange de gaussiennes avec régression) conditionné par le contexte et sensible au référentiel prédit les coefficients de la bande de tâche dans un repère canonique ; la trajectoire cartésienne obtenue est ensuite convertie en espace articulaire via cinématique inverse séquentielle. Un régulateur couplé en phase limite la progression temporelle demandée sans toucher aux coefficients spectraux, imposant ainsi les limites de vitesse et d'accélération articulaires tout en conservant le chemin de l'effecteur. Les auteurs valident l'approche sur plusieurs critères (reconstruction de la bande de tâche, robustesse à des démonstrations corrompues, généralisation hors distribution entre repères non vus, admissibilité dynamique en espace articulaire, préservation du chemin) et un déploiement réel sur un bras Franka Panda. Le problème que cible SPECTRA est concret pour tout intégrateur en apprentissage par imitation : les pipelines classiques apprennent une trajectoire en espace de tâche puis lui imposent après coup des limites d'exécution (filtrage, lissage, écrêtage, mise à l'échelle temporelle), ce qui déforme souvent le chemin de l'effecteur jugé critique pour la tâche, par exemple lors d'un versement, d'une insertion de pièce ou du suivi d'un contour précis. En couplant génération de trajectoire et régulation dynamique dès la conception, dans le domaine fréquentiel, SPECTRA évite cette distorsion a posteriori : les résultats rapportés montrent une réduction substantielle des violations dynamiques et du jerk, tout en préservant le chemin voulu pendant la régulation de phase. Pour la robotique industrielle, où les cycles de préhension et d'insertion tolèrent mal les à-coups mécaniques, cela offre une alternative aux primitives de mouvement dynamiques (DMP) classiques et aux méthodes de lissage a posteriori. Les primitives de mouvement existent depuis les Dynamic Movement Primitives (DMP), introduites il y a une vingtaine d'années et largement utilisées en apprentissage par imitation pour encoder des trajectoires robustes et reproductibles. SPECTRA s'en démarque en travaillant dans le domaine fréquentiel plutôt que temporel, et en couplant explicitement génération de tâche et contraintes d'exécution articulaire plutôt que de les traiter séparément. Le choix du Franka Panda comme plateforme de validation, un bras collaboratif conçu par l'allemand Franka Robotics (ex Franka Emika) très utilisé en recherche académique, ancre les travaux dans l'écosystème européen de manipulation robotique. L'article ne mentionne ni calendrier de transfert industriel ni partenariat commercial : il s'agit à ce stade d'une contribution de recherche évaluée en laboratoire, dont la suite logique serait une validation sur des tâches de manipulation plus complexes et une comparaison directe avec les approches DMP existantes.

UEImpact indirect: la validation s'appuie sur un bras Franka Panda, plateforme concue par l'allemand Franka Robotics, mais aucun partenariat, financement ou deploiement commercial en France/UE n'est mentionne.

RecherchePaper

1 source

Mouvement primitif en robotique : une étude approfondie

46

3arXiv cs.RO

Mouvement primitif en robotique : une étude approfondie

Publiée sur arXiv sous l'identifiant 2601.02379v2, une revue encyclopédique sur les movement primitives en robotique recense et compare l'ensemble des cadres théoriques développés ces trente dernières années pour représenter les trajectoires de contrôle de robots à partir de démonstrations humaines. Ces primitives de mouvement, blocs élémentaires de motion analogues aux phonèmes du langage, permettent à un système autonome de décomposer un geste complexe en segments réutilisables et recombinables. Les approches couvertes incluent les Dynamic Movement Primitives (DMP), formulés comme des systèmes dynamiques de type amortisseur-ressort, les Probabilistic Movement Primitives (ProMP) couplant statistiquement plusieurs démonstrations, et les extensions neuronales adaptées aux espaces d'état de haute dimension. La revue présente ces frameworks en ordre chronologique, évalue leurs forces et faiblesses, et identifie des applications concrètes : saisie d'objets, mouvements balistiques, enchaînements de tâches en manipulation robotique. Pour les praticiens (intégrateurs, équipes R&D en manipulation, COO industriels), cette synthèse positionne les primitives de mouvement comme une couche intermédiaire critique entre démonstration brute et politique généraliste de bout en bout. Elles permettent le transfert de compétences motrices sans rejeu complet des données d'entraînement et restent interprétables, contrairement aux architectures VLA (Vision-Language-Action) comme π0 de Physical Intelligence ou OpenVLA. La revue souligne en particulier des défis non résolus que ces dernières n'ont pas encore surmontés à l'échelle industrielle : segmentation automatique des démonstrations, passage à l'échelle en environnements non structurés, et couplage de contraintes en temps réel. Les primitives de mouvement ont émergé au début des années 2000 avec les travaux d'Auke Ijspeert, Jun Nakanishi et Stefan Schaal sur les DMP, puis étendues par Paraschos et al. avec les ProMP en 2013. Le champ s'est depuis fragmenté en nombreuses variantes sans synthèse unifiée. Face aux approches purement neuronales (ACT, Diffusion Policy) popularisées par les groupes de Sergey Levine et Chelsea Finn, les primitives se repositionnent comme solution modulaire et interprétable. Les auteurs identifient leur intégration dans des architectures de type foundation model pour la robotique comme prochaine étape structurante, un axe qui mobilise des acteurs aux États-Unis (Boston Dynamics AI Institute, CMU) comme en Europe (DLR, LAAS-CNRS).

UELAAS-CNRS est explicitement identifié comme un acteur européen clé sur l'intégration des primitives de mouvement dans les architectures foundation model pour la robotique, ce qui positionne la recherche française au cœur d'un axe stratégique face aux approches VLA purement neuronales.

RecherchePaper

1 source

AssemLM : un modèle de langage multimodal pour le raisonnement spatial en assemblage robotique

44

4arXiv cs.RO

AssemLM : un modèle de langage multimodal pour le raisonnement spatial en assemblage robotique

Des chercheurs ont publié AssemLM (arXiv:2604.08983), un modèle multimodal de raisonnement spatial pour la robotique d'assemblage. Le système fusionne trois sources (manuels d'assemblage, nuages de points 3D, instructions textuelles) pour prédire des poses 6D, c'est-à-dire la position et l'orientation complètes d'une pièce dans l'espace tridimensionnel. Un encodeur de nuages de points spécialisé extrait des caractéristiques géométriques et rotationnelles fines, transmises ensuite à un LLM multimodal pour le raisonnement spatial de haut niveau. Les auteurs publient également AssemBench, un benchmark de plus de 900 000 échantillons multimodaux avec annotations de poses 6D précises, étendant l'évaluation classique du grounding 2D à l'inférence géométrique 3D complète. Des tests sur robot réel valident des performances à l'état de l'art sur des tâches d'assemblage multi-étapes en conditions réelles. Le verrou ciblé est central en manipulation fine industrielle: les VLMs courants opèrent sur des images 2D et peinent à raisonner sur la géométrie précise qu'exigent le vissage, l'emboîtement ou l'alignement de composants au sous-millimètre. En intégrant les nuages de points comme modalité native, AssemLM raisonne sur l'orientation exacte d'une pièce, pas seulement sur sa présence dans le champ visuel. Pour un intégrateur ou une équipe R&D en automatisation industrielle, prédire des poses 6D depuis un manuel PDF et une capture 3D ouvre la voie à des cellules d'assemblage reconfigurables sans reprogrammation manuelle entre chaque référence produit. AssemBench, avec ses 900 000 échantillons annotés, comble par ailleurs un manque d'infrastructure de comparaison rigoureuse dans ce sous-domaine. Le raisonnement spatial est un défi persistant pour les modèles de vision-langage, majoritairement entraînés sur des tâches 2D (captioning, grounding d'objets, VQA). Les modèles VLA (Vision-Language-Action) récents, comme pi0 de Physical Intelligence, OpenVLA ou les travaux de Google DeepMind sur RoboVLMs, progressent sur la manipulation généraliste, mais l'assemblage industriel structuré avec ses contraintes de précision sub-millimétrique reste peu adressé par ces approches. AssemLM se positionne dans cette niche en ciblant explicitement les tâches avec documentation formalisée (manuels, nomenclatures). Les auteurs annoncent la mise à disposition publique du code, des modèles et du dataset AssemBench, point d'entrée potentiel pour la communauté académique et les industriels souhaitant affiner le modèle sur leurs propres composants. Aucun partenaire industriel ni déploiement commercial n'est mentionné: il s'agit à ce stade d'une publication de recherche, sans produit ni pilote planifié.

UELa publication en open-source d'AssemBench (900 000 échantillons annotés 6D) constitue une ressource d'entraînement et d'évaluation directement exploitable par les labos européens travaillant sur la manipulation industrielle précise, sans acteur FR/EU impliqué à ce stade.

RechercheOpinion

1 source

Primitives de mouvement par le langage : ancrer les modèles de langage dans le mouvement robotique

À lire aussi

Multi-agent : contrôle robotique par modèles vision-langage embarqués

SPECTRA : primitives de mouvement spectrales conditionnées par le contexte pour la généralisation des compétences robotiques

Mouvement primitif en robotique : une étude approfondie

AssemLM : un modèle de langage multimodal pour le raisonnement spatial en assemblage robotique