Aller au contenu principal
Sémantique et exécution physique : une architecture neuro-symbolique pour l'assemblage robotique multi-paire
RecherchearXiv cs.RO3h

Sémantique et exécution physique : une architecture neuro-symbolique pour l'assemblage robotique multi-paire

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs présente un cadre neuro-symbolique de bout en bout conçu pour l'assemblage robotique multi-paires en environnements non structurés, publié sur arXiv (2606.10808). Le système fonctionne à partir d'une caméra RGB-D montée sur le bras (configuration eye-on-hand) et s'appuie sur un bras UR3 d'Universal Robots. Le pipeline traite chaque paire pièce-cible en générant un sous-graphe optimal via un grand modèle de langage (LLM), puis coordonne l'ensemble des sous-graphes en une séquence globale cohérente grâce à une étape de résolution topologique. Des arbres de comportement dynamiques intégrant des compétences atomiques pilotées par retour d'effort ferment la boucle d'exécution physique. Sur 100 scènes réelles évaluées hors ligne, le framework atteint 97 % d'exécutabilité globale, et le déploiement sur robot réel obtient un taux de succès de 90 % avec une tolérance de 0,5 mm sous forte interférence entre pièces.

Ce résultat est notable parce qu'il adresse deux défauts symétriques qui bloquent l'industrialisation de la planification autonome d'assemblage. Les planificateurs classiques (recherche d'état, PDDl) explosent combinatoirement dès que le nombre de pièces augmente. Les approches purement neuronales ou LLM-only produisent des "hallucinations logiques" : séquences d'actions syntaxiquement valides mais physiquement incohérentes (conflits topologiques, collisions ignorées). Le framework proposé découple les deux niveaux : le LLM génère uniquement des actions basiques pour limiter les hallucinations, tandis qu'un discriminateur léger insère les actions de support pour les cas limites. La tolérance de 0,5 mm sous interférence forte est un indicateur concret de robustesse, même si les vidéos de démonstration disponibles ne couvrent pas l'ensemble des 100 configurations testées, ce qui limite la vérification indépendante des chiffres annoncés.

Le problème de l'assemblage multi-paires est un verrou industriel identifié depuis les années 1990 dans la robotique manufacturière, avec des applications directes en électronique, aéronautique et assemblage de sous-systèmes automobiles. Les approches concurrentes actuelles incluent les planificateurs symboliques classiques (MoveIt, OpenRAVE), les politiques d'imitation learning (ACT, Diffusion Policy) et les Visual Language Action models (pi-0 de Physical Intelligence, RoboFlamingo). Ce framework se positionne entre la planification symbolique vérifiable et l'inférence neuronale généraliste. Les auteurs soulignent que l'architecture est extensible à faible coût par ajout de nouvelles paires ou actions. Les prochaines étapes logiques seraient un déploiement sur des bras à plus haute charge utile et une validation sur des lignes d'assemblage industrielles réelles, domaine où des acteurs européens comme Wandercraft ou Enchanted Tools pourraient trouver des synergies applicatives.

Impact France/UE

Les équipes R&D robotique européennes (notamment dans l'aéronautique et l'électronique) pourraient intégrer cette architecture pour automatiser des tâches d'assemblage multi-pièces à tolérance serrée, un verrou industriel non résolu par les planificateurs classiques.

À lire aussi

MALLVI : un cadre multi-agents pour la manipulation robotique généralisée et intégrée
1arXiv cs.RO 

MALLVI : un cadre multi-agents pour la manipulation robotique généralisée et intégrée

Une équipe de chercheurs a publié MALLVI (Multi-Agent Large Language and Vision Interface), un framework d'orchestration multi-agents pour la manipulation robotique généraliste, dont la cinquième révision vient d'être déposée sur arXiv (2602.16898). Le système prend en entrée une instruction en langage naturel et une image de la scène, puis génère des actions atomiques exécutables pour un bras manipulateur. L'architecture coordonne quatre agents spécialisés: un Decomposer chargé de découper la tâche en sous-étapes, un Localizer pour la détection et la localisation visuelle, un Thinker pour le raisonnement et la planification de haut niveau, et un Reflector dédié à la détection d'erreurs et à la récupération ciblée. Un cinquième agent optionnel, le Descriptor, maintient une mémoire visuelle de l'état initial de l'environnement. La boucle fermée est pilotée par un modèle de vision-langage (VLM) qui évalue les retours environnementaux après chaque action et décide si l'étape doit être rejouée ou si le robot peut passer à la suivante. Les expériences en simulation et en environnement réel indiquent des gains de taux de réussite sur des tâches de manipulation zero-shot par rapport aux approches classiques en boucle ouverte. Ce que MALLVI cherche à résoudre est un problème structurel bien documenté de la manipulation pilotée par LLM: les systèmes open-loop, qui n'interrogent pas l'état réel du monde après chaque action, accumulent les erreurs sans possibilité de correction en cours d'exécution. L'apport du Reflector est notable sur ce point, puisque plutôt que de déclencher une replanification complète en cas d'échec, il identifie les agents pertinents à réactiver, limitant la latence et la consommation de tokens. Pour les intégrateurs et les équipes R&D, l'intérêt réside dans la capacité zero-shot du système, sans fine-tuning ni prompt engineering spécifique à chaque tâche. Toutefois, les métriques de taux de succès restent difficiles à contextualiser faute d'indications précises sur le nombre de DOF du bras utilisé, la complexité des scènes de test, ou les conditions d'occultation. Le framework s'inscrit dans un courant très actif depuis 2023 autour de l'utilisation des grands modèles pour la planification robotique, avec des travaux fondateurs comme SayCan (Google DeepMind) et Code-as-Policies, et des architectures VLA (Vision-Language-Action) récentes comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. La spécificité de MALLVI est son découpage en agents modulaires plutôt qu'un modèle monolithique, une approche qui facilite le débogage et la spécialisation par composant. Le code source est disponible publiquement sur GitHub (iman1234ahmadi/MALLVI). Aucun partenariat industriel ni déploiement commercial n'est annoncé à ce stade, ce qui en fait pour l'instant une contribution académique à suivre davantage qu'un produit opérationnel.

RechercheOpinion
1 source
Vers une récupération d'architecture assistée par LLM pour les systèmes ROS 2 réels : approche multi-niveaux à base d'agents pour la reconstruction de structure hiérarchique
2arXiv cs.RO 

Vers une récupération d'architecture assistée par LLM pour les systèmes ROS 2 réels : approche multi-niveaux à base d'agents pour la reconstruction de structure hiérarchique

Des chercheurs ont publié sur arXiv (arXiv:2605.20055) une approche basée sur des agents LLM pour reconstruire automatiquement l'architecture logicielle hiérarchique de systèmes robotiques développés sous ROS 2. Le pipeline, dit "blueprint-guided", intègre deux améliorations majeures par rapport à une version antérieure : un raffinement du prompting pour améliorer la cohérence et la contrôlabilité de la synthèse architecturale, et une stratégie de récupération par étapes s'appuyant sur des représentations intermédiaires multi-niveaux, incluant la liste des nœuds ROS atomiques et les dépendances entre fichiers de lancement. L'approche a été évaluée sur un système réel de désassemblage automatisé de produits, basé sur des bras robotiques coopératifs et des artefacts ROS 2 hétérogènes, présentant une complexité d'intégration nettement supérieure au cas d'étude précédent. L'enjeu est concret pour les équipes robotique en production : dans un système ROS 2, la structure logicielle est rarement documentée explicitement. Elle est fragmentée entre le code source, les fichiers de lancement et les paramètres de configuration, rendant la maintenance, l'audit de sécurité et l'évolution du système coûteux. Les outils existants se limitent généralement à la cartographie des nœuds et des topics (niveau "câblage"), sans restituer la décomposition fonctionnelle hiérarchique que les architectes logiciels utilisent réellement. Cette approche LLM propose de franchir ce saut d'abstraction, avec des résultats jugés améliorés en consistance structurelle et en robustesse, bien que les auteurs signalent eux-mêmes des limites persistantes sur la sémantique d'intégration dynamique dans les déploiements à grande échelle, un point de fragilité non négligeable pour des systèmes en production. ROS 2, successeur de ROS 1 maintenu par la Open Robotics Foundation, est devenu le middleware de référence pour les robots industriels et de recherche, avec une adoption croissante chez des intégrateurs comme Clearpath, Boston Dynamics ou Universal Robots. La récupération d'architecture logicielle (architecture recovery) est un problème classique du génie logiciel, mais son application aux systèmes cyber-physiques distribués comme ROS 2 reste un chantier ouvert. Ce travail s'inscrit dans un effort académique plus large visant à automatiser la documentation des systèmes robotiques complexes, en complément d'approches d'analyse statique comme ros2doctor ou roslaunch-analyzer. La prochaine étape naturelle serait de tester la méthode sur des systèmes ROS 2 de plus grande envergure, notamment dans des environnements d'entrepôts ou de lignes de production, pour valider la tenue à l'échelle revendiquée.

RecherchePaper
1 source
Assemblage robotique à contacts multiples dans la construction par politique de diffusion
3arXiv cs.RO 

Assemblage robotique à contacts multiples dans la construction par politique de diffusion

Des chercheurs ont publié sur arXiv (arXiv:2511.17774, version 3) une étude portant sur l'application de l'apprentissage par diffusion à l'assemblage robotique dans le secteur de la construction. Le cas d'usage retenu est l'assemblage tenon-mortaise en bois, une jonction à contact riche soumise à des contraintes de friction et de géométrie strictes, avec des jeux inférieurs au millimètre. Les politiques de diffusion sensori-motrices ont été entraînées à partir de démonstrations téléopérées collectées sur un poste de travail robotique industriel équipé de capteurs force/couple. L'évaluation s'est déroulée en deux phases : une baseline en conditions nominales et un test de robustesse avec des perturbations positionnelles aléatoires allant jusqu'à 10 mm, soit un ordre de grandeur au-delà de la tolérance d'assemblage. La politique la plus performante atteint 100 % de taux de succès en conditions nominales et 75 % en moyenne sous perturbation. Ce résultat est notable car il adresse directement un verrou industriel structurel : l'accumulation de tolérances dans la construction empêche depuis longtemps l'automatisation fiable des tâches d'assemblage à contact. Le fait qu'une politique diffusion parvienne à compenser des désalignements de 10 mm pour des jeux sub-millimétriques suggère que ces architectures apprennent implicitement une stratégie de compliance active via le retour d'effort, sans modélisation géométrique explicite. Pour un intégrateur industriel ou un bureau de méthodes, cela signifie que le sim-to-real gap sur des tâches de précision en construction pourrait être en partie résorbé par l'apprentissage par imitation couplé à la force/couple, sans recalibration manuelle systématique. L'assemblage tenon-mortaise n'est pas un choix anodin : cette technique millénaire est revenue en force dans la construction bois massive (CLT, charpente lamellée-croisée), un segment en forte croissance en Europe avec des acteurs comme Sœur Bois ou Blumer-Lehmann. Les politiques de diffusion appliquées à la robotique manipulatrice ont été popularisées par des travaux comme le Diffusion Policy de Chi et al. (2023, Columbia/Toyota) et sont désormais explorées par des labos comme Physical Intelligence (pi) avec Pi-0, ou par Boston Dynamics Research. Cette étude se distingue en ciblant explicitement la construction industrielle plutôt que la cuisine ou la logistique. La prochaine étape logique serait un déploiement en conditions chantier réelles, avec variation de matériaux et de géométries, ce que les auteurs n'ont pas encore testé.

UELe segment construction bois massive (CLT, charpente lamellée-croisée) est en forte croissance en Europe avec des acteurs comme Sœur Bois ou Blumer-Lehmann ; une automatisation fiable des assemblages à contact ouvrirait une voie d'industrialisation directement applicable sur les chantiers européens.

RecherchePaper
1 source
SAGAS : assemblage par graphe sémantique pour la planification hors ligne en logique temporelle
4arXiv cs.RO 

SAGAS : assemblage par graphe sémantique pour la planification hors ligne en logique temporelle

Des chercheurs ont déposé sur arXiv (référence 2512.00775, version 2, 2025) un cadre baptisé SAGAS (Semantic-Aware Graph-Assisted Stitching) pour la planification robotique à long horizon à partir de données hors-ligne uniquement. Le problème ciblé : piloter un agent pour exécuter des tâches complexes décrites en logique temporelle linéaire (LTL), un formalisme mathématique exprimant des séquences de conditions du type "atteindre A, puis B, tout en évitant C", sans modèle de dynamique, sans démonstrations spécifiques à la tâche, et sans interaction en ligne avec l'environnement. SAGAS apprend deux composants offline à partir de fragments de trajectoires hétérogènes : un graphe latent d'atteignabilité réutilisable, et un exécuteur conditionné sur des objectifs figé après l'entraînement. Pour chaque nouvelle formule LTL au moment du test, le système augmente ce graphe avec des propositions sémantiques, puis applique une recherche en produit de Büchi pour synthétiser un plan de waypoints "prefix-suffix" à coût minimisé, exécuté par l'exécuteur figé. Les expériences portent sur les domaines de locomotion d'OGBench, une suite de benchmarks offline standard dans la communauté. La contribution centrale revendiquée est la généralisation zero-shot à des spécifications LTL non vues à l'entraînement, sans récompense tâche-spécifique ni réentraînement de politique. C'est une distinction structurelle face aux deux familles dominantes : la synthèse symbolique model-based exige un système de transitions étiqueté précis, difficile à construire sur du matériel réel, tandis que les méthodes d'apprentissage par renforcement supposent généralement une interaction en ligne ou des démonstrations dédiées. SAGAS déplace le raisonnement propre à chaque formule vers une augmentation de graphe et une recherche symbolique au temps d'inférence, découplant ainsi la capacité de généralisation du processus d'entraînement. À noter : les validations sont entièrement simulées sur OGBench ; le gap sim-to-real n'est pas adressé, ce qui limite la portée industrielle immédiate. La planification LTL en robotique mobilise un nombre croissant d'équipes, portée par le besoin de comportements vérifiables formellement sur des robots industriels et de service. Les approches concurrentes couvrent un spectre large : planification par diffusion (Diffuser, Decision Diffuser), politiques conditionnées par langage naturel via des VLA (vision-language-action models), et combinaisons de model checking avec du renforcement offline sur D4RL (IQL, CQL). SAGAS occupe la niche "offline + symbolique + zero-shot LTL", encore peu exploitée. Aucun déploiement matériel ni partenariat industriel n'est annoncé ; les suites logiques seraient une validation sur plateforme physique et une extension à des environnements à espace d'état plus riche.

RecherchePaper
1 source