GIST : extraction de connaissances multimodales…

Perception multimodale, ancrage linguistique, contrôle et saisie d'objets en interaction humain-robot : étude d'ablation

40

1arXiv cs.RO

Perception multimodale, ancrage linguistique, contrôle et saisie d'objets en interaction humain-robot : étude d'ablation

Une étude soumise en mai 2025 sur arXiv (référence 2605.00963) présente une analyse par ablation d'un système de manipulation robotique piloté par interaction homme-robot multimodale, appliqué à une tâche de détection et saisie d'objets. Les chercheurs ont ciblé trois modules du pipeline : le modèle de langage chargé d'extraire les actions à partir d'instructions verbales, le système de perception assurant l'ancrage visuel des objets cibles, et le contrôleur gérant l'exécution du mouvement. L'étude compare trois LLM distincts, cinq configurations de perception, et trois contrôleurs, avant de soumettre les meilleures combinaisons à une analyse factorielle croisée en seconde phase. L'objectif déclaré n'est pas de redessiner le pipeline, mais d'isoler la contribution de chaque composant sous un protocole expérimental commun. Cette approche répond à une question directement actionnable pour les intégrateurs et ingénieurs robotiques : quel module optimiser en priorité pour améliorer le taux de succès, et lequel pour réduire le temps d'exécution ? Dans un contexte industriel, ces deux métriques obéissent à des contraintes distinctes selon les postes de travail, et les confondre dans une évaluation globale masque les vrais leviers d'amélioration. La méthodologie par ablation reste encore rare dans les publications de manipulation robotique, où la tendance est d'évaluer un seul composant à la fois, ce qui rend les résultats difficiles à reproduire ou à transposer d'un système à l'autre. Les auteurs précisent que l'analyse vise aussi à orienter les choix d'ingénierie dans les prochaines versions du système. Ce travail s'inscrit dans un effort plus large de la communauté pour rendre opérationnels les pipelines de manipulation guidés par langage hors des environnements contrôlés de laboratoire. Sur le plan concurrentiel, deux écoles s'affrontent actuellement : les modèles unifiés de type VLA (Vision-Language-Action) entraînés à grande échelle, comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, et les pipelines modulaires qui préservent la séparabilité des composants pour faciliter le débogage et l'adaptation sectorielle. L'étude n'annonce pas de déploiement industriel et reste pour l'instant au stade de la validation expérimentale. La prochaine étape logique serait de tester si les gains mesurés en laboratoire résistent au sim-to-real gap, qui demeure le principal obstacle à la mise en production des systèmes de manipulation guidés par instructions en langage naturel.

RecherchePaper

1 source

Titre traduit : Où suis-je ? Localisation multimodale par ancrage sémantique de cartes via des modèles vision-langage

40

2arXiv cs.RO

Titre traduit : Où suis-je ? Localisation multimodale par ancrage sémantique de cartes via des modèles vision-langage

Des chercheurs proposent une nouvelle approche de la localisation robotique en interieur, dans les zones sans signal GPS, en la traitant comme un probleme de raisonnement semantique plutot que d'estimation geometrique classique. L'equipe a affine le modele vision-langage Qwen2.5-VL-7B via LoRA, en lui ajoutant une tete de regression legere qui predit directement les coordonnees de pose continues (x, y, theta) a partir de l'etat cache final, sans passer par une generation de texte. Le systeme recoit trois entrees simultanees: une image de camera frontale, un scan LiDAR polaire, et une carte de grille semantique vue du dessus. L'entrainement s'appuie sur une fonction de perte composite position-direction avec apprentissage par curriculum, sur un jeu de donnees Gazebo maison de 120 112 echantillons repartis sur 527 scenes. Sur un ensemble de test de 18 017 echantillons en distribution, le modele atteint 98,23% de precision en position, 98,00% en direction et 96,75% de pose complete correcte, avec une erreur moyenne de position de 0,11 metre, une erreur d'orientation de 5,7 degres, et un temps de traitement de 0,62 seconde par echantillon. L'interet de ces resultats tient moins a la performance brute qu'a leur robustesse face a la generalisation, un point faible recurrent des systemes de localisation bases sur l'apprentissage. Sur sept categories d'objets jamais vues a l'entrainement, la precision de position ne chute que de 7,2 points, a 90,99%, ce qui suggere que le modele raisonne reellement sur la semantique spatiale plutot que de memoriser l'apparence des objets. Face a des cartes incompletes ou perimees, un simple reajustement restaure la performance a 93,72% de precision, un scenario frequent en usage reel ou les cartes ne sont pas toujours a jour. Pour les integrateurs et les equipes robotique en environnement industriel ou logistique, ce travail ouvre une piste concrete pour reduire la dependance aux pipelines SLAM geometriques, couteux a calibrer, dans des lieux deja cartographies semantiquement comme des entrepots ou des usines. Il apporte aussi une preuve supplementaire que des modeles vision-langage generalistes, une fois specialises, peuvent remplacer des chaines de perception sur mesure pour des taches de bas niveau comme l'estimation de pose. Deux etudes d'ablation eclairent la complementarite des capteurs. Sans LiDAR, avec seulement la camera et la carte, la precision de position reste a 95,06%, a peine 3,2 points sous le systeme complet, ce qui montre que la vision seule porte l'essentiel du signal utile. Mais lorsque la camera fait face a un mur sans objet visible, le LiDAR permet de maintenir 92,33% de precision, contre 70,74% seulement quand ni le LiDAR ni des objets visibles ne sont disponibles, un cas typique d'occlusion ou de couloir peu structure. Ce travail s'inscrit dans la lignee de recherches recentes qui detournent les modeles vision-langage de leur usage generatif d'origine pour en faire des estimateurs de pose directs, une tendance deja visible dans les architectures VLA comme Pi-0 ou GR00T N2, mais appliquee ici specifiquement a la localisation plutot qu'au controle moteur. Les auteurs positionnent leur methode comme une alternative aux approches SLAM traditionnelles, potentiellement plus resiliente aux environnements dynamiques, sans toutefois avancer de calendrier de deploiement sur robot reel au-dela des simulations Gazebo presentees dans l'etude.

RecherchePaper

1 source

Enrichir le contexte spatial et temporel pour l'apprentissage par imitation robotique avec des graphes de scène

35

3arXiv cs.RO

Enrichir le contexte spatial et temporel pour l'apprentissage par imitation robotique avec des graphes de scène

Des chercheurs ont publié le 1er juin 2026 sur arXiv (2606.01072) une méthode d'apprentissage par imitation qui exploite des graphes de scène dynamiques comme mécanisme de mémoire structurée pour les robots mobiles. Le principe : pendant l'exécution d'une tâche, le robot maintient un graphe de scène mis à jour en continu, qui encode les relations entre objets et leur évolution dans le temps. Plutôt que de traiter uniquement les observations courantes du capteur, le système capitalise sur l'historique accrété de l'environnement pour inférer des politiques d'action. Les validations couvrent deux régimes : manipulation mobile en simulation (environnements à grande échelle spatialement) et manipulation sur table en conditions réelles. Les auteurs rapportent une amélioration substantielle des performances par rapport aux baselines, particulièrement sur des tâches nécessitant un raisonnement à long terme, sans donner de métriques chiffrées précises dans l'abstract. Ce travail s'attaque à deux verrous persistants du déploiement de robots apprenants dans des environnements non-structurés. Le premier est l'observabilité partielle : dans un appartement ou un bureau, le champ de vision d'un robot ne capture qu'une fraction de l'espace pertinent, et les objets manipulés disparaissent régulièrement du cadre. Le second est l'horizon temporel : des tâches comme "ranger la cuisine" enchaînent des dizaines de sous-tâches dont les dépendances ne sont pas localement visibles. En substituant un graphe de scène explicite et structuré à une mémoire implicite (fenêtre d'observations brutes, état caché LSTM), l'approche donne au robot une représentation interprétable et modulaire du contexte. Pour les intégrateurs industriels et les équipes qui déploient des politiques d'imitation dans des environnements semi-structurés, c'est une piste crédible pour réduire le gap entre démo de labo et robustesse opérationnelle, même si les expériences restent pour l'instant confinées à la simulation et au tabletop. L'apprentissage par imitation (behavioral cloning, GAIL, DAgger) a connu un regain d'intérêt majeur avec l'essor des Visual Language Action models (VLA) comme Pi-0 de Physical Intelligence, RT-2 de Google DeepMind, ou OpenVLA. Les graphes de scène sont une technique éprouvée en vision par ordinateur et en navigation robotique (travaux de Armeni, Rosinol, Chang notamment), mais leur intégration dans des pipelines d'imitation learning reste peu explorée. Les approches concurrentes pour gérer la mémoire à long terme incluent les transformers avec attention sur un historique d'observations, les représentations de tâches hiérarchiques (task graphs), et les world models latents. Ce preprint n'étant pas encore évalué par les pairs, ses résultats méritent confirmation sur des benchmarks plus larges et des environnements réellement non-structurés avant de pouvoir orienter des décisions d'architecture. Les auteurs n'annoncent pas de code public ni de suite industrielle à ce stade.

RechercheOpinion

1 source

43

4arXiv cs.RO

Mono-shot d'apprentissage multimodal par démonstration avec cartes élastiques à contrainte de force

Une équipe de robotique publie sur arXiv (2607.09515v1) une méthode d'apprentissage par démonstration capable d'encoder simultanément le mouvement et les forces de contact à partir d'une seule démonstration. Le système repose sur deux briques techniques : un algorithme de segmentation probabiliste multimodale qui pondère dynamiquement les signaux spatiaux et les signaux de force pour extraire automatiquement des primitives de mouvement conscientes du contact, et une extension de la représentation dite "elastic maps" intégrant des contraintes de force externes, résolue via une optimisation convexe pour produire des trajectoires cohérentes avec les forces démontrées. Les auteurs valident l'approche sur cinq tâches de manipulation réelles et deux configurations matérielles distinctes : un bras UR5e équipé d'une pince Robotiq 2f-85 avec capteur de force au poignet, et un Kinova Gen3 avec une pince Openhand Model O dotée de capteurs de force aux doigts. Les résultats montrent une segmentation multimodale robuste, une reproduction fidèle des profils de force, et une généralité constatée sur les deux plateformes. L'enjeu dépasse la curiosité académique. La plupart des méthodes de Learning from Demonstration actuelles ne modélisent que la trajectoire spatiale, ignorant les forces de contact, ce qui pose problème dès qu'un robot doit insérer, essuyer, polir ou assembler des pièces avec un contact physique contraint. Pour les intégrateurs industriels, cette lacune se traduit par des gestes appris en simulation ou en démonstration pure qui deviennent dangereux ou inconsistants une fois transposés à des tâches de contact réel. Une méthode qui apprend le bon profil de force dès la première démonstration, sans réglage manuel ni multiples essais, réduirait le coût de programmation des cobots pour des tâches d'assemblage fin, un frein connu à l'adoption du LfD en production. Le travail s'inscrit dans la lignée des elastic maps, une représentation déjà utilisée pour encoder des trajectoires à partir de démonstrations, ici étendue aux contraintes physiques plutôt que purement géométriques. Il se positionne comme alternative aux approches classiques de type DMP ou GMM/GMR, généralement limitées au domaine spatial. Aucun calendrier de transfert industriel n'est annoncé ; il s'agit à ce stade d'une validation en laboratoire sur bras collaboratifs standards du marché.

RecherchePaper

1 source

GIST : extraction de connaissances multimodales et ancrage spatial par topologie sémantique intelligente

À lire aussi

Perception multimodale, ancrage linguistique, contrôle et saisie d'objets en interaction humain-robot : étude d'ablation

Titre traduit : Où suis-je ? Localisation multimodale par ancrage sémantique de cartes via des modèles vision-langage

Enrichir le contexte spatial et temporel pour l'apprentissage par imitation robotique avec des graphes de scène

Mono-shot d'apprentissage multimodal par démonstration avec cartes élastiques à contrainte de force