Aller au contenu principal
Perception multimodale, ancrage linguistique, contrôle et saisie d'objets en interaction humain-robot : étude d'ablation
RecherchearXiv cs.RO7sem

Perception multimodale, ancrage linguistique, contrôle et saisie d'objets en interaction humain-robot : étude d'ablation

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une étude soumise en mai 2025 sur arXiv (référence 2605.00963) présente une analyse par ablation d'un système de manipulation robotique piloté par interaction homme-robot multimodale, appliqué à une tâche de détection et saisie d'objets. Les chercheurs ont ciblé trois modules du pipeline : le modèle de langage chargé d'extraire les actions à partir d'instructions verbales, le système de perception assurant l'ancrage visuel des objets cibles, et le contrôleur gérant l'exécution du mouvement. L'étude compare trois LLM distincts, cinq configurations de perception, et trois contrôleurs, avant de soumettre les meilleures combinaisons à une analyse factorielle croisée en seconde phase. L'objectif déclaré n'est pas de redessiner le pipeline, mais d'isoler la contribution de chaque composant sous un protocole expérimental commun.

Cette approche répond à une question directement actionnable pour les intégrateurs et ingénieurs robotiques : quel module optimiser en priorité pour améliorer le taux de succès, et lequel pour réduire le temps d'exécution ? Dans un contexte industriel, ces deux métriques obéissent à des contraintes distinctes selon les postes de travail, et les confondre dans une évaluation globale masque les vrais leviers d'amélioration. La méthodologie par ablation reste encore rare dans les publications de manipulation robotique, où la tendance est d'évaluer un seul composant à la fois, ce qui rend les résultats difficiles à reproduire ou à transposer d'un système à l'autre. Les auteurs précisent que l'analyse vise aussi à orienter les choix d'ingénierie dans les prochaines versions du système.

Ce travail s'inscrit dans un effort plus large de la communauté pour rendre opérationnels les pipelines de manipulation guidés par langage hors des environnements contrôlés de laboratoire. Sur le plan concurrentiel, deux écoles s'affrontent actuellement : les modèles unifiés de type VLA (Vision-Language-Action) entraînés à grande échelle, comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, et les pipelines modulaires qui préservent la séparabilité des composants pour faciliter le débogage et l'adaptation sectorielle. L'étude n'annonce pas de déploiement industriel et reste pour l'instant au stade de la validation expérimentale. La prochaine étape logique serait de tester si les gains mesurés en laboratoire résistent au sim-to-real gap, qui demeure le principal obstacle à la mise en production des systèmes de manipulation guidés par instructions en langage naturel.

À lire aussi

Évaluation physiologique multimodale de l'interaction physique humain-robot à contacts intensifs en conditions variables
1arXiv cs.RO 

Évaluation physiologique multimodale de l'interaction physique humain-robot à contacts intensifs en conditions variables

Une équipe de chercheurs a publié une étude empirique multimodale portant sur l'interaction physique humain-robot (pHRI) dans des conditions environnementales variables. Le protocole a soumis des opérateurs humains à 18 combinaisons distinctes de température, bruit acoustique et niveau d'éclairement, pendant l'exécution de tâches de traçage en contact direct avec un robot. Les chercheurs ont enregistré simultanément l'activité électrodermale (EDA), l'électromyographie de surface (sEMG), des données d'eye-tracking et des évaluations subjectives du confort. Résultat principal : la performance d'exécution est restée stable à travers toutes les conditions, mais la charge autonomique, mesurée par le niveau de conductance cutanée (SCL), a augmenté significativement avec la température. Les charges physique et cognitive, elles, n'ont pas varié de façon notable. Ces résultats mettent en évidence un mécanisme de compensation physiologique : les opérateurs maintiennent leur niveau de performance en augmentant leur effort biologique pour supprimer l'inconfort thermique, sans que cela ne soit visible dans les métriques de tâche classiques. C'est une distinction critique pour les intégrateurs et les concepteurs de systèmes cobotiques industriels : une évaluation centrée uniquement sur la performance (temps de cycle, taux d'erreur) peut masquer un coût opérateur réel, notamment en environnements chauds ou bruyants. Le fait que le confort perçu ne corrèle pas avec l'erreur de traçage ni le temps d'exécution invalide l'hypothèse courante que la performance se dégrade avec l'inconfort ressenti. Ce travail s'inscrit dans un courant de recherche croissant sur les architectures de contrôle "physiology-aware", où les signaux biologiques temps réel de l'opérateur alimentent la boucle de commande du robot pour adapter son comportement à l'état de charge de l'humain. La robotique collaborative industrielle, notamment dans des secteurs comme l'automobile ou la logistique, où les conditions thermiques et sonores sont variables, constitue le terrain d'application naturel. Des systèmes comme les cobots Universal Robots ou KUKA devront intégrer ce type de feedback pour répondre aux exigences ergonomiques croissantes des régulateurs européens. Les prochaines étapes identifiées par les auteurs incluent le développement de pipelines de traitement de signal adaptatifs capables d'exploiter ces métriques physiologiques en conditions non structurées.

UELes fabricants de cobots européens (KUKA, Universal Robots) et les régulateurs ergonomiques UE sont directement concernés : cette étude démontre que les métriques de performance classiques masquent un coût physiologique réel chez l'opérateur, ce qui invalide les protocoles d'évaluation actuels et anticipe des exigences réglementaires renforcées pour les déploiements cobotiques industriels en Europe.

RecherchePaper
1 source
Une couche d'interaction mécanique virtuelle permet des transferts d'objets humain-robot fiables
2arXiv cs.RO 

Une couche d'interaction mécanique virtuelle permet des transferts d'objets humain-robot fiables

Des chercheurs ont publié sur arXiv (preprint 2511.19543v2) une approche visant à rendre les transferts d'objets entre humains et robots plus robustes face aux imprévus. Le coeur de la contribution est une couche d'interaction basée sur le Virtual Model Control (VMC), une technique de contrôle qui simule des ressorts et amortisseurs virtuels autour de l'effecteur pour absorber les variations dynamiques de pose de l'objet lors du passage de main. En complément, les auteurs intègrent la réalité augmentée (AR) pour établir une communication bidirectionnelle en temps réel entre l'opérateur humain et le robot, permettant à chaque partie d'anticiper l'intention de l'autre. Les performances du contrôleur ont été évaluées sur une série d'expériences couvrant différentes sources d'incertitude, puis validées par une étude utilisateur impliquant 16 participants testant plusieurs profils de contrôle et visualisations AR. La problématique du transfert d'objet humain-robot (H2R handover) est un verrou bien identifié en robotique collaborative : une légère désorientation de la pièce, un geste hésitant, et le robot échoue ou force l'objet, ce qui rend ce scénario incompatible avec un déploiement industriel fiable. L'approche VMC est intéressante parce qu'elle ne dépend pas d'une trajectoire rigide pré-planifiée mais s'adapte en continu, ce qui réduit la sensibilité au sim-to-real gap souvent fatal aux méthodes basées sur l'apprentissage. L'ajout de la boucle AR pour synchroniser les intentions est également prometteur pour les environnements d'assemblage où la communication verbale est difficile. L'étude utilisateur montre une préférence générale pour l'approche proposée, même si 16 participants reste un panel modeste pour généraliser les conclusions. Le problème H2R est un domaine actif depuis plusieurs années, avec des approches concurrentes allant du contrôle en impédance classique aux méthodes VLA (Vision-Language-Action) comme Pi-0 de Physical Intelligence ou les travaux sur GR00T N2 de NVIDIA. Le VMC s'inscrit dans la tradition du contrôle à base de modèle, plus explicable mais moins généraliste que les approches end-to-end. L'article est à ce stade un preprint sans affiliation industrielle identifiée ni déploiement annoncé, ce qui le place clairement dans la catégorie recherche fondamentale. Les prochaines étapes probables incluent une soumission en conférence (ICRA ou IROS) et des tests sur une plus large cohorte ou sur un robot commercial tel qu'un UR ou Franka.

RecherchePaper
1 source
FAM-HRI : interaction humain-robot multimodale assistée par modèle fondation, combinant regard et parole
3arXiv cs.RO 

FAM-HRI : interaction humain-robot multimodale assistée par modèle fondation, combinant regard et parole

Une équipe de chercheurs a publié en mars 2025 sur arXiv (référence 2503.16492, troisième révision) FAM-HRI, un framework multimodal d'interaction humain-robot combinant le suivi du regard et la parole via des modèles de fondation. Le système s'appuie sur les lunettes Meta ARIA, un dispositif de recherche léger, pour capturer en temps réel les signaux visuels et vocaux de l'utilisateur. Ces données sont fusionnées par un grand modèle de langage (LLM) qui interprète l'intention de l'utilisateur en la croisant avec le contexte visuel de la scène, permettant au robot d'identifier et manipuler des objets désignés par le regard. Un algorithme dédié détermine l'intervalle temporel de fixation oculaire afin de filtrer le bruit inhérent aux mouvements naturels des yeux. Les auteurs rapportent un "taux de succès élevé" et un "temps d'interaction faible" lors des évaluations expérimentales, sans publier de métriques chiffrées précises dans le résumé, ce qui limitera la comparabilité directe avec d'autres systèmes. L'enjeu de FAM-HRI dépasse la performance brute : le système cible explicitement les utilisateurs souffrant de handicaps moteurs ou de mobilité réduite, une population pour laquelle les interfaces gestuelles classiques sont inutilisables et les commandes vocales seules insuffisamment précises pour la manipulation spatiale. En fusionnant regard et parole au niveau sémantique via un LLM, l'architecture évite les ambiguïtés typiques des commandes monocanal, comme "prends l'objet" sans désignation claire. C'est un pas concret vers des robots d'assistance utilisables en conditions réelles, où la robustesse à l'imprécision humaine prime sur la performance en environnement contrôlé. La combinaison regard-parole pour le contrôle robotique n'est pas nouvelle, mais l'intégration de LLMs pour la fusion contextuelle représente une évolution récente, rendue possible par la réduction des coûts d'inférence. Les lunettes Meta ARIA, conçues initialement pour la recherche en réalité augmentée, trouvent ici une application robotique directe. Les concurrents dans l'espace HRI multimodal incluent des travaux issus de CMU, ETH Zurich et d'équipes japonaises comme Preferred Networks et l'AIST. L'ensemble du code et des algorithmes est publié en open source sur GitHub, ce qui facilitera la reproductibilité. Les prochaines étapes naturelles seraient une validation en conditions cliniques ou à domicile, et une extension à des plateformes mobiles au-delà de la manipulation fixe.

RecherchePaper
1 source
VAIC : contrôle humanoïde agile d'interaction avec des objets par vision et commandes découplées
4arXiv cs.RO 

VAIC : contrôle humanoïde agile d'interaction avec des objets par vision et commandes découplées

Des chercheurs ont publié en juin 2026 sur arXiv (référence 2606.09286) VAIC, un cadre de contrôle unifié pour robots humanoïdes capable d'interagir avec des objets en milieu non structuré. La contribution principale est l'élimination de deux hypothèses restrictives qui limitent la transposition terrain des contrôleurs existants : les trajectoires de référence denses et l'observabilité complète de l'état. VAIC opère exclusivement à partir d'un flux de profondeur embarqué et de la proprioception historique, via une interface de commandes découplées composée de cibles de vitesse multi-axes et d'un indicateur d'interaction par segment corporel. L'apprentissage suit un paradigme de distillation en deux étapes : une politique "enseignant" privilégiée, entraînée avec accès complet à la cinématique des objets et à l'état environnemental exact, transfère ses compétences à une politique "étudiant" déployable qui reconstruit implicitement la dynamique des objets depuis le flux de profondeur brut via un module d'adaptation récurrent. Sur robot humanoïde (non nommé dans le preprint), cette politique unique exécute en conditions réelles trois familles de tâches dynamiques : transport de carton, interaction avec un chariot, et skateboard, surpassant selon les auteurs les approches baseline comparées. Ce résultat, s'il se confirme à plus grande échelle, adresse directement le "deployment gap" qui freine la commercialisation des humanoïdes : la quasi-totalité des démos publiques repose encore sur des systèmes de capture de mouvement externe ou sur des objets instrumentés avec tracking précis. Proposer une politique unique généraliste, sans trajectoires de référence et fonctionnant sur capteurs embarqués bas coût, réduirait significativement la friction d'intégration pour les opérateurs industriels et les intégrateurs robotiques. La distillation enseignant-étudiant avec module d'adaptation récurrent n'est pas une architecture inédite, mais son application à des tâches aussi hétérogènes sur un humanoïde réel constitue un pas mesurable vers la généralisation. À noter que le preprint ne fournit ni métriques de cycle time par tâche, ni taux de succès quantifiés, ni spécification du robot utilisé, ce qui limite l'évaluation indépendante des performances annoncées. Ce travail s'inscrit dans une course aux contrôleurs généralisés qui oppose des équipes académiques (Berkeley, CMU, ETH Zurich) aux acteurs commerciaux : Figure Robotics avec son pipeline VLA sur Figure 02/03, Physical Intelligence et sa politique Pi-0, 1X Technologies et Unitree, tous actifs simultanément sur le sim-to-real et les architectures polyvalentes. L'approche de VAIC, centrée sur la profondeur et la proprioception plutôt que sur les vision-language models à grande échelle, constitue un positionnement différenciant en termes de coût de calcul embarqué et de simplicité sensorielle. Aucun partenariat industriel ni calendrier de déploiement n'est annoncé dans ce preprint : il s'agit à ce stade d'une démonstration de recherche, dont la validation sur plusieurs plateformes robotiques et environnements variés reste entièrement à mener.

RecherchePaper
1 source