Aller au contenu principal
RecherchearXiv cs.RO3h

PoseRefer : paramètres locaux de chemin pour la résolution de références sémantiques

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de recherche publiée sur arXiv (2605.24622, mai 2026) propose PoseRefer, une architecture d'ancrage sémantique destinée à résoudre des références déictiques en robotique, du type "pose la tasse sur celle-là". Le système fusionne trois canaux d'information : la gestuelle corporelle (pose 3D), le langage naturel, et la géométrie de la scène encodée dans un graphe de scène 3D. Pour l'évaluation, les auteurs s'appuient sur MM-Conv, un corpus capturant des gestes co-verbaux naturels lors d'interactions dyadiques en réalité virtuelle, avec motion capture corps entier et annotations de scène 3D. L'architecture retenue est un late-fusion découplé : les branches pose et texte ne partagent aucun paramètre appris. La fusion avec des embeddings de catégorie MiniLM figés dépasse la branche pose seule et la meilleure configuration texte seule sur tous les types de référence, atteignant 31,9 % en top-1.

Ce résultat a une implication méthodologique directe pour les équipes qui développent des systèmes de grounding sémantique, notamment pour les VLA (Vision-Language-Action models) déployés en manipulation robotique. La valeur de 31,9 % peut sembler modeste, mais l'apport principal n'est pas le chiffre absolu : c'est le diagnostic architectural. Les auteurs montrent qu'un "scalar gate" appris change de politique selon que la branche texte a accès ou non aux catégories d'objets. Sans découplage strict des branches, il devient impossible de distinguer un gain de fusion réel d'un artefact lié à la représentation des catégories. Autrement dit, de nombreuses évaluations de systèmes multimodaux publiées jusqu'ici pourraient surestimer la contribution réelle de la gestuelle.

Les benchmarks 3D existants présentent des biais connus : descriptions rédigées après coup, gestes modélisés hors contexte, pointage mis en scène pour la caméra. MM-Conv tente de combler cet écart en capturant des interactions spontanées. Dans le paysage concurrentiel du grounding multimodal, les approches à fusion jointe (paramètres partagés entre modalités) dominent encore les classements publics, mais PoseRefer suggère que ces gains peuvent être trompeurs. Aucun déploiement industriel ni partenariat n'est annoncé à ce stade : il s'agit d'un papier de recherche fondamentale, dont l'impact dépendra de l'adoption de MM-Conv comme protocole d'évaluation standard par la communauté HRI et robotique manipulation.

À lire aussi

Évaluation de l'inférence d'affordance sémantique par VLM pour des morphologies robotiques non humanoïdes
1arXiv cs.RO 

Évaluation de l'inférence d'affordance sémantique par VLM pour des morphologies robotiques non humanoïdes

Une équipe de chercheurs publie sur arXiv (2604.19509) une évaluation empirique des modèles vision-langage (VLM) pour l'inférence d'affordances sur des robots à morphologie non humanoïde. L'"affordance" désigne ici la capacité d'un modèle à déterminer quelles actions sont physiquement réalisables par un robot donné face à un objet spécifique. Les auteurs ont constitué un jeu de données hybride combinant des annotations réelles de relations affordance-objet et des scénarios synthétiques générés par VLM, couvrant plusieurs catégories d'objets et plusieurs types de morphologies robotiques. Les résultats montrent une généralisation prometteuse aux formes non humanoïdes, mais des performances très variables selon les domaines d'objets. Le constat central est un schéma systématique de faible taux de faux positifs associé à un fort taux de faux négatifs, révélant que les VLM adoptent des prédictions trop conservatrices. Ce biais est particulièrement prononcé pour les outils inédits et les manipulations non conventionnelles. Pour les intégrateurs qui envisagent d'utiliser les VLM comme couche de planification sémantique, ce résultat est structurellement important. Le biais conservateur offre un avantage de sécurité intrinsèque, les robots n'entreprenant pas d'actions impossibles ou dangereuses, mais le taux élevé de faux négatifs freine l'exploitation réelle : le système refuse des tâches qu'il pourrait pourtant accomplir. Pour un architecte de système ou un COO industriel, cela confirme qu'un VLM seul ne peut pas servir de module d'affordance universel pour des cobots ou des AMR (robots mobiles autonomes) aux morphologies spécifiques. Des couches complémentaires, simulation physique ou vérification cinématique, restent nécessaires pour corriger ce défaut sans sacrifier la sécurité. La recherche sur les affordances VLM s'est construite massivement sur des corpus centrés sur l'interaction humain-objet, laissant les robots non humanoïdes structurellement sous-représentés. Des architectures VLA (Vision-Language-Action) comme pi-zero de Physical Intelligence ou GR00T N2 de NVIDIA ont été évaluées principalement sur des tâches de manipulation humain-like. Cette étude pointe un enjeu distinct pour des plateformes comme Spot de Boston Dynamics ou ANYmal d'ANYbotics, dont les effecteurs et degrés de liberté (DOF) diffèrent fondamentalement de la main humaine. Les auteurs proposent des architectures hybrides et des jeux de données morpho-spécifiques comme prochaines étapes pour réduire le biais conservateur tout en préservant les faibles taux de faux positifs, seul acquis de sécurité clairement démontré.

UELes intégrateurs européens déployant des AMR ou cobots non humanoïdes (ANYmal d'ANYbotics, Spot) doivent anticiper des couches de vérification cinématique complémentaires aux VLM avant tout déploiement autonome en planification sémantique.

RechercheOpinion
1 source
Contrôle robuste aux distributions via l'inférence de Stein pour la manipulation au contact
2arXiv cs.RO 

Contrôle robuste aux distributions via l'inférence de Stein pour la manipulation au contact

Une équipe de chercheurs publie sur arXiv (référence 2605.19029) une méthode de contrôle robuste pour la manipulation robotique en contact riche, domaine couvrant la saisie, l'assemblage et l'insertion précise d'objets. Le travail formalise le problème comme une optimisation de contrôle robuste aux distributions (distributionally robust control), résolue via l'inférence variationnelle de Stein, une technique probabiliste déterministe issue du machine learning bayésien. Les contrôleurs qui en résultent modélisent explicitement l'incertitude paramétrique liée aux contacts, sans nécessiter les volumes massifs de données d'entraînement qu'exigent les approches data-driven modernes. Les résultats expérimentaux rapportés indiquent une robustesse améliorée jusqu'à un facteur 3 par rapport aux méthodes classiques à base de modèles, sur une gamme de tâches avec incertitude paramétrique large. Ce chiffre est à nuancer : il provient des propres benchmarks des auteurs, sans validation indépendante. La manipulation en contact riche reste l'un des goulots d'étranglement critiques pour le déploiement de robots industriels polyvalents. Les approches VLA (Vision-Language-Action models), comme pi-0 de Physical Intelligence, offrent une flexibilité remarquable mais se dégradent fortement lorsque les données d'entraînement sont rares, ce qui limite leur adoption dans des environnements industriels où les jeux de données sont difficiles à constituer. Les contrôleurs classiques à base de modèles, à l'inverse, sont computationnellement efficaces mais peinent à représenter l'incertitude task-sensitive, c'est-à-dire celle qui impacte réellement la performance sur une tâche précise. L'approche proposée tente de combler ce fossé en injectant une modélisation probabiliste flexible dans le cadre déterministe des contrôleurs classiques, un compromis potentiellement attractif pour les intégrateurs industriels cherchant fiabilité sans pipeline de données massif. Ce travail s'inscrit dans une tendance académique cherchant à réconcilier le model-based engineering (Boston Dynamics, ABB) et les learned policies (Physical Intelligence avec pi-0, Google DeepMind avec ses architectures GR00T-style). L'inférence variationnelle de Stein, popularisée par Liu et Wang en 2016, est ici adaptée au contrôle optimal, ce qui représente une contribution méthodologique notable. Le résumé disponible ne mentionne ni déploiements réels ni partenaires industriels, signalant clairement un stade de recherche fondamentale, probablement conduite en simulation ou sur bancs d'essai de laboratoire. Une validation sur des plateformes hardware standardisées comme les bras Franka Emika ou UR10, dont les propriétés de contact sont bien documentées, constituerait la prochaine étape logique avant toute perspective d'industrialisation.

RecherchePaper
1 source
Démystifier la conception de l'espace d'action pour les politiques de manipulation robotique
3arXiv cs.RO 

Démystifier la conception de l'espace d'action pour les politiques de manipulation robotique

Une étude empirique de grande envergure, publiée sur arXiv (référence 2602.23408), apporte les premières réponses systématiques à une question restée sans réponse rigoureuse dans la communauté de la manipulation robotique : comment concevoir l'espace d'action d'une politique apprise par imitation ? Les chercheurs ont conduit plus de 13 000 déploiements réels sur un robot bimanuel, entraîné et évalué plus de 500 modèles sur quatre scénarios distincts, en examinant deux axes structurants : l'axe temporel (représentations absolues vs. incrémentales, dites "delta") et l'axe spatial (espace articulaire, ou joint-space, vs. espace opérationnel, ou task-space). Le résultat principal est sans ambiguïté : les représentations delta, qui encodent des variations de position plutôt que des positions cibles absolues, améliorent systématiquement les performances d'apprentissage. Sur l'axe spatial, joint-space et task-space révèlent des forces complémentaires : le premier favorise la stabilité du contrôle, le second facilite la généralisation à de nouveaux scénarios. Ces résultats ont une portée directe pour les équipes qui développent des politiques robotiques en production. Jusqu'ici, le choix de l'espace d'action relevait d'heuristiques héritées ou de conventions propres à chaque laboratoire, sans base empirique solide. L'étude montre que ce choix n'est pas accessoire : il conditionne fondamentalement le paysage d'optimisation de l'apprentissage par imitation, bien davantage que ce que supposait la littérature. Pour un intégrateur ou un ingénieur concevant un système de manipulation industrielle, la recommandation est désormais claire : préférer les delta actions par défaut, et arbitrer entre joint-space et task-space selon que la priorité est la stabilité du suivi de trajectoire ou la robustesse face à la variabilité des tâches. Ces conclusions sont directement applicables aux architectures VLA (Vision-Language-Action), qui dominent actuellement la recherche en politiques généralisables. Ce travail intervient dans un contexte où la course à la mise à l'échelle des données et des modèles concentre la majorité des ressources de recherche. Des systèmes comme pi-0 (Physical Intelligence), ACT ou Diffusion Policy ont popularisé l'imitation learning comme voie principale vers la manipulation généraliste, et des acteurs comme Figure AI, 1X ou Apptronik misent sur ces architectures pour leurs déploiements industriels. Pourtant, la conception de l'espace d'action restait guidée par des choix hérités des années 2010, faute d'étude comparative à grande échelle. En comblant ce manque avec une rigueur rare, les auteurs posent une base méthodologique qui devrait informer la prochaine génération de politiques bimanuelle et les benchmarks de comparaison entre systèmes.

RechercheOpinion
1 source
Système de localisation de contact et de mesure de force par vision pour pinces robotiques compliantes
4arXiv cs.RO 

Système de localisation de contact et de mesure de force par vision pour pinces robotiques compliantes

Des chercheurs ont publié début mai 2026 (arXiv:2605.00307) un système de mesure indirecte de force pour préhenseurs souples, reposant uniquement sur une caméra RGB-D embarquée au poignet du robot. Le dispositif cible les grippers de type fin-ray, une géométrie de doigt déformable à structures entrecroisées fréquemment utilisée pour la manipulation de pièces fragiles. Le système extrait des points-clés structurels depuis les images de déformation du gripper, puis les injecte dans une simulation d'analyse par éléments finis inverse (FEA inverse) développée sous SOFA (Simulation Open Framework Architecture). Un pipeline de reconstruction 3D et d'estimation de pose par deep learning met à jour dynamiquement la position de contact, avec une robustesse déclarée aux occlusions visuelles. Sur banc de test multi-objets, l'erreur quadratique moyenne (RMSE) atteint 0,23 N en phase de charge et 0,48 N sur l'ensemble du cycle de préhension, avec des déviations normalisées (NRMSD) de 2,11 % et 4,34 % respectivement. L'intérêt principal réside dans la généralisation à des objets non vus en entraînement, là où les approches end-to-end par apprentissage profond se révèlent fragiles hors distribution. Pour un intégrateur ou un OEM robotique, l'absence de capteurs dédiés (jauges de contrainte, capteurs capacitifs ou piézorésistifs) réduit le coût et la complexité mécanique du gripper tout en maintenant des performances compatibles avec la manipulation de produits délicats : alimentaire, pharmaceutique, assemblage électronique. Des RMSE inférieurs à 0,5 N sur l'ensemble du cycle de préhension constituent un résultat solide dans le cadre de cette étude, bien que les conditions de test en laboratoire (éclairage contrôlé, objets standardisés) restent éloignées des environnements industriels bruités où l'approche devra être confrontée. Les grippers fin-ray sont commercialisés notamment par FESTO et plusieurs startups de manipulation souple; les doter d'un retour de force sans capteur dédié est un problème ouvert depuis plusieurs années. Les caméras RGB-D de poignet (Intel RealSense, Microsoft Azure Kinect) se standardisent dans les systèmes robotiques de nouvelle génération, ce qui rend cette approche déployable sans modification matérielle sur des architectures existantes. En positionnement concurrent, les capteurs tactiles visuels comme GelSight (MIT) ou Digit (Meta FAIR) suivent une logique similaire mais exigent un contact direct sur une surface instrumentée. L'approche par FEA inverse demeure plus rare dans la littérature; sa latence effective en boucle de contrôle temps-réel n'est pas quantifiée par les auteurs, un paramètre critique pour les applications à haute fréquence de commande.

UEFESTO (Allemagne, principal fabricant de grippers fin-ray visés par l'approche) et le framework SOFA issu de l'INRIA (France) sont au cœur du pipeline, une industrialisation de cette méthode bénéficierait en priorité aux équipementiers et intégrateurs européens de la manipulation souple.

RecherchePaper
1 source