Aller au contenu principal
UNCOM : compréhension de commandes zéro-shot sensible au contexte pour scénarios de table
IA physiquearXiv cs.RO6sem

UNCOM : compréhension de commandes zéro-shot sensible au contexte pour scénarios de table

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UETake éditorial

Une équipe de chercheurs a publié UNCOM (arXiv:2410.06355v3), un framework hybride conçu pour interpréter des commandes humaines naturelles dans des scénarios de manipulation sur table. Le système fusionne trois modalités d'entrée, la parole, les gestes et le contexte visuel de la scène, pour en extraire des instructions structurées et exécutables par un robot. UNCOM repose sur des modèles de deep learning pour la reconnaissance vocale, la compréhension du langage naturel, la détection de gestes et la segmentation d'objets. Son atout central est le fonctionnement en zero-shot : aucun modèle d'objet prédéfini ni données d'entraînement spécifiques à une tâche ne sont requis. Le système a été évalué sur le robot TIAGo++ (PAL Robotics) et atteint un taux de succès de 82,39% sur un jeu de données réel de scénarios d'interaction humain-robot. Le code, le dataset et les scénarios d'évaluation sont rendus publics.

L'enjeu principal est la généralisation sans réentraînement. La plupart des systèmes de compréhension de commandes actuels exigent soit un catalogue d'objets figé, soit une phase de fine-tuning pour chaque nouvel environnement, ce qui freine le déploiement domestique et les environnements non contrôlés. UNCOM contourne cet obstacle grâce à son architecture modulaire qui parse explicitement les commandes en triplets objet-action-cible, une représentation directement intégrable dans des frameworks robotiques symboliques classiques. La robustesse annoncée face au bruit, à l'ambiguïté et à la diversité des locuteurs est ce qui distingue ce résultat d'une simple démo en conditions idéales, bien que le taux de 82,39% mériterait d'être contextualisé par la complexité des scènes testées.

Le TIAGo++ est une plateforme de recherche développée par PAL Robotics (Barcelone), largement utilisée dans les labos européens pour l'interaction service-robot. L'approche multimodale de UNCOM s'inscrit dans un courant de recherche actif qui cherche à dépasser les VLA (Vision-Language-Action models) classiques nécessitant de grandes quantités de données supervisées, en s'appuyant plutôt sur des modèles fondationnels génériques. Elle se positionne en alternative légère à des systèmes comme SayCan (Google) ou aux approches OpenVLA, sans requérir d'infrastructure d'entraînement lourde. La mise à disposition publique du code et du dataset est un signal positif pour la reproductibilité, et ouvre la voie à des extensions vers d'autres plateformes ou d'autres types d'environnements structurés, notamment les applications de service en milieu hospitalier ou d'assistance à domicile.

Impact France/UE

PAL Robotics (Barcelone) est l'industriel européen dont la plateforme TIAGo++ sert de banc d'essai, et le code/dataset publics permettent aux labos européens (CEA-List, INRIA, universités) de reproduire et d'étendre UNCOM sans infrastructure lourde.

💬 Le point de vue du dev

82% en zero-shot sur des scènes réelles, c'est le genre de résultat qui mérite qu'on s'arrête. Le mur dans les robots de service, c'était le fine-tuning obligatoire pour chaque nouvel environnement, UNCOM l'esquive en parsant les commandes en triplets objet-action-cible sans catalogue figé. Bon, reste à voir ce que ça donne dans une vraie cuisine avec ses 50 objets non étiquetés et une mamie qui parle en patois.

Dans nos dossiers

À lire aussi

Préhension universelle pour humanoïdes
1arXiv cs.RO 

Préhension universelle pour humanoïdes

Des chercheurs ont publié HUG (Human Universal Grasping), un modèle de flow-matching qui génère des saisies robotiques diversifiées à partir d'une unique image RGB-D capturée par caméra stéréo. Pour l'entraîner, ils ont constitué 1M-HUGs, un dataset égocentrique de 1 million de frames (27,8 heures, 41 bâtiments) capturées via smart glasses, couvrant 6 707 instances d'objets distincts. Le modèle fusionne données RGB et profondeur pour prédire une saisie paramétrée par la translation et la rotation du poignet ainsi que la pose MANO de la main, retargetable zero-shot vers différentes mains robotiques. Sur HUG-Bench, un benchmark de 90 objets répartis en cinq catégories géométriques avec des maillages 3D à l'échelle métrique, HUG surpasse les baselines état de l'art de +23% et +34% sur 30 objets réels testés dans plusieurs environnements domestiques. L'argument central est méthodologique : plutôt que de passer par la télé-opération ou la démonstration robotique, les auteurs exploitent les données humaines natives, disponibles à très grande échelle et sans infrastructure spécialisée. La capacité de retargeting zero-shot vers des mains mécaniques hétérogènes est l'argument industriel clé : si elle tient hors conditions de lab, elle réduit significativement le coût d'adaptation d'un modèle de manipulation à un nouveau hardware. Ces résultats sont toutefois à nuancer : le papier est un preprint arXiv non encore évalué par les pairs, et les performances annoncées ont été mesurées sur un benchmark construit par les auteurs eux-mêmes, sans audit indépendant à ce stade. HUG s'inscrit dans une lignée de travaux sur la généralisation de la saisie incluant GraspNet, Contact-GraspNet et les approches par diffusion comme DexDiffuser, et adopte une logique de capture égocentrique proche des pipelines de Stanford (Mobile ALOHA) ou Berkeley (DROID dataset), qui visent à décorréler la collecte de données du hardware robotique cible. Le code, les données, le benchmark et les checkpoints sont publiés en open source sur grasping.io. Les prochaines validations logiques concerneraient des bras industriels (UR, Franka) sur des scénarios de bin-picking ou d'assemblage non structuré, où la généralisation de la saisie reste un verrou majeur pour l'intégration à grande échelle.

IA physiquePaper
1 source
Modèle de diffusion sensible aux correspondances pour la manipulation robotique en contact étroit (Robot-DIFT)
2arXiv cs.RO 

Modèle de diffusion sensible aux correspondances pour la manipulation robotique en contact étroit (Robot-DIFT)

La manipulation robotique échoue souvent dans les derniers millimètres : un bras peut identifier le bon objet mais rater l'alignement de pose ou le contact précis nécessaire à l'action. Robot-DIFT (arXiv:2602.11934) est une architecture d'encodeur visuel présentée dans un preprint académique pour combler ce manque, en exposant aux politiques de contrôle des features de correspondance sensibles aux variations fines de pose et de géométrie de contact. L'approche repose sur la distillation de variété (Manifold Distillation) : un modèle de diffusion bruit-conditionné sert de Teacher et transfère sa structure de représentation à un Student déterministe à passe unique, compatible avec le contrôle temps réel. Un réseau pyramidal spatial-sémantique (S2-FPN) fusionne ensuite les features multirésolution pour exposer à la politique à la fois contexte global et détail de contact fin. Évalué sur RoboCasa, LIBERO-10 et sur robots physiques, Robot-DIFT dépasse les encodeurs VLA, auto-supervisés, géométriques et diffusion directe sur les tâches sensibles au contact. L'enjeu est structurant pour la robotique de précision et les intégrateurs industriels. Les encodeurs sémantiques qui équipent les VLA modernes, comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, reconnaissent les objets à l'échelle scène mais écrasent les indices de correspondance fine dont le contrôle en boucle fermée a besoin : c'est ce qui bloque l'assemblage de précision, l'insertion et la manipulation en milieu non structuré. Les modèles de diffusion encodent naturellement ces correspondances denses, mais leur stochasticité et leur latence élevée les rendaient inutilisables directement. Robot-DIFT propose une alternative : distiller ces features en un backbone déterministe temps réel sans perdre leur avantage de correspondance. Les travaux sur les features de diffusion en vision 2D (DIFT, Diffusion Hyperfeatures) avaient posé les bases théoriques sans transposition robotique praticable. Robot-DIFT se positionne face aux encodeurs auto-supervisés établis comme R3M, MVP et VC-1, et aux représentations issues des VLA. Aucun acteur européen n'est cité dans ce travail, mais des entreprises comme Enchanted Tools ou Wandercraft, dont les cas d'usage requièrent une précision millimétrique, sont dans le périmètre d'application direct. Les prochaines étapes logiques incluent l'intégration dans des politiques diffusion (Diffusion Policy, ACT) et des évaluations sur benchmarks industriels plus représentatifs que les suites académiques actuelles.

UEDes entreprises françaises comme Enchanted Tools et Wandercraft, dont les cas d'usage requièrent une précision millimétrique, pourraient bénéficier de cette architecture si elle est intégrée dans des politiques de contrôle open-source diffusion ou ACT.

IA physiquePaper
1 source
Contrôle corps entier généraliste et adaptable pour la locomotion de divers humanoïdes
3arXiv cs.RO 

Contrôle corps entier généraliste et adaptable pour la locomotion de divers humanoïdes

Des chercheurs ont publié sur arXiv (référence 2602.05791) un framework baptisé XHugWBC, conçu pour entraîner un contrôleur de locomotion whole-body universel sur une large distribution de morphologies humanoïdes, puis le déployer en zero-shot sur des robots non vus durant l'entraînement. Les expériences couvrent douze humanoïdes simulés et sept robots réels. Le système repose sur trois briques techniques : une randomisation morphologique physiquement cohérente (masse des segments, longueur des membres, inertie), des espaces d'observation et d'action alignés sémantiquement entre châssis hétérogènes, et une architecture de politique qui encode explicitement les propriétés morphologiques et dynamiques de chaque instance. L'entraînement est unique, "one-time training" : aucun fine-tuning par robot n'est requis à l'inférence. L'enjeu industriel est direct. Aujourd'hui, chaque équipe robotique entraîne ses contrôleurs de locomotion depuis zéro pour chaque châssis, ce qui représente des semaines de simulation et d'itérations sim-to-real. XHugWBC déplace ce coût vers une phase d'entraînement généraliste unique, ouvrant la voie à un modèle de déploiement où un intégrateur peut adopter un nouveau châssis humanoïde sans reconstruire l'intégralité de sa stack de contrôle. La validation sur sept robots physiques est plus convaincante que les résultats purement simulés habituels, même si la nature exacte des tâches testées et les taux de succès détaillés ne figurent pas dans le résumé disponible. La capacité de transfert zero-shot sur morphologies inédites renforce l'hypothèse que les biais structuraux appris sur distributions larges surpassent les politiques spécialisées sur certains régimes de locomotion, ce que le secteur débattait encore il y a dix-huit mois. Ce travail s'inscrit dans un mouvement vers les contrôleurs dits "fondation" pour la robotique incarnée. En manipulation, des systèmes comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) ont déjà exploré la généralisation cross-embodiment sur bras et effecteurs; l'extension à la locomotion whole-body humanoïde est plus contrainte par la stabilité dynamique. Les acteurs du secteur, Figure Robotics (Figure 03), Unitree (G1, H1), Agility Robotics (Digit), Fourier Intelligence et 1X Technologies, maintiennent tous des pipelines de contrôle propriétaires et spécialisés. Si XHugWBC tient ses promesses à l'échelle, il réduirait significativement la barrière à l'entrée pour les nouveaux constructeurs, notamment les acteurs européens comme Enchanted Tools (Mirokaï) ou Wandercraft, qui ne disposent pas des ressources d'entraînement des géants américains. Le preprint n'a pas encore fait l'objet d'une évaluation par les pairs.

UELes constructeurs humanoïdes français Wandercraft et Enchanted Tools (Mirokaï) sont explicitement identifiés comme bénéficiaires potentiels, ce framework pouvant réduire significativement leurs coûts d'entraînement de locomotion sans nécessiter les ressources des géants américains.

💬 C'est le genre de papier qui résout un vrai problème industriel : chaque robot humanoïde qui sort oblige aujourd'hui à tout réentraîner depuis zéro. Sept robots physiques en zero-shot, c'est pas du tout la même chose que des résultats simulés, ça valide quelque chose de sérieux. Pour Wandercraft ou Enchanted Tools, bien plus contraints en ressources que Figure ou Unitree, ce type de contrôleur généraliste c'est du concret.

IA physiqueOpinion
1 source
FAWAM : modèles d'action du monde sensibles aux forces pour la manipulation en boucle fermée à contacts multiples
4arXiv cs.RO 

FAWAM : modèles d'action du monde sensibles aux forces pour la manipulation en boucle fermée à contacts multiples

Une équipe de chercheurs a publié sur arXiv (référence 2606.08555) FAWAM, un modèle d'action robotique intégrant les signaux de force à trois niveaux distincts du pipeline de manipulation : la perception, la prédiction et l'exécution en boucle fermée. Concrètement, le système encode des signaux force/couple sur six axes (6-DoF wrench) pour moduler la génération d'actions, prédit conjointement les actions futures et les efforts en bout d'effecteur afin de modéliser explicitement l'évolution du contact, puis utilise cette trajectoire de wrench prédite comme référence d'exécution pour corriger les actions en temps réel via un module de correction résiduelle. Sur plusieurs tâches de manipulation nécessitant des contacts riches -- vissage, insertion, assemblage par contrainte -- FAWAM affiche un taux de succès moyen supérieur de 36,25 % aux baselines purement visuelles et de 21,25 % aux baselines force-aware existantes. Il s'agit d'un preprint, sans déploiement industriel annoncé à ce stade. L'apport technique est notable pour les intégrateurs et les équipes R&D en manipulation apprise : la plupart des politiques modernes type Diffusion Policy, ACT ou des VLA (Vision-Language-Action models) traitent la force comme une modalité d'observation annexe, sans lui donner de rôle prédictif dans la dynamique future du contact. FAWAM repositionne le signal force comme variable de première classe dans l'architecture du modèle, ce qui permet une correction online des actions sans nécessiter de replanification complète. C'est précisément ce découplage entre prédiction de wrench et correction résiduelle qui explique le gain de performance : le robot anticipe l'effort attendu avant de l'observer, et ajuste en conséquence dès qu'un écart apparaît. Pour un COO ou un directeur technique envisageant des cellules d'assemblage automatisées, cela représente une réduction significative du gap simulation-réalité sur les tâches à contact fort. La manipulation en contact riche reste l'un des derniers verrous majeurs de la robotique industrielle polyvalente, là où les approches vision-seule échouent dès que les tolérances sont serrées ou les surfaces glissantes. Des travaux récents comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou les politiques de manipulation de Google DeepMind intègrent parfois la proprioception mais rarement le couple d'axe complet en boucle de prédiction. FAWAM s'inscrit dans un courant émergent de world action models orientés contact, aux côtés de travaux comme RoboDex ou des approches de manipulation tactile de Berkeley et Carnegie Mellon. La prochaine étape logique serait une validation sur robot humanoïde ou sur bras industriel en environnement semi-structuré, ce que le preprint ne couvre pas encore.

IA physiqueOpinion
1 source