Aller au contenu principal
TriRelVLA : structure relationnelle triadique pour la manipulation incarnée généralisable
IA physiquearXiv cs.RO7sem

TriRelVLA : structure relationnelle triadique pour la manipulation incarnée généralisable

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Les modèles Vision-Language-Action (VLA), qui combinent perception visuelle, langage naturel et génération d'actions motrices, butent sur un problème connu : leur incapacité à généraliser à des scènes ou des objets non vus à l'entraînement. Une équipe de chercheurs propose TriRelVLA (arXiv:2605.05714, mai 2026), une architecture qui remplace les représentations visuelles implicites des VLA actuels par une structure relationnelle triadique explicite articulée autour de trois pôles : l'objet manipulé, la main du robot, et la tâche à accomplir. En pratique, le système construit ces représentations triadiques depuis des entrées multimodales, les organise dans un graphe relationnel via un graph transformer, puis compresse la structure dans un espace goulot (bottleneck) avant de l'injecter dans le LLM pour la prédiction d'action. Les auteurs introduisent également un jeu de données robotiques en environnement réel pour le fine-tuning et rapportent des gains en généralisation inter-scènes, inter-objets et inter-tâches.

L'enjeu pour les intégrateurs industriels est direct : un système de manipulation qui échoue dès que la lumière change ou qu'une nouvelle référence produit apparaît n'est pas déployable à l'échelle. En découplant la structure relationnelle action-pertinente de l'apparence visuelle brute, TriRelVLA vise à rendre les politiques de contrôle portables entre environnements et configurations. La compression en espace bottleneck force le modèle à abstraire plutôt qu'à mémoriser, une approche qui, si elle tient à l'échelle, réduirait significativement les coûts de redéploiement dans de nouveaux ateliers ou avec de nouvelles références produit.

Ce travail s'inscrit dans une vague de recherches sur les représentations structurées pour VLA, après des approches qui objectifiaient le contenu visuel sans capturer les relations pertinentes pour l'action. Les concurrents directs incluent pi-0 (Physical Intelligence), OpenVLA (UC Berkeley), RT-2 et sa suite chez Google DeepMind, et GR00T N2 de NVIDIA, qui partagent tous le même défaut de sensibilité visuelle que TriRelVLA cherche à corriger. Ce papier reste un preprint non relu par les pairs, et les gains en généralisation annoncés n'ont pas encore été reproduits de manière indépendante. La mise à disposition du jeu de données réel représente la prochaine étape clé pour que la communauté puisse valider ces résultats.

À lire aussi

GEAR-VLA : un modèle VLA intégrant la géométrie pour une manipulation robotique généralisable
1arXiv cs.RO 

GEAR-VLA : un modèle VLA intégrant la géométrie pour une manipulation robotique généralisable

Des chercheurs ont publié sur arXiv en juin 2026 (réf. 2606.08530) GEAR-VLA, un framework Vision-Language-Action (VLA) conçu pour généraliser la manipulation robotique à des objets inconnus, des décors visuels changeants et des morphologies hétérogènes. Sur le benchmark LIBERO, le modèle atteint les meilleures performances publiées à ce jour, ainsi que des résultats de pointe sur RoboTwin 2.0 et LIBERO-Plus en zero-shot. Sur un bras AgileX, GEAR-VLA affiche 85,9% de réussite ; sur le LDT-01, une morphologie absente de la phase d'entraînement, il obtient 81,0%. Le test le plus contraignant reste un benchmark de préhension universelle de 6 360 essais impliquant 212 objets inédits, où le modèle atteint 90,1% de succès. Le code et les poids seront mis en open source sur GitHub. Ce résultat s'attaque directement au problème qui freine le déploiement industriel des VLAs : la généralisation cross-embodiment et cross-catégorie d'objets. GEAR-VLA repose sur trois mécanismes distincts : un apprentissage coarse-to-fine avec préentraînement multi-sources, une intégration 3D sémantiquement alignée (backbone spatial 3D entraînable couplé à une voie visuelle VLM gelée), et une canonicalisation d'embodiment qui isole les différences morphologiques à l'interface bas niveau via un expert d'action continu de type DiT découplé en gradient. Les 90,1% obtenus sur 212 objets inédits en conditions réelles constituent une réponse partielle à l'hypothèse selon laquelle les VLAs exigent un fine-tuning spécifique à chaque nouvelle catégorie, même si l'absence d'évaluations sur des tâches longues et multi-étapes laisse la question ouverte pour les intégrateurs industriels. Les VLAs dominent la recherche en manipulation depuis RT-2 de Google DeepMind en 2023, avec des jalons successifs que sont OpenVLA (Berkeley), Pi-0 de Physical Intelligence et GR00T N2 de NVIDIA en 2025. La compétition se joue aujourd'hui précisément sur la généralisation zéro-shot et le transfert cross-embodiment, deux axes sur lesquels GEAR-VLA revendique un avantage différenciant. Les benchmarks retenus, LIBERO et RoboTwin 2.0, sont désormais des références standard du domaine, ce qui rend les comparaisons directement lisibles pour la communauté. Il s'agit d'une publication académique sans partenaire industriel annoncé ni déploiement hors laboratoire confirmé. La mise en open source des poids permettra de valider ces résultats sur des plateformes plus complexes, notamment des configurations multi-bras ou à forte variabilité environnementale.

UELa mise en open source imminente des poids permettra aux laboratoires de robotique européens (INRIA, CEA-List, universités techniques) de benchmarker GEAR-VLA sur leurs propres plateformes sans dépendre d'un fine-tuning propriétaire, réduisant potentiellement la barrière à l'adoption industrielle des VLAs en Europe.

IA physiqueOpinion
1 source
ST-π : VLA spatio-temporel structuré pour la manipulation robotique
2arXiv cs.RO 

ST-π : VLA spatio-temporel structuré pour la manipulation robotique

Une équipe de chercheurs a publié fin avril 2026 ST-π (ST-pi), un modèle vision-langage-action (VLA) conçu pour améliorer la manipulation robotique fine en introduisant une planification spatiotemporelle explicitement structurée. Contrairement aux VLA classiques qui projettent directement les observations visuelles vers des actions step-by-step, ST-π décompose la tâche en deux niveaux distincts : un VLM spatiotemporel qui encode des observations 4D (vidéo + profondeur) et génère une séquence ordonnée de "prompts d'action" au niveau chunk, incluant sous-tâches, ancrage spatial et ancrage temporel ; puis un "action expert" conditionné sur ces prompts, qui utilise un mécanisme de double générateur pour modéliser conjointement les dépendances spatiales et la causalité temporelle, produisant in fine les paramètres d'action step-level. Les auteurs ont également constitué un dataset réel avec annotations spatiotemporelles structurées pour le fine-tuning. Le code source est disponible sur GitHub (chuanhaoma/ST-pi). L'intérêt de cette approche réside dans l'explicitation du raisonnement spatiotemporal, un point aveugle documenté des VLA actuels. Les modèles existants comme Pi-0 (Physical Intelligence), OpenVLA ou RT-2 encodent implicitement ce raisonnement dans les représentations visuelles et d'action, ce qui les rend fragiles face à des séquences comportementales multiples avec des frontières temporelles précises, typiquement les tâches d'assemblage, de tri ou de manipulation en plusieurs étapes que les intégrateurs industriels cherchent à automatiser. ST-π propose une architecture où le VLM planifie globalement et l'action expert raffine localement, ce qui est une séparation de responsabilités plus proche de la façon dont les ingénieurs roboticiens structurent eux-mêmes les programmes de manipulation. Ce travail s'inscrit dans une dynamique de recherche active sur le sim-to-real et la généralisation des VLA, portée notamment par Physical Intelligence, Google DeepMind (avec GR00T N2 côté NVIDIA) et des laboratoires académiques en Chine. ST-π est un preprint arXiv (2604.17880), pas encore évalué en peer review, et les métriques de performance annoncées restent à confronter à des benchmarks indépendants comme LIBERO ou RLBench. Aucun partenaire industriel ni déploiement terrain n'est mentionné à ce stade, il s'agit d'une contribution de recherche, pas d'un produit commercialisé. Les prochaines étapes naturelles seraient une évaluation comparative sur des benchmarks standardisés et un test sur des robots réels en dehors du dataset des auteurs.

IA physiqueOpinion
1 source
Mélange d'experts structuré sémantiquement pour la manipulation robotique compositionnelle
3arXiv cs.RO 

Mélange d'experts structuré sémantiquement pour la manipulation robotique compositionnelle

Des chercheurs ont publié le 23 mai 2026 sur arXiv (réf. 2605.23477) un cadre d'apprentissage pour la manipulation robotique compositionnelle baptisé SMoDP (Semantically Structured Mixture-of-Experts Diffusion Policy). L'approche combine des politiques de diffusion avec une architecture Mixture-of-Experts (MoE) guidée sémantiquement : un prédicteur de compétences léger, supervisé par des annotations hors-ligne générées par des modèles vision-langage (VLM), route des séquences d'actions vers des experts spécialisés par phase comportementale (saisie, transport, insertion). La cohérence du routage est assurée par une double stratégie d'alignement contrastif, inter-modal pour ancrer les observations multimodales dans des sémantiques définies en langage naturel, et intra-modal pour maintenir un routage cohérent entre comportements visuellement distincts mais fonctionnellement équivalents. Sur des benchmarks multi-tâches, SMoDP surpasse les baselines diffusion et MoE existantes avec une meilleure efficacité paramétrique, et supporte le transfert vers de nouvelles tâches via fine-tuning frugal. L'enjeu est réel : les politiques de diffusion haute performance sont coûteuses en inférence, tandis que les versions allégées peinent à généraliser dès que le nombre de tâches augmente. Les architectures MoE classiques, qui n'activent qu'un sous-ensemble de paramètres, souffrent d'un défaut de conception : leur routage basé sur des statistiques latentes fragmente les comportements réutilisables entre experts, réduisant l'interprétabilité et la transférabilité. En ancrant la spécialisation dans la structure sémantique de la tâche, SMoDP rend les experts plus modulaires, un avantage direct pour les intégrateurs déployant des robots polyvalents sans réentraîner l'ensemble du modèle. Ce travail s'inscrit dans une course intense à l'efficacité des politiques robotiques. Depuis 2023, les politiques de diffusion (Diffusion Policy, Pi-0 de Physical Intelligence) ont supplanté les approches classiques, et les succès des MoE dans les LLM (Mixtral, Qwen-MoE) ont incité les chercheurs en robotique à adapter ces architectures, avec des résultats mitigés faute d'un bon mécanisme de routage. SMoDP se rapproche des pipelines VLA (Vision-Language-Action) comme OpenVLA ou GR00T N2 de NVIDIA, en intégrant la supervision sémantique par VLM comme lien entre langage et action. À ce stade, il s'agit d'une contribution académique validée en simulation et en environnement de laboratoire, sans annonce de déploiement industriel ni de partenaire commercial ; l'étape logique suivante serait une validation sur plateformes matérielles réelles à grande diversité de tâches.

💬 Le vrai problème des MoE en robotique, c'était le routage : les experts se spécialisaient sur des statistiques latentes sans rapport avec ce que le robot faisait vraiment. Ancrer la spécialisation sur des phases comportementales concrètes, saisir, transporter, insérer, c'est le bon sens qui manquait, et les benchmarks suivent. Reste à confirmer ça sur du matériel réel, pas juste en simulation.

IA physiqueOpinion
1 source
HarmoWAM : la manipulation robotique généraliste
4arXiv cs.RO 

HarmoWAM : la manipulation robotique généraliste

Une équipe de chercheurs a soumis HarmoWAM (arXiv:2605.10942) en mai 2026, un nouveau modèle d'action mondial (WAM) end-to-end pour le contrôle de robots manipulateurs. L'architecture unifie deux paradigmes antagonistes dans la littérature : l'"Imagine-then-Execute" (prédiction vidéo puis dynamique inverse), généralisable mais imprécis, et le "Joint Modeling" (actions et représentations visuelles comodélisées), précis mais limité à sa distribution d'entraînement. HarmoWAM combine un world model fournissant des priors physiques spatio-temporels, deux experts d'action complémentaires (un expert prédictif exploitant les dynamiques latentes, un expert réactif inférant les actions depuis l'évolution visuelle prédite), et un Process-Adaptive Gating Mechanism qui sélectionne automatiquement lequel activer selon la phase de la tâche. Sur six tâches réelles évaluées dans trois environnements jamais vus à l'entraînement, le système surpasse les meilleurs VLAs de 33 % et les WAMs concurrents de 29 % en généralisation zéro-shot. Le résultat stratégique n'est pas la performance brute, mais la capacité à généraliser sans réentraînement sur des configurations inédites -- le blocage central identifié par les intégrateurs industriels. Un robot précis en lab s'effondre dès qu'un fond, une position ou un objet change. En découplant transit généraliste et interaction précise, avec un mécanisme automatique pour basculer entre les deux selon la phase, HarmoWAM attaque directement le sim-to-real gap et la fragilité distributionnelle des VLAs actuels. Si ces gains se confirment sur des configurations plus variées, cela contredit l'hypothèse souvent défendue que précision et généralisation restent fondamentalement incompatibles à court terme. Les WAMs émergent comme alternative aux VLAs classiques, dont Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix (Figure AI), en intégrant explicitement un modèle prédictif du monde physique dans la boucle de contrôle. HarmoWAM cherche à réconcilier deux branches qui s'étaient développées séparément au sein de cette famille. L'article reste un preprint arXiv non encore évalué par les pairs, sans partenaire industriel cité ni calendrier de déploiement annoncé -- il s'agit donc d'une annonce de recherche, pas d'un produit shipé. Aucune entreprise française ou européenne n'est mentionnée dans les travaux. La prochaine étape naturelle serait une évaluation sur des benchmarks standardisés comme LIBERO ou RLBench, ainsi que des tâches longue durée multi-étapes, domaines où les WAMs montrent encore des limites reconnues.

IA physiqueOpinion
1 source