Flux compositionnelle sparse : assemblage géométrique à…

Modèle vision-langage-action pour la génération compositionnelle de mouvements à partir de démonstrations avec champs neuronaux centrés sur l'objet

49

1arXiv cs.RO

Modèle vision-langage-action pour la génération compositionnelle de mouvements à partir de démonstrations avec champs neuronaux centrés sur l'objet

Des chercheurs publient sur arXiv (identifiant 2607.07129, soumission de type "new", juillet 2026) un framework d'apprentissage par démonstration pour la génération de mouvement robotique compositionnel. La méthode combine des représentations neuronales centrées objet, des neural fields canoniques associés à des déformations conditionnées par une variable latente, pour rendre des scènes en capturant variations de position et de géométrie de façon lisse et interprétable. Pour la génération de mouvement, un mélange d'experts temporel (temporal mixture-of-experts) utilise un mécanisme de gating qui combine dans le temps des primitives de mouvement conditionnées par objet, produisant des trajectoires complètes. En simulation, le modèle accomplit des tâches de manipulation à long horizon avec significativement moins de données d'entraînement que les méthodes de référence basées sur l'image. Des expériences en conditions réelles confirment la robustesse au bruit, une généralisation au niveau catégoriel grâce à des modèles de segmentation pilotés par le langage, et la capacité d'opérer directement sur des représentations de scène en 3D. Cette approche s'attaque à un problème central de l'apprentissage par démonstration en robotique: généraliser au-delà des configurations de scène vues à l'entraînement sans faire exploser les besoins en données. En ancrant le mouvement dans une structure visuelle explicite plutôt que dans des pixels bruts, la méthode promet une efficacité data nettement supérieure, un enjeu critique pour les intégrateurs industriels qui ne disposent pas des volumes de démonstrations que collectent les grands laboratoires spécialisés en modèles vision-langage-action. Si ces résultats se confirment à plus grande échelle, cette compositionnalité spatio-temporelle pourrait réduire le coût de déploiement de bras manipulateurs dans des environnements variés, sans réentraînement complet à chaque nouvelle configuration. Le travail s'inscrit dans la double lignée des "movement primitives", qui structurent le mouvement en briques réutilisables, et des neural fields appliqués à la robotique, qui représentent la géométrie de façon compacte. Il se positionne comme alternative modulaire et interprétable face aux modèles VLA end-to-end à grande échelle, généralement plus gourmands en données mais plus généralistes. L'article, validé en simulation et par des expériences réelles limitées, ne mentionne aucun déploiement industriel ni partenariat commercial: il s'agit à ce stade d'une contribution académique dont la suite logique serait une évaluation sur des plateformes robotiques partagées et des benchmarks standardisés.

IA physiqueActu

1 source

PrimitiveVLA : apprentissage de primitives de mouvement réutilisables pour une manipulation robotique efficace et généralisable

41

2arXiv cs.RO

PrimitiveVLA : apprentissage de primitives de mouvement réutilisables pour une manipulation robotique efficace et généralisable

Des chercheurs ont publié le 28 mai 2026 sur arXiv (référence 2605.28634) PrimitiveVLA, un cadre d'apprentissage pour modèles VLA (Vision-Language-Action) ciblant deux faiblesses récurrentes de la robotique généraliste : l'inefficacité des données d'entraînement et la mauvaise généralisation à des tâches nouvelles. Le diagnostic des auteurs est structurel : les architectures VLA actuelles mappent directement les instructions vers des séquences de contrôle moteur, forçant le modèle à mémoriser des trajectoires entières spécifiques à chaque tâche, sans capitaliser sur des motifs de mouvement réutilisables. PrimitiveVLA propose à la place un paradigme "Disassemble & Assemble" centré sur les primitives : une pipeline automatisée décompose les démonstrations en unités de mouvement invariantes, encodées dans une Représentation Canonique Multimodale (MCR) partagée. À l'inférence, un planificateur VLM et un module de commutation généré par LLM assurent l'exécution en boucle fermée. Les expériences reportées montrent une meilleure efficacité des données et une généralisation zero-shot sur des tâches non vues et de longue durée. L'enjeu pour les intégrateurs et les décideurs industriels est immédiat : les modèles VLA généralistes exigent aujourd'hui des milliers de démonstrations par variation de tâche, rendant leur déploiement en production coûteux et peu flexible. Si l'approche par primitives réutilisables tient ses promesses, elle pourrait significativement réduire ce volume de données pour personnaliser un bras manipulateur sur une nouvelle ligne. La boucle fermée via le module de commutation LLM répond aussi à une faiblesse connue des politiques open-loop, sujettes à la dérive face à des imprévus. Ces résultats restent cependant à confirmer : il s'agit d'un preprint non encore soumis à évaluation par des pairs, sans validation hardware en conditions industrielles réelles. L'approche s'inscrit dans un courant de recherche sur la découverte de compétences composites (skill discovery en RL), ici appliqué aux architectures vision-langage-action. Elle entre en concurrence directe avec pi-0 de Physical Intelligence, OpenVLA, et les politiques de type Diffusion Policy, tous visant à améliorer la généralisation des manipulateurs à partir de peu de données. Aucun partenaire industriel ni site de déploiement n'est mentionné dans l'article, qui demeure une contribution académique pure. Les prochaines étapes naturelles seraient une validation sur hardware physique hors-laboratoire et une comparaison de sample efficiency avec pi-0 ou OpenVLA sur des benchmarks standardisés tels que LIBERO ou BridgeData.

IA physiqueOpinion

1 source

Modèle d'action géométrique pour l'apprentissage de politiques robotiques

42

3arXiv cs.RO

Modèle d'action géométrique pour l'apprentissage de politiques robotiques

Des chercheurs ont déposé le 16 juin 2026 sur arXiv (arXiv:2606.17046) le Geometric Action Model (GAM), une politique de manipulation robotique conditionnée par le langage naturel. L'architecture réutilise un modèle fondamental géométrique (GFM) pré-entraîné en le scindant en deux segments : les couches superficielles encodent les observations visuelles, tandis qu'un prédicteur causal inséré à la jonction génère des tokens latents futurs conditionnés sur les instructions textuelles, la proprioception et l'historique d'actions du robot. Les blocs restants du GFM décodent ensuite simultanément la géométrie future de la scène et les actions à exécuter via un backbone unique partagé. Sur une suite de benchmarks en simulation et sur robot réel incluant des tâches de manipulation en contact riche, GAM affiche selon ses auteurs une précision, une robustesse, une vitesse d'inférence et une compacité supérieures aux baselines VLA à large échelle actuellement en référence. Le problème central qu'adresse ce travail est le décalage entre les représentations 2D dominantes dans les VLA (vision-language-action models) et la nature tridimensionnelle des interactions physiques. Des systèmes comme Pi-0 et Pi0.5 (Physical Intelligence), GR00T N2 (NVIDIA) ou les modèles RT-X (Google DeepMind) opèrent principalement sur des espaces latents dérivés d'images 2D, ce qui les handicape pour les tâches de saisie précise, d'assemblage et de dépose sur surfaces contraintes. Ancrer la prédiction d'actions directement dans un espace géométrique 3D, avec une modification minimale du modèle fondamental sous-jacent, constitue le pari architectural de GAM. Si ces résultats résistent à une reproductibilité indépendante, ils valideraient l'hypothèse que des priors géométriques explicites améliorent la généralisation des politiques généralistes face au gap sim-to-real. Cette publication s'inscrit dans une course aux VLA généralistes lancée depuis RT-2 (Google DeepMind, 2023), où la majorité des acteurs industriels, dont Figure (Helix), Agility Robotics, 1X et Physical Intelligence, misent sur des transformers multimodaux sans encodage 3D explicite. En parallèle, plusieurs laboratoires académiques (Berkeley, Stanford, CMU) explorent l'intégration de représentations géométriques comme le Gaussian Splatting dans les politiques robotiques. GAM s'inscrit dans cette seconde tendance avec une proposition architecturale minimaliste. À ce stade, il s'agit d'un preprint arXiv non peer-reviewed, sans déploiement industriel ni partenariat hardware annoncé ; une validation sur des plateformes commerciales standards (UR, Franka) en dehors du laboratoire reste à démontrer.

IA physiqueOpinion

1 source

Mélange d'experts structuré sémantiquement pour la manipulation robotique compositionnelle

38

4arXiv cs.RO

Mélange d'experts structuré sémantiquement pour la manipulation robotique compositionnelle

Des chercheurs ont publié le 23 mai 2026 sur arXiv (réf. 2605.23477) un cadre d'apprentissage pour la manipulation robotique compositionnelle baptisé SMoDP (Semantically Structured Mixture-of-Experts Diffusion Policy). L'approche combine des politiques de diffusion avec une architecture Mixture-of-Experts (MoE) guidée sémantiquement : un prédicteur de compétences léger, supervisé par des annotations hors-ligne générées par des modèles vision-langage (VLM), route des séquences d'actions vers des experts spécialisés par phase comportementale (saisie, transport, insertion). La cohérence du routage est assurée par une double stratégie d'alignement contrastif, inter-modal pour ancrer les observations multimodales dans des sémantiques définies en langage naturel, et intra-modal pour maintenir un routage cohérent entre comportements visuellement distincts mais fonctionnellement équivalents. Sur des benchmarks multi-tâches, SMoDP surpasse les baselines diffusion et MoE existantes avec une meilleure efficacité paramétrique, et supporte le transfert vers de nouvelles tâches via fine-tuning frugal. L'enjeu est réel : les politiques de diffusion haute performance sont coûteuses en inférence, tandis que les versions allégées peinent à généraliser dès que le nombre de tâches augmente. Les architectures MoE classiques, qui n'activent qu'un sous-ensemble de paramètres, souffrent d'un défaut de conception : leur routage basé sur des statistiques latentes fragmente les comportements réutilisables entre experts, réduisant l'interprétabilité et la transférabilité. En ancrant la spécialisation dans la structure sémantique de la tâche, SMoDP rend les experts plus modulaires, un avantage direct pour les intégrateurs déployant des robots polyvalents sans réentraîner l'ensemble du modèle. Ce travail s'inscrit dans une course intense à l'efficacité des politiques robotiques. Depuis 2023, les politiques de diffusion (Diffusion Policy, Pi-0 de Physical Intelligence) ont supplanté les approches classiques, et les succès des MoE dans les LLM (Mixtral, Qwen-MoE) ont incité les chercheurs en robotique à adapter ces architectures, avec des résultats mitigés faute d'un bon mécanisme de routage. SMoDP se rapproche des pipelines VLA (Vision-Language-Action) comme OpenVLA ou GR00T N2 de NVIDIA, en intégrant la supervision sémantique par VLM comme lien entre langage et action. À ce stade, il s'agit d'une contribution académique validée en simulation et en environnement de laboratoire, sans annonce de déploiement industriel ni de partenaire commercial ; l'étape logique suivante serait une validation sur plateformes matérielles réelles à grande diversité de tâches.

💬 Le vrai problème des MoE en robotique, c'était le routage : les experts se spécialisaient sur des statistiques latentes sans rapport avec ce que le robot faisait vraiment. Ancrer la spécialisation sur des phases comportementales concrètes, saisir, transporter, insérer, c'est le bon sens qui manquait, et les benchmarks suivent. Reste à confirmer ça sur du matériel réel, pas juste en simulation.

IA physiqueOpinion

1 source

Flux compositionnelle sparse : assemblage géométrique à partir de primitives de mouvement

À lire aussi

Modèle vision-langage-action pour la génération compositionnelle de mouvements à partir de démonstrations avec champs neuronaux centrés sur l'objet

PrimitiveVLA : apprentissage de primitives de mouvement réutilisables pour une manipulation robotique efficace et généralisable

Modèle d'action géométrique pour l'apprentissage de politiques robotiques

Mélange d'experts structuré sémantiquement pour la manipulation robotique compositionnelle