Aller au contenu principal
LaMP : apprentissage d'une politique vision-langage-action avec flux de scène 3D comme a priori de mouvement latent
RecherchearXiv cs.RO3h

LaMP : apprentissage d'une politique vision-langage-action avec flux de scène 3D comme a priori de mouvement latent

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs presentent LaMP, un framework de manipulation robotique combinant deux modules experts. Le premier, le "Motion Expert", genere en une seule etape un flux de scene 3D partiellement debruite via une methode de flow-matching; ses etats caches conditionnent ensuite un second module, l'"Action Expert", charge de predire les actions du robot, via une attention croisee filtree. Contrairement aux VLA classiques qui deduisent les actions directement de features visuelles 2D, LaMP integre ainsi un a priori de mouvement 3D explicite sans reconstruction complete multi-etapes. Le systeme a ete evalue sur les bancs d'essai de simulation LIBERO, LIBERO-Plus et SimplerEnv-WidowX, ainsi que sur des experiences reelles. Selon les auteurs, LaMP depasse systematiquement les references VLA testees, avec les meilleurs taux de reussite moyens a budget d'entrainement egal, et un gain moyen de 9,7% de robustesse sur les perturbations hors distribution de LIBERO-Plus par rapport a la meilleure reference existante.

Ce travail cible un point faible connu des politiques VLA: leur difficulte a generaliser a des dynamiques spatiales non vues pendant l'entrainement, un ecart souvent qualifie de "sim-to-real" ou de "demo vs reality gap". En forcant les modeles a apprendre implicitement la physique 3D a partir de simples features 2D, les architectures actuelles, dans la lignee de RT-2, Pi-0 de Physical Intelligence, GR00T N2 de Nvidia ou Helix de Figure AI, restent fragiles des que l'environnement s'ecarte du jeu d'entrainement. Pour les integrateurs et decideurs B2B, la robustesse hors distribution separe une demonstration convaincante d'un deploiement industriel fiable: c'est souvent le vrai goulot d'etranglement, plus que la reussite brute sur des taches deja vues.

Le papier, publie sur arXiv en version 2, s'inscrit dans un debat plus large sur la meilleure facon d'injecter des priors physiques 3D dans des backbones visuels pre-entraines en 2D, face a des alternatives comme les nuages de points ou les politiques de diffusion conditionnees par la profondeur. Il s'agit d'une contribution academique, sans affiliation industrielle affichee ni indication de deploiement au-dela des benchmarks; les prochaines etapes attendues concernent le passage a l'echelle en conditions reelles et une comparaison directe avec des politiques VLA deja commercialisees comme Pi-0 ou GR00T N2.

À lire aussi

FLAG : la politique de flux par apprentissage par renforcement MaxEnt avec guidage latent augmenté
1arXiv cs.RO 

FLAG : la politique de flux par apprentissage par renforcement MaxEnt avec guidage latent augmenté

FLAG (Flow policy with Latent-Augmented Guidance) est un algorithme d'apprentissage par renforcement à entropie maximale (MaxEnt-RL) présenté dans un preprint arXiv (2605.30749) déposé fin mai 2026. L'approche s'attaque à une limitation connue des implémentations actuelles de MaxEnt-RL : la quasi-totalité restreint les politiques à des distributions gaussiennes simples, ce qui bride leur expressivité. Les tentatives récentes d'intégrer des politiques génératives via un apprentissage supervisé pondéré par importance butent sur le phénomène d'effondrement des poids d'importance (importance weight collapse), particulièrement sévère dans les espaces d'action de haute dimension. FLAG contourne ce problème en localisant la région d'échantillonnage : l'espace d'état est augmenté d'une variable latente de flux normalisants, et l'algorithme optimise un objectif proxy MaxEnt-RL dont la cohérence est démontrée formellement, réduisant la dégénérescence sans multiplier le nombre d'échantillons nécessaires. L'importance de FLAG réside dans sa capacité à réconcilier expressivité des politiques et passage à l'échelle. Les politiques gaussiennes standard ne capturent pas les distributions multimodales qui émergent dans les tâches de contrôle complexes -- manipulation dextère, locomotion, planification en espace contraint. Les architectures de diffusion et de flux ont prouvé leur potentiel en robotique (Pi-0 de Physical Intelligence, les VLA de la famille GR00T N2 de NVIDIA), mais leur entraînement par RL restait instable à haute dimension. FLAG démontre empiriquement qu'on peut optimiser ces politiques expressives avec un nombre limité d'échantillons pondérés et atteindre des performances état de l'art sur des benchmarks réputés difficiles -- l'abstract ne précise pas lesquels, ce qui limite la vérifiabilité immédiate de la revendication. MaxEnt-RL est un cadre théorique consolidé, popularisé notamment par les travaux de Sergey Levine et ses co-auteurs sur Soft Actor-Critic (SAC, 2018). Les approches concurrentes à FLAG incluent les politiques de diffusion en RL (DPPO, DIPO) ainsi que les méthodes hybrides flux-RL récentes issues de groupes comme Berkeley, CMU et Shanghai AI Lab. Ce preprint n'a pas encore été soumis à une conférence majeure au moment de l'annonce, et aucun code public n'est encore disponible. La prochaine étape naturelle serait une validation sur robots physiques, domaine où les espaces d'action haute dimension sont omniprésents et où le fossé sim-to-real reste le vrai test de toute méthode de ce type.

RecherchePaper
1 source
Politique CoLA-Flow : apprentissage par imitation temporellement cohérent via le flux d'actions latentes continues pour la manipulation robotique
2arXiv cs.RO 

Politique CoLA-Flow : apprentissage par imitation temporellement cohérent via le flux d'actions latentes continues pour la manipulation robotique

Une équipe de chercheurs a publié sur arXiv (2501.23087, version 3 en mai 2026) CoLA-Flow Policy, un framework d'apprentissage par imitation conçu pour la manipulation robotique sur des horizons d'action longs. L'approche combine le flow matching, une technique générative plus rapide que la diffusion, avec un espace d'action latent continu dans lequel les trajectoires sont encodées avant l'apprentissage du flux. Sur bancs de simulation et sur robots réels, les expériences affichent une amélioration de la régularité des trajectoires allant jusqu'à 93,7 % et un gain de taux de succès allant jusqu'à 25 points de pourcentage par rapport aux baselines de flow matching opérant directement dans l'espace d'action brut. L'inférence s'effectue en quasi-un seul pas, soit une vitesse nettement supérieure aux politiques basées sur la diffusion, qui nécessitent plusieurs étapes de débruitage. Le principal apport de CoLA-Flow est de découpler la structure globale du mouvement du bruit de contrôle bas niveau : en encodant les séquences d'actions en trajectoires latentes temporellement cohérentes, le modèle évite les oscillations et incohérences qui affectent les politiques de flow matching en espace brut. Pour un intégrateur ou un décideur industriel, cela signifie qu'une même architecture peut traiter des tâches de manipulation complexes sans latence rédhibitoire ni comportement erratique entre les étapes. Le conditionnement par nuages de points (point cloud) et la modulation multimodale à l'exécution via des indices visuels renforcent la robustesse dans des environnements réels non contrôlés, deux exigences critiques pour tout déploiement hors laboratoire. Ce travail s'inscrit dans une compétition intense entre architectures génératives pour les politiques robotiques. Diffusion Policy (Chi et al., 2023) a établi la référence en termes d'expressivité comportementale, mais son coût computationnel freine l'usage temps réel. Pi-0 de Physical Intelligence et GR00T N2 de NVIDIA ont validé le flow matching comme alternative viable, au prix d'une instabilité accrue sur les horizons longs, précisément le problème que CoLA-Flow tente de résoudre via l'espace latent. Le framework s'apparente conceptuellement aux approches d'action chunking (ACT), mais opère au niveau du flux plutôt que de la prédiction directe. La troisième version de l'article suggère des révisions itératives significatives depuis janvier 2026 ; aucun déploiement industriel ni partenariat commercial n'est mentionné à ce stade, et les benchmarks présentés restent limités à des environnements de manipulation contrôlés.

RechercheOpinion
1 source
Apprentissage d'une variété d'actions par priors latents multi-vues pour la manipulation robotique
3arXiv cs.RO 

Apprentissage d'une variété d'actions par priors latents multi-vues pour la manipulation robotique

Une équipe de chercheurs publie sur arXiv (preprint 2605.11832, mai 2026) une méthode adressant deux limites structurelles des modèles Vision-Language-Action (VLA) appliqués à la manipulation robotique : l'ambiguïté de profondeur issue des capteurs monoculaires, et l'inefficacité de l'apprentissage d'actions par régression classique. La première contribution, le G3T (Geometry-Guided Gated Transformer), exploite un modèle de diffusion multi-vues pré-entraîné pour synthétiser des représentations latentes de nouvelles perspectives, alignées sous contrainte géométrique 3D, avec filtrage adaptatif du bruit d'occlusion. La seconde, l'Action Manifold Learning (AML), remplace la régression sur des cibles non structurées, bruit ou champ de vitesse, approches dominantes depuis Diffusion Policy (2023), par une prédiction directe sur la variété des actions valides. Testée sur les benchmarks LIBERO et RoboTwin 2.0, ainsi que sur des tâches en robot réel, la méthode affiche des taux de succès supérieurs aux baselines état de l'art actuelles. L'enjeu est précis : la quasi-totalité des déploiements industriels de manipulateurs n'embarquent qu'une caméra RGB, sans LiDAR ni stéréovision. Sans profondeur fiable, les VLA peinent à estimer distances et tailles relatives, ce qui dégrade directement la précision de préhension en conditions réelles. Le G3T propose de contourner ce manque sans ajout matériel, maintenant les contraintes hardware à un niveau réaliste pour l'intégration. L'AML, de son côté, questionne un paradigme issu des travaux sur la diffusion en robotique : prédire directement sur la variété d'actions valides pourrait réduire la variance d'entraînement et accélérer la convergence. Les résultats semblent valider l'hypothèse, bien qu'un preprint reste à soumettre à peer-review pour être pleinement crédité, les métriques annoncées sont issues des propres expériences des auteurs, sans reproductions indépendantes publiées à ce stade. Ce travail s'inscrit dans la course aux VLA généralistes ouverte par RT-2 (Google DeepMind, 2023), avec pour concurrents directs OpenVLA (UC Berkeley), π0 de Physical Intelligence et GR00T N2 de NVIDIA. RoboTwin 2.0, l'un des benchmarks retenus, cible spécifiquement la manipulation bi-manuelle de précision, parmi les scénarios les plus exigeants du domaine. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans le preprint ; l'impact concret dépendra des reproductions indépendantes et d'une éventuelle intégration dans des frameworks ouverts comme LeRobot (Hugging Face). Le code et la page projet sont annoncés disponibles publiquement.

RechercheOpinion
1 source
WOLF-VLA : framework de locomotion optimale corps entier pour humanoïdes avec apprentissage vision-langage-action
4arXiv cs.RO 

WOLF-VLA : framework de locomotion optimale corps entier pour humanoïdes avec apprentissage vision-langage-action

Des chercheurs ont publié le 25 juin 2026 sur arXiv (arXiv:2606.25591) WOLF-VLA, un cadre unifié qui combine la synthèse de trajectoires par contrôle optimal (OC) en corps entier avec un dataset multimodal à grande échelle, dans le but d'entraîner des modèles VLA (Vision-Language-Action) capables de piloter la locomotion d'humanoïdes directement depuis des instructions en langage naturel. Le dataset couvre six familles de tâches de locomotion, paramétrées par des variations d'environnement, de couleurs d'objets, de placements et de distracteurs visuels. L'entrainement utilise des trajectoires articulaires dynamiquement cohérentes, des observations visuelles ego-centriques et des instructions textuelles. Les résultats annoncés font état d'une robustesse notable aux variations de conditions initiales et de performances compétitives sur plusieurs tâches et configurations d'environnement. Le dataset complet, les checkpoints de modèle et la suite de benchmarks en simulation seront publiés en open source. Ce travail comble un angle mort important : si les VLA ont prouvé leur efficacité en manipulation (voir Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA), leur extension à la locomotion en corps entier, contact-riche et dynamiquement contrainte, restait quasi inexploitée. Les trois verrous identifiés par les auteurs sont précis -- pénurie de données, absence de démonstrations dynamiquement consistantes, et difficulté à encoder optimalité et sécurité dans un pipeline d'apprentissage -- ce sont exactement les obstacles qui ont maintenu la locomotion hors du champ VLA. La génération de trajectoires via contrôle optimal comme source de données supervisées est une approche méthodologiquement solide pour contourner la dépendance aux démonstrations humaines ou téléopérées. Ce papier s'inscrit dans un mouvement plus large vers des politiques de locomotion instruction-guidées, concurrent de travaux comme ANYmal (ETH Zurich / ANYbotics), Digit (Agility Robotics) ou les approches reinforcement learning de Boston Dynamics. La release open source du benchmark constitue la contribution potentiellement la plus durable : établir un référentiel reproductible pour la locomotion humanoïde VLA permettrait de structurer les comparaisons dans un domaine où les métriques sont encore disparates. Aucun déploiement physique n'est mentionné dans cet article, qui reste une contribution de recherche en simulation -- le transfert sim-to-real sur des plateformes comme Unitree H1 ou Figure 03 constitue la prochaine étape non résolue.

UELe benchmark open source pourrait servir de référence aux laboratoires européens travaillant sur la locomotion humanoïde (ETH Zurich/ANYbotics notamment), mais aucun acteur français ni institution de l'UE n'est directement impliqué dans cette publication.

RechercheOpinion
1 source