
LaMP : apprentissage d'une politique vision-langage-action avec flux de scène 3D comme a priori de mouvement latent
Des chercheurs presentent LaMP, un framework de manipulation robotique combinant deux modules experts. Le premier, le "Motion Expert", genere en une seule etape un flux de scene 3D partiellement debruite via une methode de flow-matching; ses etats caches conditionnent ensuite un second module, l'"Action Expert", charge de predire les actions du robot, via une attention croisee filtree. Contrairement aux VLA classiques qui deduisent les actions directement de features visuelles 2D, LaMP integre ainsi un a priori de mouvement 3D explicite sans reconstruction complete multi-etapes. Le systeme a ete evalue sur les bancs d'essai de simulation LIBERO, LIBERO-Plus et SimplerEnv-WidowX, ainsi que sur des experiences reelles. Selon les auteurs, LaMP depasse systematiquement les references VLA testees, avec les meilleurs taux de reussite moyens a budget d'entrainement egal, et un gain moyen de 9,7% de robustesse sur les perturbations hors distribution de LIBERO-Plus par rapport a la meilleure reference existante.
Ce travail cible un point faible connu des politiques VLA: leur difficulte a generaliser a des dynamiques spatiales non vues pendant l'entrainement, un ecart souvent qualifie de "sim-to-real" ou de "demo vs reality gap". En forcant les modeles a apprendre implicitement la physique 3D a partir de simples features 2D, les architectures actuelles, dans la lignee de RT-2, Pi-0 de Physical Intelligence, GR00T N2 de Nvidia ou Helix de Figure AI, restent fragiles des que l'environnement s'ecarte du jeu d'entrainement. Pour les integrateurs et decideurs B2B, la robustesse hors distribution separe une demonstration convaincante d'un deploiement industriel fiable: c'est souvent le vrai goulot d'etranglement, plus que la reussite brute sur des taches deja vues.
Le papier, publie sur arXiv en version 2, s'inscrit dans un debat plus large sur la meilleure facon d'injecter des priors physiques 3D dans des backbones visuels pre-entraines en 2D, face a des alternatives comme les nuages de points ou les politiques de diffusion conditionnees par la profondeur. Il s'agit d'une contribution academique, sans affiliation industrielle affichee ni indication de deploiement au-dela des benchmarks; les prochaines etapes attendues concernent le passage a l'echelle en conditions reelles et une comparaison directe avec des politiques VLA deja commercialisees comme Pi-0 ou GR00T N2.
Dans nos dossiers




