Aller au contenu principal
Transformer des modèles vidéo en politiques robotiques généralistes
RecherchearXiv cs.RO1h

Transformer des modèles vidéo en politiques robotiques généralistes

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs du MIT CSAIL ont publié fin mai 2026 un preprint (arXiv:2605.27817) présentant VERA, pour Video-to-Embodied Robot Action Model, une architecture qui transforme des modèles vidéo génératifs en politiques robotiques généralisables. L'idée centrale est de découpler deux composants qui, dans les approches récentes, sont souvent entraînés conjointement : un planificateur vidéo, qui prédit des séquences d'images représentant la complétion d'une tâche, et un modèle de dynamique inverse (IDM, Inverse Dynamics Model) spécifique à l'effecteur, qui traduit ces images en commandes motrices concrètes. L'IDM est conçu à partir du Jacobien cinématique du robot, ce qui le rend à la fois efficient en données et extensible aux espaces d'action de haute dimension. L'équipe démontre VERA sur deux configurations : manipulation zero-shot d'un bras Panda 7-DOF et réorientation de cube en dextérité avec une main Allegro à 16 degrés de liberté, sur des benchmarks simulés et réels.

Ce découplage constitue une alternative architecturale directe aux fondations robotiques qui co-entraînent prédiction d'observations et prédiction d'actions sur des données étiquetées (action-labeled), comme le proposent Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. L'avantage opérationnel est concret : le planificateur vidéo reste agnostique à l'effecteur et peut être partagé entre plusieurs robots en changeant uniquement l'IDM associé, sans réentraîner le backbone vidéo. L'IDM peut lui-même être entraîné sur des données de self-play facilement disponibles, ce qui réduit la dépendance aux démonstrations humaines coûteuses. Les résultats zero-shot sur des tâches de manipulation réelle renforcent la thèse que le gap sim-to-real peut être atténué par une modélisation géométrique rigoureuse de l'effecteur.

La course aux VLA (Vision-Language-Action models) et aux politiques cross-embodiment est aujourd'hui dominée par des laboratoires bien capitalisés : Physical Intelligence avec Pi-0 et Pi-0.5, NVIDIA avec GR00T N2, Figure AI avec Helix, et 1X Technologies. VERA positionne le MIT CSAIL dans ce paysage avec une approche plus modulaire que les architectures monolithiques en vogue. Il s'agit pour l'instant d'un preprint de recherche, sans déploiement industriel annoncé ni partenariat hardware mentionné. Les résultats sont disponibles sur vera.csail.mit.edu, et la prochaine étape naturelle serait une évaluation sur des effecteurs plus variés ou des environnements non structurés pour valider la généralisation à plus grande échelle.

À lire aussi

Robometer : mise à l'échelle des modèles de récompense robotique généralistes par comparaison de trajectoires
1arXiv cs.RO 

Robometer : mise à l'échelle des modèles de récompense robotique généralistes par comparaison de trajectoires

Des chercheurs ont publié Robometer, un cadre de modélisation de récompense (reward model) généraliste pour robots, conçu pour s'entraîner sur de grands datasets incluant des trajectoires échouées et sous-optimales. Le système repose sur un double objectif d'apprentissage : une perte de progression par frame ancrée sur des données expertes, et une perte de comparaison de préférences entre trajectoires imposant des contraintes d'ordonnancement global entre différentes exécutions d'une même tâche. Pour soutenir cette approche à grande échelle, les auteurs ont constitué RBM-1M, un dataset dédié à l'apprentissage de récompenses comprenant plus d'un million de trajectoires couvrant des robots de morphologies et de tâches variées, avec une fraction substantielle de données sous-optimales et d'échecs avérés. Le code, les poids du modèle et des vidéos sont accessibles sur robometer.github.io. L'enjeu est de surmonter la limitation fondamentale des reward models actuels, entraînés à prédire la progression absolue d'une tâche uniquement depuis des démonstrations expertes, ce qui confère une supervision purement locale et se révèle peu scalable face aux vastes datasets robotiques peuplés de trajectoires ratées ou imparfaites. Robometer exploite les comparaisons inter-trajectoires comme signal de supervision global, permettant d'extraire de l'information utile même des séquences d'échec et de lever l'ambiguïté de l'assignation de labels de progression denses. Ce changement de paradigme est significatif pour les praticiens : si les gains annoncés sur benchmarks et évaluations en conditions réelles se confirment indépendamment, les coûts de curation de données pour l'entraînement de politiques robotiques pourraient être substantiellement réduits. La modélisation de récompenses à grande échelle est un problème ouvert depuis plusieurs années dans la communauté robotique, avec des approches comme EUREKA d'NVIDIA ou les variantes robotiques du RLHF (Reinforcement Learning from Human Feedback) qui cherchent toutes à réduire la dépendance à l'annotation humaine dense. Robometer se positionne comme une alternative généraliste et multi-embodiment, sans être lié à une architecture ou un robot spécifique. Les suites naturelles incluent l'intégration dans des pipelines VLA (Vision-Language-Action), où la qualité du signal de récompense conditionne directement la généralisabilité des politiques apprises à l'échelle ; l'ouverture du code et des poids rend désormais possible des validations indépendantes, condition nécessaire pour confirmer les bénéfices au-delà du cadre expérimental des auteurs.

RechercheOpinion
1 source
RoboMME : évaluation et compréhension de la mémoire pour les politiques robotiques généralistes
2arXiv cs.RO 

RoboMME : évaluation et compréhension de la mémoire pour les politiques robotiques généralistes

Une équipe de chercheurs a publié RoboMME (Robotic Multi-Memory Evaluation), un benchmark standardisé à grande échelle destiné à évaluer les modèles VLA (vision-language-action) sur des tâches de manipulation robotique nécessitant de la mémoire à long horizon. Le benchmark comprend 16 tâches construites selon une taxonomie en quatre catégories : mémoire temporelle, spatiale, des objets et procédurale, couvrant des scénarios comme le comptage d'actions répétées ou la manipulation d'objets temporairement occultés. Les auteurs ont également développé 14 variantes de VLA augmentées de mémoire, toutes bâties sur le backbone pi0.5 de Physical Intelligence, et les ont évaluées selon différentes stratégies d'intégration mémorielle. L'absence d'un cadre d'évaluation standardisé était jusqu'ici un frein majeur pour la recherche sur la mémoire dans les VLA généralistes : chaque équipe testait ses mécanismes dans des conditions ad hoc, rendant toute comparaison rigoureuse impossible. RoboMME comble ce vide en permettant, pour la première fois, de mesurer systématiquement comment différentes représentations mémorielles (états cachés récurrents, mémoire externe, fenêtre de contexte longue) se comportent sur un spectre de tâches hétérogènes. La conclusion principale est nuancée : l'efficacité d'une architecture mémoire est fortement dépendante de la tâche, chaque approche présentant des avantages distincts selon la catégorie, ce qui remet en cause l'idée qu'une solution universelle serait à portée à court terme. Pour les intégrateurs et les décideurs B2B, cela signifie concrètement que le choix du mécanisme mémoriel devra rester spécifique au cas d'usage, sans recette générique applicable. Ce benchmark s'inscrit dans la montée en puissance des VLA généralistes, portés par des modèles comme pi0 et pi0.5 de Physical Intelligence (levée de 400 millions de dollars en 2024), OpenVLA, Octo ou RoboVLMs, qui cherchent tous à transférer les capacités des grands modèles de langage à la manipulation physique. D'autres benchmarks comme LIBERO, RoboSuite ou MetaWorld couvrent déjà l'évaluation générale des VLA, mais RoboMME se distingue par son focus explicite sur la mémoire à long horizon, un aspect jusqu'ici systématiquement sous-évalué dans ces environnements. Les prochaines étapes probables incluent l'adoption de RoboMME comme référence communautaire dans les pipelines d'évaluation des grands labs robotiques, et le développement d'architectures mémoire capables de généraliser entre catégories de tâches sans sacrifier les performances spécialisées.

RechercheActu
1 source
Pré-entraînement universel sur les poses pour des politiques VLA généralisables
3arXiv cs.RO 

Pré-entraînement universel sur les poses pour des politiques VLA généralisables

Des chercheurs ont publié Pose-VLA (arXiv:2602.19710, 2026), un nouveau paradigme d'entraînement pour les modèles Vision-Language-Action (VLA) appliqués à la manipulation robotique. L'approche sépare l'entraînement en deux phases distinctes: une phase de pré-entraînement qui extrait des prior spatiaux 3D universels dans un espace centré sur la caméra, puis une phase de post-entraînement pour l'alignement propre à l'embodiment du robot cible. Le mécanisme central repose sur l'introduction de "discrete pose tokens", une représentation intermédiaire universelle qui combine des données de grounding spatial issues de datasets 3D hétérogènes avec des trajectoires géométriques issues de démonstrations robotiques. Sur le benchmark RoboTwin 2.0, Pose-VLA revendique l'état de l'art avec 79,5% de taux de succès moyen, et atteint 96,0% sur LIBERO. En conditions réelles, le modèle généralise à des objets variés avec seulement 100 démonstrations par tâche. Le problème structurel que Pose-VLA cherche à résoudre est bien documenté dans la littérature: les backbones VLM classiques, optimisés pour le Visual Question Answering, excellent à identifier sémantiquement des objets mais restent relativement insensibles aux variations 3D fines qui dictent des stratégies de préhension différentes. Ce phénomène, qualifié de "feature collapse" par les auteurs, dégrade l'efficacité d'entraînement et limite la généralisation inter-tâches. En découplant explicitement la perception spatiale 3D de la supervision d'action, l'approche vise à réduire significativement le nombre de démonstrations nécessaires pour adapter une politique à un nouveau contexte, ce qui représente aujourd'hui l'un des principaux freins à l'industrialisation des VLA. À noter que les tâches réelles testées ne sont pas détaillées dans l'article, et les performances sur benchmarks simulés ne préjugent pas du comportement en environnement industriel non contrôlé. Les VLA sont au coeur d'une compétition de recherche intense depuis RT-2 de Google DeepMind en 2023, et des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA ont chacun tenté d'adresser le sim-to-real gap et la dépendance aux larges corpus de démonstrations. RoboTwin 2.0 et LIBERO sont devenus des références de facto pour comparer ces politiques en manipulation. Pose-VLA s'inscrit dans une tendance plus large de découplage des phases d'entraînement, parallèlement à des approches comme UniSim ou RoboVLMs. Cette publication reste au stade académique: aucun déploiement industriel, partenariat commercial ni timeline de mise en production ne sont mentionnés, et les expériences réelles se limitent à un contexte laboratoire avec des objets courants.

RechercheOpinion
1 source
GEM-4D : modèles du monde vidéo enrichis par la géométrie pour la manipulation robotique
4arXiv cs.RO 

GEM-4D : modèles du monde vidéo enrichis par la géométrie pour la manipulation robotique

Une équipe en soumission anonyme (probablement ICCV ou NeurIPS 2025) publie GEM-4D sur arXiv, un modèle mondial vidéo ancré géométriquement pour la manipulation robotique. Le constat de départ est bien documenté : les VWM (Video World Models) génèrent des séquences futures visuellement plausibles à partir d'une instruction, mais ne maintiennent pas la cohérence du mouvement au niveau des points entre les images, ce qui les rend inutilisables pour l'exécution d'actions physiques fiables. GEM-4D résout cette limitation en injectant, pendant l'entraînement, une supervision de correspondances 4D denses distillée depuis un modèle de fondation géométrique pré-entraîné dans le backbone génératif vidéo, tout en conservant une architecture single-stream sans surcoût à l'inférence. Un module de dynamique inverse convertit ensuite les rollouts vidéo cohérents en trajectoires exécutables, déployables en simulation comme en réel. Sur la combinaison prédiction vidéo et cohérence géométrique, GEM-4D atteint l'état de l'art, et le taux de succès en manipulation réelle progresse de 61 % à 81 %, soit un gain de 20 points. Ce gain de 20 points sur des tâches réelles est le chiffre central : il valide l'hypothèse que la supervision géométrique suffit à combler le gap entre apparence visuelle et ancrage physique. Pour les intégrateurs et décideurs industriels, l'architecture single-stream représente un avantage concret, sans module géométrique séparé à maintenir en opération. Cela positionne les VWM comme une alternative sérieuse aux approches VLA (Vision-Language-Action) comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, jusque-là perçues comme plus directement actionnables. La réserve habituelle s'applique : la soumission reste anonyme, les vidéos de la page projet ne permettent pas encore d'évaluation indépendante, et le protocole de test en environnement réel n'est pas détaillé dans le résumé disponible. Les VWM appliqués à la robotique constituent un axe de recherche actif depuis 2023, avec des travaux précurseurs comme UniSim (OpenAI) ou IRASim. GEM-4D s'y distingue en apportant la cohérence géométrique 3D+temporelle qui faisait défaut, en s'appuyant sur des modèles de fondation pour la reconstruction dense, domaine où l'INRIA Paris (à l'origine de DUSt3R et MASt3R) est un acteur européen de référence. La chaîne supervision géométrique → génération vidéo → action robotique apparaît ainsi viable à l'échelle d'un déploiement réel. Les prochaines étapes naturelles seront une validation sur des benchmarks standardisés comme RLBench ou LIBERO, et des tests hors des environnements de laboratoire contrôlés.

UELes modèles géométriques de fondation de l'INRIA Paris (DUSt3R, MASt3R) constituent la base de la supervision géométrique de GEM-4D, positionnant la recherche européenne en reconstruction dense comme un maillon clé de la prochaine génération de modèles de manipulation robotique.

RechercheOpinion
1 source