RecherchearXiv cs.RO6sem

Transformer des modèles vidéo en politiques robotiques généralistes

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs du MIT CSAIL ont publié fin mai 2026 un preprint (arXiv:2605.27817) présentant VERA, pour Video-to-Embodied Robot Action Model, une architecture qui transforme des modèles vidéo génératifs en politiques robotiques généralisables. L'idée centrale est de découpler deux composants qui, dans les approches récentes, sont souvent entraînés conjointement : un planificateur vidéo, qui prédit des séquences d'images représentant la complétion d'une tâche, et un modèle de dynamique inverse (IDM, Inverse Dynamics Model) spécifique à l'effecteur, qui traduit ces images en commandes motrices concrètes. L'IDM est conçu à partir du Jacobien cinématique du robot, ce qui le rend à la fois efficient en données et extensible aux espaces d'action de haute dimension. L'équipe démontre VERA sur deux configurations : manipulation zero-shot d'un bras Panda 7-DOF et réorientation de cube en dextérité avec une main Allegro à 16 degrés de liberté, sur des benchmarks simulés et réels.

Ce découplage constitue une alternative architecturale directe aux fondations robotiques qui co-entraînent prédiction d'observations et prédiction d'actions sur des données étiquetées (action-labeled), comme le proposent Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. L'avantage opérationnel est concret : le planificateur vidéo reste agnostique à l'effecteur et peut être partagé entre plusieurs robots en changeant uniquement l'IDM associé, sans réentraîner le backbone vidéo. L'IDM peut lui-même être entraîné sur des données de self-play facilement disponibles, ce qui réduit la dépendance aux démonstrations humaines coûteuses. Les résultats zero-shot sur des tâches de manipulation réelle renforcent la thèse que le gap sim-to-real peut être atténué par une modélisation géométrique rigoureuse de l'effecteur.

La course aux VLA (Vision-Language-Action models) et aux politiques cross-embodiment est aujourd'hui dominée par des laboratoires bien capitalisés : Physical Intelligence avec Pi-0 et Pi-0.5, NVIDIA avec GR00T N2, Figure AI avec Helix, et 1X Technologies. VERA positionne le MIT CSAIL dans ce paysage avec une approche plus modulaire que les architectures monolithiques en vogue. Il s'agit pour l'instant d'un preprint de recherche, sans déploiement industriel annoncé ni partenariat hardware mentionné. Les résultats sont disponibles sur vera.csail.mit.edu, et la prochaine étape naturelle serait une évaluation sur des effecteurs plus variés ou des environnements non structurés pour valider la généralisation à plus grande échelle.

Dans nos dossiers

Figure 1X Technologies NVIDIA GR00T Physical Intelligence — π0

À lire aussi

1arXiv cs.RO

SPACE : apprentissage inter-robots vers des politiques généralistes

Une équipe de chercheurs a publié le 24 juin 2026 sur arXiv (arXiv:2606.24049) un article introduisant SPACE (State Prediction and Adaptive Command Execution), un cadre d'apprentissage conçu pour entraîner des politiques robotiques généralisables à partir de données hétérogènes collectées sur différents robots. Le problème central est le suivant : en behavior cloning, les actions enregistrées lors de démonstrations sont couplées à la dynamique du robot utilisé, ce qui empêche leur réutilisation directe sur d'autres plateformes. SPACE résout cela en adoptant le delta d'état cartésien comme représentation d'action universelle, indépendante du matériel. Le framework repose sur deux composants : une politique prédisant le déplacement géométrique de l'effecteur terminal (end-effector), et un Action Adapter qui convertit ces prédictions en commandes spécifiques à chaque robot. Les expériences démontrent que SPACE surpasse significativement les politiques entraînées à prédire directement des commandes de contrôle, que ce soit entre morphologies différentes ou entre unités matérielles d'une même plateforme. La robustesse est également validée face aux variations dynamiques en déploiement : changements de fréquence de contrôle, de masse des objets manipulés ou de gains de contrôleur. L'enjeu est structurant pour la robotique industrielle à grande échelle. Agréger des démonstrations issues de parcs hétérogènes sans dégradation de performance est un verrou majeur pour constituer les grands jeux de données dont la robotique généraliste a besoin, à l'image d'ImageNet pour la vision par ordinateur. SPACE découple la représentation de l'action de son exécution matérielle, ouvrant la voie à des politiques capables de fonctionner sur des flottes diversifiées sans ré-entraînement complet. Pour un intégrateur ou un COO industriel opérant des robots de plusieurs générations, la robustesse aux shifts dynamiques en production est un argument concret, pas seulement académique. Ce travail s'inscrit dans le courant dominant du robot learning, qui cherche à reproduire pour la robotique le scaling des grands modèles de langage. Des travaux comme RT-2, Octo ou pi-0 (Physical Intelligence) ont déjà exploré l'apprentissage multi-robot, mais l'alignement des espaces d'action reste un problème ouvert. SPACE apporte une réponse modulaire, sans imposer de modifications architecturales majeures à la politique principale, ce qui facilite l'intégration avec des architectures VLA existantes. Le code et la page projet sont disponibles publiquement. Il s'agit pour l'instant d'un preprint non encore soumis à peer review, et les prochaines étapes naturelles incluront des validations à plus grande échelle et sur des scènes de manipulation plus complexes.

RechercheOpinion

1 source

2arXiv cs.RO

Robometer : mise à l'échelle des modèles de récompense robotique généralistes par comparaison de trajectoires

Des chercheurs ont publié Robometer, un cadre de modélisation de récompense (reward model) généraliste pour robots, conçu pour s'entraîner sur de grands datasets incluant des trajectoires échouées et sous-optimales. Le système repose sur un double objectif d'apprentissage : une perte de progression par frame ancrée sur des données expertes, et une perte de comparaison de préférences entre trajectoires imposant des contraintes d'ordonnancement global entre différentes exécutions d'une même tâche. Pour soutenir cette approche à grande échelle, les auteurs ont constitué RBM-1M, un dataset dédié à l'apprentissage de récompenses comprenant plus d'un million de trajectoires couvrant des robots de morphologies et de tâches variées, avec une fraction substantielle de données sous-optimales et d'échecs avérés. Le code, les poids du modèle et des vidéos sont accessibles sur robometer.github.io. L'enjeu est de surmonter la limitation fondamentale des reward models actuels, entraînés à prédire la progression absolue d'une tâche uniquement depuis des démonstrations expertes, ce qui confère une supervision purement locale et se révèle peu scalable face aux vastes datasets robotiques peuplés de trajectoires ratées ou imparfaites. Robometer exploite les comparaisons inter-trajectoires comme signal de supervision global, permettant d'extraire de l'information utile même des séquences d'échec et de lever l'ambiguïté de l'assignation de labels de progression denses. Ce changement de paradigme est significatif pour les praticiens : si les gains annoncés sur benchmarks et évaluations en conditions réelles se confirment indépendamment, les coûts de curation de données pour l'entraînement de politiques robotiques pourraient être substantiellement réduits. La modélisation de récompenses à grande échelle est un problème ouvert depuis plusieurs années dans la communauté robotique, avec des approches comme EUREKA d'NVIDIA ou les variantes robotiques du RLHF (Reinforcement Learning from Human Feedback) qui cherchent toutes à réduire la dépendance à l'annotation humaine dense. Robometer se positionne comme une alternative généraliste et multi-embodiment, sans être lié à une architecture ou un robot spécifique. Les suites naturelles incluent l'intégration dans des pipelines VLA (Vision-Language-Action), où la qualité du signal de récompense conditionne directement la généralisabilité des politiques apprises à l'échelle ; l'ouverture du code et des poids rend désormais possible des validations indépendantes, condition nécessaire pour confirmer les bénéfices au-delà du cadre expérimental des auteurs.

RechercheOpinion

1 source

3NVIDIA Developer Blog

Comment évaluer les politiques de robots généralistes pour un déploiement en conditions réelles

Une équipe de recherche en robotique publie un article de blog consacré à l'évaluation rigoureuse des politiques robotiques généralistes destinées au déploiement réel. Le texte part d'un constat : les meilleurs systèmes actuels, capables de suivre des instructions en langage naturel pour saisir, déplacer, trier et manipuler une grande variété d'objets, ont progressé rapidement ces derniers mois. Mais à mesure que ces modèles gagnent en capacité, les évaluer de façon fiable est devenu, selon les auteurs, l'un des problèmes non résolus les plus difficiles du secteur. Le billet ne détaille pas encore la méthode complète, mais annonce vouloir poser les problèmes clés de l'évaluation et présenter une approche pour les traiter, sans livrer dans cet extrait de chiffres de benchmark, de taux de réussite ou de comparaison entre modèles nommés. Pour l'industrie robotique, la question de l'évaluation n'est pas secondaire : elle conditionne la confiance que les intégrateurs et décideurs B2B peuvent accorder à des politiques génériques de type VLA avant de les déployer sur une ligne de production ou un site logistique. De nombreuses démonstrations de robots manipulateurs ou humanoïdes sont aujourd'hui présentées avec des vidéos sélectionnées et des conditions de test non standardisées, ce qui rend difficile toute comparaison objective entre acteurs. En pointant ce manque de rigueur méthodologique, la démarche s'inscrit dans une remise en question plus large de l'écart entre démonstration et réalité opérationnelle, un sujet central alors que plusieurs laboratoires affirment avoir résolu le passage de la simulation au réel à grande échelle. Cette initiative s'inscrit dans un mouvement plus large où plusieurs laboratoires de robotique généraliste développent des politiques capables d'exécuter des instructions en langage naturel sur des tâches variées, sans qu'il existe pour l'instant de standard d'évaluation partagé par le secteur. L'absence de protocole commun complique la comparaison entre approches concurrentes et freine l'adoption industrielle, les entreprises utilisatrices devant se fier aux métriques propres à chaque fournisseur. Le billet annonce vouloir combler ce vide méthodologique, sans préciser à ce stade de calendrier de publication détaillée ni de partenaires industriels associés à la démarche.

RecherchePaper

1 source

4arXiv cs.RO

RoboMME : évaluation et compréhension de la mémoire pour les politiques robotiques généralistes

Une équipe de chercheurs a publié RoboMME (Robotic Multi-Memory Evaluation), un benchmark standardisé à grande échelle destiné à évaluer les modèles VLA (vision-language-action) sur des tâches de manipulation robotique nécessitant de la mémoire à long horizon. Le benchmark comprend 16 tâches construites selon une taxonomie en quatre catégories : mémoire temporelle, spatiale, des objets et procédurale, couvrant des scénarios comme le comptage d'actions répétées ou la manipulation d'objets temporairement occultés. Les auteurs ont également développé 14 variantes de VLA augmentées de mémoire, toutes bâties sur le backbone pi0.5 de Physical Intelligence, et les ont évaluées selon différentes stratégies d'intégration mémorielle. L'absence d'un cadre d'évaluation standardisé était jusqu'ici un frein majeur pour la recherche sur la mémoire dans les VLA généralistes : chaque équipe testait ses mécanismes dans des conditions ad hoc, rendant toute comparaison rigoureuse impossible. RoboMME comble ce vide en permettant, pour la première fois, de mesurer systématiquement comment différentes représentations mémorielles (états cachés récurrents, mémoire externe, fenêtre de contexte longue) se comportent sur un spectre de tâches hétérogènes. La conclusion principale est nuancée : l'efficacité d'une architecture mémoire est fortement dépendante de la tâche, chaque approche présentant des avantages distincts selon la catégorie, ce qui remet en cause l'idée qu'une solution universelle serait à portée à court terme. Pour les intégrateurs et les décideurs B2B, cela signifie concrètement que le choix du mécanisme mémoriel devra rester spécifique au cas d'usage, sans recette générique applicable. Ce benchmark s'inscrit dans la montée en puissance des VLA généralistes, portés par des modèles comme pi0 et pi0.5 de Physical Intelligence (levée de 400 millions de dollars en 2024), OpenVLA, Octo ou RoboVLMs, qui cherchent tous à transférer les capacités des grands modèles de langage à la manipulation physique. D'autres benchmarks comme LIBERO, RoboSuite ou MetaWorld couvrent déjà l'évaluation générale des VLA, mais RoboMME se distingue par son focus explicite sur la mémoire à long horizon, un aspect jusqu'ici systématiquement sous-évalué dans ces environnements. Les prochaines étapes probables incluent l'adoption de RoboMME comme référence communautaire dans les pipelines d'évaluation des grands labs robotiques, et le développement d'architectures mémoire capables de généraliser entre catégories de tâches sans sacrifier les performances spécialisées.

RechercheActu

1 source