Aller au contenu principal
Robometer : mise à l'échelle des modèles de récompense robotique généralistes par comparaison de trajectoires
RecherchearXiv cs.RO6sem

Robometer : mise à l'échelle des modèles de récompense robotique généralistes par comparaison de trajectoires

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié Robometer, un cadre de modélisation de récompense (reward model) généraliste pour robots, conçu pour s'entraîner sur de grands datasets incluant des trajectoires échouées et sous-optimales. Le système repose sur un double objectif d'apprentissage : une perte de progression par frame ancrée sur des données expertes, et une perte de comparaison de préférences entre trajectoires imposant des contraintes d'ordonnancement global entre différentes exécutions d'une même tâche. Pour soutenir cette approche à grande échelle, les auteurs ont constitué RBM-1M, un dataset dédié à l'apprentissage de récompenses comprenant plus d'un million de trajectoires couvrant des robots de morphologies et de tâches variées, avec une fraction substantielle de données sous-optimales et d'échecs avérés. Le code, les poids du modèle et des vidéos sont accessibles sur robometer.github.io.

L'enjeu est de surmonter la limitation fondamentale des reward models actuels, entraînés à prédire la progression absolue d'une tâche uniquement depuis des démonstrations expertes, ce qui confère une supervision purement locale et se révèle peu scalable face aux vastes datasets robotiques peuplés de trajectoires ratées ou imparfaites. Robometer exploite les comparaisons inter-trajectoires comme signal de supervision global, permettant d'extraire de l'information utile même des séquences d'échec et de lever l'ambiguïté de l'assignation de labels de progression denses. Ce changement de paradigme est significatif pour les praticiens : si les gains annoncés sur benchmarks et évaluations en conditions réelles se confirment indépendamment, les coûts de curation de données pour l'entraînement de politiques robotiques pourraient être substantiellement réduits.

La modélisation de récompenses à grande échelle est un problème ouvert depuis plusieurs années dans la communauté robotique, avec des approches comme EUREKA d'NVIDIA ou les variantes robotiques du RLHF (Reinforcement Learning from Human Feedback) qui cherchent toutes à réduire la dépendance à l'annotation humaine dense. Robometer se positionne comme une alternative généraliste et multi-embodiment, sans être lié à une architecture ou un robot spécifique. Les suites naturelles incluent l'intégration dans des pipelines VLA (Vision-Language-Action), où la qualité du signal de récompense conditionne directement la généralisabilité des politiques apprises à l'échelle ; l'ouverture du code et des poids rend désormais possible des validations indépendantes, condition nécessaire pour confirmer les bénéfices au-delà du cadre expérimental des auteurs.

À lire aussi

Transformer des modèles vidéo en politiques robotiques généralistes
1arXiv cs.RO 

Transformer des modèles vidéo en politiques robotiques généralistes

Des chercheurs du MIT CSAIL ont publié fin mai 2026 un preprint (arXiv:2605.27817) présentant VERA, pour Video-to-Embodied Robot Action Model, une architecture qui transforme des modèles vidéo génératifs en politiques robotiques généralisables. L'idée centrale est de découpler deux composants qui, dans les approches récentes, sont souvent entraînés conjointement : un planificateur vidéo, qui prédit des séquences d'images représentant la complétion d'une tâche, et un modèle de dynamique inverse (IDM, Inverse Dynamics Model) spécifique à l'effecteur, qui traduit ces images en commandes motrices concrètes. L'IDM est conçu à partir du Jacobien cinématique du robot, ce qui le rend à la fois efficient en données et extensible aux espaces d'action de haute dimension. L'équipe démontre VERA sur deux configurations : manipulation zero-shot d'un bras Panda 7-DOF et réorientation de cube en dextérité avec une main Allegro à 16 degrés de liberté, sur des benchmarks simulés et réels. Ce découplage constitue une alternative architecturale directe aux fondations robotiques qui co-entraînent prédiction d'observations et prédiction d'actions sur des données étiquetées (action-labeled), comme le proposent Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. L'avantage opérationnel est concret : le planificateur vidéo reste agnostique à l'effecteur et peut être partagé entre plusieurs robots en changeant uniquement l'IDM associé, sans réentraîner le backbone vidéo. L'IDM peut lui-même être entraîné sur des données de self-play facilement disponibles, ce qui réduit la dépendance aux démonstrations humaines coûteuses. Les résultats zero-shot sur des tâches de manipulation réelle renforcent la thèse que le gap sim-to-real peut être atténué par une modélisation géométrique rigoureuse de l'effecteur. La course aux VLA (Vision-Language-Action models) et aux politiques cross-embodiment est aujourd'hui dominée par des laboratoires bien capitalisés : Physical Intelligence avec Pi-0 et Pi-0.5, NVIDIA avec GR00T N2, Figure AI avec Helix, et 1X Technologies. VERA positionne le MIT CSAIL dans ce paysage avec une approche plus modulaire que les architectures monolithiques en vogue. Il s'agit pour l'instant d'un preprint de recherche, sans déploiement industriel annoncé ni partenariat hardware mentionné. Les résultats sont disponibles sur vera.csail.mit.edu, et la prochaine étape naturelle serait une évaluation sur des effecteurs plus variés ou des environnements non structurés pour valider la généralisation à plus grande échelle.

RechercheOpinion
1 source
RoboMME : évaluation et compréhension de la mémoire pour les politiques robotiques généralistes
2arXiv cs.RO 

RoboMME : évaluation et compréhension de la mémoire pour les politiques robotiques généralistes

Une équipe de chercheurs a publié RoboMME (Robotic Multi-Memory Evaluation), un benchmark standardisé à grande échelle destiné à évaluer les modèles VLA (vision-language-action) sur des tâches de manipulation robotique nécessitant de la mémoire à long horizon. Le benchmark comprend 16 tâches construites selon une taxonomie en quatre catégories : mémoire temporelle, spatiale, des objets et procédurale, couvrant des scénarios comme le comptage d'actions répétées ou la manipulation d'objets temporairement occultés. Les auteurs ont également développé 14 variantes de VLA augmentées de mémoire, toutes bâties sur le backbone pi0.5 de Physical Intelligence, et les ont évaluées selon différentes stratégies d'intégration mémorielle. L'absence d'un cadre d'évaluation standardisé était jusqu'ici un frein majeur pour la recherche sur la mémoire dans les VLA généralistes : chaque équipe testait ses mécanismes dans des conditions ad hoc, rendant toute comparaison rigoureuse impossible. RoboMME comble ce vide en permettant, pour la première fois, de mesurer systématiquement comment différentes représentations mémorielles (états cachés récurrents, mémoire externe, fenêtre de contexte longue) se comportent sur un spectre de tâches hétérogènes. La conclusion principale est nuancée : l'efficacité d'une architecture mémoire est fortement dépendante de la tâche, chaque approche présentant des avantages distincts selon la catégorie, ce qui remet en cause l'idée qu'une solution universelle serait à portée à court terme. Pour les intégrateurs et les décideurs B2B, cela signifie concrètement que le choix du mécanisme mémoriel devra rester spécifique au cas d'usage, sans recette générique applicable. Ce benchmark s'inscrit dans la montée en puissance des VLA généralistes, portés par des modèles comme pi0 et pi0.5 de Physical Intelligence (levée de 400 millions de dollars en 2024), OpenVLA, Octo ou RoboVLMs, qui cherchent tous à transférer les capacités des grands modèles de langage à la manipulation physique. D'autres benchmarks comme LIBERO, RoboSuite ou MetaWorld couvrent déjà l'évaluation générale des VLA, mais RoboMME se distingue par son focus explicite sur la mémoire à long horizon, un aspect jusqu'ici systématiquement sous-évalué dans ces environnements. Les prochaines étapes probables incluent l'adoption de RoboMME comme référence communautaire dans les pipelines d'évaluation des grands labs robotiques, et le développement d'architectures mémoire capables de généraliser entre catégories de tâches sans sacrifier les performances spécialisées.

RechercheActu
1 source
RoboDream : des modèles du monde compositionnels pour la synthèse de données robotiques à grande échelle
3arXiv cs.RO 

RoboDream : des modèles du monde compositionnels pour la synthèse de données robotiques à grande échelle

Des chercheurs ont publié RoboDream (arXiv:2606.02577), un world model centré sur l'embodiment conçu pour générer des démonstrations photorealistic destinées à l'entraînement de politiques de manipulation robotique. Le système s'appuie sur des modèles de diffusion vidéo conditionnés simultanément sur le mouvement rendu du robot et sur des priors explicites de scène et d'objet, découplant ainsi l'exécution de trajectoire de la synthèse d'environnement. Cette architecture permet deux capacités distinctes : le "retrieval and rebirth", qui réutilise des trajectoires existantes dans des contextes entièrement nouveaux sans collecter de nouvelles données de mouvement, et la "prop-free teleoperation", où l'opérateur manipule dans le vide et le modèle génère a posteriori les objets cibles et la scène. Les expériences en conditions réelles montrent que les données ainsi synthétisées améliorent systématiquement les performances des politiques en aval et réduisent significativement les besoins en données réelles sur des tâches de manipulation variées. La télé-opération reste aujourd'hui le principal goulot d'étranglement du robot learning à grande échelle : coûteuse, lente, et contrainte par le temps de reset entre chaque démonstration (repositionner les objets, réorganiser la scène). RoboDream attaque ce problème en proposant une augmentation sémantique profonde plutôt qu'une simple modification de texture ou de couleur : le système génère des objets et des environnements entièrement nouveaux à partir d'une même trajectoire capturée. La "prop-free teleoperation" est opérationnellement significative car elle supprime le temps de reset, l'une des sources de coût caché les plus sous-estimées dans les pipelines de collecte actuels. Le fait que les politiques entraînées sur données synthétiques surpassent les baselines en conditions réelles valide partiellement la thèse que le sim-to-real gap peut être comblé par un générateur suffisamment ancré dans la géométrie et la cinématique du robot réel, contrairement aux approches purement visuelles. Cette publication s'inscrit dans une course à la mise à l'échelle des données robotiques qui s'est accélérée depuis 2023 avec l'essor des VLA (Vision-Language-Action models) : OpenVLA, Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA. Ces architectures nécessitent des dizaines de milliers de démonstrations diversifiées pour être robustes. Face à ce besoin, deux voies coexistent : la collecte distribuée à grande échelle (projet Open X-Embodiment) et la génération synthétique. RoboDream s'inscrit dans la seconde, aux côtés de travaux comme UniSim ou RoboGen, mais se différencie par son ancrage explicite à la cinématique du robot, évitant les "embodiment hallucinations" qui affectent les générateurs purement visuels. Aucun partenariat industriel ni déploiement commercial n'est annoncé à ce stade. Les questions ouvertes portent sur la généralisation à des morphologies de robots différentes et sur les tâches de manipulation longue durée, où la cohérence temporelle des séquences générées reste un défi non résolu.

RechercheOpinion
1 source
Apprentissage en cours de déploiement : apprentissage par renforcement à l'échelle d'une flotte pour des politiques de robots généralistes
4arXiv cs.RO 

Apprentissage en cours de déploiement : apprentissage par renforcement à l'échelle d'une flotte pour des politiques de robots généralistes

Une équipe de chercheurs a déposé le 1er mai 2026 sur arXiv (référence 2605.00416) un cadre d'apprentissage par renforcement appelé Learning While Deploying (LWD), conçu pour améliorer en continu des politiques généralisées de type Vision-Language-Action (VLA) directement en conditions réelles. Le système a été validé sur une flotte de 16 robots à deux bras, engagés sur huit tâches de manipulation en environnement physique, dont le réassort sémantique de produits d'épicerie et des séquences longues de 3 à 5 minutes. Partant d'une politique VLA pré-entraînée hors ligne, LWD collecte les rollouts autonomes et les corrections humaines réalisés sur l'ensemble de la flotte, puis les intègre dans un cycle continu d'amélioration et de redéploiement. Techniquement, le framework combine le Distributional Implicit Value Learning (DIVL), pour une estimation de valeur robuste sur des données hétérogènes à récompense sparse, avec le Q-learning via Adjoint Matching (QAM), adapté aux générateurs d'actions de type flow-based. Au terme de l'accumulation d'expérience de flotte, la politique généraliste unique atteint un taux de succès moyen de 95 %, les gains les plus marqués étant observés sur les tâches longue durée. Ce résultat est significatif non parce qu'il affiche un chiffre élevé, mais parce qu'il démontre que l'écart entre données d'entraînement et déploiement réel peut être réduit par apprentissage continu in situ. Les politiques VLA, de plus en plus utilisées comme backbone généralisé en robotique manipulation, souffrent d'un problème bien identifié : les datasets de démonstration fixes ne capturent ni les variations de distribution rencontrées sur le terrain, ni les pannes rares, ni les corrections opérateur. LWD formalise un pipeline où ces signaux de terrain sont directement réintégrés dans la boucle d'entraînement, sans nécessiter une phase offline séparée. Pour un intégrateur ou un COO industriel, la promesse est concrète : une flotte déployée s'améliore d'elle-même à mesure qu'elle travaille, et les interventions humaines alimentent le modèle plutôt que d'être perdues. Cette publication s'inscrit dans une course active à la post-formation de politiques VLA pour la manipulation robotique. Physical Intelligence avec Pi-0, NVIDIA avec GR00T N2, et les équipes de Figure AI ou 1X Technologies investissent tous dans des politiques généralisées robustes au transfert réel. Le point de différenciation de LWD est le paradigme fleet-scale : là où la majorité des travaux publiés portent sur un ou deux robots en laboratoire, les auteurs valident leur approche sur 16 unités en parallèle. Aucun partenaire industriel ni calendrier de commercialisation n'est mentionné dans le preprint, et les vidéos de démonstration n'ont pas été évaluées de manière indépendante, ce qui invite à traiter ces résultats comme une preuve de concept académique solide plutôt que comme une annonce produit.

RechercheOpinion
1 source