Aller au contenu principal
MolmoAct2 : un modèle de raisonnement d'action pour le déploiement réel
IA physiquearXiv cs.RO7sem

MolmoAct2 : un modèle de raisonnement d'action pour le déploiement réel

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UETake éditorial

L'Allen Institute for Artificial Intelligence (AllenAI) a publié MolmoAct2 en mai 2025, un modèle VLA (Vision-Language-Action) entièrement open source conçu pour le déploiement robotique en conditions réelles. Cinq contributions structurent le système : MolmoER, un backbone visio-linguistique entraîné sur 3,3 millions d'exemples spécialisés en raisonnement spatial et incarné ; MolmoAct2-BimanualYAM, 720 heures de trajectoires de manipulation bimanuelle téléopérées sur plateformes à coût modéré (SO100/101 et sous-ensembles Franka DROID), le plus grand corpus bimanuel ouvert à ce jour ; OpenFAST, un tokeniseur d'actions open weight couvrant cinq types d'embodiments ; une architecture hybride couplant un expert à actions continues par flow-matching à un VLM à tokens discrets via conditionnement KV-cache couche par couche ; et MolmoThink, qui ne recalcule les tokens de profondeur géométrique que pour les zones de scène modifiées entre deux pas de temps, réduisant la latence d'inférence. Sur sept benchmarks mêlant simulation et environnements réels, MolmoAct2 surpasse Pi-0.5 de Physical Intelligence ; MolmoER dépasse GPT-5 et Gemini Robotics ER-1.5 d'Alphabet sur treize benchmarks de raisonnement incarné. Poids, code et données d'entraînement sont publiés intégralement.

La publication s'attaque à quatre verrous concrets du déploiement des VLA : modèles frontier fermés, dépendance à du matériel onéreux, latence prohibitive des politiques augmentées par raisonnement, et taux de succès trop bas pour un usage fiable en production. La mise à disposition simultanée des poids, du code d'entraînement et des données complètes reste rare dans un domaine largement dominé par le propriétaire. Ces 720 heures de données sur plateformes abordables élargissent l'accès à un corpus bimanuel jusqu'ici réservé à des setups coûteux. MolmoThink représente une approche concrète pour rendre le raisonnement géométrique compatible avec les contraintes temps-réel des contrôleurs embarqués. Il faut cependant souligner que ces performances sont mesurées sur benchmarks académiques : aucun déploiement industriel validé n'est annoncé dans cet article.

AllenAI, institut non lucratif cofondé par Paul Allen à Seattle, avait publié le modèle Molmo fin 2024 avant d'étendre ses travaux au contrôle robotique avec MolmoAct. MolmoAct2 s'inscrit dans un paysage VLA dominé par des acteurs fermés : Physical Intelligence (Pi-0, Pi-0.5), Google DeepMind (Gemini Robotics, RT-2) et des équipes d'OpenAI dont les développements robotiques restent non publiés. Dans l'espace open source, il concurrence OpenVLA et Octo, avec l'avantage d'un corpus bimanuel inédit et d'un tokeniseur multi-embodiments standardisé. Aucun pilote commercial n'est annoncé ; la publication cible en priorité les équipes universitaires et les startups robotiques cherchant à s'affranchir de la dépendance aux modèles propriétaires.

Impact France/UE

La publication intégrale des poids, du code et des données réduit la dépendance des équipes universitaires et startups européennes aux modèles VLA propriétaires, offrant un accès immédiat au plus grand corpus bimanuel ouvert à ce jour.

💬 Le point de vue du dev

AllenAI publie les poids, le code et les données d'entraînement, et ça reste rarissime dans un domaine où les gros jouent à guichet fermé. 720 heures de manipulation bimanuelle sur du matériel accessible, un tokeniseur multi-embodiments open weight, et des scores au-dessus de Pi-0.5 et GPT-5 sur les benchmarks incarnés : les startups robotiques qui n'ont pas le budget Physical Intelligence vont s'en saisir. Bon, aucun déploiement industriel validé pour l'instant.

À lire aussi

Modèle vision-langage-action pour la modélisation du monde, le raisonnement et la synthèse d'actions
1arXiv cs.RO 

Modèle vision-langage-action pour la modélisation du monde, le raisonnement et la synthèse d'actions

Des chercheurs présentent WLA (World-Language-Action), une nouvelle classe de modèles de fondation incarnés pour la robotique, dans un preprint arXiv publié début juin 2026. Le modèle prototype WLA-0, fort de 2 milliards de paramètres actifs, prend en entrée des instructions textuelles, des images et l'état du robot pour générer simultanément des sous-tâches textuelles, des images de sous-objectifs et des commandes motrices. Sur l'NVIDIA RTX 5090, le temps d'inférence est de 40 ms par cycle, ce qui reste dans les plages acceptables pour le contrôle temps réel. Les évaluations atteignent 92,94 % de taux de succès sur le benchmark RoboTwin2.0 Clean et 56,5 % sur RMBench, deux protocoles de référence pour les tâches multi-objets et longue portée. L'intérêt architectural réside dans la fusion de deux paradigmes jusqu'ici distincts : le world modeling, qui consiste à apprendre une représentation prédictive du monde à partir de vidéos égocentrées, et le language reasoning propre aux modèles VLA (Vision-Language-Action) tels que Pi-0 ou OpenVLA. WLA opte pour un backbone Transformer autorégressif plutôt que le Transformer de diffusion bidirectionnel utilisé dans les WAM (World-Action Models), ce qui permet de prédire l'état suivant en deux niveaux complémentaires : intention sémantique textuelle d'un côté, dynamiques physiques fines de l'autre. Un mécanisme de meta-queries rend l'influence du world modeling implicite à l'inférence, mais peut être activé pour du test-time scaling, technique qui améliore le contrôle en allouant davantage de calcul à l'exécution. La capacité annoncée d'apprendre de nouvelles tâches à partir de vidéos cross-embodiment sans annotations d'actions est notable, mais reste à valider sur des robots hétérogènes en dehors d'environnements simulés. WLA s'inscrit dans une course dense à l'unification des modèles robotiques. Face à Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou Helix de Figure AI, qui misent chacun sur des architectures diffusion ou VLA, WLA propose une troisième voie autoregressive combinant génération de sous-objectifs visuels et raisonnement linguistique. L'article reste un preprint non validé par les pairs, sans déploiement industriel annoncé. Les prochaines étapes naturelles seraient une évaluation sur des plateformes physiques variées et des benchmarks réels, les performances simulées étant connues pour surestimer les capacités en conditions d'exploitation. Aucun acteur européen n'est impliqué dans ces travaux.

IA physiqueOpinion
1 source
LaST-R1 : renforcement de l'action par raisonnement latent physique adaptatif pour les modèles VLA
2arXiv cs.RO 

LaST-R1 : renforcement de l'action par raisonnement latent physique adaptatif pour les modèles VLA

Des chercheurs ont publié le 29 avril 2026 sur arXiv (2604.28192) un nouveau cadre pour les modèles Vision-Langage-Action (VLA) baptisé LaST-R1, accompagné d'un algorithme d'apprentissage par renforcement inédit appelé LAPO (Latent-to-Action Policy Optimization). Le système atteint un taux de succès moyen de 99,8 % sur le benchmark de manipulation robotique LIBERO, après un unique épisode d'imitation supervisée en guise d'amorçage. En déploiement réel sur quatre tâches complexes, dont des configurations monobranche et bras-double, LAPO améliore les performances de 44 % par rapport à la politique issue de cet amorçage initial. L'apport central de LaST-R1 est de relier explicitement le raisonnement sur la physique à la génération d'actions, là où les approches existantes traitaient ces deux étapes séparément. Les VLA actuels raisonnent soit en langage naturel (coûteux en latence et discret), soit dans un espace latent continu, mais dans les deux cas par imitation statique, sans capacité d'adaptation par essais-erreurs. LAPO co-optimise simultanément le processus de raisonnement latent et la production d'actions via du renforcement en ligne, ce qui améliore la modélisation du monde physique et la robustesse en environnement interactif. Un mécanisme de "latent Chain-of-Thought adaptatif" permet en outre au modèle d'ajuster dynamiquement son horizon de raisonnement selon la complexité de la situation, sans coût fixe à chaque pas. Il s'agit d'une annonce académique sous forme de preprint, pas encore d'un produit embarqué sur robot commercial. Ce travail s'inscrit dans la course à la généralisation des VLA, portée ces derniers mois par des modèles comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA. L'un des verrous récurrents du secteur est l'écart simulation-réalité (sim-to-real gap) et la difficulté à faire converger rapidement un modèle en conditions réelles sans millions d'épisodes supervisés. LaST-R1 revendique une convergence significativement accélérée grâce à l'optimisation jointe du raisonnement latent, une piste que suivent aussi des équipes européennes travaillant sur l'apprentissage par renforcement pour la manipulation, notamment dans l'orbite des laboratoires universitaires français. Les prochaines étapes naturelles seront la validation sur des benchmarks plus diversifiés (AgiBot World, RLBench) et l'intégration dans des plateformes matérielles commerciales.

UELes laboratoires français et européens travaillant sur la manipulation robotique par apprentissage par renforcement peuvent s'appuyer sur l'approche LAPO pour réduire leur dépendance aux grandes quantités de données supervisées, accélérant potentiellement leurs cycles de recherche.

IA physiqueOpinion
1 source
Pelican-Unified 1.0 : un modèle d'IA incarnée unifié pour la compréhension, le raisonnement, l'imagination et l'action
3arXiv cs.RO 

Pelican-Unified 1.0 : un modèle d'IA incarnée unifié pour la compréhension, le raisonnement, l'imagination et l'action

Une équipe de recherche a publié Pelican-Unified 1.0 (arXiv 2605.15153), un modèle de fondation incarné qui intègre dans un seul checkpoint quatre capacités habituellement confiées à des modules distincts : compréhension visuelle, raisonnement, imagination et génération d'actions robotiques. L'architecture repose sur un unique VLM (Vision-Language Model) qui encode scènes, instructions et historiques d'actions dans un espace sémantique partagé. Ce même VLM génère en un seul forward pass des chaînes de pensée orientées tâche, projetées dans une variable latente dense. Un module baptisé Unified Future Generator (UFG) conditionne ensuite sur cette latente pour produire simultanément vidéos futures et séquences d'actions via deux têtes de sortie dans le même processus de débruitage (denoising). Les performances annoncées : 64,7 sur huit benchmarks VLM standards (meilleur parmi les modèles de taille comparable), 66,03 sur WorldArena (premier rang) et 93,5 sur RoboTwin (deuxième meilleure moyenne parmi les méthodes comparées). L'article est déposé en preprint, sans validation par les pairs à ce stade. L'enjeu architectural est direct : les systèmes robotiques avancés actuels reposent quasi universellement sur des experts spécialisés distincts pour percevoir, raisonner, planifier et exécuter. Ce papier cherche à démontrer qu'un modèle unique, optimisé conjointement sur des pertes de langage, vidéo et action, peut égaler ces spécialistes sans compromis de performance. Si ces résultats se confirment hors simulation, l'impact pour les intégrateurs est double : un seul checkpoint à maintenir et une meilleure généralisation inter-tâches. Le couplage imagination-action dans le même processus de débruitage rappelle l'approche de Physical Intelligence avec Pi-0.5, mais l'intégration du raisonnement textuel dans la même passe constitue un degré d'unification plus poussé. Le score sur RoboTwin reste néanmoins un indicateur sim-to-real à valider en conditions réelles. La course aux modèles VLA (Vision-Language-Action) s'est accélérée en 2024-2025 avec Pi-0 et Pi-0.5 de Physical Intelligence, GR00T N2 de NVIDIA, et les modèles RT-X de Google DeepMind, chacun maintenant des composants partiellement séparés pour la planification et la génération motrice. Pelican-Unified 1.0 se positionne comme une alternative radicalement unifiée, mais reste au stade académique : aucun déploiement, aucun partenariat industriel annoncé, et l'équipe auteure n'est pas identifiée dans le résumé public, ce qui limite l'évaluation de la crédibilité institutionnelle. La revendication de "premier modèle unifié" mérite d'être nuancée, plusieurs architectures combinant déjà compréhension et action. Les prochaines étapes naturelles passent par une validation sur des benchmarks en conditions réelles et une soumission à CoRL ou ICRA.

IA physiqueOpinion
1 source
TIC-VLA : un modèle vision-langage-action (VLA) à raisonnement intégré pour la navigation robotique en environnements dynamiques
4arXiv cs.RO 

TIC-VLA : un modèle vision-langage-action (VLA) à raisonnement intégré pour la navigation robotique en environnements dynamiques

Des chercheurs de l'UCLA Mobility Lab ont publié fin février 2026 TIC-VLA (Think-in-Control VLA), un framework de contrôle robotique qui adresse explicitement le décalage temporel entre raisonnement sémantique et action en temps réel. Le modèle introduit une interface "delayed semantic-control" : au lieu de supposer que la sortie du module vision-langage est synchrone avec l'action motrice, TIC-VLA conditionne la génération d'action sur des états sémantiques retardés et sur des métadonnées de latence explicites, en plus des observations courantes. Le pipeline d'entraînement, dit "latency-consistent", injecte des délais de raisonnement réels pendant l'apprentissage par imitation et le reinforcement learning en ligne, alignant ainsi les conditions d'entraînement sur celles du déploiement. Pour l'évaluation, l'équipe présente également DynaNav, une suite de simulation physiquement précise et photoréaliste dédiée à la navigation guidée par langage naturel dans des environnements avec présence humaine. Les expériences couvrent à la fois la simulation et un robot réel, avec des latences de raisonnement pouvant dépasser plusieurs secondes. L'enjeu sous-jacent est structural dans le champ des VLA : Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou les architectures dérivées de RT-2 supposent implicitement que l'inférence sémantique et le contrôle moteur sont cadencés de manière cohérente. En pratique, les LLM embarqués dans ces architectures introduisent des délais incompressibles de 0,5 à plusieurs secondes, incompatibles avec une boucle de contrôle à 10-20 Hz dans un environnement dynamique. TIC-VLA propose une solution au niveau de l'architecture plutôt qu'au niveau matériel, ce qui est potentiellement plus portable. Les résultats annoncés indiquent une surperformance systématique par rapport aux VLA antérieurs tout en maintenant un contrôle robuste sous latence. Il faut toutefois noter que les benchmarks proviennent en grande partie de DynaNav, un environnement simulé développé par les auteurs eux-mêmes, ce qui appelle une validation indépendante. La problématique de l'asynchronisme VLA n'est pas nouvelle : des travaux comme GROOT ou des approches à architecture duale (slow planner / fast controller) cherchent à séparer les horizons temporels. TIC-VLA se distingue en modélisant la latence comme un paramètre de condition plutôt qu'en la masquant par une architecture hiérarchique. Le projet est porté par le groupe UCLA Mobility Lab, connu pour ses travaux sur la navigation autonome urbaine. La page projet est accessible, mais aucune annonce de déploiement industriel ou de partenariat commercial n'est mentionnée pour l'instant. Les prochaines étapes naturelles seraient une évaluation sur des plateformes standardisées comme le benchmark Open-X Embodiment, et une confrontation avec des architectures concurrentes sur des tâches de manipulation en environnement mixte homme-robot.

IA physiqueOpinion
1 source