Aller au contenu principal
Large Video Planner permet un contrôle robotique généralisable
IA physiquearXiv cs.RO6sem

Large Video Planner permet un contrôle robotique généralisable

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UETake éditorial

Des chercheurs publient Large Video Planner (LVP), un modèle de fondation robotique reposant sur un préentraînement vidéo massif plutôt que sur les approches vision-langage-action (VLA) dominantes. Alimenté par un corpus à l'échelle internet d'activités humaines et de démonstrations de tâches, LVP est le premier modèle de ce type entraîné à l'échelle d'un modèle de fondation. Le système génère des plans vidéo en zero-shot pour des scènes et tâches inédites, que l'équipe post-traite pour en extraire des actions exécutables sur un robot physique. Des tests en conditions réelles, avec des tâches sélectionnées par des tiers indépendants, confirment la faisabilité de l'exécution. Le modèle et le jeu de données sont publiés en open source.

L'intérêt stratégique de LVP tient au paradigme alternatif qu'il représente face aux VLA dominants, qui étendent des grands modèles de langage multimodaux (MLLM) avec des sorties d'actions. L'argument central est que la vidéo, contrairement aux images statiques et au texte, capture naturellement la dynamique spatio-temporelle du monde physique, offrant un biais inductif mieux aligné avec les politiques motrices robotiques. La généralisation zero-shot validée par des tiers apporte de la crédibilité à cette thèse. En revanche, le post-traitement nécessaire pour convertir des plans vidéo en commandes robotiques exécutables constitue un maillon méthodologique critique dont la robustesse hors conditions de laboratoire reste à démontrer à grande échelle.

Ce travail s'inscrit dans une course aux modèles de fondation robotiques où Physical Intelligence (Pi-0, 400 millions de dollars levés fin 2024), NVIDIA (GR00T N2), Figure AI (Helix) et Google DeepMind (RT-2, RT-X) imposent leurs architectures VLA. Déposé sur arXiv en décembre 2025 (2512.15840v2), LVP représente l'une des premières alternatives open source à cette échelle, ce qui pourrait le rendre structurant pour les laboratoires académiques et les intégrateurs ne disposant pas de ressources de calcul propriétaires. La publication reste au stade de la preuve de concept académique, mais l'ouverture du modèle et du dataset est susceptible d'accélérer les travaux sur l'apprentissage robotique par démonstration vidéo.

Impact France/UE

Les laboratoires académiques et intégrateurs européens sans ressources de calcul propriétaires pourront exploiter le modèle et le dataset open source de LVP comme alternative crédible aux architectures VLA propriétaires des acteurs américains.

💬 Le point de vue du dev

L'approche VLA écrase tout en ce moment, donc quand quelqu'un propose un paradigme différent, à l'échelle d'un modèle de fondation et en open source, c'est pas anodin. La logique tient : la vidéo capture la dynamique du monde physique mieux que du texte ou des images statiques, et les tests zero-shot validés par des tiers donnent de la crédibilité à ça. Le point critique, c'est le post-traitement pour convertir les plans vidéo en commandes robot, et hors conditions de labo, reste à voir si ça tient.

À lire aussi

Piloter l'apprentissage par renforcement génératif vers un contrôleur robotique stable
1arXiv cs.RO 

Piloter l'apprentissage par renforcement génératif vers un contrôleur robotique stable

Des chercheurs ont publié fin juin 2026 sur arXiv (2606.16572) SteerGenPO, un cadre d'apprentissage par renforcement en espace latent destiné à transformer une politique générative entraînée, basée sur la diffusion ou les flux normalisants, en un contrôleur robotique déterministe et stable. Le système a été évalué sur six benchmarks Isaac Lab d'NVIDIA et sur une tâche de locomotion avec le robot humanoïde Unitree G1, avec des résultats supérieurs aux baselines RL classiques et génératives selon les auteurs. Il s'agit d'une publication académique en pré-impression, sans déploiement industriel annoncé ni validation terrain au-delà du G1. Le verrou technique adressé est connu : les politiques de diffusion accumulent des variations d'action à chaque pas de temps, ce qui dégrade la stabilité sur des systèmes robotiques à haute dimensionnalité. SteerGenPO sépare architecturalement exploration et contrôle : l'échantillonnage stochastique reste actif à l'entraînement pour diversifier les proposals d'actions, mais au déploiement, un acteur latent appris prédit une entrée déterministe et dépendante de l'état qui pilote la politique générative sans bruit résiduel. Pour les intégrateurs, la proposition n'exige pas de réentraîner la politique depuis zéro : elle greffe un mécanisme de pilotage sur un checkpoint pré-entraîné existant, ce qui ouvre la voie à l'exploitation de modèles fondation tout en garantissant la reproductibilité des trajectoires en production. Ce travail s'inscrit dans la compétition intense autour des politiques génératives en robotique. Physical Intelligence avec Pi-0 (2024) et NVIDIA avec GR00T N2 (2025) ont validé l'approche VLA-diffusion en environnements contrôlés, mais les questions sur la robustesse à l'inférence longue restent ouvertes. Boston Dynamics, Agility Robotics et Figure AI privilégient des pipelines de contrôle plus classiques pour la fiabilité en production. SteerGenPO propose une voie médiane : capitaliser sur la richesse exploratoire des modèles génératifs sans en subir l'instabilité au déploiement. Aucune timeline, partenariat industriel ni essai terrain n'est mentionné dans le préprint ; les prochaines validations naturelles porteraient sur la manipulation dextère et des tests sim-to-real approfondis.

IA physiqueOpinion
1 source
VICX : manipulation robotique généralisable par génération vidéo et réseau d'opérateurs en contexte
2arXiv cs.RO 

VICX : manipulation robotique généralisable par génération vidéo et réseau d'opérateurs en contexte

Une équipe de chercheurs publie sur arXiv (juin 2026, ref. 2606.12028) VICX, un framework de manipulation robotique généraliste articulé autour d'une architecture découplée en deux blocs : un modèle de génération vidéo figé (non fine-tuné) produit des plans visuels de haut niveau conditionnés par langage naturel, tandis qu'un réseau baptisé V2T-ICON (Video-to-Trajectory In-Context Operator Network) traduit ces plans en trajectoires exécutables pour le robot. La particularité de V2T-ICON réside dans son fonctionnement par apprentissage en contexte : au moment de l'inférence, il récupère des paires image-état préenregistrées et travaille sur des images segmentées du seul bras robotique, permettant un mapping visuel-vers-état sans mise à jour des paramètres. Les expériences sont conduites sur Meta-World, un benchmark de simulation standard, et démontrent la généralisation inter-tâches, la correction en boucle fermée, et le transfert inter-corps (cross-embodiment). L'intérêt de cette approche pour les équipes de R&D réside dans sa modularité : en découplant planification visuelle et exécution motrice, VICX permet théoriquement de substituer l'un des deux blocs de façon indépendante, réduisant le coût d'adaptation à de nouvelles tâches sans réentraînement complet. Le mécanisme d'in-context learning évite de paramétrer le réseau pour chaque tâche inédite, ce qui est pertinent pour des environnements industriels changeants. Cela dit, les résultats restent cantonnés à Meta-World, un environnement de simulation simplifié : aucune validation sur robot physique n'est publiée dans ce preprint, une limite structurelle dans un domaine où le sim-to-real gap demeure l'obstacle central non résolu. VICX s'inscrit dans la vague des Visual Language Action models (VLA) cherchant à dépasser l'imitation learning classique via des représentations visuelles génératives. Les approches concurrentes comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA adoptent des architectures majoritairement end-to-end et ont déjà fait l'objet de déploiements ou démonstrations sur hardware réel, ce qui les positionne en avance sur l'applicabilité industrielle à court terme. VICX constitue une contribution méthodologique solide sur la question de la généralisation, mais son chemin vers un déploiement concret reste entièrement à démontrer.

IA physiqueOpinion
1 source
Comment l'IA à base d'agents permet la navigation robotique généraliste
3Robotics Business Review 

Comment l'IA à base d'agents permet la navigation robotique généraliste

Les systèmes de navigation robotique traditionnels s'appuient sur un pipeline déterministe en cinq étapes séquentielles: perception, localisation, cartographie, planification, contrôle. Des techniques comme le SLAM (Simultaneous Localization and Mapping) permettent à un robot de construire une carte et d'estimer sa position en temps réel, mais ces approches supposent un environnement relativement stable. Dès qu'un robot sort d'un entrepôt balisé ou d'une cellule d'usine pour se retrouver dans un domicile, une zone sinistrée, un chantier ou une opération logistique extérieure, les performances se dégradent: obstacles mobiles, cartes incomplètes, terrains inconnus font échouer les hypothèses de base du pipeline. L'IA agentique propose une rupture architecturale en ajoutant une couche d'orchestration au-dessus du stack existant. Plutôt qu'exécuter une séquence fixe de modules, ces systèmes coordonnent dynamiquement perception, planification et contrôle en fonction de l'objectif courant, via des boucles de raisonnement itératives, une mémoire contextuelle et un usage dynamique d'outils invocables à la demande. L'impact concret pour les intégrateurs et décideurs est structurel. En traitant ses propres capacités comme des outils sélectionnables selon le contexte, un robot agentique peut adapter sa stratégie de navigation sans reprogrammation explicite de chaque scénario, ce qui élargit significativement le périmètre de déploiement réel. Cela remet en question l'hypothèse longtemps dominante selon laquelle la robotique mobile généraliste exige une pré-cartographie exhaustive et des règles explicites pour chaque situation rencontrée. L'approche agentique suggère qu'une part de cette rigidité peut être remplacée par un raisonnement contextuel, rapprochant la navigation robotique de la capacité d'adaptation d'un opérateur humain en terrain inconnu. Pour un COO industriel, cela se traduit par une réduction potentielle des coûts de mise en service et une plus grande tolérance aux variations d'environnement entre sites. Ce changement de paradigme s'inscrit dans une évolution longue. Les architectures réactives des années 1980, popularisées par Rodney Brooks avec la subsumption architecture, répondaient aux capteurs sans modèle global. Les générations suivantes ont introduit SLAM et la planification par graphes, dominant le secteur durant les années 2000-2010. L'émergence des LLMs et des modèles VLA (Vision-Language-Action) à partir de 2022-2023 ouvre une troisième voie. Sur le plan concurrentiel, des acteurs comme Boston Dynamics, Figure AI et Agility Robotics investissent dans ces architectures agentiques pour leurs robots humanoïdes et AMR. En Europe, Enchanted Tools et Wandercraft restent positionnés sur des segments spécialisés, mais l'architecture agentique pourrait modifier les équilibres en abaissant le coût d'adaptation aux environnements non structurés. Les prochaines étapes attendues incluent des benchmarks standardisés pour évaluer la performance hors environnements contrôlés, ainsi que les premières intégrations commerciales dans la logistique du dernier kilomètre et les services à domicile.

UEEnchanted Tools et Wandercraft sont cités comme acteurs européens dont les positions concurrentielles pourraient être réévaluées si l'architecture agentique abaisse le coût d'adaptation aux environnements non structurés.

IA physiqueOpinion
1 source
GEAR-VLA : un modèle VLA intégrant la géométrie pour une manipulation robotique généralisable
4arXiv cs.RO 

GEAR-VLA : un modèle VLA intégrant la géométrie pour une manipulation robotique généralisable

Des chercheurs ont publié sur arXiv en juin 2026 (réf. 2606.08530) GEAR-VLA, un framework Vision-Language-Action (VLA) conçu pour généraliser la manipulation robotique à des objets inconnus, des décors visuels changeants et des morphologies hétérogènes. Sur le benchmark LIBERO, le modèle atteint les meilleures performances publiées à ce jour, ainsi que des résultats de pointe sur RoboTwin 2.0 et LIBERO-Plus en zero-shot. Sur un bras AgileX, GEAR-VLA affiche 85,9% de réussite ; sur le LDT-01, une morphologie absente de la phase d'entraînement, il obtient 81,0%. Le test le plus contraignant reste un benchmark de préhension universelle de 6 360 essais impliquant 212 objets inédits, où le modèle atteint 90,1% de succès. Le code et les poids seront mis en open source sur GitHub. Ce résultat s'attaque directement au problème qui freine le déploiement industriel des VLAs : la généralisation cross-embodiment et cross-catégorie d'objets. GEAR-VLA repose sur trois mécanismes distincts : un apprentissage coarse-to-fine avec préentraînement multi-sources, une intégration 3D sémantiquement alignée (backbone spatial 3D entraînable couplé à une voie visuelle VLM gelée), et une canonicalisation d'embodiment qui isole les différences morphologiques à l'interface bas niveau via un expert d'action continu de type DiT découplé en gradient. Les 90,1% obtenus sur 212 objets inédits en conditions réelles constituent une réponse partielle à l'hypothèse selon laquelle les VLAs exigent un fine-tuning spécifique à chaque nouvelle catégorie, même si l'absence d'évaluations sur des tâches longues et multi-étapes laisse la question ouverte pour les intégrateurs industriels. Les VLAs dominent la recherche en manipulation depuis RT-2 de Google DeepMind en 2023, avec des jalons successifs que sont OpenVLA (Berkeley), Pi-0 de Physical Intelligence et GR00T N2 de NVIDIA en 2025. La compétition se joue aujourd'hui précisément sur la généralisation zéro-shot et le transfert cross-embodiment, deux axes sur lesquels GEAR-VLA revendique un avantage différenciant. Les benchmarks retenus, LIBERO et RoboTwin 2.0, sont désormais des références standard du domaine, ce qui rend les comparaisons directement lisibles pour la communauté. Il s'agit d'une publication académique sans partenaire industriel annoncé ni déploiement hors laboratoire confirmé. La mise en open source des poids permettra de valider ces résultats sur des plateformes plus complexes, notamment des configurations multi-bras ou à forte variabilité environnementale.

UELa mise en open source imminente des poids permettra aux laboratoires de robotique européens (INRIA, CEA-List, universités techniques) de benchmarker GEAR-VLA sur leurs propres plateformes sans dépendre d'un fine-tuning propriétaire, réduisant potentiellement la barrière à l'adoption industrielle des VLAs en Europe.

IA physiqueOpinion
1 source