Modélisation du monde en contexte pour le contrôle robotique
Des chercheurs ont publié le 25 juin 2026 un preprint arXiv (2606.26025) présentant ICWM (In-Context World Modeling), un cadre d'adaptation pour les modèles Vision-Language-Action (VLA) appliqués à la robotique. Les VLA actuels échouent dès que le contexte d'exécution change - angle de caméra différent, morphologie de robot modifiée - parce qu'ils supposent un contexte fixe, celui rencontré pendant l'entraînement, et nécessitent un fine-tuning intensif en données pour toute nouvelle configuration. ICWM traite l'identification du système comme un problème d'adaptation en contexte : avant d'exécuter une tâche, le robot génère de courtes interactions autonomes agnostiques à la tâche, dont l'historique est injecté dans la fenêtre de contexte du modèle. Celui-ci infère ainsi implicitement la dynamique du système courant - position de caméra, configuration mécanique - sans mise à jour de poids. Les expériences menées en simulation et sur plateformes réelles montrent que ICWM surpasse significativement les baselines VLA standards sur des configurations de caméra inédites.
La généralisation des VLA est le verrou principal qui freine le déploiement industriel de la robotique généraliste. Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA), OpenVLA et les modèles Google nécessitent tous du fine-tuning dès qu'on change la disposition d'une caméra ou la morphologie d'un robot, ce qui rend les pilotes industriels coûteux et longs à mettre en place. ICWM attaque ce problème sans modifier les poids du modèle : l'adaptation passe uniquement par le contexte, à l'image de ce que l'In-Context Learning a apporté aux LLMs. Pour un intégrateur ou un COO industriel, cela signifie potentiellement déployer un même modèle sur plusieurs lignes avec des géométries de capteurs différentes, sans pipeline de re-entraînement. La contribution est conceptuellement distincte : là où l'ICL classique spécifie quelle tâche effectuer, ICWM apprend comment le système fonctionne - une couche d'adaptation complémentaire aux approches existantes.
Les modèles VLA ont connu une explosion depuis 2024 : RT-2 (Google DeepMind), Pi-0 de Physical Intelligence, GR00T N2 d'NVIDIA présenté à GTC 2025, et plus récemment Helix (Figure AI) illustrent la convergence entre fondations LLM et contrôle moteur. La fragilité aux variations contextuelles - ce qu'on appelle le "demo-to-deployment gap" - reste une critique récurrente formulée notamment par des acteurs européens comme Enchanted Tools ou Wandercraft, qui misent sur des architectures plus déterministes pour des environnements industriels contraints. ICWM s'inscrit dans une tendance plus large : importer les paradigmes d'adaptation du machine learning directement dans la boucle de contrôle robotique, sans passer par un cycle de collecte de données et de re-entraînement. Le preprint ne mentionne ni partenariat industriel, ni code open-source, ni dataset public : il s'agit d'une contribution de recherche pure, sans déploiement commercial annoncé à ce stade.
Si ICWM tient ses promesses, les intégrateurs européens pourraient déployer un même modèle VLA sur plusieurs lignes à géométries de capteurs différentes sans pipeline de ré-entraînement, réduisant directement le coût des pilotes industriels, mais aucun déploiement ni partenariat européen n'est annoncé à ce stade.
Dans nos dossiers




