
IA incarnée et chaîne de pensée : vers une manipulation robotique généralisable
Une équipe de chercheurs publie en juin 2026 (arXiv:2606.03784) une réévaluation du chain-of-thought incarné (CoT) appliqué aux modèles vision-langage-action (VLA) pour la manipulation robotique généraliste. Pour mener cette étude à grande échelle, les auteurs ont constitué le plus grand corpus de ce type jamais assemblé : 978 743 trajectoires, 226,3 millions d'échantillons et 2 592,5 heures de données robot. Leur modèle ERVLA atteint 86,9 % de succès sur LIBERO-Plus et 53,2 % sur VLABench, surpassant les baselines de référence, notamment sur les tâches de désambiguïsation sémantique et d'exécution à longue portée en environnement réel. Le code, les données et les checkpoints seront prochainement disponibles en accès ouvert.
Le principal apport théorique porte sur la manière d'intégrer le raisonnement linguistique dans une politique robotique. Les auteurs établissent que le CoT explicite, utilisé comme préfixe autorégressif avant chaque action, accumule des erreurs au fil des étapes et génère un couplage instable entre raisonnement et commande motrice. De même, le raisonnement de haut niveau seul, sans ancrage dans des descriptions concrètes comme les trajectoires d'effecteur terminal ou les positions dans l'espace image, n'apporte que des gains marginaux. ERVLA résout cette tension via une stratégie de "reasoning-dropout" : le modèle assimile des traces de raisonnement riches pendant l'entraînement, mais prédit les actions directement à l'inférence, sans décodage CoT. Ce découplage améliore la montée en échelle avec le volume de préentraînement et stabilise l'exécution. C'est un signal clair pour les équipes travaillant sur des politiques généralisables : la valeur du langage réside dans ce qu'il apprend au modèle, pas dans ce qu'il verbalise au moment du déploiement.
Ces travaux s'inscrivent dans une compétition intense autour des fondations VLA capables de généraliser hors de leur distribution d'entraînement, aux côtés de Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA. La mise à disposition de 2 592 heures de données robotiques en accès ouvert constitue en elle-même une contribution notable dans un secteur où la pénurie de données reste un verrou majeur. Aucun déploiement industriel n'est mentionné : ERVLA est à ce stade un résultat de recherche académique, avec des validations sur robot réel mais sans pipeline de production annoncé.
La publication en accès ouvert de 2 592 heures de données robotiques et des checkpoints ERVLA offre une ressource directement exploitable par les équipes de recherche françaises et européennes travaillant sur les politiques VLA généralisables.




