IA physiquearXiv cs.RO 9 juin 2026

CT-VAM : un modèle vision-action inspiré du circuit cérébello-thalamique pour le contrôle visuomoteur

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Une équipe de recherche a publié sur arXiv (arXiv:2606.09572, juin 2026) une architecture légère pour le contrôle visuomoteur de robots manipulateurs, baptisée CT-VAM (Cerebello-Thalamic-Inspired Vision-Action Model). Avec seulement 68 millions de paramètres, le modèle prédit des séquences d'actions (action chunks) à partir de deux flux visuels simultanés, de données proprioceptives et d'un vecteur de tâche compact, sans retraiter le langage naturel à chaque pas de contrôle. La pièce centrale est TARS (Thalamic Action Routing Stream), un décodeur à attention conditionnelle qui route séparément les flux d'actions, de vision et de tâche, empêchant les tokens visuels denses de noyer les signaux de commande utiles. Sur le benchmark LIBERO, les auteurs rapportent des taux de réussite comparables à ceux de VLA nettement plus volumineux, avec une latence d'inférence réduite. Un mécanisme de flow-consistent inpainting permet en outre l'exécution asynchrone des chunks, autorisant un contrôle haute fréquence sur du matériel embarqué à ressources limitées.

L'enjeu pratique est direct pour les intégrateurs et les équipes robotiques : les VLA actuels comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA exigent une puissance de calcul élevée et souffrent d'une latence incompatible avec le contrôle temps réel en manipulation fine. CT-VAM propose une séparation architecturale explicite, dite cloud-edge : le raisonnement sémantique de haut niveau reste dans le cloud ou sur un serveur dédié, tandis qu'une politique locale compacte assure la boucle fermée rapide. Si ce paradigme se confirme en conditions réelles, il permettrait de déployer des robots manipulateurs sur du matériel embarqué moins coûteux, réduisant le BOM (bill of materials) sans sacrifier la généralisation. Il faut noter que le preprint ne précise ni la plateforme matérielle exacte ni les scénarios industriels testés au-delà de LIBERO, un écart classique entre validation académique et terrain.

L'inspiration neuroanatomique est explicite : le cervelet gère les boucles de contrôle moteur rapide pendant que le thalamus filtre et route l'information sensorielle, une séparation fonctionnelle que les auteurs transposent directement en architecture réseau. Dans l'écosystème VLA, la tendance depuis 2023 va vers des modèles de plus en plus lourds (RT-2, OpenVLA à 7B, Pi-0 de Physical Intelligence), et CT-VAM représente un contre-argument en faveur de la compacité, un axe également exploré par LeRobot de Hugging Face et certaines architectures de diffusion légère. À 68M paramètres, il se positionne dans la famille des politiques efficientes plutôt que des foundation models généralistes. Aucun partenariat industriel ni déploiement commercial n'est annoncé à ce stade ; les étapes logiques seraient une validation sur des benchmarks plus larges comme DROID ou RLBench, ainsi qu'une ouverture des poids du modèle à la communauté.

Impact France/UE

La validation du paradigme cloud-edge et des politiques compactes converge avec la direction de LeRobot de Hugging Face (France), offrant un signal indirect aux équipes R&D européennes sur la viabilité des architectures légères face aux VLA massifs.

Dans nos dossiers

NVIDIA GR00T Physical Intelligence — π0 OpenVLA / RT-X arXiv cs.RO

À lire aussi

1arXiv cs.RO

vla.cpp : un moteur d'inférence unifié pour les modèles vision-langage-action (VLA)

Des chercheurs de FAI ModelOpt Tech ont publié en juin 2026 vla.cpp (arXiv 2606.08094), un moteur d'inférence C++ portable construit sur llama.cpp pour exécuter des politiques VLA (Vision-Language-Action) directement sur le matériel embarqué des robots. L'engine prend en charge sept architectures couvrant cinq familles de backbones et quatre têtes d'action via un protocole requête/réponse unifié, incluant les schémas d'inférence par flow-matching et par diffusion propres aux VLA récents. Sur le benchmark LIBERO-Object, il reproduit le meilleur checkpoint SOTA à un épisode près sur 200 ; BitVLA y atteint 100 % de succès dans 1,3 Gio de mémoire. Le même bundle s'exécute sans modification sur trois niveaux matériels, d'un GPU grand public jusqu'à un module embarqué de 8 Go de RAM. Un noyau GEMM IMMA en escalier, dérivé d'une analyse roofline multi-hardware, réduit la latence par étape de BitVLA d'un facteur 4,5. Les auteurs ont également conduit un test de stress sur un bras ALOHA pour mesurer la contrainte de latence de replanification face à une cible mobile. Le problème structurel que vla.cpp attaque est la dépendance des stacks Python/PyTorch actuels à un GPU de station de travail, hypothèse incompatible avec l'électronique embarquée des robots commerciaux ou des cobots industriels. Démontrer une exécution à succès complet dans 1,3 Gio ouvre concrètement la voie au déploiement edge sans serveur distant ni dépendance cloud pour des tâches de manipulation. L'analyse roofline publiée dans le papier établit un résultat contre-intuitif pour les intégrateurs : l'inférence VLA en batch-1 est compute-bound, non bandwidth-bound, ce qui déplace le levier d'optimisation vers le taux d'utilisation du calcul. L'unification de sept architectures sous un seul protocole réduit également la fragmentation de l'écosystème VLA, frein réel à l'adoption en production. vla.cpp hérite de l'approche de quantification ggml et de la portabilité de llama.cpp de Georgi Gerganov. Les modèles ciblés incluent des architectures issues de Physical Intelligence (pi0) et des projets ouverts comme OpenVLA. La concurrence directe sur ce segment est limitée : la plupart des équipes robotiques maintiennent des pipelines Python maison dépendants de GPU Nvidia RTX 3090/4090 ; ROS 2 et Isaac ROS de Nvidia offrent des primitives d'intégration mais pas de runtime VLA unifié. Aucun acteur français ou européen n'est directement cité dans le papier. Le code, les vidéos de démonstration et le scaffold de benchmark reproductible sont disponibles sur le site du projet.

UEAucun acteur européen impliqué dans le développement, mais le runtime portable est directement exploitable par les équipes R&D françaises et européennes cherchant à déployer des politiques VLA sur matériel embarqué sans dépendance cloud.

💬 Faire tourner une politique VLA dans 1,3 Gio sans GPU de workstation, c'est le vrai débloqueur que les équipes robotique attendaient. Le reste, les sept architectures unifiées, le protocole commun, c'est utile, mais ce qui compte c'est que le déploiement edge devient une option sérieuse sans serveur distant. Reste à voir si ça tient sur des tâches moins sages que LIBERO-Object.

IA physiqueOpinion

1 source

2arXiv cs.RO

CAC-VLA : un conditionnement d'action contrôlé par le contexte pour les modèles vision-langage-action

Des chercheurs proposent CAC-VLA (Context-Gated Action Conditioning), une nouvelle architecture pour les modèles vision-langage-action (VLA), la famille de systèmes qui pilote de plus en plus de bras et robots humanoïdes generalistes. Le problème identifié: dans les VLA classiques, les représentations visuelles et langagières ne sont pas pensées pour guider directement le contrôle moteur, ce qui laisse à «l'expert action» (le module qui génère la trajectoire) la charge de combler cet écart. Des méthodes récentes tentent de corriger cela avec des modules de raisonnement d'action séparés, mais elles nécessitent des architectures dédiées supplémentaires. CAC-VLA prend une autre voie: il entraîne le modèle vision-langage lui-même à prédire des actions latentes, des représentations compactes encodées à partir de segments d'action futurs, du grossier au fin, puis utilise une «porte de contexte» pour doser en temps réel l'influence de ce signal sur l'expert d'action. Sur les bancs d'essai LIBERO et LIBERO-Plus, la méthode atteint respectivement 98,3% et 89,5% de taux de réussite moyen. Pour l'industrie robotique, l'enjeu dépasse le simple gain de quelques points de benchmark. Le goulot d'étranglement entre compréhension multimodale et motricité précise est l'un des obstacles centraux à la généralisation des VLA au-delà de tâches scriptées, un sujet suivi de près par les équipes qui travaillent sur des systèmes comme π0, GR00T N2 ou Helix. Une interface qui intègre le raisonnement d'action directement dans le VLM, sans framework de génération séparé, simplifierait l'entraînement et le déploiement de ces piles logicielles chez les intégrateurs, réduisant la complexité d'ingénierie souvent invoquée comme frein à la mise en production. Ces résultats restent toutefois obtenus en simulation, sur des suites de tâches standardisées et non sur du matériel réel en usine ou en entrepôt, une nuance importante alors que le secteur multiplie les annonces de percées en manipulation générale. LIBERO et sa variante LIBERO-Plus servent de référence commune pour comparer les approches d'action-conditioning, et la prochaine étape logique pour valider l'intérêt de CAC-VLA sera sa transposition sur des robots physiques et des tâches de manipulation en conditions réelles.

IA physiqueActu

1 source

3arXiv cs.RO

TIC-VLA : un modèle vision-langage-action (VLA) à raisonnement intégré pour la navigation robotique en environnements dynamiques

Des chercheurs de l'UCLA Mobility Lab ont publié fin février 2026 TIC-VLA (Think-in-Control VLA), un framework de contrôle robotique qui adresse explicitement le décalage temporel entre raisonnement sémantique et action en temps réel. Le modèle introduit une interface "delayed semantic-control" : au lieu de supposer que la sortie du module vision-langage est synchrone avec l'action motrice, TIC-VLA conditionne la génération d'action sur des états sémantiques retardés et sur des métadonnées de latence explicites, en plus des observations courantes. Le pipeline d'entraînement, dit "latency-consistent", injecte des délais de raisonnement réels pendant l'apprentissage par imitation et le reinforcement learning en ligne, alignant ainsi les conditions d'entraînement sur celles du déploiement. Pour l'évaluation, l'équipe présente également DynaNav, une suite de simulation physiquement précise et photoréaliste dédiée à la navigation guidée par langage naturel dans des environnements avec présence humaine. Les expériences couvrent à la fois la simulation et un robot réel, avec des latences de raisonnement pouvant dépasser plusieurs secondes. L'enjeu sous-jacent est structural dans le champ des VLA : Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou les architectures dérivées de RT-2 supposent implicitement que l'inférence sémantique et le contrôle moteur sont cadencés de manière cohérente. En pratique, les LLM embarqués dans ces architectures introduisent des délais incompressibles de 0,5 à plusieurs secondes, incompatibles avec une boucle de contrôle à 10-20 Hz dans un environnement dynamique. TIC-VLA propose une solution au niveau de l'architecture plutôt qu'au niveau matériel, ce qui est potentiellement plus portable. Les résultats annoncés indiquent une surperformance systématique par rapport aux VLA antérieurs tout en maintenant un contrôle robuste sous latence. Il faut toutefois noter que les benchmarks proviennent en grande partie de DynaNav, un environnement simulé développé par les auteurs eux-mêmes, ce qui appelle une validation indépendante. La problématique de l'asynchronisme VLA n'est pas nouvelle : des travaux comme GROOT ou des approches à architecture duale (slow planner / fast controller) cherchent à séparer les horizons temporels. TIC-VLA se distingue en modélisant la latence comme un paramètre de condition plutôt qu'en la masquant par une architecture hiérarchique. Le projet est porté par le groupe UCLA Mobility Lab, connu pour ses travaux sur la navigation autonome urbaine. La page projet est accessible, mais aucune annonce de déploiement industriel ou de partenariat commercial n'est mentionnée pour l'instant. Les prochaines étapes naturelles seraient une évaluation sur des plateformes standardisées comme le benchmark Open-X Embodiment, et une confrontation avec des architectures concurrentes sur des tâches de manipulation en environnement mixte homme-robot.

IA physiqueOpinion

1 source

4arXiv cs.RO

WSA$_1$ : un modèle monde-spatial-action centré sur la 3D pour un contrôle robotique généralisable

Les chercheurs à l'origine de WSA₁ proposent un nouveau modèle fondation pour la robotique généraliste, construit autour d'un paradigme baptisé "World-Spatial-Action" centré sur la 3D. Contrairement aux modèles robot-fondation (RFM) classiques qui associent directement perception visuelle 2D et instructions langagières à des actions continues, WSA₁ apprend une représentation explicite de l'état spatial 3D du monde et de ses transitions, puis relie ces transitions aux actions du robot. Le modèle a été préentraîné sur 6 000 heures de démonstrations expertes, dont seulement 1 000 heures issues de robots réels, le reste provenant de sources simulées ou synthétiques. Sur le benchmark de simulation RoboTwin2.0, WSA₁ atteint un taux de réussite de 93% en manipulation, et sur des tâches de contrôle robotique en conditions réelles il affiche un gain moyen de 20% par rapport aux meilleurs RFM existants. L'enjeu pour l'industrie robotique est la sobriété en données réelles. La plupart des modèles fondation actuels, qu'il s'agisse de Pi-0, GR00T N2 ou Helix, dépendent de volumes massifs de téléopération et de collecte sur robots physiques, une contrainte coûteuse qui freine leur déploiement à grande échelle chez les intégrateurs. En démontrant qu'une modélisation conjointe 3D monde-action permet d'atteindre une généralisation compétitive avec un ratio de données réelles très faible, WSA₁ ouvre une voie potentiellement plus abordable vers des systèmes robotiques polyvalents, sans nécessiter les flottes de collecte massives déployées par des acteurs comme Figure ou Tesla pour leurs humanoïdes. Ce travail s'inscrit dans la lignée des critiques adressées aux RFM actuels, accusés de manquer d'un raisonnement physique réel sur la dynamique 3D et les effets causaux des actions du robot sur son environnement, un décalage jugé limitant pour la généralisation en conditions réelles. Les auteurs positionnent explicitement WSA₁ face aux modèles VLA (vision-language-action) de référence du secteur. La publication, encore au stade de préprint arXiv, ne détaille pas de calendrier de déploiement industriel ni de partenariat matériel, les prochaines étapes attendues portant vraisemblablement sur une validation élargie hors simulation et sur des comparaisons directes avec davantage de RFM concurrents.

IA physiqueActu

1 source