Aller au contenu principal
DIRECT : quand et où allouer le calcul à l'inférence dans les planificateurs incarnés ?
IA physiquearXiv cs.RO2j

DIRECT : quand et où allouer le calcul à l'inférence dans les planificateurs incarnés ?

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié en juin 2026 DIRECT (arXiv:2606.12402), un cadre de routage conçu pour allouer dynamiquement le calcul à l'inférence, ce que le milieu appelle test-time compute, dans les agents embarqués pilotés par des modèles de vision-langage (VLMs). Plutôt que d'appliquer uniformément plus de puissance de calcul à chaque requête, DIRECT utilise le contexte visuel et multimodal de la scène pour décider, prompt par prompt, combien de ressources mobiliser. Le système a été évalué sur deux benchmarks de référence, VLABench et RoboMME, puis validé sur un bras Franka physique dans une configuration DROID couvrant manipulation zero-shot et enchaînements de tâches longues. Le résultat clé : DIRECT égale ou dépasse un modèle plus puissant tout en réduisant la latence moyenne jusqu'à 65 %.

L'apport scientifique dépasse l'optimisation des coûts. Les auteurs montrent que les trois grands axes de montée en puissance à l'inférence, profondeur de la chaîne de pensée (chain-of-thought), taille du modèle, et longueur de l'historique mémoire, ne sont pas interchangeables : chacun produit des gains qualitativement distincts selon le type de tâche. Cela contredit l'hypothèse implicite de nombreux travaux récents selon laquelle "plus de compute = meilleures performances" de façon uniforme. Pour un intégrateur ou un COO industriel, l'implication est directe : un routeur intelligent peut tenir les contraintes de latence des applications temps réel sans sacrifier les capacités de planification, rendant les VLMs plausibles hors des environnements lab.

Ce travail s'inscrit dans une accélération marquée de l'usage des VLMs comme planificateurs de haut niveau pour la robotique, portée notamment par des modèles comme GPT-4o, Gemini 2.0 ou les architectures Vision-Language-Action (VLA) type pi0 de Physical Intelligence. Le setup DROID utilisé pour la validation physique est un environnement de manipulation à grande échelle devenu standard dans la recherche académique américaine. Côté concurrence, les approches alternatives, décodage spéculatif, distillation, sélection statique de modèle, n'exploitent pas le contexte de scène pour router dynamiquement. DIRECT ouvre la voie à des pipelines adaptatifs, mais reste à ce stade une contribution de recherche : aucun déploiement industriel ni partenariat industriel n'est annoncé.

À lire aussi

IA incarnée : apprendre de ses essais et erreurs grâce à la planification réflexive à l'inférence
1arXiv cs.RO 

IA incarnée : apprendre de ses essais et erreurs grâce à la planification réflexive à l'inférence

Une équipe de chercheurs a déposé sur arXiv en février 2026 (réf. 2602.21198, v2) un framework baptisé Reflective Test-Time Planning (RTTP), conçu pour résoudre un angle mort structurel de la robotique pilotée par LLM : les agents embarqués traitent chaque essai de façon indépendante, ce qui fait répéter les mêmes erreurs au lieu d'en tirer une expérience cumulative. Le RTTP introduit deux mécanismes : la reflection-in-action, où l'agent génère et évalue plusieurs actions candidates via un scaling à l'inférence avant d'agir, et la reflection-on-action, qui met à jour le modèle de réflexion interne et la politique d'action après exécution via un entraînement à l'inférence. Une troisième composante, la réflexion rétrospective, permet de réévaluer des décisions antérieures pour corriger l'attribution de crédit sur des tâches à long horizon. Les expériences portent sur deux benchmarks : Long-Horizon Household (tâches domestiques séquentielles) et MuJoCo Cupboard Fitting (manipulation en simulation physique), avec généralisation zero-shot vers les environnements HM3D photoréalistes et validation sur bras réel Franka Panda. L'enjeu industriel est direct : le déploiement de robots pilotés par VLA (Vision-Language-Action models) bute sur le demo-to-reality gap, où les modèles performent en laboratoire mais dégradent en conditions variables. RTTP propose une boucle fermée d'adaptation pendant le déploiement, sans fine-tuning offline coûteux. Les ablations confirment que les deux modes de réflexion sont mutuellement dépendants, et que la réflexion rétrospective surpasse le feedback step-wise classique avec un overhead computationnel inférieur, un avantage concret pour les intégrateurs soucieux de maîtriser les coûts d'inférence à l'échelle. Cette contribution s'inscrit dans la vague du test-time scaling, popularisée par les modèles de raisonnement d'OpenAI et Google DeepMind, mais appliquée à l'action robotique incarnée plutôt qu'au raisonnement abstrait. Les auteurs ne mentionnent ni partenariat industriel ni timeline commerciale : c'est un preprint de recherche, pas un produit shipé. Les travaux concurrents dans cette direction incluent les VLAs de Physical Intelligence (pi0), le programme RT-2-X de Google DeepMind et les recherches sur l'apprentissage online menées à Carnegie Mellon et Berkeley. Aucun acteur français ou européen n'est impliqué dans cette publication.

IA physiqueOpinion
1 source
Afford-VLA : planification visuelle alignée sur les actions via l'affordance internalisée
2arXiv cs.RO 

Afford-VLA : planification visuelle alignée sur les actions via l'affordance internalisée

Une équipe de chercheurs publie Afford-VLA (arXiv:2605.24203, mai 2026), un cadre unifié pour améliorer le raisonnement spatial des modèles vision-langage-action (VLA) appliqués à la manipulation robotique. Le problème ciblé est précis : les VLA actuels peinent à déterminer où interagir dans des scènes visuelles complexes, une lacune qui limite leur généralisation sur des tâches de manipulation réelle. Afford-VLA internalise l'affordance conditionnée par la tâche comme interface de planification visuelle explicite au sein du modèle lui-même : des tokens apprenables interrogent les régions d'interaction pertinentes, des masques d'affordance sont décodés depuis les représentations multimodales, puis convertis en embeddings compacts qui conditionnent directement la prédiction d'action. Le système est évalué sur LIBERO, LIBERO-Plus et SimplerEnv, trois bancs de test simulés standards en manipulation, ainsi que sur des expériences en conditions réelles. Les auteurs revendiquent des performances état-de-l'art sur ces benchmarks, sans toutefois détailler les métriques précises dans l'abstract. L'intérêt architectural réside dans le couplage serré entre perception et action : contrairement aux approches existantes qui génèrent des signaux visuels intermédiaires de manière externe ou recourent à des représentations symboliques faiblement reliées au contrôle moteur, Afford-VLA génère et consomme l'affordance au sein du même pipeline. Ce choix évite le découplage habituel entre planification visuelle et prédiction d'action, un problème récurrent dans les VLA de première génération. Pour un intégrateur ou un COO industriel, le message pratique est que la localisation explicite et locale du point d'interaction, plutôt qu'un raisonnement global sur la scène, pourrait réduire le sim-to-real gap sur des tâches de pick-and-place ou d'assemblage en environnement non structuré. Le domaine VLA est aujourd'hui très actif : Physical Intelligence (Pi-0), NVIDIA (GR00T N2), Figure AI (Helix) et de nombreux laboratoires académiques ont chacun leur approche de la planification visuelle pour la manipulation généraliste. Ce preprint s'inscrit dans une vague de travaux cherchant à combler la faiblesse spatiale des VLA après les premières générations de modèles de type RT-2 ou OpenVLA. Aucun déploiement industriel n'est annoncé et aucun partenaire opérationnel n'est mentionné : il s'agit d'un papier de recherche préliminaire non encore évalué par les pairs, dont les résultats reels devront être confirmés dans des conditions de production.

IA physiqueOpinion
1 source
vla.cpp : un moteur d'inférence unifié pour les modèles vision-langage-action (VLA)
3arXiv cs.RO 

vla.cpp : un moteur d'inférence unifié pour les modèles vision-langage-action (VLA)

Des chercheurs de FAI ModelOpt Tech ont publié en juin 2026 vla.cpp (arXiv 2606.08094), un moteur d'inférence C++ portable construit sur llama.cpp pour exécuter des politiques VLA (Vision-Language-Action) directement sur le matériel embarqué des robots. L'engine prend en charge sept architectures couvrant cinq familles de backbones et quatre têtes d'action via un protocole requête/réponse unifié, incluant les schémas d'inférence par flow-matching et par diffusion propres aux VLA récents. Sur le benchmark LIBERO-Object, il reproduit le meilleur checkpoint SOTA à un épisode près sur 200 ; BitVLA y atteint 100 % de succès dans 1,3 Gio de mémoire. Le même bundle s'exécute sans modification sur trois niveaux matériels, d'un GPU grand public jusqu'à un module embarqué de 8 Go de RAM. Un noyau GEMM IMMA en escalier, dérivé d'une analyse roofline multi-hardware, réduit la latence par étape de BitVLA d'un facteur 4,5. Les auteurs ont également conduit un test de stress sur un bras ALOHA pour mesurer la contrainte de latence de replanification face à une cible mobile. Le problème structurel que vla.cpp attaque est la dépendance des stacks Python/PyTorch actuels à un GPU de station de travail, hypothèse incompatible avec l'électronique embarquée des robots commerciaux ou des cobots industriels. Démontrer une exécution à succès complet dans 1,3 Gio ouvre concrètement la voie au déploiement edge sans serveur distant ni dépendance cloud pour des tâches de manipulation. L'analyse roofline publiée dans le papier établit un résultat contre-intuitif pour les intégrateurs : l'inférence VLA en batch-1 est compute-bound, non bandwidth-bound, ce qui déplace le levier d'optimisation vers le taux d'utilisation du calcul. L'unification de sept architectures sous un seul protocole réduit également la fragmentation de l'écosystème VLA, frein réel à l'adoption en production. vla.cpp hérite de l'approche de quantification ggml et de la portabilité de llama.cpp de Georgi Gerganov. Les modèles ciblés incluent des architectures issues de Physical Intelligence (pi0) et des projets ouverts comme OpenVLA. La concurrence directe sur ce segment est limitée : la plupart des équipes robotiques maintiennent des pipelines Python maison dépendants de GPU Nvidia RTX 3090/4090 ; ROS 2 et Isaac ROS de Nvidia offrent des primitives d'intégration mais pas de runtime VLA unifié. Aucun acteur français ou européen n'est directement cité dans le papier. Le code, les vidéos de démonstration et le scaffold de benchmark reproductible sont disponibles sur le site du projet.

UEAucun acteur européen impliqué dans le développement, mais le runtime portable est directement exploitable par les équipes R&D françaises et européennes cherchant à déployer des politiques VLA sur matériel embarqué sans dépendance cloud.

💬 Faire tourner une politique VLA dans 1,3 Gio sans GPU de workstation, c'est le vrai débloqueur que les équipes robotique attendaient. Le reste, les sept architectures unifiées, le protocole commun, c'est utile, mais ce qui compte c'est que le déploiement edge devient une option sérieuse sans serveur distant. Reste à voir si ça tient sur des tâches moins sages que LIBERO-Object.

IA physiqueOpinion
1 source
IA incarnée : planifier en bac à sable, naviguer en monde ouvert grâce à l'expérience physique abstraite
4arXiv cs.RO 

IA incarnée : planifier en bac à sable, naviguer en monde ouvert grâce à l'expérience physique abstraite

Des chercheurs présentent SAGE (Sandbox-Abstracted Grounded Experience), un framework pour la navigation autonome de robots en environnement ouvert, publié en mai 2026 sur arXiv (2605.10118). Le constat de départ : les Vision-Language Models (VLMs) disposent de fortes capacités de raisonnement général, mais échouent en navigation embodied faute de données alignées vision-contrôle en monde réel. Les simulateurs photoréalistes (Habitat, Isaac Sim) offrent une alternative moins coûteuse, mais les politiques apprises peinent à se transférer vers des environnements physiques. SAGE résout ce problème en entraînant les agents dans des abstractions sémantiques contraintes par la physique plutôt que dans des décors photoréalistes, imitant le mécanisme de "simulation mentale" humain où l'on planifie dans le simplifié avant d'exécuter dans le réel. Le système fonctionne en trois phases : Genesis (génération d'environnements sémantiques variés), Evolution (apprentissage par renforcement avec un mécanisme d'écrêtage adaptatif asymétrique) et Navigation (transfert vers le contrôle robot réel). Sur le benchmark A-EQA (Embodied Question Answering), SAGE atteint 53,21 % de taux de succès LLM-Match, soit +9,7 points par rapport à la baseline. La validation inclut un déploiement préliminaire sur robot physique en environnement intérieur. Ce résultat valide une hypothèse contre-intuitive pour le secteur : réduire le réalisme visuel de la simulation peut améliorer le transfert sim-to-real plutôt que le compromettre. La majorité des frameworks actuels parient sur la fidélité photoréaliste pour combler le reality gap ; SAGE inverse ce paradigme. Pour les intégrateurs et décideurs industriels, la démarche ouvre une voie moins gourmande en compute et en données terrain pour déployer des agents de navigation autonome dans des espaces non structurés (entrepôts, hôpitaux, bureaux). Le mécanisme d'écrêtage adaptatif asymétrique de la phase Evolution représente également une contribution technique ciblée : il stabilise l'apprentissage par renforcement lorsque les distributions d'expériences sont déséquilibrées, un point de friction récurrent dans les pipelines de navigation embodied. La navigation embodied assistée par VLMs est en forte expansion depuis 2023, portée par des travaux comme NavGPT, EmbodiedGPT et les architectures VLA (Vision-Language-Action). Le reality gap y reste un obstacle structurel : les politiques entraînées sur des datasets de simulation (Gibson, Matterport3D) généralisent rarement aux environnements réels, contraignant les équipes à des campagnes de collecte terrain coûteuses. SAGE propose une troisième voie entre simulation photoréaliste et données terrain. La validation physique reste toutefois préliminaire et limitée à un contexte indoor, ce qui positionne encore ce travail dans la catégorie recherche académique expérimentale plutôt que produit déployable. Aucune comparaison directe avec des frameworks établis comme Habitat 3.0 ou Isaac Lab n'est fournie dans cette version initiale, ce qui compliquera le positionnement pour les équipes R&D souhaitant adopter SAGE sans reproduire les expériences de zéro.

IA physiqueActu
1 source