IA embarquée : optimiser la mémoire pour faire…

TTT-VLA : optimisation de prompts latents à l'inférence pour les modèles VLA

38

1arXiv cs.RO

TTT-VLA : optimisation de prompts latents à l'inférence pour les modèles VLA

Des chercheurs ont publié le 3 juin 2026 un article (arXiv:2606.03127) proposant TTT-VLA, un cadre d'entraînement au moment du test (test-time training, TTT) spécifiquement conçu pour les modèles Vision-Langage-Action (VLA). La méthode repose sur ce qu'ils appellent l'Optimisation de Prompt Latent (LPO) : pendant la phase d'entraînement, un vecteur de prompt latent est appris via une tâche auxiliaire de proxy qui génère un signal d'auto-supervision. Lors du déploiement, seul ce prompt latent est réoptimisé à partir des données d'interaction collectées dans l'environnement réel, sans toucher aux poids du modèle de base. Les expériences sont conduites sur SimplerEnv, un benchmark de manipulation robotique simulée, et montrent des gains de taux de succès cohérents sur des scénarios monolithiques et multi-embodiment. L'intérêt principal pour l'industrie robotique tient à la nature du problème résolu : le décalage de distribution (distribution shift) entre l'environnement d'entraînement et le site de déploiement est l'un des freins les plus documentés au passage en production des VLA. TTT-VLA propose une voie d'adaptation légère, puisque seul le prompt est modifié et non la politique elle-même. L'analyse des résultats révèle que les gains proviennent principalement de la correction d'un petit nombre de décisions critiques dans la séquence d'action, et non d'un changement global de comportement. C'est un résultat conceptuellement intéressant : il suggère que l'inadaptation d'un VLA en production est localisée, ce qui rend les approches de correction chirurgicale potentiellement plus efficaces que les fine-tunings complets. Les VLA sont devenus un axe de recherche central depuis les travaux fondateurs sur RT-2 (Google DeepMind, 2023), et des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA (Berkeley) illustrent la course actuelle. Le problème du sim-to-real et de l'adaptation au domaine reste entier pour tous ces systèmes dès qu'ils quittent les environnements contrôlés. TTT-VLA s'inscrit dans une tendance plus large qui emprunte aux LLMs la notion d'adaptation au test-time, appliquée ici à la manipulation physique. Les expériences restent pour l'instant limitées à SimplerEnv, ce qui laisse ouverte la question du transfert vers des robots réels et des environnements industriels non structurés.

UELes laboratoires de robotique européens (INRIA, CEA-List) travaillant sur les VLA pourraient exploiter cette méthode d'adaptation légère pour réduire le sim-to-real gap sans fine-tuning complet, mais aucun acteur européen n'est impliqué directement dans ces travaux.

IA physiqueOpinion

1 source

LocalNav : distillation de VLMs frontière et RL incarné pour la navigation embarquée vers un objet cible

45

2arXiv cs.RO

LocalNav : distillation de VLMs frontière et RL incarné pour la navigation embarquée vers un objet cible

Une équipe de chercheurs a publié LocalNav (arXiv 2506.27871), une méthode de distillation permettant d'exécuter des modèles de vision-langage (VLM) directement sur robots embarqués, sans recourir au cloud. Le pipeline de référence s'appuie sur Claude Sonnet 4.6 couplé à un graphe de scène et atteint un taux de succès (SR) de 39,7% sur le benchmark HM3D OVON, qui évalue la navigation vers des objets désignés en langage naturel dans des environnements intérieurs simulés (tâche ObjectNav). Qwen3.5-4B, un modèle de 4 milliards de paramètres, est ensuite fine-tuné sur seulement 500 traces de raisonnement issues de ce pipeline frontier : il obtient un SR de 34,5%, réduisant significativement l'écart avec le modèle cloud de référence. Pour le déploiement physique sur Jetson Orin (NVIDIA), les auteurs introduisent E-RLVR avec régularisation Token Generation (TG), qui comprime les séquences de sortie. Combinée à la quantification, cette optimisation réduit la latence globale d'inférence de 82,8% (71,8% sur la latence brute, 72,1% sur la génération de tokens), sans perte de performance jugée significative par les auteurs. L'enjeu industriel est direct : la dépendance au cloud représente un frein opérationnel réel pour les robots mobiles déployés en entrepôt, en usine ou en extérieur, où la connectivité est intermittente et où chaque dizaine de millisecondes pèse sur les décisions de navigation. Le fait que 500 traces de distillation suffisent à approcher les performances d'un grand modèle frontier valide une hypothèse clé du domaine : la supervision synthétique depuis des LLMs propriétaires peut compenser l'absence de larges jeux de données annotés manuellement. La réduction de 82,8% de latence franchit un seuil opérationnel critique pour un déploiement synchrone avec le mouvement physique du robot, ce que les architectures cloud ne peuvent pas garantir en conditions réelles. Ce travail s'inscrit dans une tendance de compression des VLMs pour la robotique edge, aux côtés de Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA, qui cherchent tous à réduire leur empreinte computationnelle pour le déploiement à grande échelle. La distillation depuis Claude vers Qwen positionne ce pipeline à l'intersection de deux écosystèmes : modèles frontier propriétaires comme source de supervision, modèles open-weights comme cible d'optimisation. À noter que l'ensemble des résultats présentés reste pour l'instant simulé sur HM3D ; les prochaines étapes naturelles incluent une validation sur déploiement physique réel et un passage à l'échelle des traces de distillation au-delà des 500 exemples actuels, pour cartographier la courbe d'amélioration.

💬 500 traces de distillation. C'est le chiffre qui devrait retenir l'attention : en partant des raisonnements de Claude, un modèle de 4 milliards de paramètres tourne sur Jetson Orin et atteint 87% des performances cloud. Ce pipeline frontier→edge valide que la supervision synthétique depuis des LLMs propriétaires peut remplacer des milliers d'annotations humaines, bon, sur des benchmarks simulés pour l'instant, mais la réduction de latence de 82% donne enfin un argument solide aux équipes qui veulent déployer ça en entrepôt sans réseau.

IA physiqueOpinion

1 source

NVIDIA et Hugging Face apportent de nouveaux modèles et frameworks à LeRobot pour la communauté robotique ouverte

47

3NVIDIA Blog Robotics

NVIDIA et Hugging Face apportent de nouveaux modèles et frameworks à LeRobot pour la communauté robotique ouverte

NVIDIA et Hugging Face annoncent l'intégration du modèle NVIDIA Isaac GR00T 1.7 et du framework NVIDIA Isaac Teleop dans LeRobot, la bibliothèque open source de Hugging Face pour la robotique, avec l'arrivée prochaine de NVIDIA Cosmos 3, un modèle monde pour l'IA physique. Isaac Teleop capture des démonstrations humaines via des dispositifs externes dans des formats standardisés, directement dans LeRobot, pour constituer et partager des jeux de données. Isaac GR00T 1.7, présenté par NVIDIA comme le premier modèle fondation robotique open source et commercialement exploitable, facilite le post-entraînement et le déploiement via les workflows LeRobot sur de nouvelles morphologies de robots, avec des benchmarks publiés. Ces briques s'appuient sur des ressources déjà connectées à LeRobot: le plus grand jeu de données open source d'IA physique, téléchargé plus de 15 millions de fois, avec plus de 350 000 trajectoires réelles et simulées et 57 millions de prises (grasps); les frameworks de simulation Isaac Sim et Isaac Lab; Isaac Lab-Arena, intégré au LeRobot Environment Hub pour prototyper des environnements et entraîner des politiques généralistes comme GR00T, Pi ou SmolVLA; et l'intégration de Jetson Thor avec le robot humanoïde open source Reachy 2 pour déployer des modèles VLA (vision-langage-action). Thomas Wolf, cofondateur et chief science officer de Hugging Face, décrit cette collaboration comme un moyen de faire passer la recherche avancée à un stade où la communauté peut l'étudier, l'adapter et la faire évoluer. Pour les intégrateurs et équipes R&D, l'enjeu est de standardiser un pipeline jusque-là fragmenté, collecte de données, entraînement, évaluation, déploiement, en connectant les 3 millions de développeurs robotique de NVIDIA aux 16 millions de builders IA de Hugging Face. Cela réduit le coût d'entrée pour tester des modèles VLA sur du matériel réel sans dépendre d'une pile propriétaire fermée. La mise en avant du caractère "commercialement viable" de GR00T 1.7 tranche avec des modèles concurrents (Pi de Physical Intelligence, Helix de Figure) souvent montrés en démonstration mais rarement publiés en open source avec benchmarks vérifiables. Coupler cela à un futur modèle monde comme Cosmos 3, censé générer des données synthétiques quand les données réelles sont trop chères ou rares à collecter, répond directement à l'un des goulots d'étranglement les plus documentés du secteur humanoïde. Cette annonce prolonge un partenariat plus ancien entre NVIDIA et Hugging Face autour de LeRobot, devenu une référence pour le partage ouvert de données et de politiques robotiques. Elle s'inscrit dans la stratégie de verticalisation physical AI de NVIDIA, de la simulation (Isaac Sim, Isaac Lab) au calcul embarqué (Jetson Thor) en passant par les modèles fondation et, prochainement, les modèles monde. Elle positionne NVIDIA face à des acteurs misant sur des piles intégrées fermées, comme Figure ou Physical Intelligence, en jouant la carte de l'infrastructure ouverte et mutualisée. Aucun acteur français n'apparaît directement, mais Reachy 2 est développé par Pollen Robotics, racheté par Hugging Face, ce qui donne une visibilité indirecte à cet acteur français dans l'écosystème. Les prochaines étapes annoncées restent pour l'instant limitées à la sortie de Cosmos 3 dans LeRobot, sans calendrier de déploiement industriel précisé.

UEImpact indirect: Reachy 2, developpe par Pollen Robotics (racheté par Hugging Face), gagne en visibilité via l'integration Jetson Thor, mais aucun acteur francais n'est directement implique dans cette annonce NVIDIA/Hugging Face.

IA physiqueActu

1 source

NVIDIA et LG Group construisent une usine IA pour entraîner des robots et alimenter la mobilité du futur

49

4Interesting Engineering

NVIDIA et LG Group construisent une usine IA pour entraîner des robots et alimenter la mobilité du futur

NVIDIA et le groupe sud-coréen LG ont annoncé lors du Computex 2026 un partenariat stratégique multisectoriel visant à construire un écosystème d'intelligence artificielle physique couvrant la robotique industrielle, les robots domestiques, la mobilité autonome et les infrastructures de calcul. La collaboration mobilise plusieurs entités du conglomérat LG : LG Electronics, LG CNS, LG Innotek, LG Uplus et LG Energy Solution, chacune apportant un périmètre spécifique. Concrètement, LG prévoit de déployer NVIDIA Isaac Sim et Isaac Lab dans ses workflows robotique pour entraîner ses robots domestiques en environnements virtuels avant tout déploiement physique, et d'explorer le modèle de fondation GR00T pour renforcer leurs capacités de raisonnement. LG Electronics construit par ailleurs ce qu'il appelle une "data factory pour l'IA physique", utilisant les world models NVIDIA Cosmos pour générer des datasets synthétiques destinés à la robotique et à l'automatisation industrielle. Sur le volet infrastructure, LG Uplus s'engage à construire des centres de données à grande échelle compatibles avec les dernières générations de GPU NVIDIA, LG Electronics travaillera sur des technologies de refroidissement liquide alignées avec la plateforme NVIDIA DSX, et LG Energy Solution évalue des architectures d'alimentation en courant continu 800 volts pour les installations nouvelle génération. L'intérêt de ce partenariat pour les décideurs industriels tient moins à l'annonce elle-même qu'à ce qu'elle révèle sur la maturité du cycle de développement robotique. L'adoption d'Isaac Sim comme environnement d'entraînement primaire signale que le sim-to-real gap, longtemps le principal obstacle au déploiement à grande échelle, est considéré comme suffisamment maîtrisé pour structurer une chaîne industrielle dessus. La création d'une data factory synthétique répond à l'un des goulots d'étranglement les plus critiques du secteur : la rareté des données labellisées de qualité pour entraîner des VLA (Vision-Language-Action models). Pour les intégrateurs et les COO industriels, le message est que les outils de simulation et les modèles de fondation convergent vers une stack unifiée, ce qui devrait réduire les coûts et délais de portage de nouvelles applications robotiques. Il convient toutefois de noter que l'annonce reste au stade de la feuille de route : aucun chiffre de déploiement, aucun timeline de livraison ni prix n'ont été communiqués. Le contexte de ce rapprochement est celui d'une course mondiale à l'IA physique dans laquelle NVIDIA cherche à s'imposer comme couche d'infrastructure universelle face à des concurrents comme Boston Dynamics Atlas (désormais intégré chez Hyundai), Figure AI avec son modèle Helix, ou encore Physical Intelligence (pi-0) côté recherche. LG, de son côté, investit depuis plusieurs années dans la robotique de service avec ses robots CLOi, sans avoir encore atteint une adoption commerciale significative. Le groupe fait aussi face à la pression de concurrents coréens comme Samsung, qui développe ses propres robots domestiques avec Ballie. Les prochaines étapes annoncées incluent l'intégration des technologies NVIDIA DRIVE dans les systèmes ADAS de LG Electronics pour les véhicules définis par logiciel, et le déploiement de la plateforme d'automatisation industrielle de LG CNS enrichie de briques NVIDIA. La concrétisation de ces engagements sur les 12 à 24 prochains mois sera le véritable indicateur de la profondeur du partenariat.

UECe partenariat accélère la convergence vers une stack NVIDIA (Isaac Sim, GR00T, Cosmos) comme infrastructure d'entraînement robotique de référence, forçant les intégrateurs et OEM européens à évaluer leur alignement avec cet écosystème dans leurs roadmaps 2026-2027.

💬 Le truc intéressant, c'est pas le deal NVIDIA-LG, c'est ce qu'il révèle : le sim-to-real gap est maintenant considéré comme suffisamment sous contrôle pour construire une filière industrielle dessus. Isaac Sim comme environnement d'entraînement primaire dans une data factory à l'échelle d'un conglomérat coréen, ça signale un vrai changement de maturité, pas juste un POC de plus. Sur le papier, du moins, parce qu'aucun chiffre ni calendrier n'a filtré.

IA physiqueOpinion

1 source

IA embarquée : optimiser la mémoire pour faire tourner de grands modèles sur NVIDIA Jetson

À lire aussi

TTT-VLA : optimisation de prompts latents à l'inférence pour les modèles VLA

LocalNav : distillation de VLMs frontière et RL incarné pour la navigation embarquée vers un objet cible

NVIDIA et Hugging Face apportent de nouveaux modèles et frameworks à LeRobot pour la communauté robotique ouverte

NVIDIA et LG Group construisent une usine IA pour entraîner des robots et alimenter la mobilité du futur