Aller au contenu principal
IA embarquée : optimiser la mémoire pour faire tourner de grands modèles sur NVIDIA Jetson
IA physiqueNVIDIA Developer Blog6sem

IA embarquée : optimiser la mémoire pour faire tourner de grands modèles sur NVIDIA Jetson

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

L'article source est tronqué (coupé après le premier paragraphe). Je vais rédiger à partir du contenu visible et des faits techniques documentés sur ce sujet, en restant factuel.

---

La démocratisation des modèles d'IA générative open source crée une nouvelle pression sur les plateformes embarquées : les développeurs veulent désormais faire tourner des modèles de plusieurs milliards de paramètres directement sur des robots et agents autonomes opérant dans le monde physique, sans connexion permanente au cloud. Sur les modules NVIDIA Jetson Orin, la contrainte principale est la mémoire unifiée partagée entre CPU et GPU, plafonnée à 64 Go sur le Jetson AGX Orin et à 8 ou 16 Go sur les variantes Orin NX et Nano. Des techniques comme la quantification INT4 et INT8 via TensorRT-LLM, le paged KV cache et le flash attention permettent de faire tourner des modèles comme Llama 3 8B, Mistral 7B ou Phi-3 sur ces plateformes avec des compromis mesurés sur la précision.

L'enjeu n'est pas académique : pour les intégrateurs robotiques et les OEM industriels, la capacité à exécuter un VLA (Vision-Language-Action model) localement sans latence réseau est un prérequis pour la manipulation en environnement non structuré, l'inspection autonome ou la navigation en entrepôt. La quantification agressive réduit l'empreinte mémoire d'un facteur 4 à 8x par rapport au FP16, mais introduit une dégradation de précision qu'il faut valider tâche par tâche. NVIDIA positionne cette optimisation comme un élément central de sa stack Physical AI via l'écosystème Isaac ROS.

La plateforme Jetson est déployée dans des centaines de produits robotiques en production, des AMR d'entrepôt aux bras collaboratifs et drones d'inspection industrielle. Sur le segment concurrent, Qualcomm pousse ses puces RB3/RB5 avec le moteur Hexagon NPU, et Hailo (Israël) vise spécifiquement l'inférence embarquée légère. La prochaine étape pour NVIDIA sera l'intégration native de GR00T N2, son modèle de fondation humanoïde, sur Jetson Thor, une puce annoncée pour les robots humanoïdes haut de gamme et attendue dans les déploiements pilotes courant 2025-2026.

À lire aussi

TTT-VLA : optimisation de prompts latents à l'inférence pour les modèles VLA
1arXiv cs.RO 

TTT-VLA : optimisation de prompts latents à l'inférence pour les modèles VLA

Des chercheurs ont publié le 3 juin 2026 un article (arXiv:2606.03127) proposant TTT-VLA, un cadre d'entraînement au moment du test (test-time training, TTT) spécifiquement conçu pour les modèles Vision-Langage-Action (VLA). La méthode repose sur ce qu'ils appellent l'Optimisation de Prompt Latent (LPO) : pendant la phase d'entraînement, un vecteur de prompt latent est appris via une tâche auxiliaire de proxy qui génère un signal d'auto-supervision. Lors du déploiement, seul ce prompt latent est réoptimisé à partir des données d'interaction collectées dans l'environnement réel, sans toucher aux poids du modèle de base. Les expériences sont conduites sur SimplerEnv, un benchmark de manipulation robotique simulée, et montrent des gains de taux de succès cohérents sur des scénarios monolithiques et multi-embodiment. L'intérêt principal pour l'industrie robotique tient à la nature du problème résolu : le décalage de distribution (distribution shift) entre l'environnement d'entraînement et le site de déploiement est l'un des freins les plus documentés au passage en production des VLA. TTT-VLA propose une voie d'adaptation légère, puisque seul le prompt est modifié et non la politique elle-même. L'analyse des résultats révèle que les gains proviennent principalement de la correction d'un petit nombre de décisions critiques dans la séquence d'action, et non d'un changement global de comportement. C'est un résultat conceptuellement intéressant : il suggère que l'inadaptation d'un VLA en production est localisée, ce qui rend les approches de correction chirurgicale potentiellement plus efficaces que les fine-tunings complets. Les VLA sont devenus un axe de recherche central depuis les travaux fondateurs sur RT-2 (Google DeepMind, 2023), et des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA (Berkeley) illustrent la course actuelle. Le problème du sim-to-real et de l'adaptation au domaine reste entier pour tous ces systèmes dès qu'ils quittent les environnements contrôlés. TTT-VLA s'inscrit dans une tendance plus large qui emprunte aux LLMs la notion d'adaptation au test-time, appliquée ici à la manipulation physique. Les expériences restent pour l'instant limitées à SimplerEnv, ce qui laisse ouverte la question du transfert vers des robots réels et des environnements industriels non structurés.

UELes laboratoires de robotique européens (INRIA, CEA-List) travaillant sur les VLA pourraient exploiter cette méthode d'adaptation légère pour réduire le sim-to-real gap sans fine-tuning complet, mais aucun acteur européen n'est impliqué directement dans ces travaux.

IA physiqueOpinion
1 source
RePO-VLA : l'optimisation de politique guidée par la récupération pour les modèles vision-langage-action (VLA)
2arXiv cs.RO 

RePO-VLA : l'optimisation de politique guidée par la récupération pour les modèles vision-langage-action (VLA)

Des chercheurs publient sur arXiv (arXiv:2605.09410) RePO-VLA, un framework d'optimisation de politique pour modèles VLA (Vision-Language-Action) conçu pour améliorer la robustesse en manipulation bimanuelle sur des tâches longues et à fort contact. Le problème central identifié: les pipelines d'entraînement classiques exploitent uniquement les trajectoires réussies, abandonnant les épisodes ratés et rendant les modèles fragiles à la moindre perturbation d'exécution. RePO-VLA introduit trois mécanismes distincts: la Recovery-Aware Initialization (RAI), qui isole les segments de récupération et réinitialise l'historique d'état pour que les actions correctives s'ancrent dans l'état adverse courant plutôt que dans l'enchaînement d'erreurs précédent; la Progress-Aware Semantic Value Function (PAS-VF), qui attribue une valeur aux préfixes utiles des trajectoires échouées via un mécanisme de "reliability decay"; et le Value-Conditioned Refinement (VCR), qui entraîne la politique à sélectionner les actions à haute progression. Les auteurs introduisent également FRBench, un benchmark standardisé d'injection d'erreurs orienté récupération. Sur des tâches bimanuelle simulées et réelles, le taux de succès en conditions adverses passe de 20% à 75% en moyenne, et jusqu'à 80% lors d'essais réels à grande échelle. Ce résultat marque une rupture avec les pipelines dominants. Physical Intelligence (Pi-0, Pi-0.5), Figure AI et la quasi-totalité des approches VLA académiques s'entraînent exclusivement sur des trajectoires réussies, sacrifiant l'information contenue dans les épisodes ratés. RePO-VLA démontre que ces données sont exploitables à condition d'être labélisées en fonction de leur degré de progression vers l'objectif. Autre avantage pour le déploiement industriel: à l'inférence, aucun détecteur de défaillance en ligne n'est requis. Un simple paramètre fixe (v=1.0) suffit à biaiser les actions vers le manifold de succès appris, ce qui simplifie considérablement l'intégration en production sur des tâches de manipulation répétitive longue durée. Les VLA sont en 2025-2026 l'un des axes de recherche les plus actifs en robotique manipulatrice, portés par Physical Intelligence, Figure AI, et des laboratoires comme Berkeley, Stanford et CMU. La manipulation bimanuelle en contact représente l'échelon de difficulté le plus élevé: elle concentre les problèmes de sim-to-real gap, de gestion du contact imprédictible et de dérive d'exécution sur de longues séquences. RePO-VLA reste pour l'instant un article arXiv sans annonce de déploiement ni partenariat industriel associé. FRBench pourrait toutefois s'imposer comme référence communautaire pour évaluer la robustesse en récupération d'erreur, critère aujourd'hui absent des benchmarks standards comme LIBERO ou RoboSuite.

IA physiqueOpinion
1 source
Détection de signaux d'échec dans les trajectoires pour la surveillance en temps réel des modèles VLA
3arXiv cs.RO 

Détection de signaux d'échec dans les trajectoires pour la surveillance en temps réel des modèles VLA

Une équipe de chercheurs propose Hide-and-Seek (arXiv 2605.30834), un cadre de surveillance en temps réel des modèles VLA (Vision-Language-Action). Ces modèles permettent aux robots d'exécuter des instructions en langage naturel sur des tâches variées, mais ils restent sujets à des défaillances en cours d'exécution difficiles à intercepter. Hide-and-Seek reformule la détection de ces échecs comme un problème d'apprentissage supervisé à granularité grossière : en combinant des objectifs contrastifs inter-trajectoires et intra-trajectoires, il localise les actions responsables d'un échec à partir de labels de trajectoire uniquement, sans annotation pas-à-pas. La méthode a été évaluée sur les benchmarks LIBERO et VLABench ainsi que sur une plateforme robotique réelle, avec trois politiques VLA représentatives : OpenVLA, π₀ et π₀.₅ de Physical Intelligence. Pour les intégrateurs de robots pilotés par VLA, la détection fiable des défaillances en exécution est un prérequis non résolu pour tout déploiement industriel. Les approches existantes ont deux limitations majeures : le rééchantillonnage des actions est trop coûteux en calcul pour la production, et la propagation uniforme de labels de trajectoire à chaque pas de temps efface les signaux d'échec localisés dans le temps. Hide-and-Seek contourne cela en induisant des signaux temporellement structurés sans annotation fine, réduisant le coût d'étiquetage des données d'entraînement. Sous prédiction conforme (conformal prediction, qui offre des garanties statistiques sur le taux de faux positifs), la méthode atteint l'état de l'art en détection multi-tâche avec un compromis praticable entre précision et réactivité, et généralise à des tâches non vues à l'entraînement. Ce travail s'inscrit dans la montée en puissance des VLA depuis 2023-2024, portée par OpenVLA (UC Berkeley), la famille π₀/π₀.₅ de Physical Intelligence et RT-2 de Google DeepMind, et dans la question plus large du "demo-to-deployment gap". À mesure que ces modèles migrent des labos vers les lignes de production, un mécanisme de monitoring devient aussi critique que le modèle lui-même. Les benchmarks académiques utilisés facilitent les comparaisons avec les travaux concurrents, mais ne préjugent pas des performances en environnement industriel réel. La prochaine étape logique est l'intégration de Hide-and-Seek comme couche de supervision dans des pipelines de manipulation ou de déploiement humanoïde, où un échec non détecté peut engendrer des dommages matériels ou des arrêts de ligne coûteux.

IA physiqueOpinion
1 source
Quand faire confiance à l'imagination : exécution adaptative des actions pour les modèles d'action du monde
4arXiv cs.RO 

Quand faire confiance à l'imagination : exécution adaptative des actions pour les modèles d'action du monde

Des chercheurs présentent sur arXiv (2605.06222) une méthode d'exécution adaptative pour les World Action Models (WAMs), une famille d'architectures de manipulation robotique qui prédisent simultanément les observations visuelles futures et les séquences d'actions à exécuter. Le problème structurel de ces systèmes est qu'ils exécutent un nombre fixe d'actions prédites après chaque inférence, sans vérifier si le déroulé physique réel correspond à l'état "imaginé" par le modèle. Pour y remédier, les auteurs proposent FFDC (Future Forward Dynamics Causal Attention), un vérificateur léger qui croise en temps réel les actions prédites, la dynamique visuelle anticipée, les observations caméra actuelles et les instructions en langage naturel, pour décider si le plan reste valide ou s'il faut déclencher une nouvelle inférence plus tôt. Ce module est couplé à une stratégie d'entraînement baptisée Mixture-of-Horizon Training, conçue pour améliorer la couverture des trajectoires longues. Sur le benchmark RoboTwin, FFDC réduit le nombre de passes avant du modèle de 69,10 % et le temps d'exécution de 34,02 %, avec un taux de succès en hausse de 2,54 % par rapport à une baseline à chunk court. En conditions réelles, le gain atteint 35 % de succès supplémentaire, bien que le nombre d'essais et les tâches testées ne soient pas précisés dans ce préprint. L'apport principal est de résoudre un compromis structurel qui freine le déploiement industriel des robots manipulateurs : réinférer fréquemment est réactif mais coûteux en calcul, tandis qu'exécuter de longues séquences prédites est efficace mais aveugle aux imprévus. FFDC introduit une troisième voie, où la taille du chunk d'action devient une variable émergente pilotée par la cohérence entre imagination et réalité. Ce mécanisme est particulièrement critique pour les phases de contact riche, où un décalage millimétrique entre état prédit et état réel suffit à faire échouer une saisie, et représente une avancée concrète vers des WAMs opérationnels hors environnement contrôlé. Les WAMs s'inscrivent dans la dynamique plus large des modèles d'actions visuelles et langagières (VLAs), aux côtés de Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou RT-2 et ses successeurs chez Google DeepMind. Leur spécificité est d'intégrer explicitement une prédiction de l'état visuel futur pour planifier à plus long horizon. Ce préprint, sans affiliation industrielle déclarée, n'est pas encore évalué par les pairs. La prochaine étape naturelle serait une validation sur des benchmarks standardisés plus larges et des pilotes en environnement industriel non structuré.

IA physiqueOpinion
1 source