Aller au contenu principal
Le contexte est roi : comment Avride utilise des VLM cloud comme filet de sécurité pour les robots de livraison
IA physiqueRobotics Business Review2h

Le contexte est roi : comment Avride utilise des VLM cloud comme filet de sécurité pour les robots de livraison

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Avride, entreprise texane specialisee dans la robotique de livraison autonome, a integre des modeles de vision-langage (VLM) heberges dans le cloud pour renforcer la surveillance de ses robots de livraison sur trottoir. Chaque jour, des centaines de ces robots circulent dans des rues urbaines en autonomie quasi totale, traitant localement les donnees de leurs capteurs pour gerer les manoeuvres standards, les pietons et les feux de signalisation. Le nouveau systeme, surnomme "VLM-watcher", ne pilote pas le robot en temps reel : toutes les quelques secondes, une image des cameras embarquees est transmise au cloud, apres anonymisation locale des visages et plaques d'immatriculation directement sur le robot. Le modele de vision-langage analyse ensuite la scene dans son ensemble et lui attribue des tags de situation a fort enjeu, par exemple la presence d'un peripherique de police, d'une scene de crime active ou d'un chantier non cartographie avec du ciment frais. Si une situation critique est detectee, une alerte est envoyee a une equipe d'assistance a distance qui peut visionner le flux en direct et intervenir pour faire ceder le passage a des secours ou eviter une zone restreinte.

Cette approche illustre une tendance de fond dans la robotique de livraison autonome : la pile de perception embarquee, aussi performante soit-elle pour la detection d'objets (cyclistes, enfants, fauteuils roulants, vehicules d'urgence), atteint ses limites face a des scenarios qui exigent une comprehension contextuelle globale plutot qu'une simple liste d'elements detectes. Distinguer un policier qui rentre chez lui apres son service d'une scene de crime active, par exemple, releve d'un raisonnement semantique que les reseaux de neurones locaux ne sont pas concus pour faire seuls. En choisissant de garder les VLM hors de la boucle de pilotage temps reel, pour des raisons de latence et de dependance reseau, Avride positionne ces modeles lourds comme un filet de securite supervise par des humains, et non comme un substitut a l'autonomie embarquee. Cette architecture hybride pourrait devenir un standard de facto pour l'industrie, a mesure que les operateurs de flottes de robots cherchent a rassurer regulateurs et municipalites sur la gestion des situations sensibles sans sacrifier la reactivite operationnelle.

Avride, fondee par d'anciens ingenieurs du projet Yandex de vehicules autonomes, deploie deja ses robots de livraison dans plusieurs villes americaines en partenariat avec des enseignes de restauration et de commerce. L'entreprise precise ne pas vouloir lier son infrastructure a un seul fournisseur de modeles, presentant ce nouveau bloc cloud comme une architecture ouverte et modulaire, appelee a evoluer au rythme des progres des modeles de vision-langage. Cette flexibilite s'inscrit dans un contexte de concurrence croissante sur la livraison autonome sur trottoir, un secteur ou la confiance du public et des autorites locales reste un facteur determinant pour l'obtention d'autorisations d'exploitation a grande echelle.

À lire aussi

NVIDIA et LG Group construisent une usine IA pour entraîner des robots et alimenter la mobilité du futur
1Interesting Engineering 

NVIDIA et LG Group construisent une usine IA pour entraîner des robots et alimenter la mobilité du futur

NVIDIA et le groupe sud-coréen LG ont annoncé lors du Computex 2026 un partenariat stratégique multisectoriel visant à construire un écosystème d'intelligence artificielle physique couvrant la robotique industrielle, les robots domestiques, la mobilité autonome et les infrastructures de calcul. La collaboration mobilise plusieurs entités du conglomérat LG : LG Electronics, LG CNS, LG Innotek, LG Uplus et LG Energy Solution, chacune apportant un périmètre spécifique. Concrètement, LG prévoit de déployer NVIDIA Isaac Sim et Isaac Lab dans ses workflows robotique pour entraîner ses robots domestiques en environnements virtuels avant tout déploiement physique, et d'explorer le modèle de fondation GR00T pour renforcer leurs capacités de raisonnement. LG Electronics construit par ailleurs ce qu'il appelle une "data factory pour l'IA physique", utilisant les world models NVIDIA Cosmos pour générer des datasets synthétiques destinés à la robotique et à l'automatisation industrielle. Sur le volet infrastructure, LG Uplus s'engage à construire des centres de données à grande échelle compatibles avec les dernières générations de GPU NVIDIA, LG Electronics travaillera sur des technologies de refroidissement liquide alignées avec la plateforme NVIDIA DSX, et LG Energy Solution évalue des architectures d'alimentation en courant continu 800 volts pour les installations nouvelle génération. L'intérêt de ce partenariat pour les décideurs industriels tient moins à l'annonce elle-même qu'à ce qu'elle révèle sur la maturité du cycle de développement robotique. L'adoption d'Isaac Sim comme environnement d'entraînement primaire signale que le sim-to-real gap, longtemps le principal obstacle au déploiement à grande échelle, est considéré comme suffisamment maîtrisé pour structurer une chaîne industrielle dessus. La création d'une data factory synthétique répond à l'un des goulots d'étranglement les plus critiques du secteur : la rareté des données labellisées de qualité pour entraîner des VLA (Vision-Language-Action models). Pour les intégrateurs et les COO industriels, le message est que les outils de simulation et les modèles de fondation convergent vers une stack unifiée, ce qui devrait réduire les coûts et délais de portage de nouvelles applications robotiques. Il convient toutefois de noter que l'annonce reste au stade de la feuille de route : aucun chiffre de déploiement, aucun timeline de livraison ni prix n'ont été communiqués. Le contexte de ce rapprochement est celui d'une course mondiale à l'IA physique dans laquelle NVIDIA cherche à s'imposer comme couche d'infrastructure universelle face à des concurrents comme Boston Dynamics Atlas (désormais intégré chez Hyundai), Figure AI avec son modèle Helix, ou encore Physical Intelligence (pi-0) côté recherche. LG, de son côté, investit depuis plusieurs années dans la robotique de service avec ses robots CLOi, sans avoir encore atteint une adoption commerciale significative. Le groupe fait aussi face à la pression de concurrents coréens comme Samsung, qui développe ses propres robots domestiques avec Ballie. Les prochaines étapes annoncées incluent l'intégration des technologies NVIDIA DRIVE dans les systèmes ADAS de LG Electronics pour les véhicules définis par logiciel, et le déploiement de la plateforme d'automatisation industrielle de LG CNS enrichie de briques NVIDIA. La concrétisation de ces engagements sur les 12 à 24 prochains mois sera le véritable indicateur de la profondeur du partenariat.

UECe partenariat accélère la convergence vers une stack NVIDIA (Isaac Sim, GR00T, Cosmos) comme infrastructure d'entraînement robotique de référence, forçant les intégrateurs et OEM européens à évaluer leur alignement avec cet écosystème dans leurs roadmaps 2026-2027.

💬 Le truc intéressant, c'est pas le deal NVIDIA-LG, c'est ce qu'il révèle : le sim-to-real gap est maintenant considéré comme suffisamment sous contrôle pour construire une filière industrielle dessus. Isaac Sim comme environnement d'entraînement primaire dans une data factory à l'échelle d'un conglomérat coréen, ça signale un vrai changement de maturité, pas juste un POC de plus. Sur le papier, du moins, parce qu'aucun chiffre ni calendrier n'a filtré.

IA physiqueOpinion
1 source
Modélisation du monde en contexte pour le contrôle robotique
2arXiv cs.RO 

Modélisation du monde en contexte pour le contrôle robotique

Des chercheurs ont publié le 25 juin 2026 un preprint arXiv (2606.26025) présentant ICWM (In-Context World Modeling), un cadre d'adaptation pour les modèles Vision-Language-Action (VLA) appliqués à la robotique. Les VLA actuels échouent dès que le contexte d'exécution change - angle de caméra différent, morphologie de robot modifiée - parce qu'ils supposent un contexte fixe, celui rencontré pendant l'entraînement, et nécessitent un fine-tuning intensif en données pour toute nouvelle configuration. ICWM traite l'identification du système comme un problème d'adaptation en contexte : avant d'exécuter une tâche, le robot génère de courtes interactions autonomes agnostiques à la tâche, dont l'historique est injecté dans la fenêtre de contexte du modèle. Celui-ci infère ainsi implicitement la dynamique du système courant - position de caméra, configuration mécanique - sans mise à jour de poids. Les expériences menées en simulation et sur plateformes réelles montrent que ICWM surpasse significativement les baselines VLA standards sur des configurations de caméra inédites. La généralisation des VLA est le verrou principal qui freine le déploiement industriel de la robotique généraliste. Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA), OpenVLA et les modèles Google nécessitent tous du fine-tuning dès qu'on change la disposition d'une caméra ou la morphologie d'un robot, ce qui rend les pilotes industriels coûteux et longs à mettre en place. ICWM attaque ce problème sans modifier les poids du modèle : l'adaptation passe uniquement par le contexte, à l'image de ce que l'In-Context Learning a apporté aux LLMs. Pour un intégrateur ou un COO industriel, cela signifie potentiellement déployer un même modèle sur plusieurs lignes avec des géométries de capteurs différentes, sans pipeline de re-entraînement. La contribution est conceptuellement distincte : là où l'ICL classique spécifie quelle tâche effectuer, ICWM apprend comment le système fonctionne - une couche d'adaptation complémentaire aux approches existantes. Les modèles VLA ont connu une explosion depuis 2024 : RT-2 (Google DeepMind), Pi-0 de Physical Intelligence, GR00T N2 d'NVIDIA présenté à GTC 2025, et plus récemment Helix (Figure AI) illustrent la convergence entre fondations LLM et contrôle moteur. La fragilité aux variations contextuelles - ce qu'on appelle le "demo-to-deployment gap" - reste une critique récurrente formulée notamment par des acteurs européens comme Enchanted Tools ou Wandercraft, qui misent sur des architectures plus déterministes pour des environnements industriels contraints. ICWM s'inscrit dans une tendance plus large : importer les paradigmes d'adaptation du machine learning directement dans la boucle de contrôle robotique, sans passer par un cycle de collecte de données et de re-entraînement. Le preprint ne mentionne ni partenariat industriel, ni code open-source, ni dataset public : il s'agit d'une contribution de recherche pure, sans déploiement commercial annoncé à ce stade.

UESi ICWM tient ses promesses, les intégrateurs européens pourraient déployer un même modèle VLA sur plusieurs lignes à géométries de capteurs différentes sans pipeline de ré-entraînement, réduisant directement le coût des pilotes industriels, mais aucun déploiement ni partenariat européen n'est annoncé à ce stade.

💬 Le vrai frein au déploiement robotique industriel, ce n'est pas la performance brute des VLA, c'est que la moindre caméra déplacée oblige à relancer un fine-tuning complet. ICWM importe dans la boucle de contrôle la même logique qui a rendu les LLMs flexibles, et si ça tient, c'est un changement de calcul économique pour les intégrateurs européens qui tentent des pilotes. Bon, pour l'instant c'est un preprint sans code ni partenaire industriel, donc on verra.

IA physiqueOpinion
1 source
Modèles vision-langage pour la navigation de robots sociaux déployables : relier le raisonnement sémantique et le contrôle de bas niveau
3arXiv cs.RO 

Modèles vision-langage pour la navigation de robots sociaux déployables : relier le raisonnement sémantique et le contrôle de bas niveau

Des chercheurs ont publié fin juin 2026 une étude de synthèse (arXiv:2606.28760) consacrée à l'intégration des modèles vision-langage (VLM) dans les systèmes de navigation sociale pour robots mobiles. Le papier, qui recense l'état de l'art dans ce domaine encore fragmenté, structure les approches existantes autour de trois composantes interdépendantes : le raisonnement de haut niveau assuré par le VLM, les modules de planification et de contrôle bas niveau, et les mécanismes intermédiaires qui assurent la traduction entre les deux couches. Les auteurs proposent en parallèle une feuille de route structurée couvrant l'ancrage spatial, les représentations intermédiaires, les évaluateurs sémantiques et les modules de contrôle, avec une revue des jeux de données et plateformes d'évaluation disponibles pour la navigation sociale. L'enjeu mis en évidence est précisément celui qui bloque le passage en production de nombreux robots de service : les méthodes classiques de navigation (SLAM, planification métrique, évitement d'obstacles) sont fiables mais aveugles aux normes sociales, aux intentions humaines et au contexte situationnel. Un robot qui calcule la trajectoire optimale dans un couloir d'hôpital ne sait pas, sans couche sémantique, qu'il coupe la route à un soignant pressé ou s'arrête trop près d'un patient. Les VLMs apportent ce raisonnement commun et la compréhension du langage naturel, mais leur latence et leur non-déterminisme les rendent difficiles à coupler directement à des boucles de contrôle temps-réel et safety-critical. L'article argumente que des architectures hybrides, VLM pour le raisonnement, contrôleurs classiques pour l'exécution, sont aujourd'hui la seule voie viable vers le déploiement. Ce travail s'inscrit dans un mouvement plus large d'hybridation entre fondation models et robotique embarquée, porté ces deux dernières années par des papiers comme RT-2 (Google DeepMind), SayCan (Everyday Robots) et les travaux de navigation sémantique de CMU et Stanford. Côté industriel, les plateformes de robots de service (Keenon, Pudu, Bear Robotics côté asie-pacifique ; Enchanted Tools en France avec Miroki) cherchent précisément à résoudre ce passage de l'interaction naturelle au mouvement contraint. Le survey ne décrit pas un système déployé mais un cadre de référence académique, à lire comme une cartographie des briques disponibles plutôt que comme une validation terrain.

UEEnchanted Tools (Miroki, France) est directement concerné par cette feuille de route : le survey valide l'approche hybride VLM + contrôle classique comme voie viable pour les robots de service sociaux, fournissant un cadre de référence utilisable par les équipes R&D européennes travaillant sur le déploiement en milieux contraints.

IA physiqueOpinion
1 source
Bridge-WA : prédire où et comment le monde change pour l'action robotique
4arXiv cs.RO 

Bridge-WA : prédire où et comment le monde change pour l'action robotique

Une équipe de chercheurs présente Bridge-WA, un nouveau framework "world-action" léger destiné aux modèles de manipulation robotique vision-langage-action (VLA), décrit dans un article publié sur arXiv (2607.02195v1) début juillet. Plutôt que de s'appuyer sur de lourds modèles génératifs du monde ou des séquences denses d'images futures pour anticiper les changements de scène, coûteux en calcul et souvent focalisés sur des détails visuels peu utiles au contrôle, Bridge-WA distille un "teacher" figé de prédiction des changements futurs en trois représentations compactes : des tokens de résultat visé, des cartes de changement pour identifier les zones d'intervention, et des cartes de flux de mouvement pour la direction locale des transitions. Un module appelé WorldBridge conditionne ensuite le transformer d'action sur ces trois priors via des mémoires d'attention multi-sources et des biais spatio-temporels, tandis que le modèle enseignant est retiré au moment de l'inférence. Les auteurs évaluent leur approche sur les benchmarks VLABench, RoboTwin2.0 et LIBERO-Plus, ainsi que sur des tests en robot réel, avec des gains en taux de réussite, en progression de tâche et en robustesse, particulièrement marqués face à des variations visuelles hors distribution. L'intérêt pour l'industrie robotique tient à la promesse d'un compromis efficacité-robustesse : obtenir les bénéfices d'un raisonnement sur l'évolution future de la scène sans payer le coût de génération d'images denses au déploiement, un frein connu pour l'intégration temps réel des modèles VLA. En filtrant les facteurs de nuisance comme le fond, l'éclairage ou les distracteurs pour se concentrer sur où et comment la scène va changer, l'approche s'attaque directement à l'écart généralisation/robustesse qui limite souvent le passage de la démonstration en labo au déploiement industriel. Le travail s'inscrit dans la lignée des modèles VLA à grande échelle qui cherchent à coupler perception, langage et action, un axe de recherche actif depuis l'essor de modèles génériques de manipulation. Comme il s'agit ici de résultats de recherche publiés par les auteurs eux-mêmes sur leurs propres benchmarks, sans déploiement industriel ni validation tierce à ce stade, la prudence reste de mise sur la portée réelle des gains annoncés. Le code et des visualisations sont mis à disposition sur le site du projet, ouvrant la voie à une reproduction indépendante des résultats.

IA physiqueActu
1 source