IA physiqueRobotics Business Review 10 juin 2026

La robotique ne connaîtra pas de moment Llama bien défini

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Depuis le début de l'année 2025, les modèles robotiques ouverts se multiplient. Google DeepMind a publié les résultats d'Open X-Embodiment, projet qui a mutualisé des données de manipulation sur des dizaines d'institutions et de morphologies différentes : les expériences RT-X montrent qu'entraîner un modèle sur plusieurs types de robots améliore le transfert, plutôt que de forcer chaque système à apprendre uniquement sur ses propres données. DeepMind a ensuite scindé sa pile en deux sorties distinctes : Gemini Robotics 1.5, un VLA (vision-langage-action) qui convertit entrées visuelles et instructions en commandes moteur, et Gemini Robotics-ER 1.6, positionné plus haut dans la pile, dédié au raisonnement spatial, à la planification et aux appels d'outils. NVIDIA a poussé dans la même direction avec ses releases GR00T et ses modèles Isaac, disponibles notamment via LeRobot sur Hugging Face. OpenVLA, modèle open source à 7 milliards de paramètres entraîné sur 970 000 épisodes de manipulation issus d'Open X-Embodiment, illustre le niveau de maturité désormais accessible. Côté capital, Crunchbase recense près de 14 milliards de dollars investis dans la robotique en 2025 : Skild AI a levé 1,4 milliard pour un modèle multi-morphologie, Physical Intelligence négocie un tour d'un milliard à une valorisation supérieure à 11 milliards, Advanced Machine Intelligence de Yann LeCun a clôturé à 1,03 milliard, et Wayve a bouclé une série D à 1,2 milliard pour la conduite autonome.

La comparaison avec Llama, le modèle open source de Meta qui a permis à d'innombrables équipes de déployer un LLM capable sans payer la facture d'entraînement, est séduisante mais trompeuse. Une politique robotique ne transfère pas comme un fichier de poids logiciel : elle nécessite une pile de contrôle locale qui convertit les sorties du modèle en mouvements réels, dans l'enveloppe de sécurité de la cellule, via le contrôleur installé. Le dépôt openpi de Physical Intelligence illustre ce delta concretement : une équipe qui dispose du modèle doit encore faire tourner l'inférence (8 Go de VRAM minimum), affiner sur ses propres données robotiques via LoRA (22,5 Go) ou en full fine-tuning (70 Go), puis valider le résultat sur la machine cible. L'accès aux modèles élargit ce que les robots peuvent tenter ; l'avantage concurrentiel reste dans la capacité à transformer ce comportement en travail fiable en production, avec des journaux de pannes exploitables par un technicien des mois après la mise en service.

Le problème structurel qui sépare la robotique du logiciel pur est ce que les praticiens nomment le "site drift" : la dérive entre le robot qui passe la recette d'usine et le robot qui opère dans le process réel du client. La géométrie caméra et la compliance de l'end-effector évoluent après livraison, les références de fixation bougent avec le process client, et la contamination s'accumule sur plusieurs semaines de production jusqu'à rendre les comportements de récupération peu fiables. La randomisation de domaine en simulation couvre de nombreuses variations, mais pas la dérive propre à chaque site. Un quadrupède en banc d'essai peut exécuter un virage à droite proprement et rater son symétrique gauche : les jambes ont atterri dans des régions servo différentes et chargé le corps différemment, si bien que la même commande produit deux résultats distincts. Le code était symétrique ; la mécanique de contact, non. C'est précisément là que s'arrête l'analogie avec Llama : distribuer le modèle était la partie accessible, transformer ce modèle en travail supporté sur des systèmes en clientèle reste la frontière que les 14 milliards de venture capital engagés en 2025 n'ont pas encore résolue.

Impact France/UE

Wayve (Royaume-Uni, 1,2 Md$ en série D) est le seul acteur européen cité ; l'argument central sur le 'site drift' et les coûts réels de déploiement physique s'applique directement aux intégrateurs et startups robotiques européens qui envisagent de capitaliser sur les VLA open source.

Dans nos dossiers

IA physique & VLA NVIDIA GR00T Physical Intelligence — π0 Gemini Robotics

À lire aussi

1IEEE Spectrum Robotics

Au-delà de la dextérité : pourquoi le contact pourrait définir la prochaine ère de la robotique

Lors de l'IEEE International Conference on Robotics and Automation (ICRA 2026) à Vienne, la démonstration ayant le plus mobilisé les visiteurs n'était pas un bras industriel ni un humanoïde en équilibre : c'était une paire de mains robotiques en train de fabriquer un animal en ballon. La société AGILINK y a présenté son système bimain OmniHand 3 Ultra-M réalisant une torsion séquentielle de ballon long format, sans le faire éclater, en gérant en temps réel la déformation de l'objet, la pression interne et la friction de contact. Ce type de tâche, qualifié de "long-horizon contact-rich manipulation", constitue un benchmark reconnu dans la communauté : la légèreté et la déformabilité d'un ballon rendent toute régulation de force particulièrement délicate, et chaque torsion modifie la géométrie et les propriétés mécaniques de l'objet, imposant une adaptation continue du contrôle. Pour entraîner le système, AGILINK a capturé des démonstrations d'artistes professionnels en sculpture sur ballon, les a transposées en politiques de manipulation sur ses mains robotiques, puis a enrichi l'apprentissage par renforcement non seulement avec les séquences réussies, mais aussi avec les interventions correctrices d'opérateurs humains enregistrées chaque fois que l'exécution dérivait vers l'échec. Ce résultat illustre un glissement de paradigme dans la manipulation robotique : après des années centrées sur la dextérité au sens cinématique (nombre de degrés de liberté, précision de positionnement), le vrai verrou se situerait désormais dans la gestion du contact lui-même. La capacité à maintenir une interaction stable avec un objet dont les propriétés évoluent en continu, ce qu'AGILINK désigne par "contact intelligence", reste hors de portée de la plupart des systèmes commerciaux actuels. Pour les intégrateurs industriels et les équipes R&D en manipulation, ce démo signale que les progrès en sensing visuotactile et en politiques d'apprentissage par imitation commencent à produire des résultats reproductibles sur des tâches à la limite du geste humain. La prudence s'impose toutefois : ICRA 2026 est un cadre contrôlé, et les vidéos présentées sélectionnent les exécutions réussies sans données publiées sur le taux de succès systématique ni sur les conditions de répétabilité en dehors du laboratoire. AGILINK, spécialisée dans la manipulation dextre, développe depuis plusieurs années la plateforme OmniHand en combinant sensing visuotactile, contrôle en force et politique bimanuelle. Son positionnement la place en concurrence directe avec Shadow Robot au Royaume-Uni, Dexterous Robotics, et les divisions R&D en main robotique d'ABB et FANUC, ainsi qu'avec des groupes académiques de Stanford et du MIT travaillant sur des architectures similaires. À noter que l'article source est un contenu sponsorisé par AGILINK publié dans le cadre de la couverture ICRA 2026, ce qui en limite l'indépendance éditoriale. Les prochaines étapes annoncées portent sur des extensions vers des tâches industrielles à contact riche, sans qu'un calendrier de déploiement commercial ni des volumes de production aient été précisés.

UELes équipes R&D européennes en manipulation dextre peuvent utiliser cette démonstration présentée à l'ICRA 2026 de Vienne comme signal de convergence entre sensing visuotactile et apprentissage par imitation, notamment pour se positionner face à Shadow Robot (UK) et aux divisions robotique d'ABB.

IA physiquePaper

1 source

2arXiv cs.RO

Modélisation du monde en contexte pour le contrôle robotique

Des chercheurs ont publié le 25 juin 2026 un preprint arXiv (2606.26025) présentant ICWM (In-Context World Modeling), un cadre d'adaptation pour les modèles Vision-Language-Action (VLA) appliqués à la robotique. Les VLA actuels échouent dès que le contexte d'exécution change - angle de caméra différent, morphologie de robot modifiée - parce qu'ils supposent un contexte fixe, celui rencontré pendant l'entraînement, et nécessitent un fine-tuning intensif en données pour toute nouvelle configuration. ICWM traite l'identification du système comme un problème d'adaptation en contexte : avant d'exécuter une tâche, le robot génère de courtes interactions autonomes agnostiques à la tâche, dont l'historique est injecté dans la fenêtre de contexte du modèle. Celui-ci infère ainsi implicitement la dynamique du système courant - position de caméra, configuration mécanique - sans mise à jour de poids. Les expériences menées en simulation et sur plateformes réelles montrent que ICWM surpasse significativement les baselines VLA standards sur des configurations de caméra inédites. La généralisation des VLA est le verrou principal qui freine le déploiement industriel de la robotique généraliste. Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA), OpenVLA et les modèles Google nécessitent tous du fine-tuning dès qu'on change la disposition d'une caméra ou la morphologie d'un robot, ce qui rend les pilotes industriels coûteux et longs à mettre en place. ICWM attaque ce problème sans modifier les poids du modèle : l'adaptation passe uniquement par le contexte, à l'image de ce que l'In-Context Learning a apporté aux LLMs. Pour un intégrateur ou un COO industriel, cela signifie potentiellement déployer un même modèle sur plusieurs lignes avec des géométries de capteurs différentes, sans pipeline de re-entraînement. La contribution est conceptuellement distincte : là où l'ICL classique spécifie quelle tâche effectuer, ICWM apprend comment le système fonctionne - une couche d'adaptation complémentaire aux approches existantes. Les modèles VLA ont connu une explosion depuis 2024 : RT-2 (Google DeepMind), Pi-0 de Physical Intelligence, GR00T N2 d'NVIDIA présenté à GTC 2025, et plus récemment Helix (Figure AI) illustrent la convergence entre fondations LLM et contrôle moteur. La fragilité aux variations contextuelles - ce qu'on appelle le "demo-to-deployment gap" - reste une critique récurrente formulée notamment par des acteurs européens comme Enchanted Tools ou Wandercraft, qui misent sur des architectures plus déterministes pour des environnements industriels contraints. ICWM s'inscrit dans une tendance plus large : importer les paradigmes d'adaptation du machine learning directement dans la boucle de contrôle robotique, sans passer par un cycle de collecte de données et de re-entraînement. Le preprint ne mentionne ni partenariat industriel, ni code open-source, ni dataset public : il s'agit d'une contribution de recherche pure, sans déploiement commercial annoncé à ce stade.

UESi ICWM tient ses promesses, les intégrateurs européens pourraient déployer un même modèle VLA sur plusieurs lignes à géométries de capteurs différentes sans pipeline de ré-entraînement, réduisant directement le coût des pilotes industriels, mais aucun déploiement ni partenariat européen n'est annoncé à ce stade.

💬 Le vrai frein au déploiement robotique industriel, ce n'est pas la performance brute des VLA, c'est que la moindre caméra déplacée oblige à relancer un fine-tuning complet. ICWM importe dans la boucle de contrôle la même logique qui a rendu les LLMs flexibles, et si ça tient, c'est un changement de calcul économique pour les intégrateurs européens qui tentent des pilotes. Bon, pour l'instant c'est un preprint sans code ni partenaire industriel, donc on verra.

IA physiqueOpinion

1 source

3The Robot Report

Comment éviter le piège de la téléopération dans le développement de la robotique

Flexion, société développant une plateforme d'apprentissage par renforcement et de transfert simulation-vers-réel pour robots humanoïdes, publie une analyse critique sur les méthodes de collecte de données du secteur. Depuis 18 mois, les entreprises de robotique humanoïde ont levé des milliards de dollars, une majorité de ces fonds finançant en réalité le recrutement d'opérateurs humains pour téléopérer des robots ou filmer des tâches domestiques, notamment dans des économies à bas coût de main-d'œuvre en Chine, en Inde, en Europe et aux États-Unis. Un écosystème commercial entier s'est structuré autour de la vente de données de téléopération, sur le modèle des entreprises qui vendaient auparavant du texte annoté pour entraîner les modèles de langage. Selon Flexion, ces jeux de données restent plus de 100 000 fois plus petits que ceux utilisés pour entraîner les modèles de langage et de vision actuels, et la qualité pose aussi problème : les opérateurs ne peuvent ni ressentir le toucher ni juger correctement la profondeur, ce qui les pousse à des gestes lents et à des surcorrections que le robot finit par reproduire fidèlement. Cette dépendance interroge directement la promesse commerciale portée par le secteur : les robots humanoïdes sont censés pallier une pénurie de main-d'œuvre annoncée, liée au vieillissement démographique. Or un système qui nécessite un flux permanent de démonstrations humaines pour fonctionner sur toute tâche nouvelle constitue, de fait, un système de travail humain déguisé plutôt qu'une automatisation réelle. Flexion pointe un biais de mesure répandu dans l'industrie : le nombre d'heures de téléopération collectées ou de tâches réussies en environnement contrôlé ne renseigne en rien sur la capacité réelle d'un robot à généraliser face à une situation ou un lieu inédits. L'argument habituel selon lequel la téléopération ne serait qu'un pont temporaire vers de meilleures méthodes d'entraînement reste, selon l'entreprise, invérifié : rien n'indique quand ni comment cette transition doit s'opérer, et construire davantage d'infrastructure de démonstration ne fait qu'approfondir la dépendance plutôt que la résoudre. Flexion propose une alternative structurée autour de trois couches, commande, mouvement et contrôle, misant sur l'apprentissage par renforcement en environnements synthétiques plutôt que sur l'imitation de démonstrations humaines. L'entreprise compare la situation actuelle à celle des débuts des modèles de langage : entraînés sur d'immenses corpus textuels, ces modèles savaient imiter le style sans forcément raisonner, un plafond dépassé grâce à l'apprentissage par renforcement plutôt qu'à l'accumulation de davantage de texte. Contrairement au texte, il n'existe aucune archive préexistante de gestes robotiques exploitables à grande échelle, chaque démonstration devant être générée manuellement, ce qui limite structurellement la vitesse de progression du secteur tant que le paradigme de la téléopération domine.

UEL'article cite l'Europe comme l'un des bassins de main-d'oeuvre utilises pour la teleoperation, mais ne mentionne aucune entreprise ou reglementation francaise ou europeenne specifique.

IA physiqueOpinion

1 source

4arXiv cs.RO

Contrôle robotique sans démonstration via des agents LLM

Des chercheurs ont publié FAEA (Frontier Agent as Embodied Agent), un framework qui applique directement aux manipulateurs robotiques les architectures d'agents LLM conçues pour le génie logiciel, sans démonstrations spécifiques à la tâche ni fine-tuning. Évalué sur trois benchmarks de référence en simulation avec accès privilégié à l'état de l'environnement (positions des objets fournies directement, sans perception visuelle brute), FAEA atteint des taux de succès de 84,9 % sur LIBERO, 85,7 % sur ManiSkill3, et 96 % sur MetaWorld, en utilisant le Claude Agent SDK d'Anthropic comme modèle frontier non modifié. Une itération optionnelle de feedback humain porte le score LIBERO à 88,2 %. Ces résultats se rapprochent des performances des modèles VLA (Vision-Language-Action) entraînés sur moins de 100 démonstrations par tâche, seuil qui représente aujourd'hui le plancher de coût pour la collecte de données en robotique incarnée. L'implication centrale est notable : pour les tâches de manipulation dominées par la planification délibérative à haut niveau, un agent généraliste non spécialisé peut suffire, sans pipeline de données propriétaire. FAEA peut en outre explorer de façon autonome des scénarios inédits en simulation et générer des trajectoires réussies pour augmenter les datasets d'entraînement, court-circuitant ainsi le goulot de la collecte humaine. Nuance critique : tous les tests restent en simulation avec état privilégié ; aucun transfert sim-to-real n'est validé dans ce travail, ce qui limite la portée des conclusions pour un déploiement industriel réel. Les modèles VLA entraînés bout-en-bout, pi-0 de Physical Intelligence, RT-2 de Google DeepMind, ou OpenVLA, dominent la recherche en manipulation depuis 2023 mais restent contraints par des pipelines de collecte de données coûteux et spécifiques à chaque domaine. FAEA s'inscrit dans un courant alternatif qui cherche à exploiter l'infrastructure d'agents software directement en robotique : la même boucle plan-act-observe-debug qui pilote les agents de coding est ici transférée sans modification au contrôle de manipulateurs. Ce positionnement implique un bénéfice passif : toute amélioration des modèles frontier se répercute directement sur les capacités robotiques sans retraining. Le préprint est disponible sur arXiv (2601.20334v2) et le code sur GitHub ; aucun déploiement industriel n'est annoncé à ce stade.

IA physiquePaper

1 source