Aller au contenu principal
La robotique ne connaîtra pas de moment Llama bien défini
IA physiqueRobotics Business Review1h

La robotique ne connaîtra pas de moment Llama bien défini

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Depuis le début de l'année 2025, les modèles robotiques ouverts se multiplient. Google DeepMind a publié les résultats d'Open X-Embodiment, projet qui a mutualisé des données de manipulation sur des dizaines d'institutions et de morphologies différentes : les expériences RT-X montrent qu'entraîner un modèle sur plusieurs types de robots améliore le transfert, plutôt que de forcer chaque système à apprendre uniquement sur ses propres données. DeepMind a ensuite scindé sa pile en deux sorties distinctes : Gemini Robotics 1.5, un VLA (vision-langage-action) qui convertit entrées visuelles et instructions en commandes moteur, et Gemini Robotics-ER 1.6, positionné plus haut dans la pile, dédié au raisonnement spatial, à la planification et aux appels d'outils. NVIDIA a poussé dans la même direction avec ses releases GR00T et ses modèles Isaac, disponibles notamment via LeRobot sur Hugging Face. OpenVLA, modèle open source à 7 milliards de paramètres entraîné sur 970 000 épisodes de manipulation issus d'Open X-Embodiment, illustre le niveau de maturité désormais accessible. Côté capital, Crunchbase recense près de 14 milliards de dollars investis dans la robotique en 2025 : Skild AI a levé 1,4 milliard pour un modèle multi-morphologie, Physical Intelligence négocie un tour d'un milliard à une valorisation supérieure à 11 milliards, Advanced Machine Intelligence de Yann LeCun a clôturé à 1,03 milliard, et Wayve a bouclé une série D à 1,2 milliard pour la conduite autonome.

La comparaison avec Llama, le modèle open source de Meta qui a permis à d'innombrables équipes de déployer un LLM capable sans payer la facture d'entraînement, est séduisante mais trompeuse. Une politique robotique ne transfère pas comme un fichier de poids logiciel : elle nécessite une pile de contrôle locale qui convertit les sorties du modèle en mouvements réels, dans l'enveloppe de sécurité de la cellule, via le contrôleur installé. Le dépôt openpi de Physical Intelligence illustre ce delta concretement : une équipe qui dispose du modèle doit encore faire tourner l'inférence (8 Go de VRAM minimum), affiner sur ses propres données robotiques via LoRA (22,5 Go) ou en full fine-tuning (70 Go), puis valider le résultat sur la machine cible. L'accès aux modèles élargit ce que les robots peuvent tenter ; l'avantage concurrentiel reste dans la capacité à transformer ce comportement en travail fiable en production, avec des journaux de pannes exploitables par un technicien des mois après la mise en service.

Le problème structurel qui sépare la robotique du logiciel pur est ce que les praticiens nomment le "site drift" : la dérive entre le robot qui passe la recette d'usine et le robot qui opère dans le process réel du client. La géométrie caméra et la compliance de l'end-effector évoluent après livraison, les références de fixation bougent avec le process client, et la contamination s'accumule sur plusieurs semaines de production jusqu'à rendre les comportements de récupération peu fiables. La randomisation de domaine en simulation couvre de nombreuses variations, mais pas la dérive propre à chaque site. Un quadrupède en banc d'essai peut exécuter un virage à droite proprement et rater son symétrique gauche : les jambes ont atterri dans des régions servo différentes et chargé le corps différemment, si bien que la même commande produit deux résultats distincts. Le code était symétrique ; la mécanique de contact, non. C'est précisément là que s'arrête l'analogie avec Llama : distribuer le modèle était la partie accessible, transformer ce modèle en travail supporté sur des systèmes en clientèle reste la frontière que les 14 milliards de venture capital engagés en 2025 n'ont pas encore résolue.

Impact France/UE

Wayve (Royaume-Uni, 1,2 Md$ en série D) est le seul acteur européen cité ; l'argument central sur le 'site drift' et les coûts réels de déploiement physique s'applique directement aux intégrateurs et startups robotiques européens qui envisagent de capitaliser sur les VLA open source.

À lire aussi

Au-delà de la dextérité : pourquoi le contact pourrait définir la prochaine ère de la robotique
1IEEE Spectrum Robotics 

Au-delà de la dextérité : pourquoi le contact pourrait définir la prochaine ère de la robotique

Lors de l'IEEE International Conference on Robotics and Automation (ICRA 2026) à Vienne, la démonstration ayant le plus mobilisé les visiteurs n'était pas un bras industriel ni un humanoïde en équilibre : c'était une paire de mains robotiques en train de fabriquer un animal en ballon. La société AGILINK y a présenté son système bimain OmniHand 3 Ultra-M réalisant une torsion séquentielle de ballon long format, sans le faire éclater, en gérant en temps réel la déformation de l'objet, la pression interne et la friction de contact. Ce type de tâche, qualifié de "long-horizon contact-rich manipulation", constitue un benchmark reconnu dans la communauté : la légèreté et la déformabilité d'un ballon rendent toute régulation de force particulièrement délicate, et chaque torsion modifie la géométrie et les propriétés mécaniques de l'objet, imposant une adaptation continue du contrôle. Pour entraîner le système, AGILINK a capturé des démonstrations d'artistes professionnels en sculpture sur ballon, les a transposées en politiques de manipulation sur ses mains robotiques, puis a enrichi l'apprentissage par renforcement non seulement avec les séquences réussies, mais aussi avec les interventions correctrices d'opérateurs humains enregistrées chaque fois que l'exécution dérivait vers l'échec. Ce résultat illustre un glissement de paradigme dans la manipulation robotique : après des années centrées sur la dextérité au sens cinématique (nombre de degrés de liberté, précision de positionnement), le vrai verrou se situerait désormais dans la gestion du contact lui-même. La capacité à maintenir une interaction stable avec un objet dont les propriétés évoluent en continu, ce qu'AGILINK désigne par "contact intelligence", reste hors de portée de la plupart des systèmes commerciaux actuels. Pour les intégrateurs industriels et les équipes R&D en manipulation, ce démo signale que les progrès en sensing visuotactile et en politiques d'apprentissage par imitation commencent à produire des résultats reproductibles sur des tâches à la limite du geste humain. La prudence s'impose toutefois : ICRA 2026 est un cadre contrôlé, et les vidéos présentées sélectionnent les exécutions réussies sans données publiées sur le taux de succès systématique ni sur les conditions de répétabilité en dehors du laboratoire. AGILINK, spécialisée dans la manipulation dextre, développe depuis plusieurs années la plateforme OmniHand en combinant sensing visuotactile, contrôle en force et politique bimanuelle. Son positionnement la place en concurrence directe avec Shadow Robot au Royaume-Uni, Dexterous Robotics, et les divisions R&D en main robotique d'ABB et FANUC, ainsi qu'avec des groupes académiques de Stanford et du MIT travaillant sur des architectures similaires. À noter que l'article source est un contenu sponsorisé par AGILINK publié dans le cadre de la couverture ICRA 2026, ce qui en limite l'indépendance éditoriale. Les prochaines étapes annoncées portent sur des extensions vers des tâches industrielles à contact riche, sans qu'un calendrier de déploiement commercial ni des volumes de production aient été précisés.

UELes équipes R&D européennes en manipulation dextre peuvent utiliser cette démonstration présentée à l'ICRA 2026 de Vienne comme signal de convergence entre sensing visuotactile et apprentissage par imitation, notamment pour se positionner face à Shadow Robot (UK) et aux divisions robotique d'ABB.

IA physiquePaper
1 source
La robotique connaîtra-t-elle son moment ChatGPT ?
2IEEE Spectrum Robotics 

La robotique connaîtra-t-elle son moment ChatGPT ?

En 2025, les investissements dans les entreprises de robotique ont atteint un record de 40,7 milliards de dollars, soit 9 % de l'ensemble du capital-risque mondial. C'est dans ce contexte que Jonathan Hurst, professeur en robotique à l'Oregon State University et cofondateur d'Agility Robotics, et Wendy Tan White, ancienne CEO du projet Everyday Robots chez Google X, publient une analyse à contre-courant. Leur thèse : la robotique ne connaîtra pas de "moment ChatGPT" unique, mais progressera grâce à l'application coordonnée de plusieurs systèmes d'IA complémentaires. Ils articulent leur démonstration autour de cinq vérités difficiles, dont la première est le "YouTube-to-Reality Gap". La prestation des robots humanoïdes Unitree au gala du Nouvel An chinois 2026, où des machines exécutaient des figures d'arts martiaux avec des enfants, illustre parfaitement ce fossé : techniquement impressionnante, la séquence était entièrement chorégraphiée, relevant du même niveau d'autonomie qu'un bras industriel en usine automobile, et non d'un système capable de s'adapter à l'imprévu. L'enjeu est décisif pour les intégrateurs et décideurs industriels. Si les robots maîtrisent le backflip et le kung-fu, pourquoi sont-ils absents des chaînes de production généralistes et des cuisines domestiques ? L'IA mobilisée dans ces démonstrations ne sert que le contrôle moteur de bas niveau, sans capacité de raisonnement ni d'adaptation à des environnements non structurés. La rupture introduite par l'IA est réelle : les robots apprennent désormais au lieu d'être programmés, et peuvent, avec suffisamment de données, percevoir, raisonner et agir de façon fiable. Mais ce saut exige des systèmes d'IA coordonnés et rigoureusement intégrés, et non un modèle fondateur unique. La promesse de robots polyvalents vivant aux côtés des humains alimente la science-fiction depuis des décennies, et les déceptions accumulées ont rendu le secteur prudent face aux annonces. Agility Robotics déploie son humanoïde Digit dans des entrepôts Amazon depuis 2023, l'une des rares preuves de déploiement industriel réel à l'échelle. La concurrence s'est toutefois densifiée : Figure AI, Tesla Optimus, 1X et Apptronik côté produits, Physical Intelligence (Pi-0) et NVIDIA (GR00T N2) côté recherche. Hurst et White, forts d'une décennie de terrain, ne disqualifient pas l'optimisme ambiant, mais rappellent l'obligation de distinguer ce qui est opérationnel de ce qui reste un prototype filmé sous son meilleur angle.

HumanoïdesOpinion
1 source
Comment l'IA à base d'agents permet la navigation robotique généraliste
3Robotics Business Review 

Comment l'IA à base d'agents permet la navigation robotique généraliste

Les systèmes de navigation robotique traditionnels s'appuient sur un pipeline déterministe en cinq étapes séquentielles: perception, localisation, cartographie, planification, contrôle. Des techniques comme le SLAM (Simultaneous Localization and Mapping) permettent à un robot de construire une carte et d'estimer sa position en temps réel, mais ces approches supposent un environnement relativement stable. Dès qu'un robot sort d'un entrepôt balisé ou d'une cellule d'usine pour se retrouver dans un domicile, une zone sinistrée, un chantier ou une opération logistique extérieure, les performances se dégradent: obstacles mobiles, cartes incomplètes, terrains inconnus font échouer les hypothèses de base du pipeline. L'IA agentique propose une rupture architecturale en ajoutant une couche d'orchestration au-dessus du stack existant. Plutôt qu'exécuter une séquence fixe de modules, ces systèmes coordonnent dynamiquement perception, planification et contrôle en fonction de l'objectif courant, via des boucles de raisonnement itératives, une mémoire contextuelle et un usage dynamique d'outils invocables à la demande. L'impact concret pour les intégrateurs et décideurs est structurel. En traitant ses propres capacités comme des outils sélectionnables selon le contexte, un robot agentique peut adapter sa stratégie de navigation sans reprogrammation explicite de chaque scénario, ce qui élargit significativement le périmètre de déploiement réel. Cela remet en question l'hypothèse longtemps dominante selon laquelle la robotique mobile généraliste exige une pré-cartographie exhaustive et des règles explicites pour chaque situation rencontrée. L'approche agentique suggère qu'une part de cette rigidité peut être remplacée par un raisonnement contextuel, rapprochant la navigation robotique de la capacité d'adaptation d'un opérateur humain en terrain inconnu. Pour un COO industriel, cela se traduit par une réduction potentielle des coûts de mise en service et une plus grande tolérance aux variations d'environnement entre sites. Ce changement de paradigme s'inscrit dans une évolution longue. Les architectures réactives des années 1980, popularisées par Rodney Brooks avec la subsumption architecture, répondaient aux capteurs sans modèle global. Les générations suivantes ont introduit SLAM et la planification par graphes, dominant le secteur durant les années 2000-2010. L'émergence des LLMs et des modèles VLA (Vision-Language-Action) à partir de 2022-2023 ouvre une troisième voie. Sur le plan concurrentiel, des acteurs comme Boston Dynamics, Figure AI et Agility Robotics investissent dans ces architectures agentiques pour leurs robots humanoïdes et AMR. En Europe, Enchanted Tools et Wandercraft restent positionnés sur des segments spécialisés, mais l'architecture agentique pourrait modifier les équilibres en abaissant le coût d'adaptation aux environnements non structurés. Les prochaines étapes attendues incluent des benchmarks standardisés pour évaluer la performance hors environnements contrôlés, ainsi que les premières intégrations commerciales dans la logistique du dernier kilomètre et les services à domicile.

UEEnchanted Tools et Wandercraft sont cités comme acteurs européens dont les positions concurrentielles pourraient être réévaluées si l'architecture agentique abaisse le coût d'adaptation aux environnements non structurés.

IA physiqueOpinion
1 source
Optimisation de politique par dérive : apprentissage natif en une étape pour le contrôle robotique en ligne
4arXiv cs.RO 

Optimisation de politique par dérive : apprentissage natif en une étape pour le contrôle robotique en ligne

Une équipe de chercheurs publie sur arXiv (réf. 2604.03540, version 3) un cadre en deux étapes baptisé Drift-Based Policy Optimization (DBPO), conçu pour ramener les politiques génératives de manipulation robotique à une seule passe de réseau au moment de l'inférence. La première brique, la Drift-Based Policy (DBP), exploite des objectifs de "fixed-point drifting" pour internaliser le raffinement itératif directement dans les paramètres du modèle pendant l'entraînement, supprimant ainsi le besoin de débruitage multi-étapes à l'exécution. La seconde brique, DBPO, greffe sur ce backbone une interface stochastique compatible avec le renforcement en ligne, autorisant des mises à jour on-policy stables sans sacrifier la propriété de déploiement en une étape. Sur un robot bi-bras réel, le système atteint 105,2 Hz en boucle fermée, soit une fréquence comparable aux contrôleurs industriels classiques. Sur les benchmarks de manipulation, DBP égale ou dépasse les politiques de diffusion multi-étapes tout en réduisant le coût d'inférence jusqu'à un facteur 100 en nombre d'évaluations réseau (NFEs). Ce résultat touche directement l'un des verrous les plus concrets du déploiement de politiques diffusion en robotique : le coût computationnel à l'inférence. Les politiques de diffusion actuelles (Diffusion Policy, Chi et al., 2023) nécessitent typiquement 10 à 100 NFEs par action, ce qui les rend incompatibles avec du contrôle haute fréquence sans accélérateur dédié. Transférer ce coût vers l'entraînement plutôt que l'inférence change le profil économique du déploiement : un robot en production n'a plus besoin de GPU haut de gamme pour tourner en temps réel. Par ailleurs, coupler une politique one-step avec du renforcement en ligne ouvre la voie à une adaptation continue post-déploiement, hypothèse clé pour les environnements industriels non-structurés. Les politiques de diffusion pour la manipulation ont émergé comme référence de facto depuis 2022-2023, portées par des travaux comme Diffusion Policy ou les architectures VLA de Physical Intelligence (pi0) et d'autres. La course à réduire leur latence a produit plusieurs approches concurrentes : distillation de consistance (Consistency Policy), flow matching en une étape (comme dans certaines variantes de pi0-fast), ou encore les politiques à action chunking. DBPO s'inscrit dans cette compétition avec une approche qui revendique de préserver la modélisation multimodale tout en atteignant la vitesse des méthodes one-shot. Les prochaines étapes naturelles seraient un test à plus grande échelle de tâches et de morphologies robotiques, ainsi qu'une validation sur des plateformes humanoïdes telles que celles de Figure AI ou 1X Technologies, pour lesquelles la fréquence de contrôle est un critère de sécurité, pas seulement de performance.

UELes équipes de recherche et industriels européens en robotique manipulatrice pourraient réduire leurs besoins en accélérateurs GPU à l'inférence en adoptant cette approche, mais aucun acteur français ou européen n'est directement impliqué.

IA physiquePaper
1 source