Aller au contenu principal

Dossier Gemini Robotics

26 articles

Gemini Robotics et sa variante Embodied Reasoning : extension de Gemini par Google DeepMind aux corps robotisés, démos manipulation et raisonnement spatial.

Améliorer les politiques généralistes robotiques grâce au pilotage par inversion de flux
1arXiv cs.RO IA physiqueOpinion

Améliorer les politiques généralistes robotiques grâce au pilotage par inversion de flux

Des chercheurs ont soumis en juin 2026 un article (arXiv:2606.13675) présentant le Flow Reversal Steering (FRS), une méthode pour améliorer les politiques robotiques généralistes entraînées par flow matching. Plutôt que de commander directement un tel modèle sur des tâches difficiles, FRS part d'actions sous-optimales mais plausibles, les fait passer en sens inverse à travers la politique de flow pour retrouver leurs bruits latents, puis les projette vers les modes d'action les plus proches dans l'espace comportemental du généraliste. Évaluée sur plusieurs tâches de manipulation en simulation et en conditions réelles, la méthode produit des gains allant jusqu'à 95 points de pourcentage de taux de succès via distillation par behavioral cloning, avec un temps d'entraînement de la politique auxiliaire inférieur à une minute. FRS convertit aussi des instructions sémantiques grossières - formulées par un humain ou un VLM (vision-language model) - en actions motrices précises, sans fine-tuning supplémentaire du modèle de base. L'enjeu est direct pour le secteur robotique : les politiques généralistes comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) accumulent une large palette de compétences sur des corpus diversifiés, mais peinent à les mobiliser quand les instructions directes échouent sur des tâches nouvelles. FRS comble ce fossé en exploitant la réversibilité propre aux flow matching models, transformant des intentions floues en actions exécutables sans données de démonstration supplémentaires. La capacité à amorcer l'apprentissage par renforcement à partir de connaissances sémantiques est particulièrement notable : la méthode progresse sur plusieurs tâches où le RL standard reste bloqué. Cela trace une voie concrète pour réduire le gap entre simulation et déploiement réel, un verrou persistant pour les intégrateurs industriels. Ce travail s'inscrit dans la dynamique des VLA (vision-language-action models) qui cherchent à relier guidance sémantique et politique de bas niveau. Physical Intelligence (Pi-0, Pi-0.5), Google DeepMind (Gemini Robotics, RT-X) et Berkeley (OpenVLA) explorent des architectures similaires, mais le mécanisme de flow reversal est spécifique aux modèles de flow matching et se distingue des approches par diffusion classique. L'article reste à ce stade un preprint non évalué par les pairs, sans déploiement annoncé sur plateforme commerciale. Les suites naturelles seraient une validation sur des robots industriels ou mobiles et une intégration dans des frameworks ouverts comme LeRobot (Hugging Face) ou OpenPI.

UEL'intégration potentielle dans LeRobot (Hugging Face, Paris) représente un vecteur d'adoption concret pour les équipes françaises et européennes travaillant sur des politiques robotiques open-source, si la méthode est confirmée au-delà du stade preprint.

1 source
GIVE : ancrage des gestes humains dans les modèles vision-langage-action (VLA)
2arXiv cs.RO 

GIVE : ancrage des gestes humains dans les modèles vision-langage-action (VLA)

Une équipe de chercheurs a soumis en juin 2026 sur arXiv un article décrivant GIVE (Gesture Intent via Visual-Semantic Enhancement), une méthode d'intégration de la compréhension gestuelle dans des modèles VLA (Vision-Language-Action) pré-entraînés, sans modification architecturale. Le système repose sur deux voies complémentaires : une voie visuelle superposant squelettes de mains et rayons de bout de doigt sur les images perçues par le robot pour ancrer explicitement l'objet visé, et une voie sémantique générant des descriptions textuelles du geste et de l'instruction de tâche. Testé en conditions réelles d'interaction humain-robot, GIVE améliore la précision de reconnaissance de l'objet cible de 40 % et le taux de succès global des tâches de manipulation de 80 % par rapport au modèle VLA de base, avec une généralisation démontrée sur des configurations spatiales inédites et des participants variés. Ce résultat touche un point sensible de la robotique collaborative : les modèles VLA actuels, qu'il s'agisse d'OpenVLA, de pi-0 de Physical Intelligence ou des modèles RT-2 de Google DeepMind, traitent la manipulation comme un problème purement text-driven. Dès qu'une instruction verbale est ambiguë, plusieurs objets similaires se trouvant dans la scène, le taux d'échec grimpe. GIVE propose une réponse à ce problème d'ancrage de l'intention (intent grounding) sans réentraîner le modèle de base, atout concret pour les équipes d'intégration. Les gains sont mesurés sur des expériences physiques réelles, ce qui renforce la crédibilité du résultat, même si l'article ne publie pas le nombre total d'essais ni la distribution précise des scènes testées. La méthode s'inscrit dans une tendance d'enrichissement des interfaces humain-robot au-delà de la commande vocale, dans un champ où des travaux sur le pointage gestuel et des modèles comme Gemini Robotics de Google ou GR00T N2 de NVIDIA explorent des directions voisines. GIVE se distingue par son approche non-invasive, compatible avec tout VLA pré-entraîné. Aucun déploiement industriel n'est annoncé à ce stade, le travail restant académique. Les suites attendues portent sur des gestes plus complexes, bimanuel ou dynamique, et une évaluation sur des plateformes robotiques mobiles pour valider la généralisation dans des contextes industriels à haute variabilité.

IA physiqueOpinion
1 source
IA incarnée en évolution : Embodied-R1.5 améliore l'intelligence physique grâce aux modèles fondation
3arXiv cs.RO 

IA incarnée en évolution : Embodied-R1.5 améliore l'intelligence physique grâce aux modèles fondation

Une équipe de chercheurs a publié sur arXiv Embodied-R1.5, un modèle de fondation incarné (EFM pour Embodied Foundation Model) de 8 milliards de paramètres intégrant cognition incarnée, planification, auto-correction et pointage d'affordances dans une architecture unifiée, entraîné sur un corpus dépassant 15 milliards de tokens construit via trois pipelines automatisés. Le cadre Planner-Grounder-Corrector (PGC) en boucle fermée permet l'exécution autonome et l'auto-correction sur des tâches longues, soutenu par une recette d'apprentissage par renforcement multi-tâches équilibré pour atténuer les conflits entre sous-domaines hétérogènes. Sur les benchmarks standardisés, Embodied-R1.5 atteint l'état de l'art sur 16 des 24 benchmarks de VLM incarnés, devançant Gemini-Robotics-ER-1.5 de Google DeepMind et GPT-5.4 d'OpenAI. Adapté en VLA (Vision-Language-Action) avec peu de données de fine-tuning, il surpasse pi-0.5 de Physical Intelligence sur quatre suites de benchmarks de manipulation. Des tests zero-shot sur robot réel valident les performances en suivi d'instructions, ancrage d'affordances, manipulation d'objets articulés et tâches longues, les poids, le code d'entraînement et EmbodiedEvalKit, un framework d'évaluation dédié, étant publiés en open source. Qu'un modèle de 8 milliards de paramètres surpasse des systèmes adossés aux ressources de Google et d'OpenAI est un signal notable pour les intégrateurs industriels, car la compacité ouvre la voie à un déploiement embarqué sur plateformes contraintes. L'auto-correction en boucle fermée du PGC répond directement au demo-to-reality gap qui freine la commercialisation des robots polyvalents, tandis que la capacité à fine-tuner en VLA avec peu de données cible le goulot d'étranglement central de la collecte de données de manipulation étiquetées. L'open source complet facilite la comparaison reproductible et devrait accélérer les itérations communautaires, à condition que les performances zero-shot annoncées soient confirmées dans des configurations adversariales que le papier ne documente pas. Embodied-R1.5 s'inscrit dans la vague des modèles de fondation robotiques généraux densifiée depuis RT-2 de Google et OpenVLA, avec pour concurrents directs Physical Intelligence (pi-0, pi-0.5) et Google DeepMind (Gemini Robotics). L'absence d'acteurs européens parmi les concurrents benchmarkés reflète le retard du continent, où des acteurs comme Wandercraft ou Enchanted Tools restent cantonnés à des niches spécialisées. L'approche open source total distingue ce travail des modèles propriétaires de Figure AI (Figure 03) ou de 1X Technologies, positionnant potentiellement Embodied-R1.5 comme base de référence pour les laboratoires et industriels souhaitant spécialiser un EFM sur leurs propres flux de manipulation.

UELes poids et le code d'Embodied-R1.5 publiés en open source constituent une base de référence accessible pour les laboratoires européens (CEA-List, INRIA) souhaitant spécialiser un EFM sur leurs propres flux de manipulation sans dépendre des modèles propriétaires de Google ou OpenAI.

💬 8 milliards de paramètres qui coiffent Gemini Robotics et GPT-5.4 sur leurs propres benchmarks, en open source total, c'est inattendu. L'auto-correction en boucle fermée s'attaque directement au fossé entre la démo en labo et le robot qui tient la route en prod, ce qui est le vrai mur depuis RT-2. Bon, le papier esquive les configurations difficiles, donc on verra ce que ça donne quand la communauté s'en empare.

IA physiqueOpinion
1 source
La robotique ne connaîtra pas de moment Llama bien défini
4Robotics Business Review 

La robotique ne connaîtra pas de moment Llama bien défini

Depuis le début de l'année 2025, les modèles robotiques ouverts se multiplient. Google DeepMind a publié les résultats d'Open X-Embodiment, projet qui a mutualisé des données de manipulation sur des dizaines d'institutions et de morphologies différentes : les expériences RT-X montrent qu'entraîner un modèle sur plusieurs types de robots améliore le transfert, plutôt que de forcer chaque système à apprendre uniquement sur ses propres données. DeepMind a ensuite scindé sa pile en deux sorties distinctes : Gemini Robotics 1.5, un VLA (vision-langage-action) qui convertit entrées visuelles et instructions en commandes moteur, et Gemini Robotics-ER 1.6, positionné plus haut dans la pile, dédié au raisonnement spatial, à la planification et aux appels d'outils. NVIDIA a poussé dans la même direction avec ses releases GR00T et ses modèles Isaac, disponibles notamment via LeRobot sur Hugging Face. OpenVLA, modèle open source à 7 milliards de paramètres entraîné sur 970 000 épisodes de manipulation issus d'Open X-Embodiment, illustre le niveau de maturité désormais accessible. Côté capital, Crunchbase recense près de 14 milliards de dollars investis dans la robotique en 2025 : Skild AI a levé 1,4 milliard pour un modèle multi-morphologie, Physical Intelligence négocie un tour d'un milliard à une valorisation supérieure à 11 milliards, Advanced Machine Intelligence de Yann LeCun a clôturé à 1,03 milliard, et Wayve a bouclé une série D à 1,2 milliard pour la conduite autonome. La comparaison avec Llama, le modèle open source de Meta qui a permis à d'innombrables équipes de déployer un LLM capable sans payer la facture d'entraînement, est séduisante mais trompeuse. Une politique robotique ne transfère pas comme un fichier de poids logiciel : elle nécessite une pile de contrôle locale qui convertit les sorties du modèle en mouvements réels, dans l'enveloppe de sécurité de la cellule, via le contrôleur installé. Le dépôt openpi de Physical Intelligence illustre ce delta concretement : une équipe qui dispose du modèle doit encore faire tourner l'inférence (8 Go de VRAM minimum), affiner sur ses propres données robotiques via LoRA (22,5 Go) ou en full fine-tuning (70 Go), puis valider le résultat sur la machine cible. L'accès aux modèles élargit ce que les robots peuvent tenter ; l'avantage concurrentiel reste dans la capacité à transformer ce comportement en travail fiable en production, avec des journaux de pannes exploitables par un technicien des mois après la mise en service. Le problème structurel qui sépare la robotique du logiciel pur est ce que les praticiens nomment le "site drift" : la dérive entre le robot qui passe la recette d'usine et le robot qui opère dans le process réel du client. La géométrie caméra et la compliance de l'end-effector évoluent après livraison, les références de fixation bougent avec le process client, et la contamination s'accumule sur plusieurs semaines de production jusqu'à rendre les comportements de récupération peu fiables. La randomisation de domaine en simulation couvre de nombreuses variations, mais pas la dérive propre à chaque site. Un quadrupède en banc d'essai peut exécuter un virage à droite proprement et rater son symétrique gauche : les jambes ont atterri dans des régions servo différentes et chargé le corps différemment, si bien que la même commande produit deux résultats distincts. Le code était symétrique ; la mécanique de contact, non. C'est précisément là que s'arrête l'analogie avec Llama : distribuer le modèle était la partie accessible, transformer ce modèle en travail supporté sur des systèmes en clientèle reste la frontière que les 14 milliards de venture capital engagés en 2025 n'ont pas encore résolue.

UEWayve (Royaume-Uni, 1,2 Md$ en série D) est le seul acteur européen cité ; l'argument central sur le 'site drift' et les coûts réels de déploiement physique s'applique directement aux intégrateurs et startups robotiques européens qui envisagent de capitaliser sur les VLA open source.

IA physiqueOpinion
1 source
VLA-Arena : un cadre open source pour évaluer les modèles vision-langage-action (VLA)
5arXiv cs.RO 

VLA-Arena : un cadre open source pour évaluer les modèles vision-langage-action (VLA)

Une équipe de chercheurs a publié VLA-Arena, un framework open-source de benchmark conçu pour évaluer les modèles Vision-Language-Action (VLA), ces politiques robotiques généralisées capables d'interpréter commandes en langage naturel et observations visuelles pour générer des actions motrices. La version 2 du preprint (arXiv 2512.22539v2) présente un protocole structuré autour de 170 tâches, organisées selon quatre dimensions orthogonales : sécurité (Safety), gestion des distracteurs (Distractor), extrapolation hors-distribution (Extrapolation) et planification longue portée (Long Horizon). Chaque tâche existe en trois niveaux de difficulté (L0 à L2), le fine-tuning étant exclusivement réalisé sur L0 afin de tester la capacité de généralisation. En parallèle, des perturbations linguistiques (W0-W4) et visuelles (V0-V4) s'appliquent indépendamment à chaque tâche, permettant une analyse découplée de la robustesse. Les auteurs publient également les datasets VLA-Arena-S/M/L ainsi qu'un leaderboard public. Les résultats de l'évaluation des VLA de l'état de l'art sont sévères et contre-intuitifs pour ceux qui suivent les démonstrations marketing du secteur. Les modèles testés exhibent une forte tendance à la mémorisation plutôt qu'à la généralisation réelle : leurs performances s'effondrent dès que la tâche sort légèrement de la distribution d'entraînement. La robustesse est asymétrique selon l'axe perturbé (visuel vs. linguistique), les contraintes de sécurité sont quasi-ignorées, et la composition de compétences pour les tâches longue portée reste hors de portée de tous les modèles testés. Pour les intégrateurs industriels et les équipes R&D qui envisagent de déployer des VLA en production, ces résultats constituent un signal d'alerte : le "sim-to-real gap" n'est pas résolu, et les capacités affichées en démo ne tiennent pas face à des conditions réelles variables. VLA-Arena arrive dans un contexte de prolifération rapide des VLA généralistes : Physical Intelligence (Pi-0), NVIDIA (GR00T N2), Google DeepMind (RT-2, Gemini Robotics) et OpenVLA font tous état de progrès importants, mais sur des benchmarks hétérogènes et souvent propriétaires, rendant toute comparaison directe impossible. L'absence d'un protocole d'évaluation standardisé est depuis longtemps identifiée comme le principal obstacle à la progression scientifique rigoureuse du domaine. VLA-Arena n'est pas encore un standard industriel adopté, mais sa publication en open-source avec toolchain complet (définition de tâche, évaluation automatisée, datasets) le positionne comme candidat sérieux. Les prochaines étapes dépendront de l'adoption par les équipes qui développent ces modèles, et d'une éventuelle intégration dans les pipelines de validation avant déploiement réel en atelier.

RechercheOpinion
1 source
IA physique : raisonnement, modèles du monde et d'action avec NVIDIA Cosmos 3
6NVIDIA Developer Blog 

IA physique : raisonnement, modèles du monde et d'action avec NVIDIA Cosmos 3

NVIDIA a annoncé Cosmos 3, un modèle fondamental de frontière dédié à l'IA physique, conçu pour doter les robots, les véhicules autonomes et les espaces intelligents d'une capacité de compréhension du monde réel. L'architecture de Cosmos 3 repose sur trois composantes intégrées : des modèles de raisonnement physique, des modèles de monde et des modèles d'action, permettant à un système de percevoir son environnement, d'anticiper les événements à venir et de produire des séquences d'actions adaptées à une incarnation physique et à une tâche spécifiques. Ce type d'approche unifiant raisonnement, simulation et action au sein d'un seul modèle fondamental représente un changement de paradigme pour les intégrateurs robotiques. Jusqu'ici, ces trois briques étaient souvent développées séparément, ce qui générait des lacunes au niveau du transfert sim-to-real. Un modèle entraîné à raisonner sur la physique du monde avant de planifier l'action offre théoriquement une meilleure généralisation sur des tâches non vues en production, bien que les benchmarks industriels indépendants restent à confirmer. NVIDIA avait introduit la plateforme Cosmos en janvier 2025 au CES, positionnant alors ses modèles génératifs de monde comme infrastructure pour les fabricants de robots et les constructeurs automobiles. Cosmos 3 s'inscrit dans cette trajectoire d'itération rapide, face à une concurrence directe : Google DeepMind avec les modèles Gemini Robotics et RT-2, Physical Intelligence (pi) avec Pi-0, et Figure AI avec ses propres VLA. L'enjeu pour NVIDIA est de s'imposer comme couche d'infrastructure fondamentale de l'IA physique, au-delà du seul matériel GPU.

UENVIDIA Cosmos 3 pourrait devenir une couche d'infrastructure fondamentale adoptée par les intégrateurs robotiques européens (ABB, KUKA, Stäubli), mais l'impact réel dépendra des benchmarks industriels indépendants et des conditions d'accès à la plateforme.

💬 Le vrai pari de NVIDIA avec Cosmos 3, c'est de s'imposer comme couche d'infrastructure logicielle de l'IA physique, au-delà du GPU. Raisonner sur la physique avant de planifier l'action, et unifier les trois briques dans un seul fondamental, c'est exactement ce qui manquait pour réduire les galères de transfert sim-to-real qui plombent les déploiements robotiques depuis des années. Sans benchmarks industriels indépendants, ça reste du déclaratif, mais la direction est la bonne.

IA physiqueOpinion
1 source
La recherche NVIDIA montre que des robots entraînés en simulation peuvent accomplir des tâches réelles
7Interesting Engineering 

La recherche NVIDIA montre que des robots entraînés en simulation peuvent accomplir des tâches réelles

NVIDIA a présenté huit travaux de recherche en robotique à l'International Conference on Robotics and Automation (ICRA) 2026, tous centrés sur la réduction du "sim-to-real gap" -- l'écart de performance entre un robot entraîné en simulation et ce même robot confronté au monde physique. Parmi les systèmes mis en avant, COMPASS entraîne des robots exclusivement dans Isaac Lab (le simulateur NVIDIA) avant de transférer les politiques apprises vers des corps physiques différents. Sur 20 essais réels impliquant des robots mobiles autonomes et des humanoïdes, le framework atteint un taux de succès de 80 % en navigation, soit 4,5 fois supérieur aux baselines par imitation learning. Le système Grasp-MPC, dédié à la préhension en environnement encombré, a été entraîné sur 2 millions de trajectoires simulées couvrant 8 000 objets distincts, et atteint 75 % de succès sur des objets inconnus contre 41 % pour les méthodes de référence. Le framework SPARR, appliqué à l'assemblage industriel, découpe la tâche en deux couches -- une politique apprise en sim, corrigée en temps réel sur le hardware réel -- et affiche 38 % de gain sur le taux de succès d'assemblage et 30 % de réduction du temps de cycle par rapport aux baselines zero-shot sim-to-real. Enfin, PEEK améliore l'attention visuelle des robots (filtrage du bruit visuel non pertinent), avec une précision multipliée jusqu'à 41 fois pour des politiques purement simulées. Une collaboration avec Carnegie Mellon, l'Université de l'Utah et l'Université de Sydney a produit SEAL, un framework qui contraint le robot à n'exécuter que les séquences d'actions cohérentes avec son raisonnement planifié. Ces résultats sont significatifs pour les intégrateurs et les décideurs industriels, car ils montrent que le sim-to-real gap -- longtemps considéré comme le verrou structurel de la robotique apprise -- commence à se refermer de façon mesurable, au moins en conditions de laboratoire. Le gain de 30 % sur le temps de cycle (SPARR) est un chiffre qui parle directement aux opérateurs de lignes d'assemblage. Il convient cependant de nuancer : les taux de succès rapportés (75-80 %) sont mesurés dans des protocoles contrôlés par les chercheurs eux-mêmes, sans déploiement industriel validé en production. Les vidéos sélectionnées pour illustrer ces travaux suivent les conventions habituelles des communications académiques, qui ne montrent pas les échecs. La progression reste réelle, mais le passage de 80 % à 99 % de fiabilité -- seuil requis pour la plupart des applications industrielles critiques -- reste un problème ouvert. NVIDIA positionne cette recherche comme la couche logicielle et de simulation de son écosystème robotique plus large, qui inclut Isaac Lab, Isaac GR00T X Embodiment Sim et Omniverse NuRec. La compagnie ne fabrique pas de robots mais ambitionne de devenir l'infrastructure sur laquelle l'industrie entraîne ses systèmes, face à des concurrents comme Google DeepMind (avec ses travaux sur RT-2 et Gemini Robotics), Meta (V-JEPA) et Physical Intelligence (pi0). Sur le segment de la simulation pour la robotique, des acteurs comme Mujoco (DeepMind) et Genesis (MIT/CMU) occupent également le terrain. Les prochaines étapes annoncées par NVIDIA passent par l'extension des datasets ouverts et la montée en échelle des plateformes de simulation, sans timeline de commercialisation précisée pour les frameworks présentés à l'ICRA.

UELes intégrateurs industriels européens en robotique d'assemblage pourraient à terme bénéficier des frameworks sim-to-real NVIDIA (Isaac Lab, SPARR), mais aucun déploiement ni partenariat européen n'est annoncé à ce stade.

💬 Le 30% de gain sur le temps de cycle, c'est le seul chiffre qui va faire bouger un décideur industriel. NVIDIA ne fabrique pas de robots mais joue exactement le même coup qu'avec les GPU : devenir l'infrastructure incontournable avant que le marché soit mature, face à DeepMind, Meta et les autres. Reste que passer de 80% à 99% de fiabilité, le vrai seuil pour les lignes critiques, c'est encore une autre histoire.

IA physiquePaper
1 source
EXPO-FT : affinage par apprentissage par renforcement économe en données pour les modèles vision-langage-action (VLA)
8arXiv cs.RO 

EXPO-FT : affinage par apprentissage par renforcement économe en données pour les modèles vision-langage-action (VLA)

EXPO-FT est un système de fine-tuning par apprentissage par renforcement (RL) destiné à améliorer la fiabilité des politiques robotiques issues de modèles Vision-Langage-Action (VLA) pré-entraînés. Présenté dans un preprint arXiv (2605.25477, mai 2026), le système atteint un taux de réussite parfait : 30 succès sur 30 tentatives sur trois tâches de manipulation exigeantes. Ces tâches incluent guider une guirlande lumineuse dans son connecteur pour la faire s'allumer, frapper une balle de billard dans une poche, et insérer une fleur dans un goulot de bouteille à vin. Les résultats sont obtenus avec seulement 19,1 minutes en moyenne de données collectées sur robot réel, sans recours à la simulation. Le code source est publié en open source. Ce résultat attaque directement le "reliability gap" : l'écart persistant entre les capacités de généralisation des VLA pré-entraînés et leur fiabilité effective en conditions opérationnelles. Les modèles comme pi-0 (Physical Intelligence), OpenVLA (UC Berkeley) ou RT-2 (Google DeepMind) montrent une bonne généralisation entre tâches, mais peinent à dépasser les seuils de succès nécessaires en production industrielle. EXPO-FT propose une voie médiane : ni repartir de zéro avec du RL pur, coûteux en données et instable, ni se limiter au fine-tuning supervisé qui plafonne rapidement. En moins de 20 minutes de données réelles, le système atteint la perfection sur des exercices combinant précision millimétrique, dynamique de mouvement et robustesse aux variations d'état initial. Pour un intégrateur ou un COO déployant des bras robotiques sur ligne, c'est un signal que le commissioning par RL pourrait se mesurer en minutes plutôt qu'en jours, si ces résultats se confirment hors conditions de laboratoire. Ce travail s'inscrit dans la convergence accélérée entre LLM fondationnels et contrôle robotique amorcée depuis 2023. Google DeepMind avec Gemini Robotics, Physical Intelligence avec pi-0 et Covariant ont démontré que des politiques pré-entraînées à grande échelle offrent une base solide, mais la question du "last mile" restait ouverte. EXPO-FT y répond en publiant une infrastructure de RL finetuning stable et accessible. Les concurrents directs sur ce créneau sont les approches de reinforcement finetuning développées chez 1X Technologies et dans plusieurs labos académiques américains. Côté européen, des acteurs comme Enchanted Tools ou Wandercraft n'ont pas encore publié de travaux équivalents sur le RL finetuning de VLA, soulignant un écart notable avec la recherche américaine sur ce segment précis.

UEL'absence de travaux équivalents côté européen (Enchanted Tools, Wandercraft) souligne un retard compétitif de l'écosystème EU sur le RL finetuning de VLA, segment clé pour industrialiser les politiques robotiques.

💬 30 sur 30, moins de 20 minutes de données réelles, code open source. C'est exactement le type de résultat qu'on attendait pour débloquer le commissioning robotique, parce que le vrai blocage n'a jamais été la généralisation (pi-0 et RT-2 l'ont prouvé) mais la fiabilité en conditions opérationnelles, ce fameux écart qui rend les démos impressionnantes et les déploiements industriels galères. Bon, sur le papier c'est parfait, mais je veux voir ça tenir sur une ligne d'assemblage qui ne ressemble pas à un setup de labo.

IA physiqueOpinion
1 source
Le syndrome du béni-oui-oui : évaluer l'abstention dans les agents robotiques incarnés
9arXiv cs.RO 

Le syndrome du béni-oui-oui : évaluer l'abstention dans les agents robotiques incarnés

Une équipe du laboratoire PursecLab a publié en mai 2026 un article documentant ce qu'ils nomment le "syndrome du yes-man" dans les VLM (vision-language models) utilisés comme planificateurs pour robots incarnés : ces modèles exécutent des instructions même lorsqu'elles sont physiquement infaisables, ambiguës ou fondées sur de fausses prémisses. Pour mesurer cette faille, les chercheurs ont développé RoboAbstention, un benchmark de 6 069 instructions générées à partir d'images issues de cinq jeux de données robotiques, via un pipeline en trois phases : ancrage visuel structuré, dérivation déterministe de contraintes physiques, et génération contrôlée par gabarits par catégorie. Les résultats sont sévères : Gemini 2.5 Flash, meilleur modèle général testé, n'abstient que dans 39,0 % des cas où il devrait refuser. Gemini Robotics ER 1.6 Preview, planificateur dédié à la robotique incarnée, tombe à 16,5 %. L'application de techniques de "defensive prompting" et d'in-context learning remonte ces taux à 93,6 % pour Gemini Robotics ER et 88,6 % pour GPT-5.4 Mini, sans résoudre entièrement le problème. Ce comportement représente un risque opérationnel concret : un robot qui ne détecte pas les limites d'une instruction peut endommager des équipements, violer des consignes de sécurité, ou échouer silencieusement sans signal d'erreur exploitable. La taxonomie proposée distingue quatre cas légitimes d'abstention - instruction ambiguë, contrainte physique violée, prémisse factuelle fausse, contexte sensoriel insuffisant. Le fait que des modèles dotés de raisonnement avancé échouent massivement démontre que la capacité à "savoir refuser" n'émerge pas naturellement avec la montée en puissance des VLM, y compris ceux dédiés à la robotique. Les benchmarks d'abstention existants portaient exclusivement sur des LLM en contexte textuel, ignorant les contraintes perceptuelles propres aux environnements physiques - c'est le vide que comble RoboAbstention. À mesure que les architectures VLA (Vision-Language-Action) se rapprochent des déploiements industriels réels, la validation comportementale avant mise en service devient un critère incontournable pour intégrateurs et décideurs industriels. Le benchmark est open-source sur purseclab.github.io/RoboAbstention, directement utilisable comme outil d'audit pré-déploiement. Aucun acteur européen n'est impliqué dans cette étude. Les prochaines étapes logiques pointent vers le fine-tuning ciblé sur l'abstention, les correctifs au niveau du prompt ayant montré leurs limites structurelles.

UELes intégrateurs européens déployant des systèmes VLA en environnement industriel devront probablement intégrer des outils d'audit comportemental comme RoboAbstention pour répondre aux exigences de sécurité de l'AI Act applicables aux systèmes robotiques autonomes.

RechercheOpinion
1 source
OxyGen : gestion unifiée du cache KV pour l'inférence de modèles VLA en parallélisme multi-tâches
10arXiv cs.RO 

OxyGen : gestion unifiée du cache KV pour l'inférence de modèles VLA en parallélisme multi-tâches

Une équipe de chercheurs propose OxyGen, un système de gestion unifiée du cache KV (Key-Value) pour l'inférence des modèles VLA (Vision-Language-Action) sous parallélisme multi-tâches, décrit dans un preprint arXiv (2503.14371). Le travail cible en particulier π₀.₅, le modèle VLA de type Mixture-of-Transformers (MoT) développé par Physical Intelligence, une startup robotique fondée en 2023 par d'anciens chercheurs de Google et DeepMind. Sur un GPU NVIDIA GeForce RTX 4090, OxyGen atteint jusqu'à 3,7 fois la vitesse d'exécution par rapport à un système isolé classique, tout en maintenant simultanément un débit de plus de 200 tokens/s en génération de langage et une fréquence d'action de 70 Hz. Ces résultats ont également été validés sur un robot humanoïde physique embarquant un Jetson AGX Thor, la carte de calcul ciblée par NVIDIA pour les déploiements robotiques edge. Le problème que résout OxyGen est concret : lorsqu'un agent robotique doit exécuter simultanément plusieurs tâches (manipulation, conversation, mise à jour mémoire) à partir d'une même observation visuelle partagée, les systèmes d'inférence existants recalculent indépendamment le cache KV pour chaque tâche, générant une redondance coûteuse et une contention de ressources. Les auteurs identifient la gestion isolée des caches KV comme la cause racine et proposent deux optimisations clés : le partage cross-tâches du cache KV, qui élimine le recalcul des tokens d'observation lors du prefill, et le batching continu inter-frames, qui désolidarise la génération de langage à longueur variable de la génération d'actions à cadence fixe. Cette architecture est particulièrement structurante pour les intégrateurs qui cherchent à déployer des VLAs sur du matériel embarqué sans recourir à des serveurs GPU distants, un verrou majeur pour la commercialisation des robots à intelligence embarquée. Les modèles VLA de type MoT, dont π₀ (publié en octobre 2024) et π₀.₅ sont les représentants les plus visibles, routent les sorties hétérogènes vers des blocs transformer spécialisés tout en partageant un encodeur d'observation commun, ce qui rend techniquement possible le partage de cache KV inter-tâches proposé par OxyGen. Sur le plan concurrentiel, ce type d'optimisation d'inférence concerne aussi les VLAs de Google DeepMind (Gemini Robotics), OpenVLA, ainsi que les projets internes de Tesla pour Optimus Gen 3. Il s'agit à ce stade d'une contribution de recherche sans déploiement industriel annoncé, mais la validation sur robot réel avec Jetson AGX Thor embarqué indique une trajectoire claire vers le déploiement on-device à grande échelle.

IA physiqueOpinion
1 source
MolmoAct2 : un modèle de raisonnement d'action pour le déploiement réel
11arXiv cs.RO 

MolmoAct2 : un modèle de raisonnement d'action pour le déploiement réel

L'Allen Institute for Artificial Intelligence (AllenAI) a publié MolmoAct2 en mai 2025, un modèle VLA (Vision-Language-Action) entièrement open source conçu pour le déploiement robotique en conditions réelles. Cinq contributions structurent le système : MolmoER, un backbone visio-linguistique entraîné sur 3,3 millions d'exemples spécialisés en raisonnement spatial et incarné ; MolmoAct2-BimanualYAM, 720 heures de trajectoires de manipulation bimanuelle téléopérées sur plateformes à coût modéré (SO100/101 et sous-ensembles Franka DROID), le plus grand corpus bimanuel ouvert à ce jour ; OpenFAST, un tokeniseur d'actions open weight couvrant cinq types d'embodiments ; une architecture hybride couplant un expert à actions continues par flow-matching à un VLM à tokens discrets via conditionnement KV-cache couche par couche ; et MolmoThink, qui ne recalcule les tokens de profondeur géométrique que pour les zones de scène modifiées entre deux pas de temps, réduisant la latence d'inférence. Sur sept benchmarks mêlant simulation et environnements réels, MolmoAct2 surpasse Pi-0.5 de Physical Intelligence ; MolmoER dépasse GPT-5 et Gemini Robotics ER-1.5 d'Alphabet sur treize benchmarks de raisonnement incarné. Poids, code et données d'entraînement sont publiés intégralement. La publication s'attaque à quatre verrous concrets du déploiement des VLA : modèles frontier fermés, dépendance à du matériel onéreux, latence prohibitive des politiques augmentées par raisonnement, et taux de succès trop bas pour un usage fiable en production. La mise à disposition simultanée des poids, du code d'entraînement et des données complètes reste rare dans un domaine largement dominé par le propriétaire. Ces 720 heures de données sur plateformes abordables élargissent l'accès à un corpus bimanuel jusqu'ici réservé à des setups coûteux. MolmoThink représente une approche concrète pour rendre le raisonnement géométrique compatible avec les contraintes temps-réel des contrôleurs embarqués. Il faut cependant souligner que ces performances sont mesurées sur benchmarks académiques : aucun déploiement industriel validé n'est annoncé dans cet article. AllenAI, institut non lucratif cofondé par Paul Allen à Seattle, avait publié le modèle Molmo fin 2024 avant d'étendre ses travaux au contrôle robotique avec MolmoAct. MolmoAct2 s'inscrit dans un paysage VLA dominé par des acteurs fermés : Physical Intelligence (Pi-0, Pi-0.5), Google DeepMind (Gemini Robotics, RT-2) et des équipes d'OpenAI dont les développements robotiques restent non publiés. Dans l'espace open source, il concurrence OpenVLA et Octo, avec l'avantage d'un corpus bimanuel inédit et d'un tokeniseur multi-embodiments standardisé. Aucun pilote commercial n'est annoncé ; la publication cible en priorité les équipes universitaires et les startups robotiques cherchant à s'affranchir de la dépendance aux modèles propriétaires.

UELa publication intégrale des poids, du code et des données réduit la dépendance des équipes universitaires et startups européennes aux modèles VLA propriétaires, offrant un accès immédiat au plus grand corpus bimanuel ouvert à ce jour.

💬 AllenAI publie les poids, le code et les données d'entraînement, et ça reste rarissime dans un domaine où les gros jouent à guichet fermé. 720 heures de manipulation bimanuelle sur du matériel accessible, un tokeniseur multi-embodiments open weight, et des scores au-dessus de Pi-0.5 et GPT-5 sur les benchmarks incarnés : les startups robotiques qui n'ont pas le budget Physical Intelligence vont s'en saisir. Bon, aucun déploiement industriel validé pour l'instant.

IA physiqueOpinion
1 source
L'IA physique soulève des questions de gouvernance pour les systèmes autonomes
12AI News 

L'IA physique soulève des questions de gouvernance pour les systèmes autonomes

La convergence de l'intelligence artificielle et des systèmes physiques pose des questions de gouvernance inédites pour les entreprises, les régulateurs et les ingénieurs. En 2024, la Fédération internationale de la robotique recensait 542 000 robots industriels installés dans le monde, soit plus du double du niveau enregistré dix ans plus tôt. Les projections tablent sur 575 000 unités en 2025 et plus de 700 000 d'ici 2028. Dans ce contexte, le marché de ce que les analystes appellent désormais la "Physical AI" -- robotique, edge computing et machines autonomes -- était estimé à 81,64 milliards de dollars en 2025 par Grand View Research, avec des projections atteignant 960,38 milliards en 2033. En mars 2025, Google DeepMind a franchi une étape concrète en lançant Gemini Robotics et Gemini Robotics-ER, deux modèles construits sur Gemini 2.0 et conçus pour le contrôle direct de robots et le raisonnement spatial. En avril 2026, une nouvelle version, Gemini Robotics-ER 1.6, a été mise en préversion via l'API Gemini, avec des capacités renforcées de planification de tâches, de détection de succès et de raisonnement par étapes intermédiaires. L'enjeu dépasse largement celui de l'automatisation logicielle classique. Lorsqu'un modèle de langage produit une réponse incorrecte, l'erreur reste dans le domaine informationnel. Lorsqu'un modèle piloté un robot, une sortie erronée peut se traduire par un mouvement physique dans un environnement partagé avec des humains ou connecté à des équipements industriels critiques. Google DeepMind identifie trois propriétés fondamentales pour des robots véritablement utiles : la généralité (capacité à traiter des objets et environnements inconnus), l'interactivité (adaptation aux instructions humaines et aux conditions changeantes), et la dextérité (précision des gestes physiques). Des systèmes comme Gemini Robotics peuvent suivre des instructions en langage naturel et exécuter des séquences complexes -- plier du papier, emballer des objets, manipuler des éléments jamais vus à l'entraînement. Mais cette même flexibilité complique la définition de limites de sécurité claires et de procédures d'arrêt d'urgence. Derrière la performance technique se profile un problème de gouvernance systémique encore non résolu. Contrairement aux logiciels, les systèmes physiques autonomes opèrent dans des espaces réels, soumis à des normes de sécurité industrielles, de responsabilité civile et de certification qui n'ont pas été conçues pour des agents capables de raisonner et de décider de façon autonome. La mise à disposition de Gemini Robotics-ER 1.6 via l'API Gemini rapproche le développement de ces systèmes des environnements de tests accessibles aux développeurs, mais transfère aussi une partie de la responsabilité vers les intégrateurs. Le secteur se retrouve face à une question centrale : qui valide, surveille et peut arrêter un agent physique lorsque son comportement s'écarte des limites prévues ? Les réponses réglementaires et industrielles à cette question seront déterminantes pour le déploiement à grande échelle de la Physical AI dans les prochaines années.

UELes industriels et régulateurs européens devront réviser les cadres de responsabilité civile, de certification et de sécurité des machines pour couvrir des agents physiques autonomes capables de raisonner, un vide que l'AI Act actuel n'adresse pas encore directement.

IA physiqueOpinion
1 source
MODEX 2026 : retour sur le salon
13Robotics Business Review 

MODEX 2026 : retour sur le salon

MODEX 2026 s'est tenu à Atlanta avec plus de 1 000 exposants et environ 50 000 participants, confirmant sa place de principal salon supply chain en Amérique du Nord. Les éditeurs Eugene Demaitre (The Robot Report / Automated Warehouse) et Sarah Wynn (Packaging OEM) y ont recensé plusieurs dynamiques : montée en puissance des ASRS (systèmes automatisés de stockage et récupération) avec AutoStore et Attabotics dans une concurrence accrue, démonstrateurs de déchargement de camions signés Boston Dynamics, Pickle Robot et Slip Robotics, et manipulateurs mobiles Omron sur le segment intralogistique. FANUC présentait ses "rainbow pallets" développés avec Angelini Technologies, aux côtés de capteurs SICK et des solutions picking de Brightpick, Locus Robotics et Ocado. En marge du salon, deux annonces ont concentré l'attention. Skild AI a acquis la division robotique de Zebra Technologies, héritière de Fetch Robotics : selon Deepak Pathak, co-fondateur et CEO, "la Fetch Team est la principale raison de l'acquisition", pour ses années d'expérience de déploiement terrain. Skild prévoit de combiner son IA hardware-agnostic avec la plateforme d'orchestration Symmetry de Zebra, maintenir le support de la base installée Fetch, et développer de nouveaux produits entrepôt. Boston Dynamics a également annoncé l'intégration de Gemini Robotics ER 1.6 de Google DeepMind dans sa plateforme Orbit AIVI-Learning, promettant à Spot une capacité de raisonnement visuo-spatial, de planification de tâches et de détection de succès. L'acquisition Fetch-Skild est la pièce la plus structurante : elle permet à Skild de court-circuiter des années de déploiement terrain en récupérant directement l'équipe et la base client. Pour les intégrateurs, cela signifie un interlocuteur unifié sur l'IA embarquée, l'orchestration fleet-level et le support opérationnel, ce qui simplifie l'intégration mais réduit mécaniquement la concurrence entre briques logicielles. L'annonce Boston Dynamics-Google reste, elle, au stade partenarial : aucune métrique de performance industrielle n'a été publiée sur des cycles réels, et les capacités annoncées pour Gemini Robotics ER 1.6 (raisonnement spatial, task planning, success detection) sont pour l'instant documentées en conditions contrôlées. Fetch Robotics avait été racheté par Zebra Technologies en 2021 pour environ 290 millions de dollars ; cette cession à Skild marque une sortie discrète de Zebra du marché robotique autonome, trois ans après une intégration qui n'a pas tenu ses promesses de synergies. Skild AI, fondé par les anciens chercheurs de CMU Deepak Pathak et Abhinav Gupta, avait levé 300 millions de dollars en 2024 pour déployer son modèle de fondation multi-embodiment à travers différentes plateformes matérielles. Le partenariat Boston Dynamics-Google DeepMind s'inscrit dans la stratégie Gemini Robotics annoncée début 2025, qui consiste à diffuser les modèles VLA (Vision-Language-Action) dans des robots commerciaux via des OEM partenaires. Locus Robotics, concurrent direct sur le segment AMR picking, traverse des difficultés financières depuis 2023, ce qui redistribue les cartes sur ce segment précisément.

UELes opérateurs européens équipés de robots Fetch devront désormais s'adresser à Skild AI pour le support et les évolutions de leur parc installé, suite à l'acquisition de la division robotique de Zebra Technologies.

AutreActu
1 source
Le nouveau modèle de Google rend les cerveaux robotiques un peu plus intelligents
14The Information AI 

Le nouveau modèle de Google rend les cerveaux robotiques un peu plus intelligents

Google DeepMind a publié cette semaine Gemini Robotics-ER-1.6, un nouveau modèle de vision et de langage conçu pour aider les robots à interpréter leur environnement. Pour illustrer ses capacités, Boston Dynamics, qui dispose d'un accord pour intégrer Gemini dans ses robots humanoïdes, a publié une vidéo de ses robots quadrupèdes utilisant le modèle pour lire un thermomètre lors d'une inspection dans une installation industrielle. Selon les benchmarks internes de Google, les gains restent modestes sur un seul flux caméra : le modèle n'améliore que marginalement la capacité du robot à détecter la fin d'une tâche par rapport aux versions précédentes. En revanche, les performances progressent nettement lorsque le robot exploite plusieurs flux caméra simultanément. C'est précisément là que réside l'enjeu pratique : la majorité des environnements robotiques industriels, qu'il s'agisse d'usines ou d'entrepôts, s'appuient sur plusieurs points de vue combinés, comme une caméra en hauteur et une caméra fixée sur le bras du robot. Le système doit être capable de fusionner ces perspectives pour construire une compréhension cohérente de ce qu'il accomplit et savoir quand la tâche est terminée. Ce lancement s'inscrit dans une course intense entre les grands laboratoires d'IA pour doter les robots d'une intelligence de perception plus robuste. Google DeepMind et Boston Dynamics ont formalisé leur partenariat autour de Gemini pour les robots humanoïdes, signalant une convergence entre les modèles de fondation et la robotique physique. Si les progrès annoncés restent incrémentaux, l'amélioration sur les configurations multi-caméras est directement applicable aux déploiements industriels existants, ce qui pourrait accélérer l'adoption de robots autonomes dans des environnements de travail réels. Les prochaines versions du modèle seront à surveiller pour évaluer si ces gains se traduisent en performances significatives sur des tâches complexes en conditions réelles.

HumanoïdesActu
1 source
Des robots quadrupèdes lisent des jauges et thermomètres grâce à Google Gemini
15Ars Technica AI 

Des robots quadrupèdes lisent des jauges et thermomètres grâce à Google Gemini

Les chiens robots de Boston Dynamics, comme le quadrupède Spot, sont désormais capables de lire avec précision des thermomètres analogiques et des manomètres lors de leurs rondes dans les usines et entrepôts. Cette avancée repose sur le nouveau modèle d'IA robotique de Google DeepMind, baptisé Gemini Robotics-ER 1.6, annoncé le 14 avril 2026. Ce modèle agit comme un "moteur de raisonnement de haut niveau pour robot", capable de planifier et d'exécuter des tâches complexes impliquant une compréhension fine de l'environnement physique. Il permet notamment de déchiffrer des instruments de mesure comprenant plusieurs aiguilles, des niveaux de liquide, des graduations et du texte, ainsi que d'effectuer des inspections visuelles via des hublots transparents donnant accès à l'intérieur de cuves et de tuyauteries. Cette capacité de "raisonnement incarné" représente un saut qualitatif important pour l'automatisation industrielle. Jusqu'ici, lire un manomètre analogique ou interpréter un niveau dans un réservoir exigeait une intervention humaine ou des capteurs dédiés. Avec Gemini Robotics-ER 1.6, un robot comme Spot peut désormais effectuer des rondes d'inspection autonomes dans des environnements industriels complexes sans infrastructure supplémentaire, réduisant potentiellement les coûts de maintenance et les risques pour les opérateurs humains dans des zones dangereuses. Ce développement s'inscrit dans la collaboration continue entre Google DeepMind et Boston Dynamics, entreprise détenue par le constructeur automobile coréen Hyundai Motor Group. Hyundai teste activement des robots bipèdes et quadrupèdes dans ses usines d'assemblage automobile, faisant de ces environnements un terrain d'expérimentation privilégié. La course à l'IA robotique s'intensifie entre les grands acteurs technologiques, et l'intégration de modèles de vision multimodaux puissants comme Gemini dans des robots physiques ouvre la voie à des inspecteurs autonomes capables d'opérer dans n'importe quelle installation industrielle existante, sans modification matérielle.

UELes industriels européens pourraient adopter cette technologie pour automatiser les rondes d'inspection sans modifier leur infrastructure existante, mais aucune entreprise ou institution française/européenne n'est directement impliquée.

IA physiqueActu
1 source
Google DeepMind publie Gemini Robotics-ER 1.6 : raisonnement incarné amélioré et lecture d'instruments pour l'IA physique
16MarkTechPost 

Google DeepMind publie Gemini Robotics-ER 1.6 : raisonnement incarné amélioré et lecture d'instruments pour l'IA physique

Google DeepMind a publié Gemini Robotics-ER 1.6, une mise à jour majeure de son modèle de raisonnement incarné destiné à servir de cerveau cognitif aux robots évoluant dans des environnements physiques réels. Ce modèle ne contrôle pas directement les membres d'un robot, c'est le rôle du modèle jumeau Gemini Robotics 1.5, dit VLA (vision-language-action), qui traduit les instructions en commandes motrices. Gemini Robotics-ER 1.6 joue plutôt le rôle du stratège : il analyse l'espace, planifie les tâches, détecte les succès et peut appeler des outils externes comme Google Search ou des fonctions définies par l'utilisateur. Par rapport à la version 1.5, la nouvelle itération améliore nettement les capacités de raisonnement spatial et physique, pointage précis au pixel près, comptage d'objets, raisonnement relationnel ("l'objet le plus petit", "déplacer X vers Y"), et introduit une fonctionnalité entièrement nouvelle : la lecture d'instruments analogiques. L'impact de ces améliorations est concret et mesurable. Dans les benchmarks internes, Gemini Robotics-ER 1.6 identifie correctement le nombre de marteaux, ciseaux, pinceaux, pinces et outils de jardin présents dans une scène, et refuse de pointer des objets absents de l'image, là où la version 1.5 hallucine une brouette inexistante et rate plusieurs objets. Cette fiabilité est critique : dans un pipeline robotique, une fausse détection d'objet provoque des erreurs en cascade, le robot tentant d'interagir avec du vide. La détection de succès multi-vues, savoir quand une tâche est réellement terminée en fusionnant plusieurs flux caméra simultanément, améliore également la capacité du système à décider entre relancer une tentative échouée ou passer à l'étape suivante. La lecture d'instruments, elle, permet pour la première fois à un robot de lire un cadran analogique, un thermomètre ou un manomètre sans avoir besoin que l'instrument soit numérique. Cette publication s'inscrit dans une course effrénée à l'IA physique, où Google DeepMind affronte des acteurs comme Figure AI, Physical Intelligence ou Boston Dynamics sur le terrain de la robotique généraliste. L'architecture duale stratège/exécuteur choisie par DeepMind tranche avec les approches bout-en-bout de certains concurrents, pari sur une meilleure modularité et une plus grande capacité à intégrer des outils tiers. La lecture d'instruments ouvre des perspectives industrielles immédiates : inspection d'équipements dans des usines ou des centrales, environnements où la numérisation complète des capteurs reste coûteuse. Gemini Robotics-ER 1.6 est disponible via Google AI Studio et l'API Gemini, et DeepMind a annoncé un programme d'accès anticipé pour les entreprises souhaitant l'intégrer dans leurs pipelines robotiques.

UELes capacités de lecture d'instruments analogiques et d'inspection visuelle ouvrent des débouchés immédiats pour les industriels européens (usines, centrales) souhaitant déployer des robots dans des environnements non numérisés.

HumanoïdesOpinion
1 source
Boston Dynamics et Google DeepMind apprennent à Spot à raisonner
17IEEE Spectrum Robotics 

Boston Dynamics et Google DeepMind apprennent à Spot à raisonner

Boston Dynamics annonce l'intégration de Gemini Robotics-ER 1.6, le modèle de raisonnement incarné de Google DeepMind, dans son robot quadrupède Spot. Ce partenariat, rendu public en avril 2026, dote Spot de capacités de raisonnement autonome pour des missions d'inspection industrielle : détection de débris ou de fuites dangereuses, lecture de jauges et de regards de contrôle, et recours à des modèles vision-langage-action (VLA) lorsque la compréhension de l'environnement l'exige. Spot est aujourd'hui déployé à plusieurs milliers d'unités sur sites industriels, ce qui en fait l'une des rares plateformes à pattes ayant atteint une échelle commerciale réelle. Marco da Silva, vice-président et directeur général de Spot chez Boston Dynamics, parle de "réaction aux défis du monde réel de façon entièrement autonome", formulation prudente qui évite les superlatifs, mais qui reflète une ambition opérationnelle concrète. L'enjeu central de cette intégration est la réduction du fossé entre instruction humaine et exécution robot. Carolina Parada, responsable robotique chez Google DeepMind, résume le critère de réussite : "le système doit répondre comme un humain le ferait." Ce standard est plus exigeant qu'il n'y paraît. La vidéo de démonstration de Boston Dynamics l'illustre sans le vouloir : lorsqu'on demande à Spot de "recycler les canettes du salon", il saisit la canette de côté, ce qui serait problématique si elle contenait encore du liquide. Un humain éviterait instinctivement cette erreur en mobilisant des décennies d'expérience incarnée. Cet écart entre raisonnement déclaré et comportement effectif est précisément ce que DeepMind cherche à combler avec son benchmark ASIMOV, un corpus d'exemples en langage naturel décrivant ce qu'un robot ne devrait pas faire, ancré dans une logique de sécurité sémantique. La version actuelle de Spot n'utilise pas encore ces modèles pour la manipulation, mais les versions futures sont censées intégrer ce raisonnement sur la manière sûre de tenir les objets. Boston Dynamics dispose d'une longueur d'avance opérationnelle que peu de concurrents peuvent revendiquer : là où Figure, Agility Robotics ou Apptronik parlent encore de pilotes et de rampes de déploiement, Spot tourne en production dans des raffineries, des usines et des infrastructures critiques depuis plusieurs années. Le choix de Gemini Robotics-ER 1.6 comme couche de raisonnement haut niveau s'inscrit dans la stratégie de Google DeepMind de positionner ses modèles incarnés comme infrastructure pour l'industrie robotique, face aux approches concurrentes de Physical Intelligence (Pi-0), de NVIDIA (GR00T N2) ou de l'écosystème ROS2 open-source. Le vrai test ne sera pas la démo en salon, mais la fiabilité en environnement industriel bruité, sous contraintes de cycle et de disponibilité opérationnelle, des conditions que les benchmarks académiques ne capturent pas encore fidèlement.

UELes opérateurs industriels européens utilisant Spot (raffineries, infrastructures critiques) bénéficieront indirectement de ces capacités de raisonnement autonome, sans impact réglementaire ou stratégique direct pour la France ou l'UE.

IA physiqueOpinion
1 source
Gemini Robotics-ER 1.6 : le jour où les robots ont enfin commencé à penser
18Le Big Data 

Gemini Robotics-ER 1.6 : le jour où les robots ont enfin commencé à penser

Google DeepMind a lancé le 14 avril 2026 Gemini Robotics-ER 1.6, une mise à jour majeure de son modèle de raisonnement incarné destiné à la robotique. Cette nouvelle version améliore significativement la compréhension visuelle et spatiale des robots, leur permettant de planifier et d'exécuter des tâches plus complexes avec une autonomie accrue. Concrètement, le modèle est capable d'identifier des points de préhension optimaux sur des objets variés, de traiter des informations provenant de plusieurs angles simultanément grâce à la compréhension multi-vues, et de détecter si une tâche a été accomplie avec succès. Il surpasse ses prédécesseurs directs, Gemini Robotics-ER 1.5 et Gemini 3.0 Flash, notamment sur la lecture des espaces tridimensionnels et l'interprétation des mouvements. Le modèle est disponible dès maintenant via l'API Gemini et Google AI Studio pour les développeurs souhaitant l'intégrer dans leurs projets. Cette avancée marque un tournant dans la manière dont les robots interagissent avec le monde physique. Jusqu'ici, les systèmes automatisés suivaient des instructions rigides, incapables de s'adapter à des environnements imprévus. Avec ER 1.6, les machines peuvent interpréter des jauges et des indicateurs industriels, cartographier des trajectoires en tenant compte des contraintes environnementales, et valider elles-mêmes les résultats de leurs actions. Ce niveau de raisonnement ouvre la voie à des déploiements dans des contextes industriels réels, où les situations ambiguës ou complexes sont la norme. Google insiste également sur les améliorations en matière de sécurité : les tests montrent une meilleure conformité dans des scénarios de raisonnement spatial sensibles, un critère essentiel pour tout déploiement hors laboratoire. Le projet s'inscrit dans une course mondiale à la robotique intelligente où Google DeepMind s'impose comme acteur central. La collaboration avec Boston Dynamics, notamment sur la lecture d'instruments, illustre la convergence entre intelligence artificielle de pointe et plateformes robotiques éprouvées. En ouvrant l'accès via son API, Google mise sur un écosystème de développeurs pour accélérer l'expérimentation et multiplier les cas d'usage, de la logistique à la chirurgie assistée. Cette stratégie d'ouverture contraste avec des approches plus fermées, et positionne Gemini Robotics comme une infrastructure sur laquelle d'autres peuvent construire. Les prochains mois diront si ce pari sur le raisonnement incarné suffit à distancer des concurrents comme Figure AI, 1X ou Tesla, qui misent eux aussi sur des robots capables de comprendre leur environnement plutôt que de simplement l'exécuter.

HumanoïdesActu
1 source
Agile Robots et Google DeepMind s'associent pour déployer des robots dopés à l'IA dans les usines
19The Decoder 

Agile Robots et Google DeepMind s'associent pour déployer des robots dopés à l'IA dans les usines

Agile Robots et Google DeepMind s'associent pour développer des robots industriels alimentés par l'IA. La société munichoise intégrera les modèles Gemini Robotics de DeepMind dans ses équipements pour des applications en milieu industriel.

UEAgile Robots, entreprise munichoise, intègre les modèles DeepMind dans ses robots industriels, ce qui concerne directement le tissu industriel européen et les perspectives d'automatisation en Europe.

IA physiqueActu
1 source