Aller au contenu principal

Dossier NVIDIA GR00T — page 2

534 articles · page 2 sur 11

NVIDIA GR00T (Generalist Robot 00 Technology) : modèle fondation pour humanoïdes, intégration Isaac et Cosmos, partenariats Apptronik, Agility, 1X.

EA-WM : modèles du monde sensibles aux événements pour la manipulation à long horizon
51arXiv cs.RO RechercheOpinion

EA-WM : modèles du monde sensibles aux événements pour la manipulation à long horizon

Des chercheurs ont soumis EA-WM (Event-Aware World Model) sur arXiv le 12 juin 2026 (arXiv:2606.13053), un cadre de planification robotique pour la manipulation à long horizon. Le système articule deux couches : une dynamique en espace de caractéristiques visuelles gelée (pretrained visual features) sur laquelle vient se greffer un module de prédiction et vérification d'événements ancré dans la spécification de tâche. EA-WM déroule des futurs candidats dans cet espace, les décode en états d'événements structurés (objet déplacé, état de contact changé, prédicat de placement satisfait), puis les score selon quatre critères : progression de la tâche, cohérence sémantique, faisabilité physique et incertitude. Le vérificateur guide l'exploration par échantillonnage et filtre les actions candidates. Dans le benchmark LIBERO, scénario wine-rack sensible aux contacts, il sélectionne parmi des propositions générées par PPO (Proximal Policy Optimization). Les évaluations couvrent navigation, manipulation d'objets déformables, contraintes murales et instructions en langage naturel. L'apport principal est de combler un angle mort structurel des modèles du monde visuels : prédire un futur visuellement plausible ne garantit pas qu'il satisfasse des conditions relationnelles de tâche (prédicats du type "le tiroir est ouvert", "l'objet est posé à l'emplacement cible"). En ajoutant une vérification explicite au niveau événementiel, EA-WM rend les modèles du monde en espace latent à la fois plus interprétables et mieux alignés avec la progression réelle des tâches, sans exiger de nouvelles données de démonstration massives. Pour un intégrateur ou un ingénieur robotique, cela ouvre un potentiel de planification robuste sans dépendre exclusivement de politiques bout-en-bout coûteuses à entraîner. Les modèles du monde en robotique connaissent une accélération depuis DreamerV3 (Google DeepMind) et les architectures VLA comme pi0 de Physical Intelligence ou GR00T N2 de NVIDIA. EA-WM se positionne dans un créneau intermédiaire : il ne remplace pas les politiques d'action mais renforce la phase de planification amont, en s'appuyant sur LIBERO comme benchmark multi-tâches désormais standard dans la communauté. À noter que ces résultats restent entièrement en simulation ; la validation sur du matériel réel et le sim-to-real transfer, points encore ouverts dans le domaine, constitueraient l'étape suivante naturelle pour démontrer une applicabilité industrielle effective.

1 source
Prédiction d'horizon d'exécution dynamique pour les politiques robotiques par segments
52arXiv cs.RO 

Prédiction d'horizon d'exécution dynamique pour les politiques robotiques par segments

Une équipe de chercheurs a publié sur arXiv (arXiv:2606.11408) une méthode baptisée DEHP, Dynamic Execution Horizon Prediction, conçue pour résoudre un goulot d'étranglement structurel des politiques robotiques modernes : l'horizon d'exécution fixe. Dans les architectures à "action chunking" aujourd'hui omniprésentes, politiques de diffusion, politiques de flux, modèles vision-langage-action (VLA) comme pi-0 ou OpenVLA, le robot prédit un bloc de N actions et les exécute en boucle ouverte, sans percevoir l'environnement à chaque pas. Cet horizon N est actuellement choisi par tuning empirique, tâche par tâche. DEHP entraîne une branche légère de prédiction d'horizon via du reinforcement learning en ligne, tout en gardant la politique chunk sous-jacente entièrement gelée, ce qui la rend compatible avec n'importe quelle politique existante traitée comme boîte noire. Sur des tâches de manipulation haute précision et longue durée, les auteurs rapportent une amélioration "significative" du taux de succès, sans chiffres absolus précis dans l'abstract, un point à vérifier dans les résultats complets. L'enjeu est concret pour quiconque déploie des bras manipulateurs en production : la boucle ouverte est efficace sur les mouvements de transit (déplacements dans l'espace libre), mais devient un frein sur les phases fines, insertion, saisie d'objet délicat, assemblage à tolérance serrée. DEHP adapte dynamiquement l'horizon : court pendant les phases critiques (comportement proche d'un contrôle pas-à-pas), long pendant les phases de déplacement libre. Cela revient à réconcilier l'efficacité computationnelle du chunking avec la réactivité du contrôle fermé, sans réentraîner le modèle de base. Pour les intégrateurs industriels, cela signifie potentiellement récupérer de la robustesse sur des cellules existantes sans toucher au pipeline d'entraînement. L'action chunking a été popularisée par ACT (Action Chunked Transformer, Stanford 2023), puis repris dans les diffusion policies de Chi et al. et intégré dans des VLA comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). La tension entre horizon long (efficacité) et horizon court (réactivité) est un problème ouvert bien identifié dans la communauté. Plusieurs travaux concurrents explorent le receding horizon ou le replanning conditionnel, mais DEHP se distingue par sa compatibilité boîte noire et son entraînement RL en ligne. La page projet est accessible sur dehp-chunking.github.io ; aucune timeline de déploiement industriel n'est annoncée à ce stade.

RecherchePaper
1 source
ActionMap : apprentissage de politiques robotiques par carte de chaleur voxel
53arXiv cs.RO 

ActionMap : apprentissage de politiques robotiques par carte de chaleur voxel

Une équipe du ShowLab publie sur arXiv (2606.06904, juin 2026) ActionMap, une tête d'action basée sur des heatmaps voxéliques destinée à remplacer le décodeur d'action natif des modèles vision-langage-action (VLA). Là où les décodeurs existants (régression L1, bins autoregressifs, flow-matching) traitent l'espace d'action comme une structure plate sans géométrie, ActionMap prédit pour chaque commande une heatmap 3D dans cet espace, chaque voxel stockant directement la probabilité de l'action correspondante. Validé sur le benchmark de simulation LIBERO (quatre suites de tâches) et en manipulation réelle sur bras Franka, le module affiche +8,2 points de pourcentage sur la moyenne des quatre suites LIBERO face à la tête L1 d'OpenVLA-OFT, avec une convergence comparable ou plus rapide, et une efficacité données nettement meilleure en faible volume d'entraînement. Ce résultat a deux implications directes. ActionMap s'insère comme module drop-in dans tout VLA existant sans modifier le backbone ni la recette d'entraînement : les équipes ayant déjà investi dans OpenVLA ou des architectures similaires peuvent en bénéficier immédiatement. Plus significatif : les gains sont constants sur deux backbones architecturalement distincts, ce qui isole la représentation de l'action comme levier de performance indépendant de la mise à l'échelle du backbone ou des données. Pour un intégrateur ou un décideur industriel, cela signifie qu'on peut améliorer la précision des politiques robotiques sans augmenter les volumes de données ni la puissance de calcul. Depuis 2023, les VLA ont progressé rapidement côté backbone (Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, OpenVLA de Berkeley) et côté données (Open X-Embodiment, DROID), mais le décodeur d'action est resté l'angle mort du domaine. ActionMap propose d'exploiter la structure géométrique de l'espace d'action via une représentation voxélique probabiliste, en complément des têtes à diffusion (flow-matching, DDPM) déjà explorées dans la littérature. Le projet, avec code et page publique disponibles sur showlab.github.io/ActionMap, reste dans le registre de la recherche fondamentale : aucun partenariat industriel ni timeline de déploiement n'est annoncé à ce stade.

IA physiqueOpinion
1 source
Démarrage par modèle VLA pour l'apprentissage par renforcement des agents robotiques
54arXiv cs.RO 

Démarrage par modèle VLA pour l'apprentissage par renforcement des agents robotiques

Des chercheurs proposent VLAJS (Vision-Language-Action Jump-Starting), une méthode publiée sur arXiv (réf. 2604.13733v2) visant à accélérer l'apprentissage par renforcement (RL) en manipulation robotique. Le principe repose sur l'utilisation d'un modèle VLA comme guide transitoire en début d'entraînement, sans imitation stricte ni démonstrations humaines. VLAJS augmente l'algorithme PPO (Proximal Policy Optimization) d'une régularisation directionnelle qui aligne progressivement les actions de l'agent RL avec les suggestions du VLA, avant d'annuler cette contrainte à mesure que l'agent gagne en compétence. La méthode a été évaluée sur six tâches simulées (levée d'objet, pick-and-place, réorientation et insertion de cheville, poking, pushing), dont un sous-ensemble validé sur un bras Franka Panda réel. Elle réduit de plus de 50 % le nombre d'interactions d'entraînement nécessaires par rapport à PPO seul ou aux baselines de distillation, et démontre un transfert sim-to-real zero-shot robuste face à des encombrements, variations d'objets et perturbations externes. Ce résultat répond à une tension structurelle bien connue du domaine: les modèles VLA comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) excellent dans le raisonnement à l'échelle de la tâche grâce à leur préentraînement multimodal massif, mais restent trop lents pour le contrôle en boucle fermée à haute fréquence. Inversement, le RL classique assure cette précision mais explore de façon inefficace sur des tâches longues avec récompenses éparses. VLAJS prouve qu'un VLA peut être utile sans être interrogé en continu, réduisant potentiellement les coûts d'entraînement pour des applications de manipulation industrielle et validant l'hypothèse qu'un modèle généraliste peut servir d'amorce dans des pipelines RL orientés production. VLAJS émerge dans un contexte de convergence entre fondations VLA et contrôle temps-réel, où Physical Intelligence (Pi-0), NVIDIA (GR00T N2) et Google DeepMind (RT-2) s'affrontent sur la généralisation pendant que le RL pur domine en précision. Cette contribution reste académique: validée sur le Franka Panda à 7 degrés de liberté, elle n'est pas encore un produit déployé ni industrialisé, et la réduction de 50 % des interactions porte sur des tâches relativement courtes en simulation. Les suites naturelles incluent l'extension à des morphologies plus complexes (humanoïdes, systèmes bimanuels) et l'intégration dans des frameworks d'entraînement open-source comme Isaac Lab ou ManiSkill.

RechercheOpinion
1 source
CHORUS : collaboration décentralisée entre robots hétérogènes avec une seule politique VLA
55arXiv cs.RO 

CHORUS : collaboration décentralisée entre robots hétérogènes avec une seule politique VLA

Des chercheurs ont publié en juin 2026 un preprint (arXiv:2606.12352) présentant CHORUS, un cadre de coordination multi-robots qui s'appuie sur un unique backbone VLA (vision-language-action) pour piloter des équipes hétérogènes de robots mobiles. Le principe est radical dans sa simplicité : à l'inférence, chaque robot exécute une copie indépendante de CHORUS, conditionnée uniquement par ses propres observations et un prompt identifiant son rôle dans l'équipe -- aucune communication inter-robots n'est requise à l'exécution. Les expériences en conditions réelles portent sur trois tâches collaboratives : mesure de distance avec ruban mobile, transfert de livres en bibliothèque, et soulèvement de paniers de linge. Sur ces scénarios, CHORUS affiche un gain de 64 points de pourcentage par rapport à des modèles décentralisés entraînés de zéro, et améliore la réactivité aux comportements des partenaires de 40 points, tout en surpassant les approches centralisées classiques. Ce résultat bouscule une hypothèse structurante du domaine : pour coordonner plusieurs robots, il fallait soit centraliser les observations (coûteux en communication, ne passe pas à l'échelle avec la taille de l'équipe), soit entraîner une politique par robot avec des procédures d'alignement explicites ou des échanges d'état à l'inférence. CHORUS démontre que les priors visuomoteurs acquis lors du préentraînement VLA sont suffisants pour surmonter l'observabilité partielle sans aucune communication réseau entre robots au moment de l'exécution. C'est une validation concrète, en conditions réelles, de la thèse que les VLA généralisent au-delà de la manipulation single-agent -- un point encore contesté dans la littérature. Pour les intégrateurs industriels, l'implication pratique est directe : une flotte hétérogène peut partager un seul modèle déployé, ce qui simplifie drastiquement la gestion des mises à jour et réduit les coûts d'infrastructure d'inférence. Les VLA connaissent une montée en puissance rapide depuis 2024, avec des modèles comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, ou Helix de Figure Robotics, chacun ciblant principalement la manipulation monobras ou bimanuelle sur un seul robot. La coordination multi-robots reste un chantier ouvert : les travaux existants (MOMA, SMART) imposent généralement des canaux de communication ou des architectures centralisées. CHORUS s'inscrit dans ce manque, mais reste à ce stade un preprint académique -- les tâches testées sont volontairement contraintes et il n'existe pas de déploiement industriel annoncé. Les prochaines étapes naturelles porteront sur le passage à l'échelle (équipes de plus de deux robots), la robustesse aux perturbations dynamiques, et l'intégration dans des stacks de planification existants.

UEAucun acteur français ou européen n'est impliqué, mais la possibilité de piloter une flotte hétérogène avec un seul modèle VLA partagé représente un avantage de coût et de gestion potentiellement pertinent pour les intégrateurs industriels européens si CHORUS atteint la maturité déploiement.

IA physiqueOpinion
1 source
TacCoRL : intégration du retour tactile dans les modèles VLA par simulation
56arXiv cs.RO 

TacCoRL : intégration du retour tactile dans les modèles VLA par simulation

Des chercheurs ont publié sur arXiv (2606.11743) TacCoRL, un framework destiné à intégrer le retour tactile dans les modèles vision-langage-action (VLA) pour la manipulation robotique. L'approche combine un co-entraînement simulation-réel et de l'apprentissage par renforcement (RL) en simulation, sans nécessiter de pré-entraînement tactile à grande échelle ni d'exploration extensive sur hardware réel. Évalué sur quatre tâches bimanuelles à riche contact (insertion, assemblage, manipulation d'objets déformables), le système atteint un taux de succès moyen de 72,5 % contre 50,0 % pour la baseline VLA visuelle seule, soit un gain relatif de 45 % sur ces benchmarks spécifiques. L'apport technique central n'est pas simplement d'ajouter la touche comme entrée supplémentaire, mais d'apprendre comment les lectures de contact doivent moduler la réponse motrice dans les états de quasi-échec, états rares dans les démonstrations humaines et risqués à collecter sur robot physique. TacCoRL utilise un simulateur aligné sur le réel comme environnement fermé pour les interactions de contact : des trajectoires mixtes (simulées et réelles) initialisent d'abord les actions conditionnées au tactile dans la politique pré-entraînée, puis le RL avec récompenses vérifiables optimise la politique sur des rollouts simulés, tandis qu'un objectif supervisé sur trajectoires réelles ancre la distribution visuelle, tactile et d'action au domaine de déploiement. Le résultat se transfère directement sur robot réel, sans état simulé privilégié ni RL en ligne. C'est une réponse directe au "demo gap" des VLA actuels : les politiques vision-seule échouent précisément sur les phases de contact que la caméra ne résout pas. Le contexte est celui d'une compétition intense autour des VLA polyvalents : Physical Intelligence avec π0, Google DeepMind avec RT-2 et ses dérivés, ainsi que les efforts de génération suivante (GR00T N2 de NVIDIA, OpenVLA). Tous partagent la même limitation structurelle : l'observation visuelle reste insuffisante pour les tâches à fort contact. La piste tactile est explorée depuis plusieurs années (capteurs GelSight, SynTouch, Digit de Meta), mais son intégration dans des architectures VLA de grande taille restait un verrou de scalabilité. TacCoRL propose une voie pragmatique sans dataset tactile massif, ce qui abaisse la barrière d'adoption pour les laboratoires et intégrateurs. Les prochaines étapes logiques seraient l'extension à des capteurs tactiles commerciaux standardisés et des évaluations sur des tâches industrielles réelles, hors conditions de laboratoire contrôlées.

RechercheOpinion
1 source
LUCID : modèles d'intention agnostiques au morphotype, acquisition dextérique à l'échelle depuis des vidéos humaines
57arXiv cs.RO 

LUCID : modèles d'intention agnostiques au morphotype, acquisition dextérique à l'échelle depuis des vidéos humaines

Des chercheurs ont publié LUCID (arXiv:2606.11628, juin 2026), un framework en deux étapes qui apprend des compétences de manipulation dextère à partir de vidéos humaines non étiquetées issues d'internet, sans démonstrations robotiques coûteuses. LUCID découple l'apprentissage en un modèle d'intention, qui prédit à court horizon ce qui doit se passer ensuite dans la scène en boucle fermée, et une politique sensorimorale spécifique à chaque effecteur, chargée de convertir cette intention en actions concrètes. Ce découplage permet au même modèle d'intention d'opérer sur des effecteurs différents, de la main dextère multi-doigts au préhenseur parallèle à deux mâchoires, sans réentraînement. Le système a été validé sur cinq tâches réelles : mélange, essuyage et tri en bac, supervisés par des vidéos internet uniquement avec transfert zéro-shot vers de nouveaux objets et scènes, et push-T et routage de câbles, supervisés chacun par une heure de vidéo smartphone collectée par les auteurs. Ce résultat s'attaque au principal goulot d'étranglement du robot learning industriel : la dépendance à des démonstrations coûteuses et liées à un embodiment précis. Les pipelines actuels, qu'ils reposent sur la télé-opération (Figure AI, 1X), l'imitation structurée (ACT, Diffusion Policy) ou les VLA end-to-end, exigent tous des données robotiques spécifiques à l'effecteur. LUCID substitue à cela des vidéos humaines à l'échelle web pour la compréhension de tâche, et de la simulation massivement parallèle pour le contrôle moteur. Si le paradigme passe à l'échelle, il réduit significativement les coûts d'intégration pour chaque nouvel effecteur, argument directement adressé aux intégrateurs industriels qui gèrent des parcs de bras multi-marques. LUCID se positionne face à pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA, qui privilégient des architectures end-to-end. La principale différenciation est l'interface d'intention agnostique à l'embodiment, apprise depuis des données internet non étiquetées, ce qui constitue une direction distincte de la course à la collecte massive de démonstrations robotiques. Le preprint ne mentionne ni partenaire industriel ni feuille de route commerciale ; les résultats restent en environnement laboratoire sur des tâches de complexité modérée, et le passage à des contextes industriels non contraints reste à démontrer.

IA physiqueOpinion
1 source
Combler le fossé morphologique : adapter les modèles VLA à la manipulation dextérique par ajustement conditionné par l'intention
58arXiv cs.RO 

Combler le fossé morphologique : adapter les modèles VLA à la manipulation dextérique par ajustement conditionné par l'intention

Des chercheurs ont publié sur arXiv (référence 2506.12109) un travail présentant InDex, un cadre d'adaptation permettant d'appliquer des modèles Vision-Language-Action (VLA) pré-entraînés aux mains dextres multi-doigts à haut degré de liberté (high-DoF), sans recourir à de larges volumes de données de démonstration. Le problème central adressé est le "morphology gap" : les VLA existants comme Pi-0, RT-2 ou OpenVLA sont presque exclusivement entraînés avec des préhenseurs parallèles à faible degré de liberté (1-DoF), alors que les mains dextres industrielles opèrent avec 12 à 24 DoF ou davantage. Adapter directement ces modèles par fine-tuning bout-en-bout sur mains multi-digitales provoque deux problèmes critiques : l'oubli catastrophique du raisonnement spatial acquis lors du pré-entraînement, et un effondrement de l'espace d'action causé par la rareté des données de démonstration. InDex y répond via une architecture découplée en deux étapes : la première aligne efficacement le backbone VLA pour prédire des trajectoires de bras et une intention de préhension scalaire continue ; la seconde fige ce backbone et utilise une tête de débruitage par diffusion, conditionnée sur cette intention, pour décoder les articulations fines des doigts. Tous les résultats présentés sont des benchmarks en simulation sur des tâches multi-étapes à contact riche, où InDex surpasse les baselines monolithiques. Ce travail identifie une limite structurelle des pipelines VLA que l'industrie commence à percevoir concrètement : passer d'un gripper à pince vers une main dextre n'est pas un simple problème de données supplémentaires, c'est une rupture topologique dans l'espace de contrôle. L'approche par héritage sémantique cross-morphologie réutilise le signal de préhension 1-DoF comme proxy macroscopique d'intention plutôt que de le jeter, ce qui préserve les priors spatiaux acquis. Pour un intégrateur ou un responsable R&D, la promesse est celle d'un fine-tuning efficace en données sur des end-effectors complexes sans repartir de zéro. Une réserve s'impose cependant : l'absence totale de résultats sur hardware réel laisse entière la question du sim-to-real transfer pour des contacts précis au niveau des phalanges, un défi encore non résolu dans le domaine. Le contexte dans lequel s'inscrit InDex est celui de la montée en puissance des VLA comme couche universelle de planification motrice. Physical Intelligence avec Pi-0 et Pi-0.5, Google DeepMind avec RT-2, et NVIDIA avec GR00T N2 ont chacun démontré des capacités de généralisation remarquables en manipulation générale, mais systématiquement avec des grippers standards. Côté mains dextres, les fabricants Shadow Robot, Inspire Robots ou Schunk disposent d'hardware performant sans politiques visuomotrices généralisables. Des approches concurrentes tentent l'adaptation par apprentissage par renforcement ou par réseaux de diffusion dédiés, mais InDex parie sur la réutilisation maximale des priors VLA existants. La prochaine étape logique serait une validation sur robot réel avec des benchmarks normalisés comme DEXART ou Bi-DexHands ; en l'état, l'article reste une contribution théoriquement solide en simulation, prometteuse mais non encore validée en conditions industrielles.

IA physiqueOpinion
1 source
MIT développe un bracelet à ultrasons pour apprendre aux robots humanoïdes la dextérité des mains humaines
59Interesting Engineering 

MIT développe un bracelet à ultrasons pour apprendre aux robots humanoïdes la dextérité des mains humaines

Des chercheurs du Massachusetts Institute of Technology, dirigés par Xuanhe Zhao, ont présenté un bracelet ultrasonique portable capable de capturer les mouvements de muscles, tendons et ligaments sous la peau du poignet. Le dispositif intègre un système d'imagerie sans fil à 256 canaux couplé à un modèle d'IA hybride Transformer-ResNet qui interprète en temps réel l'activité musculaire subtile. Il suit en continu les 22 degrés de liberté de la main humaine, couvrant l'ensemble des mouvements de flexion, rotation et coordination des doigts et de la paume, avec une latence mesurée à 120 millisecondes. Lors de tests en laboratoire impliquant huit volontaires, le bracelet a reproduit des gestes avec une précision suffisante pour reconnaître les 26 lettres de l'alphabet américain des signes (ASL). Opérant sans fil, il permet de piloter des systèmes robotiques à distance sans connexion physique directe. L'objectif affiché par l'équipe : utiliser les données collectées pour entraîner des robots humanoïdes à reproduire les tâches manuelles délicates que les humains réalisent naturellement. Ce travail adresse l'un des goulots d'étranglement les plus persistants de la robotique : la capture précise et non intrusive de la dextérité manuelle. Les solutions actuelles souffrent de limites connues, les systèmes à caméra étant sensibles aux occlusions et aux angles de vue, tandis que l'électromyographie (EMG), les capteurs inertiels ou les jauges de déformation manquent souvent de résolution pour les mouvements continus des doigts ou contraignent les gestes. En se positionnant sous la peau par imagerie ultrasonique, le bracelet MIT contourne ces contraintes tout en atteignant une couverture complète des 22 degrés de liberté. Pour les équipes qui collectent des données de téléopération destinées à l'apprentissage par imitation, notamment pour alimenter des pipelines VLA comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA), un tel dispositif pourrait enrichir significativement la qualité des démonstrations humaines utilisées à l'entraînement. Il reste cependant à valider ces performances hors laboratoire, sur des populations plus larges et dans des conditions de bruit musculaire réel, un point que la publication initiale n'aborde pas. Cette recherche s'inscrit dans une progression rapide des ultrasons portables amorcée au MIT et dans d'autres laboratoires. Depuis 2022, des équipes ont successivement démontré la surveillance multi-organes en continu, l'imagerie cardiaque portable et des patchs à résolution sub-millimétrique ; en 2024, l'Université de Californie à San Diego avait présenté un système comparable basé sur l'IA pour l'interprétation des gestes du bras, fonctionnel même en conditions dynamiques (course, véhicule en mouvement, mer agitée). Sur le plan concurrentiel, des acteurs comme CTRL-Labs (acquis par Meta en 2019) ou les fournisseurs d'EMG avancé tels que Delsys et Noraxon explorent des espaces adjacents, mais l'approche ultrasonique revendique une résolution spatiale potentiellement supérieure pour les structures profondes. L'équipe MIT n'a pas encore annoncé de partenariats industriels ni de calendrier de commercialisation : le dispositif reste aujourd'hui au stade de démonstration de laboratoire.

RechercheOpinion
1 source
La robotique ne connaîtra pas de moment Llama bien défini
60Robotics Business Review 

La robotique ne connaîtra pas de moment Llama bien défini

Depuis le début de l'année 2025, les modèles robotiques ouverts se multiplient. Google DeepMind a publié les résultats d'Open X-Embodiment, projet qui a mutualisé des données de manipulation sur des dizaines d'institutions et de morphologies différentes : les expériences RT-X montrent qu'entraîner un modèle sur plusieurs types de robots améliore le transfert, plutôt que de forcer chaque système à apprendre uniquement sur ses propres données. DeepMind a ensuite scindé sa pile en deux sorties distinctes : Gemini Robotics 1.5, un VLA (vision-langage-action) qui convertit entrées visuelles et instructions en commandes moteur, et Gemini Robotics-ER 1.6, positionné plus haut dans la pile, dédié au raisonnement spatial, à la planification et aux appels d'outils. NVIDIA a poussé dans la même direction avec ses releases GR00T et ses modèles Isaac, disponibles notamment via LeRobot sur Hugging Face. OpenVLA, modèle open source à 7 milliards de paramètres entraîné sur 970 000 épisodes de manipulation issus d'Open X-Embodiment, illustre le niveau de maturité désormais accessible. Côté capital, Crunchbase recense près de 14 milliards de dollars investis dans la robotique en 2025 : Skild AI a levé 1,4 milliard pour un modèle multi-morphologie, Physical Intelligence négocie un tour d'un milliard à une valorisation supérieure à 11 milliards, Advanced Machine Intelligence de Yann LeCun a clôturé à 1,03 milliard, et Wayve a bouclé une série D à 1,2 milliard pour la conduite autonome. La comparaison avec Llama, le modèle open source de Meta qui a permis à d'innombrables équipes de déployer un LLM capable sans payer la facture d'entraînement, est séduisante mais trompeuse. Une politique robotique ne transfère pas comme un fichier de poids logiciel : elle nécessite une pile de contrôle locale qui convertit les sorties du modèle en mouvements réels, dans l'enveloppe de sécurité de la cellule, via le contrôleur installé. Le dépôt openpi de Physical Intelligence illustre ce delta concretement : une équipe qui dispose du modèle doit encore faire tourner l'inférence (8 Go de VRAM minimum), affiner sur ses propres données robotiques via LoRA (22,5 Go) ou en full fine-tuning (70 Go), puis valider le résultat sur la machine cible. L'accès aux modèles élargit ce que les robots peuvent tenter ; l'avantage concurrentiel reste dans la capacité à transformer ce comportement en travail fiable en production, avec des journaux de pannes exploitables par un technicien des mois après la mise en service. Le problème structurel qui sépare la robotique du logiciel pur est ce que les praticiens nomment le "site drift" : la dérive entre le robot qui passe la recette d'usine et le robot qui opère dans le process réel du client. La géométrie caméra et la compliance de l'end-effector évoluent après livraison, les références de fixation bougent avec le process client, et la contamination s'accumule sur plusieurs semaines de production jusqu'à rendre les comportements de récupération peu fiables. La randomisation de domaine en simulation couvre de nombreuses variations, mais pas la dérive propre à chaque site. Un quadrupède en banc d'essai peut exécuter un virage à droite proprement et rater son symétrique gauche : les jambes ont atterri dans des régions servo différentes et chargé le corps différemment, si bien que la même commande produit deux résultats distincts. Le code était symétrique ; la mécanique de contact, non. C'est précisément là que s'arrête l'analogie avec Llama : distribuer le modèle était la partie accessible, transformer ce modèle en travail supporté sur des systèmes en clientèle reste la frontière que les 14 milliards de venture capital engagés en 2025 n'ont pas encore résolue.

UEWayve (Royaume-Uni, 1,2 Md$ en série D) est le seul acteur européen cité ; l'argument central sur le 'site drift' et les coûts réels de déploiement physique s'applique directement aux intégrateurs et startups robotiques européens qui envisagent de capitaliser sur les VLA open source.

IA physiqueOpinion
1 source
L'équipe Tsinghua-Harvard développe Acorn, un robot « zéro-données » qui apprend par instinct, sans entraînement
61Pandaily 

L'équipe Tsinghua-Harvard développe Acorn, un robot « zéro-données » qui apprend par instinct, sans entraînement

La startup Acorn Robot, cofondée par le Dr. Jiang Yao (doctorat en génie mécanique à Tsinghua, postdoctorat en neurosciences à Harvard), a présenté un robot de manipulation capable d'apprendre des tâches physiques sans aucune donnée d'entraînement préalable, sans trajectoires de démonstration et sans modèle visuel. Le système repose sur un modèle de décision embarqué baptisé "Natus" (pour "instinct-driven behavioral emergence"), qui fonctionne par essais et erreurs en temps réel sur le matériel physique. Le hardware est délibérément minimaliste : une pince industrielle parallèle à 1 degré de liberté, équipée de capteurs tactiles sur ses deux mâchoires en V, sans caméra externe ni connexion cloud. La démonstration présentée montre le robot parvenir à saisir une carte bancaire posée à plat sur une table, un défi reconnu pour les préhenseurs industriels conventionnels, en utilisant une mâchoire comme levier contre le bord de la carte et la surface de la table comme point d'appui. Le système requiert typiquement huit à neuf tentatives pour converger vers cette stratégie. Selon la société, une preuve de concept a été validée chez l'un des principaux fabricants de cosmétiques en Chine, avec un déploiement à l'échelle annoncé. La cible commerciale visée est la fabrication flexible B2B, où l'adaptabilité prime sur le volume de données. L'approche représente une rupture philosophique avec le paradigme dominant de la robotique contemporaine, qui s'appuie massivement sur des données de démonstration, des modèles vision-langage-action (VLA) et de l'apprentissage par simulation. Le Dr. Jiang soutient que les forces de contact imprévisibles et les variations mécaniques entre robots individuels rendent les approches data-driven structurellement fragiles, décrivant la dépendance aux données comme un "puits sans fond impossible à combler" et affirmant qu'il n'existe pas de modèle universel, seulement un modèle optimal pour un robot donné. Pour les intégrateurs industriels et les décideurs en fabrication flexible, le claim est potentiellement significatif : un système capable de s'adapter à une nouvelle tâche physique sans pipeline de collecte de données ni infrastructure cloud réduit le coût de déploiement et le délai de mise en service. Il convient toutefois de nuancer : les huit à neuf tentatives annoncées proviennent d'une vidéo de démonstration sélectionnée, les conditions exactes du déploiement cosmétique ne sont pas détaillées, et la distinction entre preuve de concept validée et déploiement industriel à grande échelle reste à préciser. Acorn Robot s'inscrit dans un paysage robotique mondial où l'essentiel des investissements se concentre sur les humanoïdes dotés de VLA à grande échelle : Figure 03 de Figure AI, Optimus Gen 3 de Tesla, pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. L'approche d'Acorn, centrée sur un préhenseur industriel à faible complexité matérielle plutôt que sur une plateforme humanoïde généraliste, repositionne la question de la généralisation robotique au niveau du comportement émergent plutôt que de la capacité de représentation. La startup appartient à une génération de chercheurs sino-américains explorant des alternatives à l'apprentissage supervisé massif, un espace également investigué par des équipes européennes en robotique cognitive, notamment en France et en Suisse. Les prochaines étapes annoncées portent sur l'extension à d'autres scénarios de fabrication flexible, sans calendrier précis communiqué à ce stade.

Chine/AsiePaper
1 source
GHOST : politiques hiérarchiques à sous-objectifs pour généraliser la manipulation robotique
62arXiv cs.RO 

GHOST : politiques hiérarchiques à sous-objectifs pour généraliser la manipulation robotique

Des chercheurs ont publié le 10 juin 2026 un preprint arXiv (2606.10025) présentant GHOST, un framework pour politiques visuomotrices de manipulation robotique capables de généraliser au-delà de leur distribution d'entraînement. L'architecture repose sur une factorisation hiérarchique en deux niveaux : une politique haut niveau qui prédit le prochain sous-objectif sous forme de distribution sur les poses 3D de l'effecteur terminal à partir d'observations RGB-D multi-vues, et un contrôleur bas niveau conditionné sur ces objectifs qui génère les actions spécifiques à l'embodiment physique du robot. Pour relier les deux niveaux, les auteurs introduisent une interface spatiale qui projette les sous-objectifs 3D prédits dans le plan image sous forme de heatmaps de l'effecteur, une représentation volontairement simple mais compatible avec les pipelines d'entraînement existants. La politique haut niveau est entraînée sur des vidéos de démonstrations humaines brutes, sans retargeting d'actions, tandis que la politique bas niveau reste entraînée exclusivement sur des données robot. Le résultat central est que cette décomposition hiérarchique améliore systématiquement les performances et la robustesse par rapport à une Diffusion Policy plate (architecture de référence populaire depuis les travaux de Chi et al. en 2023) sur une suite de tâches de manipulation. L'insight clé est que les sous-objectifs en espace cartésien de l'effecteur sont largement "embodiment-agnostic" : la même politique haut niveau peut s'appliquer à différentes architectures de robots sans réentraînement complet. Cela contourne un goulot d'étranglement majeur dans le domaine, le retargeting d'actions depuis les démonstrations humaines, qui introduit habituellement un bruit significatif et limite la qualité des données d'entraînement. GHOST s'inscrit dans un courant actif de recherche sur l'utilisation des vidéos humaines comme source de supervision low-cost pour la robotique de manipulation, aux côtés d'approches comme pi-0 de Physical Intelligence ou des travaux sur les VLA (Visual-Language-Action models) de Google DeepMind avec RT-2 et GR00T N2 de NVIDIA. La principale limitation à noter : il s'agit d'un preprint non encore peer-reviewed, sans données de déploiement réel ni métriques de cycle time en contexte industriel. Les résultats concernent une suite de tâches de laboratoire ; la tenue à l'échelle dans des environnements moins contrôlés reste à démontrer. Aucun partenariat industriel ni timeline de commercialisation n'est annoncé.

RecherchePaper
1 source
Une méthode pratique pour améliorer la corrélation simulation-réel dans l'évaluation des modèles VLA
63arXiv cs.RO 

Une méthode pratique pour améliorer la corrélation simulation-réel dans l'évaluation des modèles VLA

Une équipe de chercheurs a publié en juin 2026 sur arXiv (arXiv:2606.10366) une étude systématique visant à quantifier et améliorer la corrélation entre évaluation en simulation et déploiement réel pour les politiques de type VLA (Vision-Language-Action). Ces politiques, qui combinent perception visuelle, compréhension du langage naturel et génération d'actions motrices, sont au coeur des robots généralistes actuels. L'étude couvre plusieurs plateformes de simulation, plusieurs politiques VLA, plusieurs familles de tâches manipulatoires, et plusieurs facteurs de perturbation contrôlés. Les métriques retenues sont la cohérence du classement des politiques entre simulation et réel, la corrélation de performance absolue, et les patterns d'échec induits par perturbation. Les auteurs examinent également à quel moment le fine-tuning d'une politique sur données simulées améliore réellement les performances en monde réel, et comment le volume de données post-entraînement influence cet alignement. Ce travail s'attaque à un verrou identifié de longue date dans la robotique apprise : les benchmarks en simulation, malgré des progrès significatifs en réalisme et diversité ces deux dernières années, ne sont pas encore adoptés comme proxies fiables pour l'évaluation hors-lab. En pratique, cela signifie que les équipes d'intégration et les labs reproduisent des évaluations coûteuses en monde réel à chaque itération de politique, faute de pouvoir faire confiance aux scores simulés. L'étude identifie quels signaux simulés restent alignés avec le déploiement réel et lesquels divergent, donnant aux praticiens une grille de lecture concrète pour calibrer leur utilisation de la simulation dans le pipeline de développement. Le problème du sim-to-real gap accompagne la robotique apprise depuis les travaux fondateurs sur le domain randomization (OpenAI, 2017-2019), mais il devient critique à mesure que les VLA cherchent à passer à l'échelle industrielle. Des acteurs comme Physical Intelligence (Pi-0), Google DeepMind (RT-X, GR00T N2 côté Nvidia), ou encore Figure AI avec Figure 03 s'appuient tous sur des pipelines simulation-réel pour accélérer l'entraînement. En proposant un cadre unifié pour mesurer, interpréter et améliorer l'utilité de la simulation pour les VLA, ce papier vise à fournir une référence méthodologique commune, à la fois pour les concepteurs de simulateurs et pour les praticiens. Les prochaines étapes logiques incluent l'intégration de ces recommandations dans des benchmarks publics existants tels que RoboVerse ou LIBERO.

UEImpact indirect : ce cadre méthodologique pourrait réduire les coûts d'évaluation réelle répétée pour les équipes R&D européennes travaillant sur des politiques VLA.

RechercheOpinion
1 source
Efficient-WAM : un modèle monde-action de 1 milliard de paramètres à faible coût d'anticipation
64arXiv cs.RO 

Efficient-WAM : un modèle monde-action de 1 milliard de paramètres à faible coût d'anticipation

Une équipe de recherche présente Efficient-WAM, un World-Action Model (WAM) d'un milliard de paramètres conçu pour la manipulation robotique en temps réel, dont les résultats sont publiés sur arXiv (2606.10040) en juin 2026. Les WAMs constituent une classe de modèles qui couplent la prédiction visuelle du futur avec la génération d'actions motrices : le robot "imagine" ce que va ressembler la scène dans quelques instants avant de décider quoi faire. Efficient-WAM ramène la latence d'inférence à environ 100 ms par chunk lors du déploiement physique, soit un gain de 30x par rapport aux WAMs existants. Pour y parvenir, trois leviers techniques sont combinés : un expert vidéo compact distillé depuis WAN-2.2-5B (modèle de génération vidéo à 5 milliards de paramètres), des représentations vidéo token-sparse, et un débruitage asymétrique qui alloue moins d'étapes d'échantillonnage à la branche vidéo qu'à la branche action. Les évaluations portent sur le benchmark RoboTwin 2.0 et des tâches de manipulation en conditions réelles. Le résultat central est contre-intuitif : Efficient-WAM maintient des performances d'action compétitives même si ses prédictions visuelles sont visiblement grossières, ce qui invalide l'hypothèse implicite que la fidélité photorealiste de l'imagination future est nécessaire au contrôle. Pour un intégrateur ou un responsable robotique, cela signifie que le goulot d'étranglement computationnel des WAMs n'est pas une fatalité architecturale mais un problème de design résolu ici par une re-priorisation : la vidéo future n'est plus un objectif visuel mais un signal de guidage compact pour la génération d'actions. À 100 ms par chunk, le modèle entre dans la fenêtre de faisabilité pour des boucles de contrôle sur manipulateurs industriels ou cobots, là où les WAMs précédents restaient confinés à la démonstration labo. Les WAMs s'inscrivent dans une compétition dense avec les Vision-Language-Action models (VLAs) comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA, qui traitent directement la génération d'actions sans passer par la prédiction vidéo explicite. L'argument des WAMs est que l'imagination du futur améliore la robustesse en dehors de la distribution d'entraînement, mais leur coût computationnel a jusqu'ici limité leur adoption. Efficient-WAM rééquilibre ce trade-off. La distillation depuis WAN-2.2-5B, un modèle de génération vidéo généraliste, suggère une stratégie de transfer learning inter-domaine qui pourrait s'étendre à d'autres architectures. Les prochaines étapes naturelles sont l'évaluation sur des plateformes humanoïdes complètes et des déploiements en environnements semi-structurés, deux dimensions absentes de ce papier.

IA physiqueActu
1 source
Dexterous Point Policy : apprentissage de politiques de main habile à partir de démonstrations humaines
65arXiv cs.RO 

Dexterous Point Policy : apprentissage de politiques de main habile à partir de démonstrations humaines

Une équipe de recherche a déposé le 10 juin 2026 sur arXiv (réf. 2606.10614) un framework baptisé Dexterous Point Policy (DPP), capable d'apprendre des politiques de manipulation dextère directement à partir de vidéos humaines, sans aucune démonstration sur robot. Le système extrait des points-clés 3D (keypoints) des objets de la tâche et des mains humaines, en ciblant spécifiquement les poignets et les bouts de doigts, puis entraîne un transformer autorégressif sur ces représentations unifiées. Sur un banc d'essai réel couvrant la saisie-dépôt (pick-and-place) et la manipulation d'outils, DPP atteint 75,0 % de succès, contre seulement 1,0 % pour le meilleur baseline de type VLA (Vision-Language-Action model) disponible. La méthode généralise également à des scénarios non vus pendant l'entraînement, notamment des environnements multi-objets et de nouvelles catégories d'objets. L'apport principal est d'éliminer le goulet d'étranglement le plus coûteux du cycle d'apprentissage robotique: la collecte de données en téléopération. Les auteurs rappellent que téléopérer une main multi-doigts pour une seule tâche atomique peut mobiliser plusieurs jours de travail humain, ce qui rend le fine-tuning classique des modèles de fondation sur données robotiques particulièrement onéreux à l'échelle. L'intuition centrale de DPP est que, au niveau des keypoints (poignets et bouts de doigts), les comportements humains et robotiques s'alignent suffisamment pour permettre un transfert direct de politique sans adaptation supplémentaire. Avec un écart de performance de 75x par rapport au baseline VLA, le résultat contredit l'idée selon laquelle combler l'embodiment gap entre humain et robot exige obligatoirement des données proprioceptives ou d'actionnement robotique. Ce travail s'inscrit dans le courant des modèles de fondation robotiques pré-entraînés sur vidéos humaines, dont Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA sont des représentants récents, qui butaient tous sur ce même problème de transfert au déploiement réel. DPP propose une réponse architecturale en choisissant une représentation intermédiaire qui abstrait la morphologie spécifique de chaque effecteur, rendant la politique agnostique à la géométrie exacte de la main robotique. Il s'agit pour l'instant d'un preprint non relu par les pairs, sans affiliation institutionnelle précisée dans le résumé public, et les tests restent limités à des tâches de complexité modérée. Les étapes naturelles seraient une validation sur des mains multi-doigts plus variées et des manipulations de plus haute complexité, comme l'assemblage de précision ou la manipulation d'outils déformables, pour confirmer la scalabilité réelle de l'approche.

RecherchePaper
1 source
Agir sur ce que l'on voit : vers une navigation sociale sûre dans les modèles vision-langage-action (VLA)
66arXiv cs.RO 

Agir sur ce que l'on voit : vers une navigation sociale sûre dans les modèles vision-langage-action (VLA)

Des chercheurs ont publié le 10 juin 2026 sur arXiv (2606.10495) SALSA, un framework de post-entraînement en deux étapes destiné à rendre les modèles Vision-Language-Action (VLA) capables de naviguer en sécurité parmi des piétons. Sans aucune annotation humaine, la méthode réduit les quasi-collisions de 86,4 % et fait passer la précision de reconnaissance des situations sociales critiques de 53 % à 93 %, mesurée sur le dataset SCAND et lors de déploiements en conditions réelles. SALSA opère en deux temps : une étape d'alignement comportemental social connecte les représentations internes des couches intermédiaires du VLA à sa tête d'action, via un entraînement sur des paires scènes humain/objet contrefactuelles pour casser les raccourcis de saillance visuelle ; une étape d'alignement temporel de sécurité génère automatiquement une supervision sur le risque futur pour permettre une évitement anticipatoire, avant que le danger ne soit imminent, plutôt que purement réactif. L'intérêt principal de ce résultat est de démontrer que les VLA pré-entraînés encodent déjà, dans leurs représentations latentes, la distinction piéton/obstacle et des signaux de collision future, mais que le behavior cloning classique échoue à traduire ces signaux en actions appropriées. Pour les intégrateurs et décideurs industriels, cela signifie que des robots équipés de VLA existants (Pi-0, OpenVLA, GR00T N2) peuvent être rendus plus sûrs en navigation sociale sans réentraînement complet ni pipeline d'annotation coûteux. Le caractère annotation-free est industriellement significatif : il supprime le goulot d'étranglement du labeling humain qui freine le passage à l'échelle des approches d'apprentissage pour la navigation sociale. La navigation sociale en robotique mobile est un problème ouvert depuis une décennie : les approches classiques (Social Force Model, ORCA) ignorent le contexte sémantique, tandis que les méthodes RLHF nécessitent une récompense dense difficile à définir. SALSA s'inscrit dans une vague de travaux post-entraînement sur les VLA, aux côtés de méthodes comme DPO appliqué à la robotique et les pipelines de fine-tuning de Physical Intelligence. Les concurrents directs incluent les approches à modules de détection piéton explicites (Spot de Boston Dynamics, Nav2 avec costmaps sociaux) et les frameworks d'apprentissage par renforcement socialement conscients. Les chercheurs valident sur déploiement réel, mais sans préciser le matériel robotique utilisé ni les conditions d'environnement, un point à surveiller avant toute généralisation industrielle.

IA physiqueOpinion
1 source
RoboGPT-R1 améliore la planification des tâches robotiques grâce à l'apprentissage par renforcement
67arXiv cs.RO 

RoboGPT-R1 améliore la planification des tâches robotiques grâce à l'apprentissage par renforcement

Des chercheurs ont publié RoboGPT-R1, un framework d'entraînement en deux étapes conçu pour améliorer la planification de tâches des agents robotiques incarnés, présenté dans un preprint arXiv (2510.14828, version 3). Le système repose sur une séquence supervisée classique, qui ancre les connaissances fondamentales via des démonstrations expertes, suivie d'un apprentissage par renforcement (RL) ciblé sur les lacunes en compréhension visuo-spatiale et en raisonnement multi-étapes. Le modèle de base choisi est Qwen2.5-VL-3B, un vision-language model open-source de 3 milliards de paramètres. Les résultats publiés sur le benchmark EmbodiedBench montrent que RoboGPT-R1 dépasse GPT-4o-mini de 21,33 points de pourcentage, et surclasse d'autres approches entraînées sur Qwen2.5-VL-7B de 20,33 points, ce dernier disposant pourtant de plus du double de paramètres. Le cœur technique du framework est une fonction de récompense basée sur des règles qui prend en compte simultanément les performances à long horizon et les contraintes d'action dans l'environnement physique simulé. Ces résultats viennent étayer une thèse qui s'impose progressivement dans la communauté robotique : le fine-tuning supervisé seul génère des agents fragiles hors distribution, en particulier pour les tâches de manipulation longue séquence dans des environnements non contrôlés. RoboGPT-R1 démontre qu'un modèle compact peut surpasser des architectures significativement plus grandes dès lors que le RL est utilisé pour affiner la compréhension physique et la cohérence des séquences d'actions. Pour les équipes d'intégration et les responsables techniques, cela pointe vers une trajectoire viable vers des solutions embarquables sur hardware contraint, sans sacrifier les capacités de planification complexe. Un écart de 21 points sur un benchmark spécialisé par rapport à GPT-4o-mini indique que la spécialisation domaine via RL compense largement le désavantage de taille brute. RoboGPT-R1 s'inscrit dans une dynamique post-SFT amplifiée depuis fin 2024, en large partie accélérée par les travaux DeepSeek-R1 qui ont popularisé le RL comme levier de raisonnement pour les LLMs. Dans le champ robotique, Physical Intelligence avec Pi-0 et Pi-0.5, Google DeepMind avec GR00T N2 et RT-X, ou encore OpenVLA, explorent des trajectoires d'alignement vision-language-action (VLA) comparables. RoboGPT-R1 se distingue par son positionnement sur la planification symbolique de haut niveau plutôt que le contrôle moteur bas niveau, et par sa base Qwen2.5-VL open-source qui favorise la reproductibilité. Important à noter : il s'agit à ce stade exclusivement d'une validation sur EmbodiedBench, un benchmark simulé. Aucun déploiement physique n'est annoncé et le sim-to-real gap, question centrale pour tout passage en production, reste une problématique que l'article ne traite pas.

RechercheOpinion
1 source
CLASP : sélection et composition de compétences robotiques pilotées par le langage avec apprentissage paramétré par la tâche
68arXiv cs.RO 

CLASP : sélection et composition de compétences robotiques pilotées par le langage avec apprentissage paramétré par la tâche

Des chercheurs ont publié sur arXiv (2606.08169) CLASP, une architecture modulaire permettant à un bras manipulateur à 7 degrés de liberté d'exécuter des tâches robotiques à partir de commandes en langage naturel, avec seulement 2 à 5 démonstrations kinesthésiques par compétence. Le système repose sur deux briques : des primitives de mouvement noyau paramétrées par tâche (TP-KMPs), héritées des méthodes d'imitation de données, et un modèle vision-langage (VLM) préentraîné, utilisé sans fine-tuning. Lors de la phase d'apprentissage, le VLM génère des schémas de compétences décrivant les paramètres nécessaires et les préconditions d'exécution. À l'exécution, il sélectionne la compétence adaptée, résout les liaisons de paramètres, et compose des comportements inédits via une pondération par covariance. Lorsqu'aucune compétence existante ne suffit, le système identifie automatiquement la lacune et sollicite une démonstration ciblée. Les taux de succès rapportés vont de 73,3 % à 100 % selon les scénarios testés (sélection, composition, apprentissage actif). Ce résultat est notable parce qu'il attaque un problème structurel du déploiement industriel : les modèles vision-langage-action (VLA) de nouvelle génération, comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, atteignent des performances impressionnantes mais exigent des volumes de données d'entraînement massifs, difficilement compatibles avec les contraintes de production réelle. À l'inverse, les méthodes d'imitation efficaces en données, comme les TP-GMMs de Stefan Calinon, restent rigides face à des instructions non anticipées. CLASP propose une voie intermédiaire : déléguer le raisonnement symbolique au VLM sans le ré-entraîner, et garder la motricité dans un espace probabiliste compact. La boucle d'apprentissage actif intégrée est particulièrement pertinente pour les intégrateurs industriels : le robot peut signaler ce qu'il ne sait pas faire plutôt que d'échouer silencieusement. Les primitives de mouvement paramétrées par tâche ont une longue trajectoire académique, popularisées notamment par les travaux de Calinon et Billard depuis les années 2010. CLASP s'inscrit dans la vague actuelle qui cherche à greffer la compréhension du langage sur ces méthodes sans sacrifier leur frugalité en données, une direction également explorée par des équipes comme celles de CMU, ETH Zurich ou l'INRIA en France. La validation reste limitée à un manipulateur en laboratoire, les scénarios présentés sont sélectionnés, et les taux de succès ne sont pas contextualisés par rapport à la complexité des tâches ni à la variabilité environnementale. La prochaine étape évidente serait une évaluation sur des tâches de manipulation non structurées, voire un transfert vers une plateforme mobile ou humanoïde.

UEL'INRIA est cité parmi les équipes explorant des directions similaires (langage sur primitives de mouvement frugales en données), positionnant la France comme contributeur actif à cette vague de recherche, sans impact industriel direct à court terme.

RecherchePaper
1 source
Langage comme capteur : estimation calibrée de croyances spatiales en 3D à partir du langage naturel
69arXiv cs.RO 

Langage comme capteur : estimation calibrée de croyances spatiales en 3D à partir du langage naturel

Des chercheurs présentent dans un preprint arXiv (2606.08666, juin 2026) un système permettant aux robots de traiter les descriptions spatiales en langage naturel comme un signal capteur à part entière. Le coeur de la contribution est le Language Sensor Model (LSM), qui convertit chaque énoncé ("j'ai laissé mon sac à dos sur la table") et son graphe de scène en une distribution de probabilités 3D multimodale. Cette distribution encode simultanément l'ambiguïté référentielle ("quelle table parmi plusieurs") via des poids de mélange, et l'incertitude spatiale ("où exactement sur la table") via des covariances par composante. Le LSM s'intègre dans VL-Map (Vision-Language Metric-Semantic Mapping), un framework probabiliste qui fusionne ces prédictions linguistiques avec la perception embarquée dans une carte de croyance unifiée. Évalué sur le benchmark VLA-3D et sur un robot mobile réel, le LSM est le seul prédicteur dont les estimations de covariance restent dans le régime calibré, et produit environ 70 % de masse de probabilité supplémentaire sur la cible correcte par rapport au meilleur modèle de fondation testé. L'enjeu pour les intégrateurs est direct : les robots déployés en environnement humain (logistique, soins, assistance) reçoivent constamment des instructions verbales qui référencent des objets hors de leur champ perceptif. La cartographie métrique-sémantique classique ignore ce canal d'information ; les grands modèles multimodaux généralistes ne produisent pas d'estimations calibrées fusionnables dans un filtre bayésien. La calibration est un point critique souvent sous-estimé : un modèle non calibré surestime ou sous-estime sa confiance, rendant la fusion de capteurs instable et potentiellement dangereuse. Ce travail démontre que le langage peut jouer le rôle d'un vrai capteur réducteur d'incertitude, ce qui modifie le calcul architectural pour tout système de navigation ou manipulation en milieu non structuré. La contribution s'inscrit dans la lignée de la cartographie visuosémantique 3D (ConceptFusion, LERF, OpenScene), qui ancre des embeddings visuolinguistiques dans des représentations de scènes mais demeure passive vis-à-vis du langage conversationnel. Les approches VLA actuelles comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA traitent le langage comme déclencheur d'actions, sans produire de distribution spatiale exploitable par un planificateur externe. Ce système s'y positionne orthogonalement : non pas un planificateur ni un annotateur, mais un capteur probabiliste intégrable à un pipeline SLAM existant. Les expériences décrites restent à un stade exploratoire, sans partenaire industriel ni calendrier de déploiement annoncés dans la publication.

RecherchePaper
1 source
Communication non verbale par posture corporelle en temps réel avec mesure de fiabilité par cohérence
70arXiv cs.RO 

Communication non verbale par posture corporelle en temps réel avec mesure de fiabilité par cohérence

Une équipe de recherche a publié sur arXiv (ref. 2606.09390) une étude portant sur la reconnaissance d'intention communicative à partir de la seule pose corporelle 2D, sans recours au visage, à la voix ou au texte. Le travail cible explicitement des scénarios de communication personne-robot à longue distance et à faible coût, comme les missions de secours en terrain dégradé. Les chercheurs publient un nouveau dataset de frames réels couvrant dix intents communicatifs distincts, et le comparent à des jeux de données existants : IPC (réel) et trois sources synthétiques, MotionLCM, VEO3.1 et Kimodo, qui couvrent un gradient de difficulté croissant. Plusieurs architectures sont évaluées, des classifieurs graph sur squelette jusqu'aux réseaux de prédiction de mouvement articulaire. Tous les benchmarks sont conduits sur une NVIDIA Orin Nano, un GPU embarqué représentatif des contraintes matérielles d'un robot de terrain, ce qui permet de rapporter à la fois précision de classification et cadence d'inférence en conditions réelles. Le point le plus notable n'est pas le dataset mais la mesure de fiabilité non supervisée proposée : les auteurs montrent que l'auto-cohérence autorégressive d'un modèle, c'est-à-dire la stabilité de ses propres prédictions successives sur une séquence, constitue un signal de confiance exploitable sans étiquettes. Ils fournissent une preuve courte bornant la probabilité qu'une prédiction auto-cohérente soit correcte, et montrent que cette probabilité croît avec le nombre de pas cohérents, tout en identifiant les conditions où une prédiction confiante peut rester fausse. C'est directement utile pour un intégrateur robotique : déployer un tel module sans ground truth disponible en opération reste aujourd'hui un frein majeur, et une mesure de fiabilité embarquée change l'équation. Ce travail s'inscrit dans une lacune documentée de la littérature : les corpus affectifs (combinant corps, visage, voix, texte) et les benchmarks de reconnaissance d'action squelettique étiquètent l'action réalisée, pas le message transmis, ce qui les rend inutilisables pour la communication HRI (human-robot interaction) à distance. Le choix de la pose 2D plutôt que 3D reflète une contrainte de déploiement réaliste : pas de LiDAR, pas de caméra de profondeur. Côté concurrence, les travaux sur VLA (Vision-Language-Action) type Pi-0 ou GR00T N2 de NVIDIA visent des interactions à courte portée en environnement structuré ; ce dataset et ce cadre de fiabilité adressent le segment complémentaire, non-verbal et longue distance. Les prochaines étapes naturelles incluent l'extension à davantage d'intents, l'évaluation sur robot physique en extérieur, et potentiellement une intégration dans des pipelines de perception multi-modale pour robots d'intervention.

RecherchePaper
1 source
Modèle de diffusion sensible aux correspondances pour la manipulation robotique en contact étroit (Robot-DIFT)
71arXiv cs.RO 

Modèle de diffusion sensible aux correspondances pour la manipulation robotique en contact étroit (Robot-DIFT)

La manipulation robotique échoue souvent dans les derniers millimètres : un bras peut identifier le bon objet mais rater l'alignement de pose ou le contact précis nécessaire à l'action. Robot-DIFT (arXiv:2602.11934) est une architecture d'encodeur visuel présentée dans un preprint académique pour combler ce manque, en exposant aux politiques de contrôle des features de correspondance sensibles aux variations fines de pose et de géométrie de contact. L'approche repose sur la distillation de variété (Manifold Distillation) : un modèle de diffusion bruit-conditionné sert de Teacher et transfère sa structure de représentation à un Student déterministe à passe unique, compatible avec le contrôle temps réel. Un réseau pyramidal spatial-sémantique (S2-FPN) fusionne ensuite les features multirésolution pour exposer à la politique à la fois contexte global et détail de contact fin. Évalué sur RoboCasa, LIBERO-10 et sur robots physiques, Robot-DIFT dépasse les encodeurs VLA, auto-supervisés, géométriques et diffusion directe sur les tâches sensibles au contact. L'enjeu est structurant pour la robotique de précision et les intégrateurs industriels. Les encodeurs sémantiques qui équipent les VLA modernes, comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, reconnaissent les objets à l'échelle scène mais écrasent les indices de correspondance fine dont le contrôle en boucle fermée a besoin : c'est ce qui bloque l'assemblage de précision, l'insertion et la manipulation en milieu non structuré. Les modèles de diffusion encodent naturellement ces correspondances denses, mais leur stochasticité et leur latence élevée les rendaient inutilisables directement. Robot-DIFT propose une alternative : distiller ces features en un backbone déterministe temps réel sans perdre leur avantage de correspondance. Les travaux sur les features de diffusion en vision 2D (DIFT, Diffusion Hyperfeatures) avaient posé les bases théoriques sans transposition robotique praticable. Robot-DIFT se positionne face aux encodeurs auto-supervisés établis comme R3M, MVP et VC-1, et aux représentations issues des VLA. Aucun acteur européen n'est cité dans ce travail, mais des entreprises comme Enchanted Tools ou Wandercraft, dont les cas d'usage requièrent une précision millimétrique, sont dans le périmètre d'application direct. Les prochaines étapes logiques incluent l'intégration dans des politiques diffusion (Diffusion Policy, ACT) et des évaluations sur benchmarks industriels plus représentatifs que les suites académiques actuelles.

UEDes entreprises françaises comme Enchanted Tools et Wandercraft, dont les cas d'usage requièrent une précision millimétrique, pourraient bénéficier de cette architecture si elle est intégrée dans des politiques de contrôle open-source diffusion ou ACT.

IA physiquePaper
1 source
Les modèles du monde latents comprennent-ils les contraintes de sécurité partiellement observables ?
72arXiv cs.RO 

Les modèles du monde latents comprennent-ils les contraintes de sécurité partiellement observables ?

Une équipe de chercheurs publie sur arXiv (2510.06492v2) une étude systématique des défaillances des modèles du monde latents face à des contraintes de sécurité partiellement observables. Appliquée à un bras manipulateur Franka Research 3 sur des tâches de cuisine, la recherche identifie deux modes de défaillance distincts. Le premier, appelé "estimation gap", survient quand l'observation courante ne révèle pas une grandeur critique pour la sécurité : la température d'une surface de cuisson, invisible en RGB seul, en est l'exemple central. Le second, le "prediction gap", désigne les situations où la défaillance devient observable dès qu'elle se produit, mais ne peut être anticipée à partir des observations disponibles. Les auteurs proposent deux diagnostics quantitatifs associés : une mesure d'observabilité de sécurité basée sur l'information mutuelle, et une mesure de prédictibilité future fondée sur des rollouts simulés. Deux stratégies de mitigation sont ensuite validées en hardware : la supervision multimodale privilégiée (ajout de capteurs thermiques ou tactiles au flux RGB) pour combler les estimation gaps, et la calibration de risque conforme (conformal risk calibration) pour les prediction gaps, avec des résultats mesurés sur le robot réel. Ces résultats posent une question structurante pour le secteur : les représentations latentes produites par un world model entraîné sur observations RGB sont-elles suffisantes pour garantir un contrôle fiable en environnement industriel ? La réponse empirique ici est non, et ce constat a des implications directes pour les intégrateurs qui déploient des bras robotisés sur des lignes de production où des variables non-visuelles (température, force de contact, couple) conditionnent la sécurité. La calibration conforme, issue de la théorie statistique de la prédiction, permet de borner le risque de violation de contrainte sans retrainer le modèle, ce qui représente un avantage pratique pour les déploiements existants. La contrepartie documentée est une conservatisme accru du contrôleur, se traduisant par une réduction du taux de complétion des tâches : la sécurité est améliorée, mais au prix d'une productivité moindre, un arbitrage classique que les COO devront quantifier pour leur contexte. Le travail s'inscrit dans la lignée des world models de type Dreamer et RSSM (Recurrent State Space Model), popularisés par DeepMind, qui apprennent une représentation compressée de l'état du monde pour planifier en espace latent. Cette approche gagne du terrain face aux politiques purement réactives, notamment dans les architectures VLA (Vision-Language-Action) portées par des équipes comme Physical Intelligence (Pi-0), Google DeepMind (GR00T) ou Figure AI. La plupart de ces modèles s'appuient sur des flux RGB ou RGBD, ignorant les modalités thermiques ou haptiques, ce que cette étude remet en cause sur des tâches à risque. Le Franka Research 3 est le banc d'essai standard de la communauté, ce qui facilite la reproductibilité. Les prochaines étapes probables incluent l'extension à des configurations multi-bras, l'intégration dans des pipelines VLA de production, et la question ouverte de savoir comment sélectionner automatiquement les modalités nécessaires à la sécurité pour une tâche donnée.

RechercheActu
1 source
ActProbe : sonde dans l'espace d'action pour la détection précoce des défaillances des politiques robotiques génératives
73arXiv cs.RO 

ActProbe : sonde dans l'espace d'action pour la détection précoce des défaillances des politiques robotiques génératives

Des chercheurs ont publié ActProbe (arXiv:2606.08508), un détecteur de défaillances léger pour les politiques robotiques génératives, ces systèmes qui produisent des séquences d'actions continues comme les politiques de diffusion ou les architectures ACT déployées sur des robots tels que Figure 03 ou entraînés avec pi-0. Plutôt que d'accéder aux états internes du modèle ou d'introduire un rééchantillonnage coûteux à l'exécution, ActProbe opère exclusivement sur les chunks d'actions émis lors d'un seul passage avant (forward pass). Deux signaux suffisent : l'erreur de cohérence temporelle (TCE), qui mesure l'incohérence entre deux chunks consécutifs, et l'amplitude du chunk courant (ACM). Ces métriques alimentent une architecture LSTM-MLP légère conditionnée par la tâche, produisant une probabilité de défaillance par étape. Sur un ensemble diversifié de benchmarks, ActProbe améliore le front de Pareto précision (F1)/précocité d'un gain en hypervolume de +12,7 % par rapport aux méthodes existantes, et affiche un avantage de +9,0 % en ROC-AUC sur des tâches non vues à l'entraînement. L'intérêt opérationnel tient à une contrainte réelle : les politiques commerciales comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) ne donnent pas accès à leurs états internes. Un détecteur purement black-box est donc la seule option viable en déploiement industriel. ActProbe émet ses alertes avant que la défaillance ne soit visuellement reconnaissable, ce qui est critique pour interrompre une action irréversible avant qu'elle ne soit engagée. Côté fine-tuning par renforcement (PPO), le système réduit de 2,9 fois le nombre d'interactions nécessaires avec l'environnement, un gain direct lorsque chaque interaction implique un robot physique. Le transfert sur des tâches de saisie réelles non vues lors de l'entraînement valide la généralisation hors simulateur. ActProbe s'inscrit dans les travaux ciblant le fossé entre démonstration en laboratoire et déploiement à l'échelle, l'obstacle central à la commercialisation des robots généralistes depuis 2023. Les approches concurrentes, qu'elles reposent sur le monitoring d'incertitude interne ou sur des signaux côté observation, souffrent d'un manque d'accès aux internals ou d'une latence incompatible avec le temps réel. La prochaine étape logique serait l'intégration dans des boucles de contrôle réactives pour robots humanoïdes industriels, terrain où Figure AI, Apptronik et Agility Robotics accélèrent leurs déploiements en entrepôt en 2026. ActProbe reste à ce stade une publication académique préliminaire, sans produit ni partenariat industriel annoncé.

RechercheOpinion
1 source
PRISM : échantillonnage guidé par les priors dans les modèles du monde
74arXiv cs.RO 

PRISM : échantillonnage guidé par les priors dans les modèles du monde

Une équipe de chercheurs a publié PRISM (PRior-guided Imagination Sampling in world Models), un framework de planification basée sur les modèles du monde pour le contrôle continu en robotique. L'approche cible un angle précis : dans la planification par MPC (Model Predictive Control), la qualité des actions candidates générées pour évaluation compte autant que la précision du simulateur lui-même. PRISM repose sur un modèle de monde latent de style JEPA (Joint Embedding Predictive Architecture) auquel est attaché un MLP léger branché sur l'encodeur gelé du modèle. Ce MLP prédit un prior gaussien conditionné à l'état courant ; au moment de la planification, PRISM fusionne ce prior dans la distribution d'échantillonnage via une mise à jour Product-of-Gaussians pondérée par précision, une opération en forme fermée sans paramètres additionnels. Les gains mesurés atteignent +35 points de pourcentage sur la tâche Cube et +32 points sur PushT face à un MPC standard sur modèle du monde, sans surcoût d'inférence significatif. Pour les praticiens du contrôle robotique, l'enjeu est concret. Les planificateurs existants compensent l'inefficacité d'exploration en important des encodeurs visuels indépendants ou des VLMs (Vision Language Models) de grande taille pour construire un prior d'actions, ce qui alourdit l'architecture et complique le déploiement embarqué. PRISM extrait ce prior directement des représentations apprises par le modèle du monde, depuis le même jeu de données d'entraînement, sans composant externe. Le mécanisme s'auto-régule naturellement : le prior est confiant là où les données sont denses, et s'efface là où elles sont rares. Pour un ingénieur en manipulation industrielle ou un intégrateur système, c'est un gain d'efficacité d'échantillonnage sans refonte de l'infrastructure existante. PRISM s'inscrit dans la lignée des travaux sur les modèles du monde pour le contrôle incarné, dont JEPA (Meta/LeCun), TD-MPC2 et Dreamer v3 sont des jalons récents, et dont l'efficacité en phase de planification reste un problème ouvert. Les approches concurrentes privilegient des modèles de grande taille intégrant nativement un prior d'action, comme les VLA (Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA), une philosophie diamétralement opposée à la compacité revendiquée par PRISM. Point de vigilance : les benchmarks utilisés, Cube et PushT, sont des environnements de manipulation simulés relativement standards. La validation sur hardware réel et en manipulation dextre en conditions non structurées reste à venir, ce qui tempère la portée opérationnelle des gains annoncés.

RecherchePaper
1 source
Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes
75arXiv cs.RO 

Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes

Une équipe de chercheurs a publié le 9 juin 2026 sur arXiv (2606.08278) SIMPLE, un banc de test de simulation unifié pour l'apprentissage et l'évaluation de politiques de contrôle de robots humanoïdes. La plateforme couple la simulation de dynamique de contact de MuJoCo avec le rendu photoréaliste d'IsaacSim, et propose 60 tâches de loco-manipulation plein corps, 50 scènes d'intérieur et plus de 1 000 assets d'objets. Pour la collecte de données, deux pipelines sont intégrés : génération automatisée de trajectoires par planification de mouvement, et interface de téléopération VR à faible latence. Les auteurs y benchmarkent plusieurs familles de politiques humanoïdes : réseaux d'imitation légers, grands modèles vision-langage-action (VLA) et les récents modèles d'action du monde (WAM, World Action Models). Les expériences démontrent, selon les auteurs, un transfert zero-shot vers des robots humanoïdes physiques dans des configurations similaires. L'enjeu central est un goulot d'étranglement d'évaluation : les modèles fondationnels humanoïdes progressent plus vite que les protocoles pour les tester. Les benchmarks existants se concentrent sur la robotique de table ou les robots à roues, sans couvrir la loco-manipulation plein corps, compétence clé pour les humanoïdes déployés en environnement industriel ou domestique. Si la corrélation sim-to-real revendiquée dans l'article se confirme à plus grande échelle, elle légitime le recours massif à la simulation pour entraîner des politiques de contrôle, réduisant drastiquement les coûts de collecte de données en conditions réelles. C'est précisément le pari industriel de Physical Intelligence avec pi-0, et de Figure AI avec Figure 02 : remplacer les démos téléopérées coûteuses par des pipelines simulés reproductibles. La fragmentation des benchmarks est un problème structurel en robotique humanoïde : chaque laboratoire publie sur ses propres protocoles, rendant toute comparaison inter-équipes difficile. Des initiatives comme HumanoidBench, RoboVerse ou Isaac Lab ont tenté d'y répondre, mais sans couvrir la chaîne complète loco-manipulation avec rendu photoréaliste et pipelines de données intégrés. SIMPLE se positionne à cette intersection. Les équipes de Google DeepMind (GR00T N2, Helix), Agility Robotics (Digit) et Boston Dynamics sont directement concernées. Ce preprint arXiv n'est pas encore évalué par les pairs ; l'adoption par la communauté dépendra de la disponibilité publique du code et des assets, non encore confirmée.

RecherchePaper
1 source
Symskill : co-invention de symboles et de compétences pour une manipulation réactive à long horizon, économe en données
76arXiv cs.RO 

Symskill : co-invention de symboles et de compétences pour une manipulation réactive à long horizon, économe en données

Des chercheurs ont publié sur arXiv (2510.01661, version 3) SymSkill, un framework d'apprentissage robotique pour la manipulation séquentielle en environnements dynamiques. Le système apprend conjointement trois composantes à partir de démonstrations brutes, non étiquetées et non segmentées : des prédicats symboliques (conditions logiques décrivant l'état du monde), des opérateurs (représentations abstraites des actions), et des compétences motrices orientées vers des objectifs. En simulation RoboCasa, SymSkill réussit 12 tâches à étape unique avec un taux de 85 %, puis les compose en plans multi-étapes sans données supplémentaires. Sur un robot réel Franka, le système apprend à partir de cinq minutes de données de jeu libre et exécute des tâches à 12 étapes à partir de spécifications symboliques d'objectifs. La récupération en cas d'échec opère en temps réel, tant au niveau moteur que symbolique, via un contrôleur conforme permettant l'exécution sécurisée sous perturbations humaines ou environnementales. L'intérêt de SymSkill tient à sa résolution d'une tension fondamentale en robotique industrielle : l'apprentissage par imitation (IL) est réactif mais ne généralise pas à des scènes inédites, tandis que la planification tâche-et-mouvement (TAMP) est compositionnelle mais trop lente pour la récupération en temps réel. SymSkill combine les deux en un seul cadre unifié : le planificateur symbolique réordonne dynamiquement les compétences selon l'état courant, sans nécessiter de réentraînement. Pour un intégrateur, cinq minutes de données suffire à couvrir une séquence de 12 étapes représente un gain de coût de labellisation considérable par rapport aux pipelines d'imitation classiques. Les résultats questionnent aussi l'hypothèse selon laquelle les modèles VLA (vision-langage-action) monolithiques suffisent pour la manipulation longue-horizon : la décomposition symbolique explicite offre ici une robustesse mesurable. L'approche s'inscrit dans un débat de fond entre architectures neuronales end-to-end, comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, et les approches hybrides neuro-symboliques. SymSkill représente ce second camp, qui revendique meilleure interprétabilité et récupération d'échec structurée. Aucun déploiement industriel ni partenariat commercial n'est annoncé ; il s'agit d'un résultat de recherche académique avec code disponible sur symskill.github.io, et les performances en simulation restent à valider sur des tâches industrielles à plus haute variabilité. La prochaine étape naturelle serait de tester la scalabilité sur des horizons supérieurs à 12 étapes et des environnements moins contrôlés.

IA physiquePaper
1 source
Autoencodeurs épars : des caractéristiques interprétables et pilotables révélées dans les modèles VLA
77arXiv cs.RO 

Autoencodeurs épars : des caractéristiques interprétables et pilotables révélées dans les modèles VLA

Des chercheurs ont entraîné des Sparse Autoencoders (SAE) sur les activations de couches cachées de modèles Vision-Language-Action (VLA) pour sonder mécanistiquement leurs représentations internes. Les SAE apprennent des dictionnaires épars sur ces activations, révélant des directions interprétables dans l'espace de représentation du modèle. L'équipe a identifié des features correspondant à des primitives de mouvement et à des concepts sémantiques, subdivisées selon une métrique proposée en deux catégories : les primitives générales transférables entre tâches, et les mémorisations épisodiques propres à un contexte particulier. Ces features se révèlent causalement pilotables : amplifier une feature générale induit des comportements cohérents avec sa sémantique, tandis que l'ablater dégrade significativement les performances du modèle. Les expériences ont été conduites sur le benchmark de simulation LIBERO et sur du matériel réel DROID, ce qui distingue ce travail de nombreuses contributions purement synthétiques. L'enjeu central est de comprendre quand et pourquoi un VLA généralise à de nouveaux objets, scènes ou instructions, une question que les benchmarks de performance bruts ne permettent pas de trancher. La distinction primitives-générales/mémorisations-épisodiques fournit aux développeurs un outil diagnostique pour évaluer ce qu'un modèle a réellement internalisé après entraînement, plutôt que de se fier à des métriques de réussite de tâche. Plus significatif encore, le steering par SAE ouvre une voie de contrôle orthogonale au prompting textuel : le robot peut être guidé dans des directions comportementales impossibles à exprimer via des instructions en langage naturel, sans réentraînement du modèle. Ce travail s'inscrit dans la continuité des recherches en interprétabilité mécanistique qui ont d'abord ciblé les grands modèles de langage, notamment les travaux publiés par Anthropic sur les SAE appliqués aux LLM, et tente de transposer cette méthodologie aux modèles agissants multimodaux. Les VLA dominent aujourd'hui la manipulation robotique généraliste, qu'il s'agisse de Pi-0 (Physical Intelligence), d'OpenVLA (UC Berkeley), de GR00T N2 (NVIDIA) ou des architectures de Google DeepMind, et tous font face au même déficit d'interprétabilité interne. La validation sur DROID, benchmark réel à forte diversité de scènes et de manipulations, renforce la portée des résultats au-delà du sim-to-real classique. Les suites naturelles incluent l'intégration de ces outils dans des pipelines de fine-tuning ciblé ou de sélection de données d'entraînement, voire dans des systèmes de supervision comportementale en production.

RechercheOpinion
1 source
Quand la vidéo se trompe : distillation en boucle fermée d'heuristiques de lecture pour les QA de manipulation exploratoire
78arXiv cs.RO 

Quand la vidéo se trompe : distillation en boucle fermée d'heuristiques de lecture pour les QA de manipulation exploratoire

Des chercheurs présentent dans un preprint arXiv publié en juin 2026 (2606.08542) une formalisation et une solution partielle à un problème mal documenté de la planification robotique : les grands modèles de vision-langage actuels (VLMs, LLMs multimodaux incarnés) ne savent pas lire les traces d'exploration robotique. Le cas typique : un robot tire sur un tiroir verrouillé, échoue, puis réussit après avoir ouvert le verrou. Cet échec initial n'est pas du bruit, c'est la preuve d'une précondition latente (le tiroir était verrouillé), et donc la clé pour inférer la séquence minimale d'actions correcte. Les auteurs formalisent ce problème sous le nom EMT-QA (Exploratory Manipulation Trace QA) et proposent la Closed-Loop Trace Distillation : un agent de codage par tâche inspecte les traces d'entraînement étiquetées et en distille une heuristique de lecture en une seule ligne de langage naturel, appelée DRH (Distilled Reading Heuristic). À l'inférence, pas d'agent invoqué, pas de mise à jour de poids : un VLM figé reçoit la trace brute augmentée du DRH. Sur cinq tâches (trois en simulateur, deux sur robot réel), le DRH améliore la précision de la chaîne d'actions de +0,38 à +0,47 par rapport aux meilleures baselines en modalité brute. Ce résultat contredit une hypothèse courante dans le secteur : que des VLMs suffisamment puissants "verront" naturellement les préconditions cachées dans une vidéo d'exécution. L'étude démontre que ni la vidéo brute, ni la proprioception, ni leur combinaison ne suffisent. Pour les équipes qui intègrent des VLMs comme backbone de planification dans des systèmes de manipulation industrielle, cela signifie qu'une couche de distillation d'heuristiques peut s'avérer indispensable, sans nécessiter de fine-tuning ni d'infrastructure supplémentaire à l'inférence. Fait notable : le même DRH sert également de spécification unique pour des classifieurs programmatiques one-shot qui égalent les performances du VLM prompté, ouvrant une voie vers des pipelines de validation auditables et plus légers. Ces travaux s'inscrivent dans la dynamique des politiques robotiques fondées sur la vidéo et le langage (VLA), portée notamment par Physical Intelligence (Pi-0), NVIDIA (GR00T N2) ou Google DeepMind, qui s'appuient tous sur des VLMs comme planificateurs. La lecture fiable des traces d'exécution est un angle mort reconnu dans la communauté, souvent masqué dans les démos par des conditions expérimentales favorables. Le périmètre de validation reste restreint (cinq tâches au total), et la généralisation à des préconditions plus complexes ou à des chaînes d'actions plus longues n'est pas encore établie. Les suites naturelles incluent l'évaluation sur des benchmarks de manipulation plus larges et, surtout, la génération de DRH sans traces étiquetées en amont, condition nécessaire à la scalabilité réelle de l'approche.

RechercheOpinion
1 source
C³ache : accélérer les modèles monde-action par cache de blocs inter-inférences
79arXiv cs.RO 

C³ache : accélérer les modèles monde-action par cache de blocs inter-inférences

Des chercheurs ont publié sur arXiv en juin 2026 (référence 2606.08962) une méthode d'accélération appelée C³ache (Cross Inference Chunk Cache), ciblant les World Action Models (WAM), une classe de modèles robotiques qui génèrent des politiques d'action en modélisant la vidéo plutôt qu'en s'appuyant uniquement sur des démonstrations étiquetées. Contrairement aux politiques VLA (Vision-Language-Action) classiques, les WAM s'entraînent sur de la vidéo non labellisée abondante, ce qui améliore leur généralisation à de nouveaux mouvements et environnements, mais au prix d'un coût d'inférence élevé. Pour exécuter une tâche, un WAM enchaîne plusieurs blocs d'inférence successifs (chunks), chacun nécessitant un processus de débruitage coûteux. Les méthodes existantes réduisent ce coût en mettant en cache les calculs au sein d'un même chunk, mais ignorent une source de redondance plus large : la forte corrélation entre les résidus calculés à un même step de débruitage, d'un chunk au suivant, lorsque le robot exécute un comportement fluide. C³ache exploite cette corrélation en réutilisant ces résidus entre chunks consécutifs, sans aucun réentraînement du modèle. Les expériences sur benchmarks avec un backbone Fast-WAM montrent un gain allant jusqu'à 2,5× sur le temps d'inférence total mesuré en wall-clock, avec une dégradation négligeable du taux de succès aux tâches. Ce résultat a une portée concrète pour les équipes cherchant à déployer des robots autonomes à coût raisonnable. Le principal frein à l'adoption industrielle des WAM n'est pas la qualité des politiques générées, mais leur latence d'inférence : réduire ce coût par 2,5× sans modifier les poids du modèle constitue un levier de déploiement immédiat, sans pipeline de réentraînement ni risque de régression. La méthode valide aussi une hypothèse structurelle utile : les trajectoires robotiques lisses produisent des représentations internes stables d'un pas à l'autre, ce qui ouvre la voie à des stratégies de cache plus agressives au niveau système. Pour les intégrateurs et les équipes MLOps, C³ache se présente comme un composant directement intégrable à tout modèle WAM existant. Les WAM s'inscrivent dans une tendance initiée par des modèles comme pi-0 de Physical Intelligence et GR00T N2 de NVIDIA, qui exploitent tous deux un objectif de génération vidéo pour apprendre à partir de données non étiquetées. La course à la réduction des coûts d'inférence pour ces architectures est intense : Google, Physical Intelligence et plusieurs laboratoires académiques explorent en parallèle la distillation, la quantification et le cache intra-chunk. C³ache se positionne comme une solution orthogonale et combinable avec ces approches. Les auteurs soulignent toutefois une limite importante : la corrélation inter-chunks supposée ne tient que pour des comportements robotiques fluides, et des mouvements brusques ou des transitions rapides pourraient dégrader les performances. Il s'agit pour l'instant d'un preprint non relu par les pairs, et les évaluations restent confinées à des benchmarks simulés ; les prochaines étapes naturelles incluent la validation sur robots physiques et l'intégration dans des pipelines embarqués à contraintes de latence strictes.

IA physiqueActu
1 source
Métriques de curation : les scores axés sur les actions manquent les défauts structurels dégradant l'imitation
80arXiv cs.RO 

Métriques de curation : les scores axés sur les actions manquent les défauts structurels dégradant l'imitation

Une étude soumise sur arXiv (arXiv:2606.05588, juin 2026) audit sept métriques de curation de démonstrations robotiques utilisées en apprentissage par imitation. Les chercheurs ont construit un banc d'essai contrôlé dans lequel des défauts sont injectés avec un type connu, puis évalué chaque métrique selon deux axes : sa capacité à séparer démonstrations défectueuses et saines, et son impact réel sur le taux de succès d'une politique de behavior cloning entraînée sur le sous-ensemble filtré. Les perturbations subtiles (bruit d'action corrélé, tremblements, troncatures) sont détectées par scoring outlier multivarié ; leur suppression restaure l'intégralité de l'écart de performance en aval. Les erreurs structurelles, en revanche, où une action incorrecte est exécutée à un moment décisif, restent invisibles à toutes les métriques action-only testées. Deux d'entre elles sont même inversées : elles notent ces démonstrations défectueuses comme étant de meilleure qualité et laissent la politique au niveau ou en dessous de la baseline non filtrée. Seules les métriques examinant la trajectoire d'état détectent ces erreurs, mais même la meilleure ne récupère qu'un tiers de l'écart de performance downstream. Ce résultat interpelle directement les équipes qui entraînent des politiques robotiques à partir de données de téléopération. Le filtrage standard par métriques d'action seules s'avère insuffisant dès que les défauts sont de nature structurelle, précisément les cas les plus difficiles à labelliser manuellement : ceux qu'un opérateur humain commet lors d'une hésitation ou d'un mauvais geste à un instant clé. L'étude établit également que haute précision de détection ne garantit pas d'amélioration downstream, une nuance critique pour toute pipeline industrielle de curation automatique prétendant améliorer la qualité des données à l'échelle. La course à la donnée de démonstration s'est accélérée avec des systèmes comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou les politiques d'Optimus (Tesla), dont les performances en déploiement dépendent directement de la qualité des corpus téléopérés. Avec la multiplication des infrastructures de collecte, la curation automatique est devenue un noeud critique dans les pipelines de formation. Les chercheurs publient le banc d'essai et les implémentations en open source, offrant à la communauté un outil de référence pour auditer rigoureusement tout système de filtrage. Leurs conclusions confirment que la trajectoire d'état doit être intégrée à tout scoring sérieux, et que l'erreur structurelle reste le talon d'Achille des approches action-only.

RecherchePaper
1 source
IA incarnée sûre pour les tâches à long horizon : une analyse multi-couches de la manipulation robotique
81arXiv cs.RO 

IA incarnée sûre pour les tâches à long horizon : une analyse multi-couches de la manipulation robotique

Une équipe de chercheurs publie sur arXiv (identifiant 2606.05660, juin 2026) une revue systématique de la sécurité dans les systèmes d'IA incarnée (embodied AI) appliqués à la manipulation robotique à long horizon. Ce survey structure la littérature selon trois niveaux d'intervention : la sécurité au stade de la planification (planning-time), au niveau de la politique de contrôle (policy-time) et pendant l'exécution (execution-time). Les auteurs identifient quatre vecteurs de risque pouvant s'accumuler dans un même système en boucle fermée : le misgrounding sémantique (l'agent interprète mal l'instruction de haut niveau), la propagation d'erreur entre sous-tâches, la dérive d'exécution (execution drift) et les risques physiques liés aux contacts. Ils distinguent par ailleurs trois catégories de garanties dans la littérature existante : formelles, statistiques et heuristiques empiriques, et concluent que les preuves formelles font défaut à chaque couche. L'enjeu est direct pour les intégrateurs et les décideurs industriels. Un bras robotique déployé en entrepôt ou en ligne de production enchaîne des dizaines d'actions sur des horizons temporels étendus, et chaque sous-tâche peut propager silencieusement une erreur vers les suivantes. Or le survey révèle que la sécurité au niveau de la politique de contrôle, au coeur même des modèles VLA (Vision-Language-Action) comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, est la couche la moins documentée empiriquement. Les mécanismes d'intervention déclenchés par l'incertitude (uncertainty-triggered intervention) restent immatures, et les benchmarks spécifiques à la sécurité en manipulation longue durée sont quasi-inexistants, ce qui rend toute validation rigoureuse avant déploiement aujourd'hui difficile. Ce travail paraît dans un contexte d'accélération industrielle : Figure AI, Boston Dynamics, Unitree et Physical Intelligence multiplient les démonstrations de manipulation dextère, souvent en conditions semi-contrôlées, alimentant un écart potentiel entre annonces marketing et réalité opérationnelle. Il convient de souligner que ce papier est une analyse critique de l'existant, pas un nouveau système ou algorithme. Ses recommandations prioritaires portent sur trois axes : des assurances cross-couche cohérentes de la planification jusqu'à l'exécution physique, des benchmarks dédiés à la sécurité en manipulation longue durée, et des protocoles de déploiement progressifs pour les agents robotiques en environnements réels. En creux, le constat est que les capacités du secteur progressent plus vite que les outils pour en évaluer la sécurité.

UEL'absence de benchmarks formels de sécurité pour la manipulation longue durée concerne directement les industriels européens déployant des bras robotisés, et pourrait alimenter les exigences de validation dans le cadre de l'AI Act pour les systèmes robotiques à haut risque.

RecherchePaper
1 source
Modèles du monde pour la manipulation robotique : une synthèse de la littérature
82arXiv cs.RO 

Modèles du monde pour la manipulation robotique : une synthèse de la littérature

Une revue de littérature publiée sur arXiv (2606.00113) cartographie l'état de l'art des modèles du monde (world models) appliqués à la manipulation robotique. Les auteurs recensent cinq familles de représentations prédictives : modèles de dynamique latente, générateurs vidéo conditionnés par l'action, prédicteurs de scène 3D et 4D, simulateurs à contraintes physiques, et modules prédictifs embarqués dans les systèmes vision-langage-action (VLA). La revue couvre 34 jeux de données de manipulation et propose une taxonomie fonctionnelle distinguant les modèles intégrant prédiction et action de ceux servant de planificateurs explicites. Trois axes structurent l'analyse : quelle représentation future est prédite, comment la prédiction se connecte à l'action, et à quel moment du pipeline d'apprentissage robotique elle intervient. Cette synthèse répond à un besoin concret : le terme "world model" recouvre des réalités très hétérogènes, ce qui brouille les comparaisons et ralentit les transferts technologiques entre laboratoires. En posant une définition opérationnelle stricte (un world model est un système prédictif conditionné par l'action, distinct des modules de perception, des politiques ou des fonctions de valeur), les auteurs établissent un cadre commun dont manquait le secteur. La revue confirme que ces systèmes évoluent d'outils de simulation spécialisés vers une infrastructure générique pour l'apprentissage robotique : génération d'expériences synthétiques, filtrage de candidats, vérification de résultats. Ce glissement architectural touche directement les pipelines de pré-entraînement, de post-entraînement et d'adaptation à l'inférence, trois phases critiques pour quiconque industrialise un robot manipulateur. Le domaine a accéléré avec l'essor des VLA comme Pi-0 (Physical Intelligence) et GR00T N2 (NVIDIA), et l'adoption des architectures Transformer en robotique, mais sans convergence méthodologique. La fragmentation reflète une course entre grands labs (Google DeepMind, MIT, Stanford, Berkeley) et startups qui ne partagent ni benchmarks ni protocoles d'évaluation communs. Les défis ouverts identifiés par les auteurs, notamment la modélisation des contacts, le contrôle des hallucinations, l'alignement action-prédiction et le benchmarking en boucle fermée, tracent un agenda de recherche pour les prochaines années. Pour les équipes travaillant sur la manipulation industrielle ou les bras collaboratifs, cette revue constitue une feuille de route pour choisir quelle classe de world model intégrer selon le cas d'usage : data augmentation, planification prédictive ou vérification de trajectoires.

UELes équipes européennes (INRIA, CEA-List, labos collaboratifs) travaillant sur la manipulation robotique peuvent s'appuyer sur cette taxonomie pour structurer leurs choix d'architecture world model, mais aucun acteur ni financement européen n'est impliqué directement.

RecherchePaper
1 source
PACE : exécution par segments selon les phases pour les politiques robotiques avec découpage d'actions
83arXiv cs.RO 

PACE : exécution par segments selon les phases pour les politiques robotiques avec découpage d'actions

Des chercheurs présentent PACE (Phase-Aware Chunk Execution), une méthode d'exécution sans réentraînement publiée sur arXiv (2606.00537) qui s'applique aux politiques robotiques exploitant l'action chunking. Le principe de l'action chunking, popularisé par des architectures comme ACT et les politiques de diffusion, consiste à faire prédire au modèle une séquence d'actions futures en bloc, dont seul un préfixe est exécuté en boucle ouverte avant de re-interroger le modèle. Le paramètre clé, l'horizon d'exécution (combien d'étapes du bloc sont jouées avant la prochaine observation), est jusqu'ici fixé statiquement. PACE le détermine dynamiquement en analysant le profil de vitesse prédit : les points de transition basse vitesse dans la trajectoire correspondent aux frontières naturelles entre phases de manipulation, et PACE les utilise comme candidats au replanning. La méthode a été validée sur 50 tâches RoboTwin 2.0 (passage de 57,8 % à 64,2 % de taux de succès), et sur robots réels avec une plateforme bimanuelle ALOHA et un bras Franka single-arm (score moyen 60,7 à 77,7, taux de succès 50,7 % à 70,4 %). Un gain de près de 20 points de pourcentage en conditions réelles sans modifier ni réentraîner le modèle sous-jacent est un résultat notable pour le secteur. Il confirme que le goulot d'étranglement ne réside pas toujours dans la qualité intrinsèque de la politique VLA ou diffusion, mais dans la stratégie de déploiement elle-même. PACE s'insère en plug-and-play au-dessus de n'importe quelle politique existante, sans accès aux poids ni aux couches internes, ce qui en fait un outil immédiatement utilisable par les intégrateurs et les équipes de mise en production, sans investissement en données ou calcul supplémentaire. L'action chunking s'est imposé comme standard d'exécution depuis les travaux sur ACT (Stanford, 2023) et les politiques de diffusion (Chi et al.), repris dans des systèmes comme pi-0 de Physical Intelligence ou les architectures OpenVLA. La rigidité de l'horizon fixe est un problème connu, et plusieurs approches ont tenté de l'adresser via du replanning conditionnel ou de la détection d'anomalies. PACE choisit une voie plus simple : exploiter uniquement le bloc d'actions déjà prédit, sans capteur ni signal externe. La prochaine étape logique sera de tester cette approche sur des politiques à plus haute fréquence comme GR00T N2 de NVIDIA ou les architectures hybrides VLA-diffusion qui émergent chez des acteurs comme Enchanted Tools en Europe, où la latence de replanning reste un verrou industriel.

UEEnchanted Tools et les équipes robotiques européennes déployant des politiques VLA ou de diffusion pourraient bénéficier directement de PACE pour améliorer leurs taux de succès en production sans coût de réentraînement ni d'accès aux poids du modèle.

💬 +20 points de taux de succès sur robot réel sans toucher au modèle, c'est le genre de résultat qui fait réfléchir sur où on met vraiment l'effort en robotique. L'idée est belle : plutôt que d'entraîner encore, on optimise le quand on replanifie, en lisant les creux de vitesse dans la trajectoire déjà prédite. Plug-and-play, sans accès aux poids, ça va intéresser sérieusement les équipes qui font de l'intégration prod, Enchanted Tools en tête.

IA physiqueOpinion
1 source
FATE-VLA : génération de tests orientée détection de défaillances pour les modèles vision-langage-action
84arXiv cs.RO 

FATE-VLA : génération de tests orientée détection de défaillances pour les modèles vision-langage-action

Des chercheurs ont publié le 2 juin 2026 FATE-VLA (arXiv:2606.02307), une méthode active de génération de tests pour évaluer les modèles VLA (Vision-Language-Action), ces politiques robotiques généralisées qui combinent perception visuelle, compréhension linguistique et commande motrice. Plutôt que de tester ces modèles sur des benchmarks statiques à échantillonnage aléatoire, FATE-VLA reformule l'évaluation comme un problème de découverte active de défaillances : un algorithme couple exploration guidée par la diversité et modèles surrogate appris sur les exécutions observées, afin d'orienter les tests vers les régions de scène à haut risque. Appliqué à quatre modèles VLA de référence, dont GR00T-N1.6 de NVIDIA, le système identifie jusqu'à 29,7 % de défaillances supplémentaires par rapport aux baselines retenus et expose des modes d'échec plus variés. Sur GR00T-N1.6 spécifiquement, le taux de succès chute de 64,4 % à 34,7 % lorsque les scènes de test ciblent les zones problématiques de l'espace de configuration. Ce résultat soulève une question directe pour quiconque envisage de déployer des VLA en production industrielle : les performances communiquées par les fabricants sont mesurées sur des benchmarks à tirage aléatoire qui, par construction, sous-représentent les configurations critiques. Si les défaillances sont rares mais concentrées dans certaines régions de l'espace de tâche, ce que FATE-VLA confirme empiriquement, un benchmark classique peut afficher 64 % de succès là où un intégrateur confronté à ces configurations limites observera des performances nettement inférieures. Le paradigme proposé s'inspire du fuzzing et du test adversarial déjà standards en sécurité logicielle, deux pratiques absentes des protocoles de validation robotique actuels. Les modèles VLA ont connu une accélération marquée depuis 2023-2024, avec des architectures comme pi-zero (Physical Intelligence), GR00T N1/N1.6 (NVIDIA), OpenVLA et Octo. Leur évaluation s'appuie encore sur des benchmarks fixes comme LIBERO, Calvin ou MetaWorld, tous vulnérables au biais d'échantillonnage décrit ici. FATE-VLA s'inscrit dans une tendance plus large de stress-testing adaptatif des modèles de fondation robotiques, en parallèle des travaux sur la robustesse sim-to-real et le domain randomization. Il s'agit d'un preprint arXiv sans déploiement ni pilote industriel annoncé, mais ses recommandations ciblent directement les équipes de validation chez les fabricants de bras manipulateurs et les intégrateurs qui ne disposent pas encore de standards formels pour certifier des politiques neuronales généralisables avant mise en production.

UELes intégrateurs et fabricants européens évaluant ou déployant des modèles VLA en production industrielle sont directement concernés : les benchmarks standards sur lesquels reposent les performances annoncées (dont celles de GR00T-N1.6 de NVIDIA) sous-représentent par construction les configurations critiques, exposant ces équipes à des taux de défaillance réels nettement supérieurs aux chiffres publiés.

RechercheOpinion
1 source
VLAMotor : amélioration guidée par tests des modèles VLA via la synthèse de données à base d'agents
85arXiv cs.RO 

VLAMotor : amélioration guidée par tests des modèles VLA via la synthèse de données à base d'agents

Des chercheurs ont publié le 31 mai 2026 (arXiv:2606.00053) VLAMotor, un cadre d'analyse et d'amélioration des modèles Vision-Langage-Action (VLA) pour la manipulation robotique. Ces modèles, dont Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA, sont entraînés sur de grandes bases de données de trajectoires et apprennent à relier instructions en langage naturel, perception visuelle et commandes motrices. Le problème documenté par l'équipe : dès le déploiement, les VLA échouent sur des configurations hors distribution, c'est-à-dire des scènes ou orientations d'objets absentes des données d'entraînement. VLAMotor répond à cela en deux phases. Premièrement, il sélectionne des cas de test en mesurant la distance entre chaque entrée candidate et les échantillons d'entraînement, puis applique une élimination de redondance pour construire un jeu de test compact mais diversifié. Résultat : 92,33 % des cas générés déclenchent effectivement un échec du modèle testé, et la couverture de test dépasse de 18,93 % l'outil de l'état de l'art. Deuxièmement, les trajectoires d'échec sont abstraites en représentations sémantiques structurées, planifiées comme séquences de compétences paramétrées, puis converties en trajectoires exécutables via cinématique inverse. Ces trajectoires réussies sont étiquetées automatiquement et servent à affiner le modèle original, améliorant son taux de succès global de 49,25 %. L'impact industriel est direct : le sim-to-real gap, longtemps cité comme obstacle principal au déploiement des VLA en production, est ici réduit de façon mesurable sans collecte de données humaines coûteuses. Sur matériel réel, les modèles affinés en simulation affichent +57,50 % de succès par rapport aux modèles de base, ce qui valide un pipeline entièrement automatisé de découverte de défauts et de correction. Pour un intégrateur industriel ou un OEM robotique, cela signifie qu'un VLA pré-entraîné peut être spécialisé pour une cellule de travail donnée à moindre coût, sans intervention humaine à chaque étape de labellisation. VLAMotor s'inscrit dans un mouvement plus large de test logiciel appliqué aux systèmes d'apprentissage machine : les travaux de mutation testing et de falsification formelle migrent vers la robotique incarnée, où les enjeux de fiabilité sont physiques. Côté concurrence, Physical Intelligence travaille sur l'adaptation rapide de Pi-0, NVIDIA pousse GR00T N2 avec des pipelines sim-to-real propriétaires, et des acteurs européens comme Enchanted Tools ou Wandercraft investissent dans des boucles de finetune ciblées pour leurs marchés verticaux. VLAMotor, issu du monde académique, propose une direction ouverte et low-cost qui pourrait être adoptée comme couche de validation standard avant tout déploiement VLA en cellule réelle. Les prochaines étapes probables incluent l'extension à des tâches de locomotion et à des VLA multimodaux de plus grande taille.

UEEnchanted Tools et Wandercraft pourraient adopter VLAMotor comme couche de validation bas coût pour spécialiser leurs VLA sur des cellules industrielles sans collecte manuelle de données.

IA physiqueOpinion
1 source
Doubao payant fin juin, incendie chez SK Hynix, Unitree obtient son IPO : Wang Xingxing vaudrait plus de 14 milliards de yuans
8636Kr 

Doubao payant fin juin, incendie chez SK Hynix, Unitree obtient son IPO : Wang Xingxing vaudrait plus de 14 milliards de yuans

Le 1er juin 2026, la commission d'examen des introductions en bourse de la Bourse de Shanghai a approuvé le dossier d'IPO de Unitree Robotics sur le marché STAR, le segment technologique de la place boursière chinoise. Le fabricant de robots prévoit de lever 4,202 milliards de yuans (environ 575 millions d'euros) répartis sur quatre axes : recherche sur les modèles d'IA embarquée, développement du corps robotique, nouveaux produits humanoïdes et construction d'une usine de fabrication dédiée. Le même jour, lors du GTC Taipei, Jensen Huang, PDG de NVIDIA, a annoncé le H2+, un robot humanoïde présenté comme architecture de référence développée conjointement avec Unitree et désigné sous l'appellation Isaac GR00T System. La plateforme mesure 1,8 mètre pour 68 kilogrammes, embarque 31 degrés de liberté (DOF) sur le corps principal et 25 DOF par main. Huang a déclaré l'intégration système finalisée. Sur le front financier, Alphabet a confirmé une levée de 80 milliards de dollars incluant un placement privé de 10 milliards de dollars souscrit par Berkshire Hathaway à 351,81 dollars l'action de classe A, explicitement destinés à étendre les capacités d'infrastructure IA face à une demande jugée supérieure à l'offre existante. OpenAI a par ailleurs officialisé le même jour son entrée dans la robotique, en se concentrant à court terme sur les robots d'assistance. Pour les intégrateurs et décideurs industriels, la conjonction de l'IPO de Unitree et du partenariat NVIDIA marque un passage vers une commercialisation plus structurée des humanoïdes. Les 575 millions d'euros levés dépassent la quasi-totalité des tours de table récents des fabricants occidentaux hors Tesla, offrant à Unitree un capital de montée en cadence inédit dans le secteur. Le H2+ positionné comme architecture de référence ouverte change la logique d'intégration : NVIDIA apporte la stack logicielle Isaac GR00T et le simulateur Omniverse pour le sim-to-real, Unitree fournit le corps mécanique validé, réduisant le coût d'entrée pour tout OEM souhaitant déployer des humanoïdes sans construire l'ensemble de la chaîne. Les 25 DOF par main ciblent la manipulation fine en assemblage et en logistique pick-and-place, non la manutention de charges lourdes. Ces métriques restent celles d'une annonce de conférence : l'écart entre démonstration et déploiement productif sur des cycles de travail réels demeure à quantifier indépendamment. Unitree s'est imposé sur le marché des quadrupèdes avec les séries Go1, Go2 et B2 avant de lancer les humanoïdes H1 puis G1, construisant une réputation de rapport performance-prix difficile à ignorer. Son fondateur Wang Xingxing voit sa fortune estimée à plus de 14 milliards de yuans après la validation du dossier. NVIDIA avait posé les bases de sa stratégie robotique avec Isaac GR00T, présenté au GTC 2024 comme modèle de fondation pour humanoïdes, et Omniverse pour la simulation; le H2+ est le premier résultat hardware public de cette architecture. Les concurrents directs en Occident incluent Figure AI, Tesla avec Optimus, Boston Dynamics avec Atlas et Physical Intelligence avec son modèle Pi-0; en Chine, Fourier Intelligence et UBTECH couvrent des segments comparables. L'entrée simultanée d'OpenAI dans la robotique pourrait redistribuer les équilibres dans la couche logicielle, chaque acteur hardware cherchant à s'associer au modèle fondation le plus performant. Zhipu AI, spécialiste chinois des grands modèles de langage, a également annoncé le 1er juin son intention de s'introduire sur le marché STAR, signal supplémentaire d'un afflux de capitaux publics vers l'ensemble de la chaîne IA-robotique en Chine.

UELes OEM et intégrateurs européens doivent évaluer si l'architecture de référence ouverte H2+ (NVIDIA/Unitree) réduit suffisamment le coût d'entrée pour justifier un premier pilote humanoïde, mais aucune entreprise ni réglementation française ou européenne n'est directement impliquée.

HumanoïdesActu
1 source
NVIDIA dévoile une plateforme complète pour robots humanoïdes, robotaxis et usines intelligentes
87Interesting Engineering 

NVIDIA dévoile une plateforme complète pour robots humanoïdes, robotaxis et usines intelligentes

Lors du GTC Taipei, NVIDIA a dévoilé une plateforme full-stack destinée aux robots humanoïdes, aux véhicules autonomes et à l'automatisation industrielle. Le cœur de l'annonce est Cosmos 3, un omnimodèle fondational open-source construit sur une architecture mixture-of-transformers, capable de traiter simultanément texte, images, vidéo, son et commandes d'action dans un seul système. Il se décline en Cosmos 3 Super, orienté haute précision pour la robotique et les véhicules autonomes, et Cosmos 3 Nano, optimisé pour l'inférence rapide. NVIDIA lance également l'Isaac GR00T Reference Humanoid Robot, un design de référence intégrant le robot Unitree H2 Plus, les mains articulées Sharpa, le calculateur embarqué Jetson Thor et la pile logicielle GR00T, adopté par Ai2, ETH Zurich, Stanford Robotics Center et UC San Diego. La collaboration avec TSMC porte les bibliothèques CUDA-X dans la fab pour la lithographie computationnelle, la simulation de transistors et l'inspection de plaquettes à l'échelle nanométrique. Alpamayo 2 Super, un modèle de raisonnement à 32 milliards de paramètres, cible quant à lui les applications robotaxi. La cohérence verticale de la plateforme est sa principale valeur ajoutée : NVIDIA prétend désormais couvrir l'intégralité de la chaîne de valeur de l'IA physique, de la génération de données synthétiques à la simulation, jusqu'au déploiement en production. Pour les équipes R&D en robotique humanoïde, GR00T Reference Robot réduit potentiellement plusieurs mois d'intégration hardware/software. Cosmos 3 s'attaque par ailleurs au sim-to-real gap en proposant un world model capable de générer des environnements d'entraînement réalistes, l'un des verrous structurels du secteur. Cela dit, les benchmarks avancés ("meilleur modèle ouvert" sur plusieurs évaluations) émanent de NVIDIA lui-même sans validation tierce, ce qui invite à une lecture prudente. L'intégration dans la fab TSMC est plus tangible : des gains d'efficacité mesurables dans la détection de défauts nanométriques signalent une adoption industrielle réelle, pas seulement un proof-of-concept. NVIDIA construit ce positionnement depuis plusieurs années via Isaac Sim, Omniverse et la famille GR00T N2 présentée en 2025. Sur le marché des humanoïdes, les concurrents directs incluent Figure (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (Pi-0), Boston Dynamics (Atlas) et Agility Robotics (Digit). Le choix du robot Unitree H2 Plus, acteur chinois concurrent sur le segment humanoïde, comme base matérielle du design de référence NVIDIA est notable. En Europe, Enchanted Tools (Miroki, France) et Wandercraft pourraient tirer parti de Cosmos 3 pour la génération de données d'entraînement, même si aucun partenariat public n'a été annoncé. Les prochaines étapes incluent l'accès des institutions de recherche à GR00T Reference Robot et la disponibilité de Cosmos 3 via NVIDIA NGC ; aucune tarification ni date de commercialisation n'a été communiquée pour l'ensemble de la plateforme.

UEEnchanted Tools et Wandercraft pourraient exploiter Cosmos 3 pour la génération de données d'entraînement, et ETH Zurich figure parmi les partenaires de recherche du GR00T Reference Robot, mais aucun déploiement commercial en Europe n'est confirmé à ce stade.

💬 NVIDIA ne vend plus du silicium, il vend une plateforme verticale, de la simulation jusqu'au robot en prod. Le détail qui m'a accroché : le choix d'Unitree, concurrent chinois direct, comme base matérielle du robot de référence GR00T. C'est soit du pragmatisme pur, soit une façon de dire que l'avantage NVIDIA est dans le software, pas le hardware.

IA physiqueOpinion
1 source
PhAIL : un benchmark VLA sur robots réels et une méthodologie distributionnelle
88arXiv cs.RO 

PhAIL : un benchmark VLA sur robots réels et une méthodologie distributionnelle

PhAIL (Physical AI Leaderboard, phail.ai) est un benchmark open-source présenté sur arXiv (arXiv:2605.29710) qui évalue des politiques VLA (vision-language-action) sur un bras Franka FR3 en conditions réelles. Le protocole remplace le traditionnel taux de succès binaire à timeout fixe par une méthodologie distributionnelle centrée sur la fonction de distribution cumulative du temps-avant-succès (CDF). Deux outils distincts structurent l'évaluation : un score nommé Human-Relative Throughput (HRT), grandeur sans dimension avec intervalles de confiance bootstrap, ancré à la téléopération humaine sur le même équipement ; et un test de significativité Kolmogorov-Smirnov calculé par objet puis macro-moyenné. Le benchmark a été appliqué à quatre VLAs publiques, dont GR00T (NVIDIA), ACT et OpenPI, avec jusqu'à 30 rollouts par cellule (modèle x objet). Résultat central : le meilleur VLA évalué reste environ sept fois plus lent par opération que la référence humaine, mesuré via le ratio RMST. L'enjeu est méthodologique autant que technique. L'état de l'art en évaluation VLA repose presque universellement sur un taux de succès à timeout fixe avec N inférieur ou égal à 25 rollouts et sans intervalles de confiance, ce qui rend les comparaisons proches statistiquement non résolvables. PhAIL démontre que le test KS macro-moyenné tranche deux paires proches (GR00T vs. ACT, OpenPI vs. ACT) là où les métriques binaires échouent, toujours à N inférieur ou égal à 30 rollouts. La paire la plus serrée, OpenPI vs. GR00T, reste irrésolue dans le budget expérimental alloué. Le facteur sept entre humain et meilleur VLA constitue un point d'ancrage concret pour les intégrateurs et décideurs industriels qui doivent arbitrer entre performance annoncée et réalité opérationnelle. La publication s'inscrit dans un effort de standardisation comparable à ce qu'ImageNet ou GLUE ont accompli pour la vision par ordinateur et le traitement du langage naturel. Le champ VLA manquait d'un protocole reproductible et statistiquement rigoureux, rendant les comparaisons entre Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA), OpenPI ou les architectures propriétaires de Figure et Boston Dynamics difficiles à interpréter. Le Franka FR3, très répandu en recherche académique, sert de plateforme de référence, et le benchmark est entièrement ouvert : dataset, artefacts par rollout et implémentation de bout en bout disponibles sur phail.ai. Les prochaines étapes naturelles incluent l'extension à d'autres plateformes matérielles, à des tâches bimanuelles ou de manipulation complexe, et l'intégration de VLAs propriétaires dans le protocole.

UELe benchmark PhAIL repose sur le bras Franka FR3 très répandu dans les laboratoires académiques européens, offrant aux chercheurs et intégrateurs UE un protocole rigoureux et reproductible pour évaluer les VLAs en conditions réelles et quantifier objectivement l'écart entre performance annoncée et réalité opérationnelle.

💬 Ce que je retiens, c'est le facteur 7. Le meilleur VLA testé reste sept fois plus lent qu'un humain sur la même tâche, et c'est la première fois qu'on a une mesure comme ça, proprement ancrée sur de la téléopération humaine réelle avec du KS test et des intervalles de confiance. Le benchmark binaire à timeout qu'on utilisait jusque-là, c'était du bricolage habillé en science.

IA physiqueOpinion
1 source
AgentGrounder : ancrage visuel 3D en zéro-shot dans des nuages de points via des modèles multimodaux
89arXiv cs.RO 

AgentGrounder : ancrage visuel 3D en zéro-shot dans des nuages de points via des modèles multimodaux

Des chercheurs du laboratoire be2rlab publient sur arXiv (arXiv:2605.25901) AgentGrounder, un système de localisation visuelle 3D zéro-shot opérant directement sur des nuages de points colorés, sans entraînement spécifique à la tâche. L'architecture repose sur deux étapes : une phase hors ligne construit une table de correspondance d'objets (Object Lookup Table, OLT) regroupant identifiants d'instances, labels sémantiques et boîtes englobantes 3D ; une phase en ligne déploie un agent qui décompose chaque requête en langage naturel, récupère les candidats pertinents dans l'OLT, effectue un scoring géométrique, puis déclenche un rendu d'image à la demande lorsque des indices visuels supplémentaires (couleur, texture, angle de vue) sont nécessaires. Évalué sur les benchmarks ScanRefer et Nr3D en configuration zéro-shot, AgentGrounder surpasse SeeGround de +2,5 % en précision Acc@0.5 sur ScanRefer et de +6,3 % sur Nr3D, dont un gain de +6,3 % sur les requêtes indépendantes du point de vue. Le code est publié sur GitHub. Ce résultat est directement pertinent pour les équipes travaillant sur la manipulation robotique et la navigation en environnements intérieurs non structurés. L'absence d'entraînement dédié abaisse la barrière d'intégration : un robot équipé d'un LiDAR ou d'une caméra de profondeur pourrait répondre à des commandes en langage naturel sans fine-tuning sur l'environnement cible, ce qui simplifie les déploiements dans des entrepôts ou des espaces de service variables. Le mécanisme de récupération sélective dans l'OLT réduit les erreurs en cascade typiques des pipelines d'ancrage-cible fixes, qui saturent la fenêtre de contexte des modèles de langage avec des objets non pertinents. L'inspection visuelle adaptative évite par ailleurs de solliciter inutilement les capacités multimodales coûteuses lorsque la géométrie seule suffit à discriminer. La localisation visuelle 3D est un domaine de recherche structuré autour de benchmarks comme ScanRefer (2020) et Nr3D, qui évaluent la capacité à identifier un objet précis dans une scène intérieure 3D à partir d'une description textuelle ambiguë. Les méthodes zéro-shot antérieures supposaient souvent des ensembles d'images multi-vues préexistants et peinaient face aux limites sémantiques des outils de segmentation 3D standards, SeeGround représentant jusqu'ici l'état de l'art sur ces benchmarks. Côté industrie, NVIDIA intègre des capacités de grounding 3D dans son framework GR00T pour la manipulation robotique, tandis qu'Enchanted Tools en France et les équipes embodied AI de Meta FAIR travaillent sur des modules similaires de compréhension spatiale ouverte. AgentGrounder, encore au stade de preprint non évalué par les pairs, devra confirmer ses performances hors contexte académique avant toute adoption en conditions réelles.

UEEnchanted Tools (France), explicitement citée comme travaillant sur des modules similaires de compréhension spatiale ouverte, peut utiliser AgentGrounder comme référence zéro-shot pour réduire les coûts de fine-tuning dans ses déploiements robotiques.

RechercheOpinion
1 source
L'open source commence à aider les robots à raisonner
90IEEE Spectrum Robotics 

L'open source commence à aider les robots à raisonner

Depuis deux ans, Hugging Face, Nvidia et Alibaba ont multiplié les publications open source dans la robotique cognitive, cherchant à résoudre ce qui était jusque-là le goulot d'étranglement du secteur : faire raisonner, décider et agir un robot. Nvidia a constitué une pile complète articulée autour de trois couches : Cosmos, des world models qui génèrent des données d'entraînement synthétiques et simulent des environnements physiques ; GR00T, des modèles permettant l'exécution de tâches complexes ; et Isaac, un ensemble de frameworks d'orchestration reliant entraînement, simulation et déploiement. Ces modèles sont hébergés sur Hugging Face. Ce mouvement s'inscrit dans une longue tradition : le Robot Operating System (ROS), lancé en 2007, a unifié le secteur en fournissant un framework standardisé au-dessus de Linux pour les fonctions fondamentales de la robotique, communication inter-composants, gestion du hardware, cartographie, planification de trajectoires. Avant ROS, chaque équipe réécrivait cette infrastructure de zéro, absorbant souvent une à deux années de travail avant de pouvoir conduire les recherches réelles. L'enjeu est structurant : si l'open source peut faire pour la cognition robotique ce qu'il a fait pour les LLMs, la barrière à l'entrée pour construire un robot capable pourrait chuter aussi vite qu'elle l'a fait pour les applications d'IA générative. Spencer Huang, directeur produit robotique chez Nvidia, note que la vision par ordinateur, autrefois coûteuse en expertise, se code aujourd'hui en quelques lignes. "Pour entrer dans la robotique, il ne faut plus nécessairement un doctorat", dit-il. La logique économique est explicite : fournir un modèle pré-entraîné de haute qualité que chaque acteur peut fine-tuner, plutôt que de demander à chacun de reprendre le pré-entraînement from scratch. Pour les intégrateurs et les décideurs industriels, cela se traduit concrètement par des cycles de développement raccourcis et une moindre dépendance aux profils rares. Le parallèle avec l'histoire de l'IA est tracé explicitement par Brian Gerkey, co-créateur de ROS, aujourd'hui Board Chair d'Open Robotics et CTO d'Intrinsic, l'unité robotique et IA de Google. La communauté IA a, dès ses débuts, partagé recherches, modèles et données en open source, et le domaine a progressé bien plus vite que presque tous les observateurs ne l'anticipaient. Les premières briques d'infrastructure open source pour la robotique remontent au milieu des années 1990, avec des projets comme le package Inter-Process Communication de Carnegie Mellon et le projet Player au début des années 2000, mais ces initiatives restaient fragmentées et liées à des groupes isolés. ROS a unifié la couche basse du secteur ; Nvidia, Hugging Face et Alibaba tentent aujourd'hui de reproduire cette unification pour la couche cognitive. Les outils de simulation sont désormais suffisamment précis pour être utiles à l'entraînement et accessibles hors des laboratoires spécialisés. La question qui demeure ouverte : ces modèles pré-entraînés tiendront-ils leurs promesses dans des déploiements industriels réels, au-delà des démonstrations contrôlées ?

UEHugging Face, fondée à Paris et co-initiatrice de ce mouvement open source aux côtés de Nvidia et Alibaba, se positionne comme infrastructure centrale de distribution des modèles cognitifs robotiques mondiaux.

FR/EU ecosystemeOpinion
1 source
RoboJailBench : évaluation des attaques et défenses adversariales dans les agents robotiques incarnés
91arXiv cs.RO 

RoboJailBench : évaluation des attaques et défenses adversariales dans les agents robotiques incarnés

Des chercheurs du PurSec Lab ont publié RoboJailBench, un benchmark standardisé pour évaluer les attaques adversariales de type "jailbreak" et leurs contre-mesures dans les systèmes d'IA embarquée. Présenté sur arXiv (2605.19328), ce framework cible les agents robotiques et véhicules autonomes qui s'appuient sur des Vision-Language Models (VLMs) pour interpréter l'environnement visuel et exécuter des commandes en langage naturel. Il repose sur trois composantes: une taxonomie de sécurité dérivée des normes ISO et d'incidents documentés, couvrant 18 catégories de violations; un pipeline de données "intent contrast" associant à chaque exemple un objectif adversarial et un objectif bénin, afin de mesurer conjointement sécurité et utilité; et un dépôt évolutif de métriques standardisées. Les auteurs ont construit un dataset taxonomique, enrichi cinq datasets existants, intégré quatre types d'attaques et deux défenses, puis évalué l'ensemble sur les principaux VLMs embarqués actuels. Un leaderboard public est maintenu sur purseclab.github.io. L'enjeu dépasse la recherche académique. Un robot compromis par un jailbreak n'affiche pas une réponse textuelle inappropriée: il exécute une action physique potentiellement dangereuse. Les benchmarks existants ciblaient soit les LLMs conversationnels, soit la sécurité non-adversariale des agents incarnés, sans jamais capturer le triptyque risques adversariaux, conséquences physiques et arbitrage sécurité-utilité. Quantifier explicitement ce compromis est une contribution méthodologique significative: un système trop défensif bloque des commandes légitimes et devient inutilisable en production. Pour les intégrateurs industriels, une grille d'évaluation ancrée dans les normes ISO simplifie la qualification réglementaire avant tout déploiement réel. La montée en puissance des VLMs dans la robotique physique, illustrée par pi0 de Physical Intelligence, GR00T N2 de NVIDIA ou les architectures de Figure AI, a considérablement élargi la surface d'attaque des systèmes autonomes. Des travaux antérieurs avaient documenté la vulnérabilité des agents embarqués aux jailbreaks visuels ou textuels, mais sans cadre d'évaluation reproductible. Alors que des fabricants comme Boston Dynamics, Unitree ou, côté européen, Enchanted Tools intègrent des VLMs en production, la robustesse adversariale est appelée à devenir une exigence réglementaire dans les secteurs logistique, manufacturier et médical. RoboJailBench pose une base commune sur laquelle industriels et académiques peuvent s'appuyer pour standardiser ces tests avant mise en service.

UELe benchmark RoboJailBench, ancré dans les normes ISO, fournit aux intégrateurs européens, dont Enchanted Tools (France) qui déploie des VLMs en production, un cadre standardisé pour qualifier la robustesse adversariale avant mise en service sous les exigences de l'AI Act.

Societe/EthiqueOpinion
1 source
DexHoldem : jouer au Texas Hold'em avec un système à IA incarnée dextérique
92arXiv cs.RO 

DexHoldem : jouer au Texas Hold'em avec un système à IA incarnée dextérique

Une équipe de chercheurs a publié DexHoldem, un benchmark système conçu pour évaluer les robots dextres sur du matériel physique réel. Structuré autour de la manipulation de cartes Texas Hold'em, il mobilise une ShadowHand (24 degrés de liberté) et propose 1 470 démonstrations téléopérées couvrant 14 primitives de manipulation : distribution, tri, retournement de cartes et autres gestes imposant précision et continuité de scène. Sur l'exécution des primitives, le modèle pi-0.5 de Physical Intelligence obtient le meilleur taux de complétion brute à 61,2 %, et s'aligne avec pi-0 sur le taux de succès "préservant la scène" à 47,5 %. Sur la perception agentique, Claude Opus 4.7 d'Anthropic décroche la meilleure précision stricte au niveau du problème complet à 34,3 %, tandis que GPT-5.5 d'OpenAI atteint la meilleure précision champ par champ à 66,8 %. Ces résultats exposent une fracture structurelle dans les pipelines VLA actuels : reconnaître 66,8 % des éléments visuels individuellement ne garantit pas de reconstituer l'état global de la scène, indispensable au routage décisionnel. Pour un intégrateur ou un décideur industriel, cela signifie qu'un modèle performant sur des primitives isolées peut s'effondrer en boucle fermée dès que les erreurs de perception et d'exécution s'accumulent. Les trois études de cas en boucle complète du benchmark le confirment : attentes, replanifications, demandes d'aide humaine et réexécutions émergent comme comportements nécessaires à la robustesse. DexHoldem formalise ainsi une contrainte rarement évaluée dans la littérature : laisser la scène utilisable pour les décisions suivantes, et non simplement compléter chaque primitive en isolation. La ShadowHand, produite par Shadow Robot Company (Royaume-Uni), est une référence académique de longue date dans la manipulation dextre. Le benchmark s'inscrit dans la vague des évaluations système intégrées qui émergent en 2025 face à la multiplication des VLA, dont pi-0, pi-0.5, GR00T N2 de NVIDIA ou encore Helix de Figure. En choisissant le poker comme cadre d'évaluation, les auteurs imposent une perception structurée, une séquence longue et une contrainte d'état partagé entre actions successives, trois propriétés que les benchmarks à primitives isolées ne capturent pas. Le jeu de données de 1 470 démonstrations et le code du benchmark sont disponibles en open source sur dexholdem.github.io, ce qui le rend directement exploitable pour calibrer des pipelines dextres sur des conditions réelles reproductibles.

UELa ShadowHand de Shadow Robot Company (Royaume-Uni) constitue la plateforme matérielle du benchmark, et le dataset open source de 1 470 démonstrations est directement exploitable par les équipes de recherche en manipulation dextre des universités et laboratoires européens.

RechercheOpinion
1 source
Propagation d'actions dangereuses dans une collaboration multi-robots pilotée par LLM via un seul robot compromis
93arXiv cs.RO 

Propagation d'actions dangereuses dans une collaboration multi-robots pilotée par LLM via un seul robot compromis

Des chercheurs ont publié sur arXiv (arXiv:2605.15641, mai 2026) un nouveau paradigme d'attaque ciblant les systèmes multi-robots pilotés par des grands modèles de langage (LLM). Le principe : compromettre un seul robot d'un essaim suffit à propager des instructions malveillantes à l'ensemble du système via la communication inter-robots. L'équipe a évalué l'attaque sur trois dimensions à haut risque, abandon de mission, compromission de données privées, et mise en danger de la sécurité publique, en la quantifiant avec trois métriques : obéissance (taux d'exécution des instructions malveillantes), infectiosité (proportion de robots compromis), et furtivité. Les résultats sont nets : le score d'obéissance atteint 1,00 dans les cas les plus défavorables, l'infectiosité monte à 0,90, et l'attaque complète la propagation en seulement 3,0 rounds en moyenne, tout en maintenant un score de furtivité de 0,81. Le code est disponible publiquement sur GitHub (InfectBot). Ce travail met en évidence un angle mort majeur dans la sécurité des flottes robotiques industrielles et logistiques pilotées par LLM : jusqu'ici, la recherche en sécurité s'était concentrée sur les robots isolés. Or, les architectures multi-robots en production, entrepôts automatisés, chantiers collaboratifs, environnements hospitaliers, reposent précisément sur la communication pair-à-pair pour la coordination. Le mécanisme de consensus qui rend ces systèmes efficaces devient ici un vecteur d'amplification : dans les situations critiques (urgences, conflits de priorité), les instructions adversariales peuvent supplanter les garde-fous de sécurité sans déclencher d'alerte. La persistance du contrôle attaquant (obéissance à 1,00) indique que les alignements de sécurité actuels des planificateurs LLM ne sont pas conçus pour résister à une pression latérale venant d'un pair de confiance. Les LLM comme planificateurs embarqués sont une tendance lourde : des entreprises comme Figure AI, Physical Intelligence (pi0), Boston Dynamics et Agility Robotics intègrent des couches de raisonnement à haut niveau dans leurs architectures. NVIDIA GR00T N2 et les frameworks VLA (Vision-Language-Action) poussent dans la même direction. Ce paper s'inscrit dans un corpus émergent qui questionne la robustesse de ces systèmes face à des attaques adversariales physiquement concrètes, non plus des jailbreaks textuels, mais des actions dans le monde réel. Les prochaines étapes probables incluent des défenses basées sur la vérification cryptographique des instructions inter-robots et des mécanismes de consensus multi-signatures, pistes déjà explorées dans la robotique en essaim mais rarement couplées aux LLM.

UELes flottes robotiques LLM déployées en Europe (entrepôts automatisés, industrie, hôpitaux) sont exposées à ce vecteur d'attaque latérale, et l'AI Act impose aux fournisseurs de systèmes à haut risque de documenter et tester leurs mécanismes de sécurité face à ce type de compromission pair-à-pair.

RechercheOpinion
1 source
CLARE : apprentissage continu pour les modèles VLA via routage et expansion autonomes d'adaptateurs
94arXiv cs.RO 

CLARE : apprentissage continu pour les modèles VLA via routage et expansion autonomes d'adaptateurs

Des chercheurs de la Technische Universität München (TUM) ont publié CLARE, un framework d'apprentissage continu pour les modèles vision-langage-action (VLA) en robotique manipulatrice. Présenté sur arXiv (arXiv:2601.09512v2), CLARE repose sur deux mécanismes principaux : des adaptateurs modulaires légers insérés dans des couches sélectionnées du VLA, et un système de routage dynamique basé sur un autoencodeur qui active à l'inférence les adaptateurs les plus pertinents sans que le robot ait besoin de connaître l'identifiant de la tâche en cours. Lors de l'apprentissage d'une nouvelle tâche, le framework évalue la similarité des features couche par couche pour décider d'étendre ou non le modèle, expansion réalisée uniquement là où c'est nécessaire. Validé sur le benchmark LIBERO et cinq tâches réelles en manipulation, CLARE surpasse les méthodes existantes y compris celles qui stockent des données antérieures (méthodes "exemplar-based"). L'enjeu derrière ce travail est structurant pour l'industrie robotique : le fine-tuning classique d'un VLA sur de nouvelles tâches provoque un "catastrophic forgetting", c'est-à-dire l'effacement des compétences précédemment acquises. Pour un robot industriel ou de service devant s'adapter en continu à de nouveaux environnements ou procédures sans interruption de déploiement, cette limitation est rédhibitoire. Clare propose une voie sans stockage de données historiques (contrainte forte en RGPD et en coût mémoire), sans identifiant de tâche imposé à l'opérateur, et avec une empreinte paramétrique réduite grâce aux adaptateurs, une combinaison que les approches par Elastic Weight Consolidation (EWC) ou LoRA seuls n'atteignaient pas sur de longues séquences de tâches. Les VLA sont devenus un axe de recherche central depuis les travaux de Physical Intelligence (Pi-0), NVIDIA (GR00T N2) et Google DeepMind (RT-2). L'apprentissage continu sans oubli catastrophique y reste un problème ouvert : la majorité des démos sont réalisées dans des conditions contrôlées avec re-fine-tuning complet entre environnements. CLARE s'attaque directement à ce gap entre laboratoire et déploiement longue durée. Le code, les données et les vidéos sont disponibles publiquement sur le site du laboratoire LSY de la TUM. Les prochaines étapes probables incluent des tests sur des séquences de tâches plus longues et une intégration dans des plateformes humanoïdes ou collaboratives, domaine où plusieurs acteurs européens comme Enchanted Tools ou Wandercraft pourraient bénéficier de ce type de composant pour l'adaptation terrain.

UELa TUM (Allemagne) publie une solution open-source au catastrophic forgetting dans les VLA, directement exploitable par des acteurs européens comme Enchanted Tools et Wandercraft pour déployer des robots s'adaptant à de nouvelles tâches sans re-fine-tuning complet ni stockage de données historiques.

RechercheOpinion
1 source
Comprendre les méthodes d'inférence asynchrone pour les modèles vision-langage-action (VLA)
95arXiv cs.RO 

Comprendre les méthodes d'inférence asynchrone pour les modèles vision-langage-action (VLA)

Les modèles Vision-Language-Action (VLA), qui combinent perception visuelle, raisonnement linguistique et génération d'actions motrices, souffrent d'un défaut opérationnel central : leur latence d'inférence crée une désynchronisation entre l'observation capturée et l'action exécutée, phénomène désigné sous le terme de "staleness". Quatre approches ont émergé quasi-simultanément pour y remédier : IT-RTC (correction par inpainting à l'inférence), TT-RTC (simulation de délai à l'entraînement), VLASH (conditionnement sur état futur estimé) et A2C2 (correction résiduelle légère à chaque pas de contrôle). Publiée le 12 mai 2025 sous la référence arXiv:2605.08168, une étude systématique compare ces quatre méthodes sous conditions contrôlées via deux codebases unifiées, évaluées sur la suite Kinetix avec des politiques MLPMixer et sur le benchmark LIBERO de manipulation avec SmolVLA, en faisant varier les délais jusqu'à d = 20 pas de contrôle. Les résultats établissent une hiérarchie claire selon le régime de délai. A2C2 domine sur Kinetix avec un taux de résolution supérieur à 90 % jusqu'à d = 8, et prend la tête sur LIBERO à partir de d = 4 ; c'est la méthode la plus efficace pour des délais modérés à élevés. TT-RTC s'impose comme la plus robuste des approches basées sur l'entraînement : elle généralise au-delà de la distribution de délais vue en phase d'entraînement et n'ajoute aucun overhead à l'inférence, ce qui la rend attractive pour des déploiements contraints en calcul. IT-RTC reste compétitif à faibles délais mais se dégrade nettement avec des chunks longs (H = 30) ou des délais importants. VLASH affiche un compromis explicite entre régimes : son efficacité dépend directement de la plage de fine-tuning [0, d\_max] choisie, imposant un calibrage préalable en fonction du délai attendu en production. Ce travail répond à un besoin criant de la communauté VLA, dont les modèles emblématiques, pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et SmolVLA de Hugging Face, visent un déploiement sur robots réels soumis à des contraintes temps-réel strictes. L'absence de benchmark commun rendait jusqu'ici les comparaisons entre méthodes impossibles et freinait l'adoption industrielle, chaque équipe évaluant sa solution sur son propre protocole. En publiant deux codebases reproductibles (github.com/TheAyos/async-vla-inference), les auteurs offrent aux équipes robotiques un cadre de référence pour choisir leur stratégie de correction selon leur architecture et leurs contraintes de latence. Les prochaines étapes naturelles incluent la validation sur robots physiques et l'extension à des VLA de plus grande taille, où les délais d'inférence sont encore plus prononcés.

UEHuggingFace (entreprise d'origine française) est directement impliquée via SmolVLA, utilisé comme benchmark de référence dans cette étude comparative, ce qui renforce son positionnement central dans l'écosystème VLA mondial.

💬 Le staleness dans les VLA, tout le monde savait que c'était un problème, mais sans benchmark commun on naviguait à vue, chaque équipe évaluant sa solution sur son propre protocole. Ce papier établit enfin une hiérarchie claire : A2C2 pour la majorité des cas d'usage, TT-RTC si tu es contraint en calcul et que tu veux zéro overhead à l'inférence. Le fait que SmolVLA de HuggingFace soit la référence de manipulation, c'est pas anodin pour la visibilité européenne dans la course aux robots.

IA physiqueOpinion
1 source
TAVIS : un benchmark pour la vision active égocentrique et le regard anticipateur en apprentissage par imitation
96arXiv cs.RO 

TAVIS : un benchmark pour la vision active égocentrique et le regard anticipateur en apprentissage par imitation

Une équipe de chercheurs a publié TAVIS, un environnement d'évaluation standardisé pour comparer les approches de vision active en apprentissage par imitation, soit la capacité d'une politique robotique à contrôler son propre regard pendant une tâche de manipulation. Le benchmark comprend deux suites : TAVIS-Head (5 tâches avec caméra sur cardan pan/tilt pour la recherche globale de scène) et TAVIS-Hands (3 tâches avec caméras de poignet pour gérer les occlusions locales). Il est construit sur IsaacLab et s'appuie sur deux embodiments de torse humanoïde : le GR1T2 de Fourier Intelligence et le Reachy2 de Pollen Robotics (Bordeaux). Environ 2 200 épisodes de démonstrations téléopérées sont publiés en format LeRobot v3.0 sur HuggingFace, avec Diffusion Policy et π₀ (Physical Intelligence) comme baselines. Trois résultats principaux ressortent : la vision active améliore les performances, mais de façon conditionnelle à la tâche ; les politiques multi-tâches se dégradent nettement sous distribution shift contrôlé ; et l'imitation seule produit un regard anticipatoire dont les temps de préemption médians, mesurés par la métrique GALT (Gaze-Action Lead Time), sont comparables à ceux du téléopérateur humain de référence. Jusqu'ici, plusieurs groupes avaient démontré indépendamment les bénéfices de la vision active en 2024-2025, sans base commune de comparaison. TAVIS comble ce vide avec trois primitives reproductibles : un protocole comparatif caméra mobile/caméra fixe sur des démonstrations identiques, la métrique GALT issue des sciences cognitives et de l'HRI (Human-Robot Interaction), et des splits procéduraux in-distribution/out-of-distribution. Le constat que les gains sont task-conditional invalide l'hypothèse naïve qu'ajouter des degrés de liberté à la caméra améliore systématiquement les performances, nuance décisive pour les intégrateurs industriels. La fragilité sous distribution shift constitue un signal d'alarme concret pour tout déploiement hors simulation. La vision active en manipulation connaît un regain d'intérêt depuis 2024, porté par les progrès des VLA (Vision-Language-Action models) et la disponibilisation de robots humanoïdes à têtes articulées. Le choix de Reachy2 comme plateforme de référence est notable : Pollen Robotics, startup bordelaise fondée en 2016, est l'un des rares acteurs européens dont le robot open-source figure dans des benchmarks académiques internationaux, face aux concurrents américains (Figure, Agility) et asiatiques (Fourier, Unitree). Les prochaines étapes naturelles incluent l'évaluation de politiques VLA récentes comme GR00T N2 ou OpenVLA sur TAVIS, ainsi que le transfert sim-to-real, que le papier ne couvre pas encore.

UEPollen Robotics (Bordeaux) est l'une des deux seules plateformes de référence du benchmark TAVIS, ce qui ancre un acteur français open-source au cœur d'une infrastructure d'évaluation académique internationale pour les politiques VLA.

FR/EU ecosystemePaper
1 source
RedVLA : l'attaque physique des modèles vision-langage-action (VLA)
97arXiv cs.RO 

RedVLA : l'attaque physique des modèles vision-langage-action (VLA)

Une équipe de chercheurs a publié RedVLA (arXiv:2604.22591), présenté comme le premier framework de red teaming physique dédié aux modèles VLA (Vision-Language-Action), ces architectures multimodales qui pilotent des robots physiques en interprétant simultanément des instructions visuelles et textuelles. Le framework opère en deux étapes : une phase de "Risk Scenario Synthesis" qui identifie automatiquement les régions d'interaction critiques dans des trajectoires normales pour y insérer des facteurs de risque entremêlés au flux d'exécution du modèle, suivie d'un "Risk Amplification" qui raffine itérativement la position et l'état du facteur de risque via une optimisation sans gradient guidée par des caractéristiques de trajectoire. Testé sur six modèles VLA représentatifs, RedVLA atteint un taux de succès d'attaque (Attack Success Rate) de 95,5 % en seulement 10 itérations d'optimisation. Les chercheurs proposent en parallèle SimpleVLA-Guard, un module de sécurité léger entraîné sur les données générées par RedVLA, dont le code et les assets sont disponibles publiquement. Un ASR de 95,5 % signifie que dans quasiment tous les scénarios testés, le framework a réussi à provoquer des comportements dangereux dans des modèles VLA avant déploiement. C'est un résultat préoccupant pour les intégrateurs industriels : contrairement aux attaques sur systèmes purement logiciels, les comportements physiques incorrects (collisions, chutes d'objets, dommages environnementaux) sont souvent irréversibles. RedVLA démontre qu'il est possible de cartographier ces risques de façon systématique avant mise en production, ce qui comble un vide méthodologique réel. Pour les équipes chargées de qualifier des robots manipulateurs ou des humanoïdes, ce type d'outil d'évaluation adversariale pourrait devenir une exigence de certification, à l'image des standards de sécurité fonctionnelle (IEC 61508) dans l'automatisation industrielle. Les modèles VLA ont connu une accélération marquée depuis 2023 avec RT-2 (Google DeepMind), OpenVLA (Stanford), Pi-0 (Physical Intelligence) et GR00T N2 (NVIDIA), chacun visant à généraliser les capacités de manipulation via de grandes architectures multimodales pré-entraînées. La sécurité physique de ces systèmes est restée largement sous-étudiée, la recherche en robustesse IA se concentrant surtout sur les attaques adversariales textuelles ou visuelles en contexte numérique. RedVLA adapte les méthodologies de red teaming issues des LLMs au domaine physique, un glissement de paradigme qui devrait intéresser aussi bien les acteurs américains (Figure AI, Agility Robotics, Boston Dynamics) que les startups européennes déployant des robots en environnement humain, comme Enchanted Tools (Mirokaï, France) ou Wandercraft. Les prochaines étapes naturelles seraient des validations sur hardware réel et l'intégration de SimpleVLA-Guard dans des pipelines de déploiement industriels.

UELes startups françaises déployant des robots en environnement humain (Enchanted Tools, Wandercraft) sont directement concernées par ces vulnérabilités VLA, et SimpleVLA-Guard pourrait s'imposer comme exigence dans les pipelines de qualification sous réglementation européenne (AI Act, certification IEC 61508).

RechercheOpinion
1 source
CorridorVLA : contraintes spatiales explicites pour les têtes d'action génératives via des ancres éparses
98arXiv cs.RO 

CorridorVLA : contraintes spatiales explicites pour les têtes d'action génératives via des ancres éparses

Une équipe de chercheurs propose CorridorVLA (arXiv 2504.21241), une méthode visant à améliorer la précision des modèles Vision-Langage-Action (VLA) en robotique de manipulation. Le principe : prédire des ancres spatiales éparses exprimées comme des variations incrémentales de position (delta-positions), qui définissent une zone de tolérance explicite, un "couloir", dans l'objectif d'entraînement de la tête d'action générative. Les trajectoires sortant de ce couloir reçoivent des gradients correctifs ; les petits écarts liés au bruit d'exécution ou aux contacts restent tolérés. Sur le benchmark LIBERO-Plus, CorridorVLA améliore le taux de succès de 3,4 % à 12,4 % selon les configurations testées : appliqué à GR00T de NVIDIA, le variant GR00T-Corr atteint 83,21 % de taux de succès absolu, contre moins de 71 % pour la baseline ; appliqué à SmolVLA de HuggingFace, les gains sont comparables. Le code est publié sur GitHub (corridorVLA). Ce travail touche à un problème structurel des VLA actuels : la guidance spatiale y est injectée implicitement via des représentations latentes, ce qui rend les trajectoires générées difficiles à auditer ou à contraindre géométriquement. C'est l'une des causes principales pour lesquelles les VLA peinent au passage sim-to-real en manipulation précise. En rendant ces contraintes explicites et interprétables, CorridorVLA offre un levier concret aux intégrateurs robotiques : comprendre et potentiellement déboguer pourquoi une trajectoire est corrigée. La tête d'action par flow-matching, technique de modélisation générative continue, bénéficie ainsi d'un signal de supervision géométrique direct, sans recourir à des démonstrations denses ni à une supervision pixel à pixel. Ce résultat s'inscrit dans une tendance qui cherche à structurer l'espace de sortie des VLA plutôt qu'à augmenter la puissance brute du backbone multimodal. LIBERO-Plus est une extension plus exigeante de LIBERO, suite standard d'évaluation en manipulation tabletop. GR00T, annoncé par NVIDIA en 2024 comme modèle fondation pour robots humanoïdes, et SmolVLA, publié par HuggingFace en 2025 comme alternative compacte et accessible, constituent les deux familles de baselines retenues, ce qui renforce la portée des résultats. Pi-0 de Physical Intelligence et OpenVLA restent les principaux concurrents directs dans ce segment des VLA généralistes. Ce travail demeure un preprint non évalué par les pairs, sans déploiement sur robot physique annoncé ; les prochaines étapes probables incluent une validation sur manipulateurs réels (type Franka ou UR) et une soumission à CoRL ou IROS 2025.

UEHuggingFace (entreprise française) voit son modèle SmolVLA directement amélioré par CorridorVLA avec des gains comparables à GR00T ; le code open-source est immédiatement exploitable par les équipes R&D européennes travaillant sur la manipulation robotique précise.

💬 Ce qui m'intéresse là-dedans, c'est pas les +12% sur LIBERO-Plus, c'est que CorridorVLA rend enfin les trajectoires VLA auditables. En manipulation précise, l'opacité des sorties génératives, c'est le vrai mur sim-to-real depuis le début. Code open-source, SmolVLA embarqué, reste à voir si ça tient sur un vrai Franka.

IA physiqueOpinion
1 source
ROBOGATE : détection adaptative des défaillances pour un déploiement sûr des politiques de robots via un échantillonnage en deux étapes axé sur les limites
99arXiv cs.RO 

ROBOGATE : détection adaptative des défaillances pour un déploiement sûr des politiques de robots via un échantillonnage en deux étapes axé sur les limites

Des chercheurs ont publié ROBOGATE (arXiv:2603.22126), un framework open-source de validation pré-déploiement pour les politiques de manipulation robotique, conçu pour identifier les zones de défaillance avant mise en production industrielle. Le système repose sur un échantillonnage adaptatif en deux étapes dans un espace de paramètres à huit dimensions : une première phase par Latin Hypercube Sampling (LHS) couvre l'espace global, puis une seconde phase concentre l'effort sur la zone de transition critique entre 30 % et 70 % de taux de réussite, là où les échecs sont les plus révélateurs. Le tout est exécuté dans NVIDIA Isaac Sim avec le moteur physique Newton, sur quatre morphologies robotiques : Franka Panda (7-DOF), UR3e, UR5e et UR10e (tous 6-DOF). Au total, plus de 50 000 expériences ont été simulées, produisant un modèle de régression logistique avec une AUC de 0,780 et une équation analytique fermée de la frontière de défaillance. Le framework a également benchmarké huit politiques VLA, dont une version fine-tunée de NVIDIA GR00T N1.6 (3 milliards de paramètres), entraînée sur LIBERO-Spatial pendant 20 000 étapes. Le chiffre le plus frappant de l'étude est un écart de 97,65 points de pourcentage entre les environnements de simulation : le même checkpoint GR00T N1.6 atteint 97,65 % de réussite sur le benchmark LIBERO sous MuJoCo, mais tombe à 0 % sur les 68 scénarios industriels de ROBOGATE sous Isaac Sim. Ce résultat met en lumière un problème structurel du déploiement des VLA : les scores de benchmark en simulation ne prédisent pas le comportement dans un simulateur différent, a fortiori dans le monde réel. Pour les intégrateurs et les décideurs industriels, cela signifie qu'un modèle validé sur benchmark standard peut être totalement non opérationnel dans leur environnement cible. ROBOGATE propose une couche de validation intermédiaire, inspirée du paradigme que NVIDIA a formalisé pour le calcul quantique avec Ising, transposé ici à l'IA physique. Le gap sim-to-real reste l'un des verrous majeurs de la robotique manipulatrice apprise, et la plupart des acteurs du secteur, de Figure AI (Figure 03) à Physical Intelligence (Pi-0) en passant par Boston Dynamics ou les équipes internes de NVIDIA, travaillent à le réduire via des pipelines sim-to-real renforcés ou de la synthèse de données domain-randomisée. ROBOGATE ne prétend pas résoudre ce gap mais fournit un outil de diagnostic structuré : cartographier les frontières d'échec avant déploiement, ce qui est précisément ce qui manque dans les workflows industriels actuels. Le framework est publié en open-source, ce qui devrait faciliter son adoption par les équipes de validation, en particulier celles qui travaillent sur des cellules pick-and-place standardisées avec des bras industriels UR ou Franka. Les prochaines étapes naturelles seraient l'extension à des morphologies mobiles-manipulatrices et l'intégration dans des pipelines CI/CD robotiques, un domaine encore embryonnaire mais en progression rapide chez des acteurs comme Intrinsic (Alphabet) ou Covariant.

UELes équipes R&D européennes travaillant sur des cellules robotiques avec bras UR (Universal Robots, Danemark) ou Franka Panda peuvent adopter ce framework open-source pour structurer leur validation pré-déploiement et éviter des échecs coûteux en production.

IA physiqueActu
1 source
Boston Dynamics et Google DeepMind apprennent à Spot à raisonner
100IEEE Spectrum Robotics 

Boston Dynamics et Google DeepMind apprennent à Spot à raisonner

Boston Dynamics annonce l'intégration de Gemini Robotics-ER 1.6, le modèle de raisonnement incarné de Google DeepMind, dans son robot quadrupède Spot. Ce partenariat, rendu public en avril 2026, dote Spot de capacités de raisonnement autonome pour des missions d'inspection industrielle : détection de débris ou de fuites dangereuses, lecture de jauges et de regards de contrôle, et recours à des modèles vision-langage-action (VLA) lorsque la compréhension de l'environnement l'exige. Spot est aujourd'hui déployé à plusieurs milliers d'unités sur sites industriels, ce qui en fait l'une des rares plateformes à pattes ayant atteint une échelle commerciale réelle. Marco da Silva, vice-président et directeur général de Spot chez Boston Dynamics, parle de "réaction aux défis du monde réel de façon entièrement autonome", formulation prudente qui évite les superlatifs, mais qui reflète une ambition opérationnelle concrète. L'enjeu central de cette intégration est la réduction du fossé entre instruction humaine et exécution robot. Carolina Parada, responsable robotique chez Google DeepMind, résume le critère de réussite : "le système doit répondre comme un humain le ferait." Ce standard est plus exigeant qu'il n'y paraît. La vidéo de démonstration de Boston Dynamics l'illustre sans le vouloir : lorsqu'on demande à Spot de "recycler les canettes du salon", il saisit la canette de côté, ce qui serait problématique si elle contenait encore du liquide. Un humain éviterait instinctivement cette erreur en mobilisant des décennies d'expérience incarnée. Cet écart entre raisonnement déclaré et comportement effectif est précisément ce que DeepMind cherche à combler avec son benchmark ASIMOV, un corpus d'exemples en langage naturel décrivant ce qu'un robot ne devrait pas faire, ancré dans une logique de sécurité sémantique. La version actuelle de Spot n'utilise pas encore ces modèles pour la manipulation, mais les versions futures sont censées intégrer ce raisonnement sur la manière sûre de tenir les objets. Boston Dynamics dispose d'une longueur d'avance opérationnelle que peu de concurrents peuvent revendiquer : là où Figure, Agility Robotics ou Apptronik parlent encore de pilotes et de rampes de déploiement, Spot tourne en production dans des raffineries, des usines et des infrastructures critiques depuis plusieurs années. Le choix de Gemini Robotics-ER 1.6 comme couche de raisonnement haut niveau s'inscrit dans la stratégie de Google DeepMind de positionner ses modèles incarnés comme infrastructure pour l'industrie robotique, face aux approches concurrentes de Physical Intelligence (Pi-0), de NVIDIA (GR00T N2) ou de l'écosystème ROS2 open-source. Le vrai test ne sera pas la démo en salon, mais la fiabilité en environnement industriel bruité, sous contraintes de cycle et de disponibilité opérationnelle, des conditions que les benchmarks académiques ne capturent pas encore fidèlement.

UELes opérateurs industriels européens utilisant Spot (raffineries, infrastructures critiques) bénéficieront indirectement de ces capacités de raisonnement autonome, sans impact réglementaire ou stratégique direct pour la France ou l'UE.

IA physiqueOpinion
1 source