Aller au contenu principal

Dossier NVIDIA GR00T

535 articles

NVIDIA GR00T (Generalist Robot 00 Technology) : modèle fondation pour humanoïdes, intégration Isaac et Cosmos, partenariats Apptronik, Agility, 1X.

Sommet en robotique : un panel fait le point sur la conception des robots humanoïdes
1Robotics Business Review HumanoïdesActu

Sommet en robotique : un panel fait le point sur la conception des robots humanoïdes

Lors du Robotics Summit & Expo 2026, tenu à Boston au Thomas B. Menino Convention & Exhibition Center devant quelque 3 900 participants, un panel de haut niveau a fait le point sur l'état réel du développement des robots humanoïdes. Alberto Rodriguez, directeur du comportement robot pour Atlas chez Boston Dynamics, y a révélé que l'entreprise a engagé le déploiement de l'ordre de 25 000 humanoïdes Atlas dans des usines, avec un objectif de capacité de production portée à 30 000 unités par an d'ici 2028. Boston Dynamics a conduit une première démonstration en conditions réelles en usine en 2025, architecture entièrement pilotée par les données, puis a présenté Atlas au CES de janvier 2026 pendant une semaine complète. Pour 2026, la société prévoit un retour en usine pour une démonstration plus complète, de bout en bout, connectant le robot au système d'information de l'usine et gérant les exceptions opérationnelles. Du côté d'Agility, dont la marque commerciale s'est récemment stabilisée sous le nom Agility (ex-Agility Robotics), les déploiements du robot Digit avancent avec Amazon, GXO, Schaeffler, Toyota et Mercado Libre, marquant une sortie effective de la phase pilote. Ce que ce panel signale clairement pour les intégrateurs et décideurs industriels, c'est que le vrai verrou n'est plus mécanique ni même algorithmique, mais stratégique. Rodriguez a posé le problème avec précision : sauf pour de rares applications à très grand volume et très stable, presque tous les postes de travail sont des cas uniques. Le défi du passage à l'échelle repose sur trois axes simultanés, hardware, modèles de comportement, et stratégie d'intégration, et l'échec sur l'un suffit à rendre le déploiement économiquement non viable. La décision de Boston Dynamics de commencer par la logistique en manufacturing, un environnement qui exige de la généralité sans imposer encore les contraintes de timing et de sécurité de la ligne d'assemblage, illustre une approche pragmatique et graduée. Ces chiffres de déploiement engagés, 25 000 unités, sont une donnée de marché rare dans un secteur habitué aux annonces sans livraisons. Boston Dynamics, filiale de Hyundai depuis 2021, a traversé une longue période de recherche pure avant de commercialiser Atlas dans sa version électrique présentée en 2024, succédant aux plateformes hydrauliques historiques. Le marché des humanoïdes reste en pleine effervescence : Figure AI avec Figure 03, Tesla avec Optimus Gen 3 sur sa propre ligne de production, Physical Intelligence avec Pi-0, NVIDIA avec GR00T N2, et des acteurs émergents comme 1X Technologies ou Apptronik positionnent tous leurs solutions sur des créneaux différents, de l'assemblage léger à la manutention lourde. Côté Europe, Enchanted Tools (France) et Wandercraft restent focalisés sur des niches spécifiques, assistance et rééducation, sans viser encore le marché industriel général. Les prochaines étapes à surveiller : la publication par ASTM International (représenté dans le panel par Aaron Prather) de standards de sécurité pour la cohabitation humains-humanoïdes, et les résultats concrets des déploiements Agility/Amazon, dont les métriques opérationnelles restent pour l'instant non publiques.

UELes entreprises françaises (Enchanted Tools, Wandercraft) restent cantonnées aux niches assistance/rééducation sans feuille de route vers l'industriel général, creusant un écart stratégique avec les déploiements à grande échelle désormais en cours en Amérique du Nord.

1 source
Apprendre à assister : des modèles VLA collaboratifs pour la coopération implicite humain-robot
2arXiv cs.RO 

Apprendre à assister : des modèles VLA collaboratifs pour la coopération implicite humain-robot

Des chercheurs ont publié le 12 juin 2026 (arXiv:2606.12475) une étude sur l'usage de modèles vision-langage-action (VLA) entraînés par imitation learning pour la collaboration humain-robot (HRC) implicite, sans signal explicite déclenchant l'assistance robotique. Évaluant deux VLA de référence sur des tâches d'assemblage collaboratif, l'équipe identifie un défaut propre aux politiques d'action-chunking : la "fuite d'actions de démonstration" (demonstration action leakage). Ce phénomène survient lorsque des chunks d'actions enjambent des transitions latentes de sous-tâches, poussant le robot à assister l'humain trop tôt, comme tendre un outil avant que l'opérateur soit prêt à le saisir. Pour corriger ce comportement sans réentraîner le modèle, les auteurs proposent un pilotage à l'inférence (inference-time steering). Une étude à 16 participants sur une tâche d'assemblage longue horizon confirme que le steering réduit les interventions prématurées, accélère la collaboration et diminue les échecs par rapport à une politique à horizon court. Ce résultat ouvre une voie concrète pour l'intégration des VLA dans des workflows industriels collaboratifs, jusqu'ici dépendants de pipelines codés à la main, peu scalables vers de nouvelles tâches. La fuite d'actions constitue un avertissement direct pour les équipes déployant des politiques ACT ou diffusion en mode HRC : allonger l'horizon d'exécution, souvent souhaitable pour la fluidité du mouvement, aggrave le problème. Le steering à l'inférence fournit un correctif opérationnel sans modification du modèle entraîné, ce qui le rend attractif pour un déploiement rapide. Les VLA généralistes comme Pi-0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA) ont prouvé leur efficacité en manipulation autonome, mais leur usage en HRC implicite restait peu documenté. Cette publication comble ce manque méthodologique. En Europe, des acteurs comme Enchanted Tools et Wandercraft, dont les robots sont conçus pour opérer aux côtés d'humains, pourraient réduire leur charge d'ingénierie manuelle en s'appuyant sur ces résultats. La prochaine étape sera d'étendre la méthode à des environnements industriels non contrôlés et à des tâches encore plus longues, afin d'évaluer la robustesse du steering face à la variabilité réelle des comportements humains.

UEEnchanted Tools et Wandercraft, acteurs européens de la robotique collaborative, pourraient réduire leur charge d'ingénierie manuelle en adoptant le steering à l'inférence pour corriger la fuite d'actions dans leurs déploiements VLA, sans réentraîner leurs modèles.

RechercheOpinion
1 source
Améliorer les politiques généralistes robotiques grâce au pilotage par inversion de flux
3arXiv cs.RO 

Améliorer les politiques généralistes robotiques grâce au pilotage par inversion de flux

Des chercheurs ont soumis en juin 2026 un article (arXiv:2606.13675) présentant le Flow Reversal Steering (FRS), une méthode pour améliorer les politiques robotiques généralistes entraînées par flow matching. Plutôt que de commander directement un tel modèle sur des tâches difficiles, FRS part d'actions sous-optimales mais plausibles, les fait passer en sens inverse à travers la politique de flow pour retrouver leurs bruits latents, puis les projette vers les modes d'action les plus proches dans l'espace comportemental du généraliste. Évaluée sur plusieurs tâches de manipulation en simulation et en conditions réelles, la méthode produit des gains allant jusqu'à 95 points de pourcentage de taux de succès via distillation par behavioral cloning, avec un temps d'entraînement de la politique auxiliaire inférieur à une minute. FRS convertit aussi des instructions sémantiques grossières - formulées par un humain ou un VLM (vision-language model) - en actions motrices précises, sans fine-tuning supplémentaire du modèle de base. L'enjeu est direct pour le secteur robotique : les politiques généralistes comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) accumulent une large palette de compétences sur des corpus diversifiés, mais peinent à les mobiliser quand les instructions directes échouent sur des tâches nouvelles. FRS comble ce fossé en exploitant la réversibilité propre aux flow matching models, transformant des intentions floues en actions exécutables sans données de démonstration supplémentaires. La capacité à amorcer l'apprentissage par renforcement à partir de connaissances sémantiques est particulièrement notable : la méthode progresse sur plusieurs tâches où le RL standard reste bloqué. Cela trace une voie concrète pour réduire le gap entre simulation et déploiement réel, un verrou persistant pour les intégrateurs industriels. Ce travail s'inscrit dans la dynamique des VLA (vision-language-action models) qui cherchent à relier guidance sémantique et politique de bas niveau. Physical Intelligence (Pi-0, Pi-0.5), Google DeepMind (Gemini Robotics, RT-X) et Berkeley (OpenVLA) explorent des architectures similaires, mais le mécanisme de flow reversal est spécifique aux modèles de flow matching et se distingue des approches par diffusion classique. L'article reste à ce stade un preprint non évalué par les pairs, sans déploiement annoncé sur plateforme commerciale. Les suites naturelles seraient une validation sur des robots industriels ou mobiles et une intégration dans des frameworks ouverts comme LeRobot (Hugging Face) ou OpenPI.

UEL'intégration potentielle dans LeRobot (Hugging Face, Paris) représente un vecteur d'adoption concret pour les équipes françaises et européennes travaillant sur des politiques robotiques open-source, si la méthode est confirmée au-delà du stade preprint.

💬 Le truc malin ici, c'est d'exploiter la réversibilité des flow matching models pour remonter d'actions ratées jusqu'aux modes comportementaux les plus proches, sans données de démonstration supplémentaires. 95 points de gain sur certaines tâches, moins d'une minute d'entraînement, c'est le genre de chiffres qui font lever un sourcil. Reste à voir si ça tient en dehors de la simulation, mais si LeRobot l'intègre, les équipes robotique françaises vont avoir quelque chose de sérieux à tester.

IA physiqueOpinion
1 source
EgoEngine : des vidéos humaines égocentrées vers des démonstrations dextériques haute fidélité pour robots
4arXiv cs.RO 

EgoEngine : des vidéos humaines égocentrées vers des démonstrations dextériques haute fidélité pour robots

EgoEngine, un framework décrit dans un preprint arXiv de juin 2026 (arXiv:2606.12604), automatise la transformation de vidéos humaines en vue égocentrique en données d'entraînement exploitables par des robots manipulateurs. Le système prend en entrée une vidéo RGB et produit deux sorties : une séquence où les mains humaines sont remplacées par un effecteur robotique tout en conservant le contexte de la scène et l'alignement temporel, et une trajectoire d'action exécutable sous contraintes de faisabilité cinématique. Le pipeline attaque deux verrous documentés dans la littérature : le visual gap (différence d'apparence entre humain et robot en manipulation) et l'action gap (incommensurabilité entre gestes humains et commandes articulaires d'un bras robotique). Les auteurs rapportent des résultats en simulation et sur robots réels, et affirment, avec la précaution habituelle "à leur connaissance", une première en apprentissage visuomoteur dextère en zero-shot depuis des vidéos égocentriques humaines, sans aucune démonstration préalable sur robot réel. Collecter des démonstrations robotiques à grande échelle pour la manipulation dextère reste l'un des principaux goulots d'étranglement du secteur, en coût et en temps opérateur. Un pipeline capable de valoriser des corpus vidéo égocentriques existants (EPIC-Kitchens, HOI4D, captations industrielles) sans robot disponible au moment de la collecte représenterait un raccourci significatif pour intégrateurs et équipes R&D. La revendication zero-shot est néanmoins à pondérer : les performances en manipulation dextère restent très sensibles à la fidélité du retargeting visuel et des trajectoires synthétisées, et les démonstrations sur robot réel dans les preprints de ce type sélectionnent rarement des scénarios représentatifs de la variabilité terrain. Ce travail s'inscrit dans un champ concurrentiel où NVIDIA (GR00T N2), Physical Intelligence (pi-0) et HuggingFace (Lerobot) développent chacun leurs stratégies de scalabilité des données robotiques. EgoEngine se positionne spécifiquement sur la manipulation dextère fine (doigts, pas seulement le poignet), segment où la sim-to-real gap est la plus difficile à combler et où aucun standard industriel de collecte n'existe encore. En tant que preprint non peer-reviewed, la prochaine étape critique sera une validation sur benchmarks standardisés comme DROID ou Open X-Embodiment pour confirmer la généralisation à des embodiments et tâches diversifiés.

IA physiquePaper
1 source
Exécution en temps réel avec des politiques autorégressives
5arXiv cs.RO 

Exécution en temps réel avec des politiques autorégressives

Un article de recherche déposé sur arXiv (référence 2606.13355) en juin 2026 démontre que les politiques autoregressives -- la famille de modèles qui génère les actions token par token, à la manière d'un LLM classique -- peuvent atteindre une exécution en temps réel sur des robots physiques. La méthode repose sur deux leviers combinés : l'ajustement de l'horizon de tokenisation (la granularité temporelle des séquences d'actions encodées) et le décodage contraint (constrained decoding), qui impose des bornes de latence strictes à chaque inférence. En rendant l'inférence asynchrone, le système garantit des trajectoires d'action fluides tout en maintenant une réactivité suffisante pour absorber les perturbations de l'environnement. Les auteurs montrent, sur des benchmarks simulés et en conditions réelles, que la politique autoregressive surpasse systématiquement son équivalent basé sur le flow-matching (variante des politiques de diffusion) tout en atteignant des vitesses de complétion de tâche nettement supérieures à celles obtenues en inférence synchrone. Le multi-trajectory decoding -- rendu possible par les garanties de latence -- permet en outre d'explorer plusieurs trajectoires candidates en parallèle pour maximiser la performance. Ce résultat est significatif car il remet en cause une hypothèse dominante dans la robotique d'apprentissage : celle selon laquelle les politiques de diffusion seraient structurellement mieux adaptées à l'exécution temps réel en raison de leur parallélisme d'échantillonnage. Les modèles VLA (Vision-Language-Action) autoregressifs, qui traitent séquentiellement pixels, instructions textuelles et commandes moteur dans un même réseau, souffraient d'un goulot d'étranglement de latence jugé rédhibitoire pour le déploiement sur robots industriels ou humanoïdes. Cette publication suggère que ce surcoût peut être absorbé par architecture -- sans sacrifier la performance ni la généralisation aux instructions. Pour un intégrateur ou un COO industriel évaluant des briques VLA, le message est pratique : les modèles autoregressifs offrent également une convergence plus rapide à l'entraînement et une meilleure généralisation aux nouvelles instructions, deux propriétés critiques pour les déploiements à petits volumes de données. Sur le plan du contexte, le débat autoregressif contre diffusion structure la recherche en politiques robotiques depuis la publication des diffusion policies (Chi et al., 2023), rapidement adoptées par des projets comme pi-0 de Physical Intelligence ou ACT. Les modèles VLA à architecture autoregressive, dont OpenVLA ou les variantes de GR00T N2 (NVIDIA), peinent en revanche à s'imposer en déploiement temps réel faute de latence acceptable. Ce preprint, qui n'est pas encore évalué par les pairs, repositionne cette famille comme compétitive pour l'exécution physique, à condition d'intégrer les deux mécanismes proposés dès la conception du pipeline d'inférence. Les prochaines étapes naturelles seront la validation sur des robots industriels à haute fréquence de contrôle (au-dessus de 50 Hz) et l'ouverture éventuelle du code.

💬 Le verrou de latence des VLA autoregressifs, c'était le seul argument solide qui restait pour privilégier les politiques de diffusion en robotique physique. Avec le décodage contraint plus l'ajustement de l'horizon de tokenisation, ils montrent que ce goulot était architectural, pas structurel. Bon, c'est encore un preprint, reste à voir si ça tient au-dessus de 50 Hz sur du vrai acier.

IA physiqueOpinion
1 source
EmbodiSteer : guidage articulaire de politiques visuomotrices universelles pour un déploiement zéro-shot multi-robots
6arXiv cs.RO 

EmbodiSteer : guidage articulaire de politiques visuomotrices universelles pour un déploiement zéro-shot multi-robots

Une équipe de chercheurs a publié EmbodiSteer, un cadre d'inférence sans réentraînement conçu pour déployer des politiques visuomotrices généralistes sur des robots arbitraires sans adaptation préalable. Le problème qu'il résout est structurel : l'apprentissage par imitation à grande échelle (imitation learning) s'appuie aujourd'hui sur des données hétérogènes collectées sur des robots différents, ce qui pousse les architectures modernes à raisonner dans l'espace cartésien de l'effecteur terminal, un espace agnostique au corps. Cette abstraction est utile pour la généralisation, mais elle rend les politiques aveugles aux contraintes cinématiques propres à chaque robot, notamment la détection de collision avec le propre corps de la machine. EmbodiSteer corrige ce défaut au moment de l'inférence : il projette chaque pas de débruitagede diffusion depuis l'espace cartésien vers l'espace articulaire du robot cible via la cinématique directe et des mises à jour jacobiennes, puis applique un guidage de trajectoire tenant compte des collisions corps entier avant de rebasculer en cartésien pour l'étape suivante. Sur neuf robots simulés, le taux de collision chute de 46,1 % et le taux de succès augmente de 28,5 % par rapport à une exécution purement cartésienne. Sur deux robots physiques dans des scénarios très contraints, les gains montent respectivement à 90,0 % et 36,7 %. L'intérêt industriel de ce résultat réside dans ce qu'il évite : un réentraînement complet du modèle à chaque changement de plateforme matérielle. Pour un intégrateur qui déploie une politique généraliste (type pi-0, GR00T N2, ou toute VLA diffusion-based) sur plusieurs variantes d'un bras industriel, EmbodiSteer représente une couche d'adaptation plug-and-play à l'inférence, sans toucher aux poids. C'est une réponse directe au "sim-to-real gap" qui frappe les politiques cartésiennes lorsqu'elles rencontrent des obstacles inattendus dans le référentiel articulaire du robot réel. La méthode valide aussi une hypothèse importante : les politiques diffusion en espace cartésien ne sont pas intrinsèquement fragiles, elles manquent simplement d'un pont vers la géométrie du corps déployé, un pont que l'on peut construire sans données supplémentaires. EmbodiSteer s'inscrit dans un mouvement plus large vers les politiques universelles (cross-embodiment), dont les représentants notables incluent pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, et les travaux du Columbia Robotics Lab sur les transformers multi-robot. La plupart de ces architectures partagent le même talon d'Achille cartésien qu'EmbodiSteer cible. Le papier, déposé sur arXiv (2606.12965) en juin 2026, ne mentionne pas de partenaire industriel ni de calendrier de commercialisation : il s'agit d'une contribution académique, sans produit shipé ni déploiement annoncé. Le code et la page projet sont publics, ce qui facilite l'expérimentation par des tiers. La prochaine étape logique serait de tester le cadre sur des robots à configuration non standard, comme des bras à redondance élevée ou des humanoïdes complets, où le guidage jacobien pose des défis d'ambiguïté cinématique plus sérieux.

UELes intégrateurs robotiques européens déployant des politiques VLA sur plusieurs plateformes matérielles pourraient adopter EmbodiSteer comme couche d'adaptation plug-and-play, mais aucun acteur FR/EU n'est impliqué dans ces travaux.

💬 Une couche d'adaptation à l'inférence sans réentraînement, ça semble anodin, mais c'est exactement ce qui manque quand tu veux déployer une politique généraliste sur plusieurs bots différents sans exploser ton budget GPU. Les chiffres de simulation, je les prends avec des pincettes, mais 90% de réduction de collisions sur robot physique en conditions contraintes, c'est pas du flan. Le code est public, donc si t'es intégrateur robotique, t'as déjà ta prochaine expérimentation du vendredi.

IA physiqueOpinion
1 source
Du numérique au physique : des agents numériques comme coachs autonomes de l'intelligence physique
7arXiv cs.RO 

Du numérique au physique : des agents numériques comme coachs autonomes de l'intelligence physique

Des chercheurs ont publié EmboCoach-Bench, un benchmark évaluant la capacité d'agents LLM à automatiser l'ingénierie de politiques pour systèmes robotiques incarnés. Présenté sur arXiv (arXiv:2501.21570), le cadre couvre 32 tâches conçues par des experts en apprentissage par renforcement (RL) et apprentissage par imitation (IL), avec le code exécutable comme interface universelle entre l'agent et l'environnement de simulation. Plutôt que de générer des solutions statiques, les agents opèrent en boucle fermée: ils proposent du code, l'exécutent dans le simulateur, analysent le retour d'environnement, puis itèrent pour corriger et optimiser. Les tâches couvrent des aspects allant de la conception de fonctions de récompense informées par la physique aux architectures de politiques avancées, notamment les diffusion policies. Les résultats quantitatifs méritent attention: les agents autonomes ont surpassé les baselines conçues manuellement par des humains de 26,5% en taux de succès moyen, contestant l'hypothèse selon laquelle l'expertise humaine en reward shaping serait difficilement substituable pour les politiques incarnées. Deuxième enseignement: le workflow agentique avec retour d'environnement réduit substantiellement l'écart de performance entre modèles open-source et propriétaires, ce qui suggère que la boucle de feedback itératif est plus déterminante que le modèle sous-jacent. Enfin, les agents démontrent une capacité de self-correction sur des cas pathologiques d'ingénierie, récupérant des tâches en quasi-échec total via un débogage itératif en simulation. Pour les équipes robotiques, cela représente une voie potentielle pour réduire le temps ingénieur consacré au tuning manuel des hyperparamètres et à la conception artisanale de fonctions de récompense. Ce travail s'inscrit dans une tendance plus large: l'application des workflows agentiques LLM, prouvés dans l'automatisation logicielle et la découverte scientifique, au domaine de l'IA incarnée. Le goulot d'étranglement identifié, à savoir la supervision manuelle intensive pour le réglage des simulations, est un problème structurel bien connu des équipes travaillant sur Optimus (Tesla), GR00T N2 (NVIDIA) ou les systèmes de Figure AI. La contribution différenciante d'EmboCoach-Bench est de proposer un cadre d'évaluation standardisé pour mesurer ce que les agents LLM peuvent réellement automatiser, plutôt que des démos ciblées. Les extensions naturelles incluent l'intégration à des backends hétérogènes (Isaac Lab, MuJoCo, Genesis) et la validation sim-to-real pour confirmer si ces gains en simulation se transfèrent aux systèmes physiques, ce qui reste le test décisif pour une adoption industrielle.

RecherchePaper
1 source
RoboProcessBench : un benchmark pour évaluer la compréhension des processus dans la manipulation robotique vision-langage
8arXiv cs.RO 

RoboProcessBench : un benchmark pour évaluer la compréhension des processus dans la manipulation robotique vision-langage

Des chercheurs ont publié le 16 juin 2026 sur arXiv (référence 2606.13040) RoboProcessBench, un benchmark conçu pour évaluer la compréhension processuelle des modèles vision-langage (VLM) appliqués à la manipulation robotique. L'outil décompose cette capacité en deux axes complémentaires : la surveillance statique (static monitoring) et le raisonnement dynamique (dynamic reasoning), déclinés en 12 familles de questions diagnostiques couvrant la phase d'exécution, le contact physique, le mouvement, la coordination, la progression locale, l'ordre temporel, les résultats et les transitions entre primitives. Le corpus associé, ProcessData, regroupe environ 58 000 paires questions-réponses extraites de 260 tâches de manipulation physiquement simulées, divisé en deux sous-ensembles : ProcessData-SFT pour le fine-tuning et ProcessData-Eval pour l'évaluation. Appliqué à plusieurs VLM représentatifs du marché, le benchmark révèle des lacunes systématiques sur la quasi-totalité des 12 familles de tâches. Toutefois, après fine-tuning sur ProcessData-SFT, les modèles Qwen2.5-VL-7B (Alibaba) et InternVL-3-8B (Shanghai AI Lab) affichent des gains mesurables sur la détection d'état local, de mouvement, de progression et de primitives. Ce travail pointe une faille structurelle dans l'usage croissant des VLM comme critiques visuels, générateurs de récompenses et détecteurs d'échecs dans les pipelines de contrôle robotique : ces modèles sont habituellement évalués sur le succès final d'une tâche, pas sur la qualité de son déroulement. Or, pour un intégrateur ou un COO industriel qui déploie un bras manipulateur en production, la capacité d'un modèle à détecter un contact mal positionné en milieu de séquence ou un désalignement temporel entre deux primitives est aussi critique que le résultat terminal. RoboProcessBench fournit un cadre d'évaluation granulaire là où les benchmarks existants restaient aveugles à cette dimension intermédiaire. Les résultats montrent que les gains obtenus après fine-tuning ciblé sont réels mais localisés, ce qui suggère que la compréhension processuelle fine n'émerge pas spontanément à partir des données d'entraînement généralistes actuels. L'initiative s'inscrit dans une tendance de fond : depuis 2024, les laboratoires de robotique cherchent à intégrer les VLM comme modules de supervision autonomes, à la suite des travaux sur les Visual Language Action models (VLA) comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Le benchmark comble un angle mort laissé par des suites comme RoboSuite, LIBERO ou BehaviorBench, qui mesurent principalement les taux de succès end-to-end. Côté compétiteurs directs dans l'espace des benchmarks de compréhension robotique, on citera MECCANO et ProcTHOR, mais aucun n'adresse explicitement le suivi de primitives en contexte de manipulation physique. La page projet est publiquement accessible, et les données ProcessData sont présentées comme réutilisables pour l'entraînement, ce qui pourrait accélérer leur adoption dans les pipelines de RL basés sur des récompenses apprises. Aucun déploiement industriel ni partenariat n'est annoncé à ce stade : il s'agit d'un preprint académique.

RecherchePaper
1 source
DuoBench : un benchmark reproductible pour la manipulation bimanuelles en simulation et dans le monde réel
9arXiv cs.RO 

DuoBench : un benchmark reproductible pour la manipulation bimanuelles en simulation et dans le monde réel

Une équipe de chercheurs a publié en juin 2026 DuoBench, un cadre de benchmarking dédié à la manipulation bimanuelle, conçu pour la plateforme FR3 Duo de Franka Robotics. Le benchmark comprend onze tâches réparties en quatre catégories de coordination, implémentées en simulation et partiellement reproduites en environnement réel grâce à des protocoles reproductibles incluant des composants imprimables en 3D. Les auteurs ont constitué des jeux de données de télé-opération humaine pour l'ensemble des onze tâches, et proposent un schéma d'évaluation par étapes (stage-based evaluation) permettant une analyse sémantique fine des modes d'échec, au-delà du simple critère binaire succès/échec. Plusieurs politiques d'apprentissage par imitation à deux bras ainsi que des politiques VLA (vision-language-action) ont été évaluées en simulation et sur matériel réel. Les résultats sont sans ambiguïté : les politiques actuelles, y compris les approches VLA considérées comme l'état de l'art, restent insuffisantes pour la manipulation bimanuelle. Les échecs se concentrent sur trois axes : les phases d'interaction initiale, l'exécution parallèle des deux bras, et le transfert simulation-réel (sim-to-real). Ce dernier point est particulièrement significatif : malgré les progrès récents sur le gap sim-to-real pour la manipulation à un bras, DuoBench révèle que la coordination bimanuelle pose des défis supplémentaires non résolus. Pour les équipes R&D et les intégrateurs industriels, ce benchmark fournit un outil diagnostique structuré pour identifier précisément où les politiques échouent, une lacune que les frameworks existants comme RLBench ou LIBERO, conçus pour les systèmes à un seul bras, ne comblaient pas. La manipulation bimanuelle est un prérequis pour de nombreuses tâches complexes en industrie (assemblage, conditionnement, manipulation d'objets déformables), ce qui explique l'intérêt croissant du secteur pour les plateformes à deux bras. Le FR3 Duo de Franka Robotics est l'une des rares plateformes de recherche standardisées pour ce segment. Dans la course aux capacités bimanuelles, des acteurs comme Physical Intelligence avec Pi-0, NVIDIA avec GR00T N2, ou Figure AI avec ses robots humanoïdes ont annoncé des performances prometteuses, mais les benchmarks publics rigoureux permettant de les comparer restent rares. DuoBench, dont le code, les jeux de données et les vidéos sont disponibles sur duobench.github.io, ambitionne de combler ce manque avec un protocole reproductible que tout laboratoire peut répliquer à faible coût grâce aux assets imprimables en 3D.

UEFranka Robotics (Allemagne) est la plateforme centrale de DuoBench, offrant aux laboratoires et équipes R&D européens un benchmark standardisé et reproductible pour évaluer leurs politiques bimanuelle, y compris les approches VLA, sans disposer de ressources matérielles coûteuses.

FR/EU ecosystemePaper
1 source
Efficacité remarquable des mélanges de processus gaussiens en temps discret pour l'apprentissage de politiques robotiques
10arXiv cs.RO 

Efficacité remarquable des mélanges de processus gaussiens en temps discret pour l'apprentissage de politiques robotiques

MiDiGap (Mixture of Discrete-time Gaussian Processes) est une méthode d'apprentissage par imitation pour la manipulation robotique, publiée en mai 2025 en preprint arXiv (2505.03296v2) par des chercheurs de l'Université de Fribourg-en-Brisgau. Elle apprend des politiques de contrôle à partir de seulement cinq démonstrations, en utilisant uniquement des observations caméra, et converge en moins d'une minute sur CPU standard. Le spectre de tâches couvert est large: comportements à longue horizon comme préparer un café, mouvements très contraints comme ouvrir une porte, actions dynamiques comme manier une spatule, et tâches multimodales comme accrocher une tasse. Sur le benchmark simulé RLBench, la méthode affiche un gain de 76 points de pourcentage de succès sur les tâches contraintes, réduit le coût de trajectoire de 67%, et progresse de 48 points sur les tâches multimodales avec une efficacité d'échantillonnage multipliée par 20. En transfert cross-embodiment, c'est-à-dire l'adaptation d'une politique à un robot de morphologie différente sans réentraînement complet, le taux de succès est plus que doublé. Le code est publié en open-source. L'enjeu principal est le coût d'entrée à l'apprentissage par imitation. Les architectures actuellement dominantes, Diffusion Policy (Columbia), ACT (Stanford/Berkeley) ou les VLA comme Pi-0 de Physical Intelligence, nécessitent des milliers de démonstrations et des ressources GPU conséquentes. Une méthode compétitive opérant sur CPU en moins d'une minute élargit concrètement l'accès aux intégrateurs et PME robotiques sans infrastructure ML dédiée. La fonctionnalité de pilotage à l'inférence (inference-time steering) est aussi notable: en injectant des signaux de collision ou des contraintes cinématiques du robot directement à l'inférence, sans réentraînement, MiDiGap permet une adaptation dynamique aux contraintes physiques réelles, propriété rare dans les méthodes actuelles et potentiellement précieuse pour les déploiements industriels. L'Université de Fribourg-en-Brisgau s'impose ici comme un acteur européen de poids dans l'apprentissage robotique, aux côtés d'ETH Zurich et du DLR. MiDiGap entre en concurrence directe avec Diffusion Policy, ACT, mais aussi avec les fondations propriétaires comme Pi-0 (Physical Intelligence) et GR00T N2 (NVIDIA). Un bémol important: toutes les métriques annoncées proviennent de RLBench, un benchmark entièrement en simulation. La robustesse sim-to-real, c'est-à-dire le maintien des performances sur des robots réels dans des conditions non contrôlées, reste à démontrer. La mise en open-source sur midigap.cs.uni-freiburg.de devrait permettre une évaluation indépendante et une validation sur plateformes réelles dans les prochains mois.

UEL'Université de Fribourg-en-Brisgau (Allemagne) produit un concurrent open-source direct aux fondations propriétaires américaines (Pi-0, GR00T N2), accessible sans GPU aux intégrateurs et PME robotiques européens, renforçant la capacité européenne en apprentissage robotique face aux acteurs US.

RecherchePaper
1 source
Apprendre quoi dire à son modèle VLA : un guidage presque inoffensif
11arXiv cs.RO 

Apprendre quoi dire à son modèle VLA : un guidage presque inoffensif

Des chercheurs publient sur arXiv (2606.12299, juin 2026) une méthode pour rendre les VLA (Vision-Language-Action) plus robustes aux variations de formulation en langage naturel. Le problème documenté est précis : des instructions sémantiquement proches induisent des comportements radicalement différents chez un robot piloté par VLA, et certaines capacités restent inaccessibles via le prompting standard. L'approche proposée, la "language feedback policy" (LFP), recherche interactivement des formulations optimales en boucle fermée, les distille en une politique de feedback activée au moment du test, puis utilise la prédiction conforme pour bloquer toute intervention susceptible de dégrader les performances hors distribution. Les résultats annoncés sont significatifs : +24,7 % de succès en simulation et +65,0 % sur matériel réel, sans fine-tuning du modèle sous-jacent ni accès aux données d'entraînement d'origine. Ce gain de 65 % sur robot physique est notable, même si les auteurs ne précisent pas les tâches ou les manipulateurs testés, ce qui rend la comparaison directe avec d'autres travaux difficile. L'absence totale de réentraînement constitue l'apport pratique le plus clair : les intégrateurs peuvent superposer cette couche sur n'importe quel VLA pré-entraîné gelé (Pi-0, GR00T N2, Helix, OpenVLA) sans toucher aux pipelines existants. La garantie de "harmlessness" via prédiction conforme est une contribution méthodologique rigoureuse : l'intervention est bloquée dès que la LFP risque de faire pire que l'instruction originale, critère essentiel pour un déploiement industriel où la fiabilité prime sur la performance brute. Ce travail s'inscrit dans un contexte de déploiements VLA accélérés : Physical Intelligence a commercialisé Pi-0, NVIDIA a publié GR00T N2, Figure déploie Helix en production chez BMW à Spartanburg. En Europe, Wandercraft intègre des architectures de contrôle apprenant pour la rééducation, et Enchanted Tools teste des interactions langage-robot sur son humanoïde Miroka. Tous ces systèmes partagent la même fragilité au prompt que l'ingénierie manuelle ne résout pas systématiquement. Ce travail propose une couche d'adaptation automatique complémentaire aux approches de fine-tuning comme RLHF ou DPO appliqués aux VLA. Les suites naturelles seraient une évaluation sur des benchmarks standardisés tels que LIBERO ou OpenX-Embodiment, et un test sur des VLA propriétaires à architecture fermée.

UEWandercraft et Enchanted Tools, qui intègrent des architectures de contrôle apprenant sur leurs systèmes respectifs, sont des bénéficiaires directs potentiels de cette couche d'adaptation VLA déployable sans réentraînement ni accès aux données d'origine.

💬 65 % de gain sur matériel réel sans toucher au modèle sous-jacent, c'est pas rien. Ce qui m'intéresse surtout, c'est la garantie de ne pas dégrader les performances : l'intervention est bloquée dès qu'elle risque de faire pire que l'instruction d'origine, et ça c'est le seul argument qui tient vraiment dans un déploiement industriel. Reste à voir sur quelles tâches ils ont testé ça, les détails manquent pour comparer sérieusement avec l'existant.

IA physiqueOpinion
1 source
L'architecture du critique est cruciale : critiques doubles ou unifiés pour la loco-manipulation des humanoïdes
12arXiv cs.RO 

L'architecture du critique est cruciale : critiques doubles ou unifiés pour la loco-manipulation des humanoïdes

Une étude publiée sur arXiv le 11 juin 2026 (réf. 2606.11891) présente une comparaison rigoureuse de deux architectures de critique en apprentissage par renforcement multi-objectifs pour robots humanoïdes : un critique unifié (un seul réseau estimant la valeur combinée de tous les objectifs) contre des critiques duaux (deux réseaux distincts, chacun associé à un signal de récompense séparé, l'un pour la locomotion, l'autre pour la manipulation). Les expériences ont été conduites sur le Unitree G1, un humanoïde à 23 degrés de liberté actifs, dans le simulateur NVIDIA Isaac Lab, via un curriculum séquentiel de 13 niveaux progressant de l'atteinte stationnaire jusqu'à la marche avec des cibles à orientation variable. Résultat : les politiques entraînées avec critiques duaux atteignent leurs cibles 3,5 fois plus vite (6,5 pas de simulation contre 22,6), affichent un débit deux fois supérieur (14,3 contre 7,0 atteintes validées pour 1 000 pas), et un taux de réussite validé de 65,2 % contre 53,8 % pour le critique unifié. Ce que l'étude démontre, c'est que le choix de l'architecture du critique est un levier de conception primaire, souvent négligé, dont l'impact surpasse celui du reward engineering. Fait notable : l'ajout de mécanismes anti-gaming, conçus pour empêcher la politique d'exploiter les failles de la fonction de récompense, ne produit aucun gain au-delà du changement architectural seul (60,9 % contre 65,2 %). L'implication la plus immédiate concerne le fine-tuning RL de politiques pré-entraînées par imitation : lorsqu'on affine un modèle de manipulation déjà appris (style Pi-0 ou GR00T N2), un critique unifié risque de supprimer les comportements acquis par interférence des gradients de locomotion. Pour les équipes qui cherchent à spécialiser des modèles de fondation robotiques par RL, cette mise en garde est directement opérationnelle. Le Unitree G1, vendu autour de 16 000 dollars, est devenu un banc de test standard pour la recherche en humanoïde abordable, face aux plateformes de Figure AI, Agility Robotics ou 1X Technologies qui opèrent sur des gammes de prix bien supérieures. NVIDIA Isaac Lab, successeur d'Isaac Gym, s'est imposé comme l'environnement de référence pour l'entraînement sim-to-real. La question du découplage locomotion/manipulation en RL multi-objectifs est au coeur de plusieurs groupes de recherche (Stanford, CMU, ETH Zurich), et les résultats de cette étude, issus d'un cadre contrôlé et reproductible, offrent une base solide pour orienter les choix d'architecture avant tout entraînement coûteux sur robot réel.

RecherchePaper
1 source
APT : le pré-entraînement par expertise d'action améliore la généralisation des politiques VLA aux nouvelles instructions
13arXiv cs.RO 

APT : le pré-entraînement par expertise d'action améliore la généralisation des politiques VLA aux nouvelles instructions

Une équipe de chercheurs a publié le 11 juin 2026 sur arXiv (identifiant 2606.12366) APT (Action expert PreTraining), une méthode d'entraînement en deux étapes conçue pour améliorer la généralisation des politiques robotiques Vision-Langage-Action (VLA) face à des instructions en langage naturel hors distribution. Le problème ciblé : les modèles VLA actuels, qui couplent un grand modèle de vision-langage (VLM) préentraîné à un expert d'action continu, peinent à exécuter des consignes qu'ils n'ont pas vues pendant l'entraînement. La méthode s'applique aux architectures mainstream du domaine, notamment les architectures de style pi (Physical Intelligence) et GR00T (NVIDIA), et démontre des gains cohérents sur des instructions inédites et des tâches compositionnelles selon les expériences rapportées dans l'article. Le problème fondamental identifié par les auteurs est un déséquilibre structurel dans les données VLA : la diversité linguistique y est bien plus faible que la diversité visuelle ou motrice, ce qui pousse les politiques à s'appuyer sur des raccourcis visuels plutôt que sur les instructions textuelles. Les méthodes à actions discrètes, comme OpenVLA, atténuent ce biais via un co-entraînement vision-langage, mais les experts d'action continus, initialisés aléatoirement, génèrent des gradients bruités qui corrompent le VLM et n'exploitent pas sa capacité de compréhension linguistique. APT résout cela par une factorisation bayésienne : l'expert d'action est d'abord préentraîné comme un prior vision-action sans supervision linguistique, sur un VLM gelé (étape 1), puis les tokens de langage sont injectés via un mécanisme de fusion à porte (gated fusion) qui intègre les représentations du VLM tout en préservant le prior visuomoteur appris (étape 2). Cette séparation empêche l'imbalance linguistique de polluer l'apprentissage moteur initial. Le domaine des VLA robotiques connaît depuis 2024 une accélération notable avec pi0 de Physical Intelligence, GR00T N2 de NVIDIA, et Helix de Figure AI, tous construits autour du paradigme VLM couplé à un expert d'action continu. La généralisation aux instructions non vues reste l'un des défis non résolus du secteur : les démos en laboratoire reposent souvent sur des jeux de consignes étroits, loin de la variabilité d'un déploiement industriel réel, ce qui constitue un frein concret à la commercialisation. APT propose une réponse méthodologique à ce gap sans modifier les architectures cibles, en réordonnant uniquement leur processus d'entraînement. Les prochaines étapes naturelles incluront des validations indépendantes sur des benchmarks standardisés comme LIBERO ou RoboSuite, ainsi que des tests à l'échelle sur robots physiques en environnement non structuré.

RechercheActu
1 source
Prédiction d'horizon d'exécution dynamique pour les politiques robotiques par segments
14arXiv cs.RO 

Prédiction d'horizon d'exécution dynamique pour les politiques robotiques par segments

Une équipe de chercheurs a publié sur arXiv (arXiv:2606.11408) une méthode baptisée DEHP, Dynamic Execution Horizon Prediction, conçue pour résoudre un goulot d'étranglement structurel des politiques robotiques modernes : l'horizon d'exécution fixe. Dans les architectures à "action chunking" aujourd'hui omniprésentes, politiques de diffusion, politiques de flux, modèles vision-langage-action (VLA) comme pi-0 ou OpenVLA, le robot prédit un bloc de N actions et les exécute en boucle ouverte, sans percevoir l'environnement à chaque pas. Cet horizon N est actuellement choisi par tuning empirique, tâche par tâche. DEHP entraîne une branche légère de prédiction d'horizon via du reinforcement learning en ligne, tout en gardant la politique chunk sous-jacente entièrement gelée, ce qui la rend compatible avec n'importe quelle politique existante traitée comme boîte noire. Sur des tâches de manipulation haute précision et longue durée, les auteurs rapportent une amélioration "significative" du taux de succès, sans chiffres absolus précis dans l'abstract, un point à vérifier dans les résultats complets. L'enjeu est concret pour quiconque déploie des bras manipulateurs en production : la boucle ouverte est efficace sur les mouvements de transit (déplacements dans l'espace libre), mais devient un frein sur les phases fines, insertion, saisie d'objet délicat, assemblage à tolérance serrée. DEHP adapte dynamiquement l'horizon : court pendant les phases critiques (comportement proche d'un contrôle pas-à-pas), long pendant les phases de déplacement libre. Cela revient à réconcilier l'efficacité computationnelle du chunking avec la réactivité du contrôle fermé, sans réentraîner le modèle de base. Pour les intégrateurs industriels, cela signifie potentiellement récupérer de la robustesse sur des cellules existantes sans toucher au pipeline d'entraînement. L'action chunking a été popularisée par ACT (Action Chunked Transformer, Stanford 2023), puis repris dans les diffusion policies de Chi et al. et intégré dans des VLA comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). La tension entre horizon long (efficacité) et horizon court (réactivité) est un problème ouvert bien identifié dans la communauté. Plusieurs travaux concurrents explorent le receding horizon ou le replanning conditionnel, mais DEHP se distingue par sa compatibilité boîte noire et son entraînement RL en ligne. La page projet est accessible sur dehp-chunking.github.io ; aucune timeline de déploiement industriel n'est annoncée à ce stade.

RecherchePaper
1 source
SAFER-Nav : améliorer la sécurité de la navigation visuelle des robots par fine-tuning orienté segmentation
15arXiv cs.RO 

SAFER-Nav : améliorer la sécurité de la navigation visuelle des robots par fine-tuning orienté segmentation

Une équipe de chercheurs présente SAFER-Nav (arXiv:2606.11636), une méthode de fine-tuning pour améliorer la sécurité des modèles de navigation visuelle robotique opérant uniquement à partir d'images RGB. Le problème est connu : les politiques basées sur des transformeurs ou modèles de diffusion, telles que ViNT (Visual Navigation Transformer) et NoMaD, restent orientées vers leur objectif même dans des environnements inconnus, mais génèrent des trajectoires dangereuses en présence d'obstacles non vus ou de conditions décalées. SAFER-Nav intègre directement dans la politique, via un fine-tuning "segmentation-aware", la représentation explicite des frontières d'obstacles et de l'espace libre traversable, une information absente des approches existantes fondées sur la correction externe de trajectoire ou des priors géométriques internes. Les évaluations portent sur plusieurs plateformes robotiques mobiles, des environnements intérieurs, et des scénarios avec obstacles statiques et dynamiques ; elles montrent une réduction de la fréquence de collisions par rapport à ViNT, NoMaD et leurs variantes augmentées CARE, avec maintien des performances d'atteinte d'objectif. Il s'agit d'un preprint arXiv déposé en juin 2026, non encore évalué par les pairs, sans déploiement commercial annoncé. L'enjeu central est la généralisation à des environnements non vus, verrou majeur pour le déploiement industriel de robots mobiles autonomes dans des entrepôts, hôpitaux ou chantiers. Les méthodes existantes de correction de trajectoire agissent en aval de la politique sans modifier sa représentation interne, laissant intacte la cause première des comportements dangereux. En encodant la structure sémantique de la scène directement dans les poids du modèle, SAFER-Nav adresse le problème à la source ; sa compatibilité avec des backbones RGB variés représente un avantage pratique pour les intégrateurs souhaitant améliorer des systèmes existants sans changer d'architecture. Ces résultats appuient l'hypothèse que le "demo-to-real gap" peut être réduit par supervision sémantique au fine-tuning, sans refonte architecturale complète. ViNT et NoMaD, issus de groupes de recherche de l'Université de Californie à Berkeley, ont instauré un paradigme de modèles de fondation navigants déployables sur des plateformes robotiques hétérogènes sans reprogrammation dédiée. CARE visait à les augmenter par des mécanismes d'évitement sans modifier la politique de base. SAFER-Nav s'inscrit dans la tendance d'adaptation efficace des politiques robotiques par fine-tuning ciblé, parallèlement aux travaux sur les VLA (Vision-Language-Action models) comme pi-zero (Physical Intelligence) ou GR00T N2 (NVIDIA). Les prochaines étapes naturelles incluent une validation en environnement extérieur et en conditions dynamiques réelles, ainsi qu'une évaluation par les pairs. L'absence de financement industriel dans le preprint indique une contribution de recherche fondamentale, non une annonce produit imminente.

UELes équipes R&D et intégrateurs européens de robots mobiles autonomes (entrepôts, hôpitaux, chantiers) pourraient exploiter cette méthode de fine-tuning pour réduire les collisions sur flottes RGB existantes sans refonte architecturale, sous réserve de validation par les pairs et de mise à disposition publique des poids.

IA physiquePaper
1 source
NEURA Robotics lève jusqu'à 1,4 milliard de dollars en Série C pour son IA physique
16Robotics Business Review 

NEURA Robotics lève jusqu'à 1,4 milliard de dollars en Série C pour son IA physique

NEURA Robotics GmbH, basée à Metzingen en Allemagne, a annoncé le 10 juin 2026 une levée de fonds de Série C pouvant atteindre 1,4 milliard de dollars, financée par un consortium d'investisseurs technologiques dont Tether, Qualcomm et Amazon. La startup, fondée en 2019 par David Reger, commercialise une gamme couvrant des bras robotiques légers, des robots mobiles (série MAV), des robots humanoïdes (modèle 4NE1) et un manipulateur mobile polyvalent baptisé MiPA, ciblant principalement la fabrication et la supply chain. Ce tour de table vient financer deux axes prioritaires : le développement de la plateforme "Neuraverse", décrite comme un écosystème ouvert d'IA physique permettant aux robots d'apprendre collectivement entre déploiements, et l'expansion d'un réseau mondial de "NEURA Gyms", des environnements d'entraînement à grande échelle combinant interaction sensorielle réelle, simulation et pipelines d'apprentissage multimodal. Il s'agit à ce stade d'une annonce de financement, pas d'un produit expédié ni d'un déploiement industriel documenté à grande échelle. Sur le fond, une levée de 1,4 milliard de dollars pour un acteur européen de la robotique humanoïde est un signal fort : les capitaux qui se concentraient jusqu'ici quasi exclusivement sur Figure AI, Agility Robotics, 1X ou Tesla Optimus commencent à irriguer des challengers hors Silicon Valley. Pour les intégrateurs et les décideurs industriels, la question concrète est celle du sim-to-real gap, que NEURA tente de réduire via son partenariat avec Dassault Systèmes annoncé en avril 2026. Le concept de Neuraverse, où plusieurs robots partagent une intelligence distribuée entre déploiements, s'inscrit dans une tendance plus large des architectures VLA (Vision-Language-Action) à l'échelle fleet, comme l'illustre Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. Les métriques de performance annoncées restent cependant absentes du communiqué, ce qui rend toute comparaison technique avec les concurrents impossible à ce stade. NEURA Robotics a bâti depuis 2019 un réseau de partenaires industriels structurant : Bosch pour le développement logiciel des humanoïdes (janvier 2026), Dassault Systèmes pour la simulation, mais aussi Schaeffler, Kawasaki, Delta Electronics, Qualcomm et NVIDIA pour l'infrastructure edge AI et les composants. Ce positionnement d'écosystème décentralisé tranche avec l'approche verticalement intégrée de Figure ou de Tesla. En Europe, NEURA est aujourd'hui l'acteur humanoïde le mieux capitalisé, loin devant des startups comme Enchanted Tools (France) ou Wandercraft, qui opèrent sur des segments différents (cobots expressifs et exosquelettes médicaux). Les prochaines étapes déclarées portent sur l'accélération du déploiement à l'échelle industrielle et l'ouverture de nouveaux NEURA Gyms à l'international, sans calendrier précis communiqué.

UENEURA Robotics, acteur allemand désormais le humanoïde le mieux capitalisé d'Europe avec 1,4 Md$, implique directement Dassault Systèmes (France) comme partenaire stratégique simulation et repositionne l'UE comme concurrent crédible face aux leaders américains de la robotique humanoïde industrielle.

FR/EU ecosystemeOpinion
1 source
Exploration des robots à base de modèles fondation dans les soins aux patients et aux personnes âgées
17arXiv cs.RO 

Exploration des robots à base de modèles fondation dans les soins aux patients et aux personnes âgées

Une équipe de chercheurs a publié en juin 2026 sur arXiv (référence 2606.10208) une analyse de synthèse portant sur l'intégration des modèles de fondation dans les robots de soin aux personnes âgées et aux patients. L'article, classé comme Perspective, passe en revue l'état de l'art sur trois axes : les caractéristiques de conception, l'expérience utilisateur mesurée, et les preuves d'impact sur les soins. Le constat central est que les architectures dominantes utilisent les modèles de fondation comme couche de conversation et de raisonnement au sein d'incarnations socioassistives centrées sur la voix, des agents qui parlent et écoutent mais dont l'autonomie physique et la compréhension multimodale restent fortement limitées. Les évaluations empiriques rapportent des bénéfices positifs en termes d'utilisabilité et d'engagement, mais des défaillances de fiabilité persistent : hallucinations, ruptures conversationnelles et pannes dans le pipeline d'interaction. L'enjeu pour les intégrateurs et décideurs du secteur santé est précisément là : les métriques actuellement rapportées portent sur des résultats proximaux comme l'engagement cognitif ou la participation, et non sur des indicateurs cliniques validés. Les robots sociaux conversationnels améliorent peut-être le ressenti ou l'interaction, mais aucun système décrit dans la littérature ne démontre d'impact mesurable sur des outcomes de santé standardisés. Cette lacune est critique pour tout déploiement en EHPAD ou à l'hôpital, où la responsabilité médicale exige traçabilité et supervision humaine explicite. Les auteurs soulignent que les benchmarks génériques importés du NLP ou de la robotique généraliste ne sont pas adaptés aux contraintes des environnements de soin. Le contexte est celui d'une accélération massive des modèles de fondation en robotique, de PaLM-E à Pi-0 de Physical Intelligence en passant par GR00T N2 de NVIDIA, qui creuse un écart croissant entre capacités techniques et readiness clinique. Du côté des plateformes établies, Pepper (SoftBank) et PARO (AIST, Japon) restent les références les plus documentées en milieu de soin. Des acteurs européens comme Enchanted Tools avec Mirokaï, ou des projets portés par l'Inria, s'inscrivent dans cette dynamique. Les auteurs appellent à une transition vers des standards d'évaluation spécifiques aux soins, une autonomie avec supervision humaine intégrée dès la conception, et une intégration réelle dans les flux de travail cliniques, trois conditions encore largement non remplies par les systèmes actuels.

UEEnchanted Tools (Mirokaï) et l'Inria sont explicitement cités comme acteurs européens engagés dans la robotique de soin, et les lacunes identifiées (absence de standards d'évaluation cliniques, supervision humaine insuffisante) concernent directement les déploiements en EHPAD et hôpitaux français soumis à la réglementation médicale.

RecherchePaper
1 source
Contrôle corps entier généraliste et adaptable pour la locomotion de divers humanoïdes
18arXiv cs.RO 

Contrôle corps entier généraliste et adaptable pour la locomotion de divers humanoïdes

Des chercheurs ont publié sur arXiv (référence 2602.05791) un framework baptisé XHugWBC, conçu pour entraîner un contrôleur de locomotion whole-body universel sur une large distribution de morphologies humanoïdes, puis le déployer en zero-shot sur des robots non vus durant l'entraînement. Les expériences couvrent douze humanoïdes simulés et sept robots réels. Le système repose sur trois briques techniques : une randomisation morphologique physiquement cohérente (masse des segments, longueur des membres, inertie), des espaces d'observation et d'action alignés sémantiquement entre châssis hétérogènes, et une architecture de politique qui encode explicitement les propriétés morphologiques et dynamiques de chaque instance. L'entraînement est unique, "one-time training" : aucun fine-tuning par robot n'est requis à l'inférence. L'enjeu industriel est direct. Aujourd'hui, chaque équipe robotique entraîne ses contrôleurs de locomotion depuis zéro pour chaque châssis, ce qui représente des semaines de simulation et d'itérations sim-to-real. XHugWBC déplace ce coût vers une phase d'entraînement généraliste unique, ouvrant la voie à un modèle de déploiement où un intégrateur peut adopter un nouveau châssis humanoïde sans reconstruire l'intégralité de sa stack de contrôle. La validation sur sept robots physiques est plus convaincante que les résultats purement simulés habituels, même si la nature exacte des tâches testées et les taux de succès détaillés ne figurent pas dans le résumé disponible. La capacité de transfert zero-shot sur morphologies inédites renforce l'hypothèse que les biais structuraux appris sur distributions larges surpassent les politiques spécialisées sur certains régimes de locomotion, ce que le secteur débattait encore il y a dix-huit mois. Ce travail s'inscrit dans un mouvement vers les contrôleurs dits "fondation" pour la robotique incarnée. En manipulation, des systèmes comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) ont déjà exploré la généralisation cross-embodiment sur bras et effecteurs; l'extension à la locomotion whole-body humanoïde est plus contrainte par la stabilité dynamique. Les acteurs du secteur, Figure Robotics (Figure 03), Unitree (G1, H1), Agility Robotics (Digit), Fourier Intelligence et 1X Technologies, maintiennent tous des pipelines de contrôle propriétaires et spécialisés. Si XHugWBC tient ses promesses à l'échelle, il réduirait significativement la barrière à l'entrée pour les nouveaux constructeurs, notamment les acteurs européens comme Enchanted Tools (Mirokaï) ou Wandercraft, qui ne disposent pas des ressources d'entraînement des géants américains. Le preprint n'a pas encore fait l'objet d'une évaluation par les pairs.

UELes constructeurs humanoïdes français Wandercraft et Enchanted Tools (Mirokaï) sont explicitement identifiés comme bénéficiaires potentiels, ce framework pouvant réduire significativement leurs coûts d'entraînement de locomotion sans nécessiter les ressources des géants américains.

💬 C'est le genre de papier qui résout un vrai problème industriel : chaque robot humanoïde qui sort oblige aujourd'hui à tout réentraîner depuis zéro. Sept robots physiques en zero-shot, c'est pas du tout la même chose que des résultats simulés, ça valide quelque chose de sérieux. Pour Wandercraft ou Enchanted Tools, bien plus contraints en ressources que Figure ou Unitree, ce type de contrôleur généraliste c'est du concret.

IA physiqueOpinion
1 source
Vulnérabilités des modèles vision-langage-action (VLA) face aux défauts physiques d'articulation
19arXiv cs.RO 

Vulnérabilités des modèles vision-langage-action (VLA) face aux défauts physiques d'articulation

Des chercheurs ont publié le 10 juin 2026 (arXiv:2606.10501) une étude identifiant une vulnérabilité critique des modèles Vision-Language-Action (VLA) face aux défauts physiques articulaires. Ces modèles, qui traduisent instructions en langage naturel et observations visuelles en commandes motrices, équipent aujourd'hui les robots humanoïdes et manipulateurs les plus avancés. Les auteurs montrent que des failles réalistes, notamment dégradation d'actionneur, friction excessive due à l'usure, dommages de collision ou limites de sécurité restreintes, cassent la boucle fermée entre action commandée, mouvement réalisé et observation suivante, dégradant les taux de succès même pour des défauts physiquement « faisables ». L'impact varie selon l'articulation affectée, rendant toute mitigation générique difficile. En réponse, les auteurs proposent J-PARC (Joint-level Physical-fault Aware Residual Calibrator), un module léger ajouté au-dessus d'une politique VLA figée, qui infère un régime de défaut latent depuis la dynamique articulaire récente et applique une correction résiduelle adaptative sans modifier le modèle de base. Ce résultat comble un angle mort réel dans la validation des systèmes robotiques à base de VLA. L'effort de robustification s'est jusqu'ici concentré sur les variations perceptuelles et sémantiques : éclairage, occlusion, reformulation d'instructions. Or tout robot industriel accumule friction, chocs et dégradation d'actionneur au fil du temps. Montrer que ces perturbations physiquement réalisables suffisent à faire chuter les performances remet en cause l'hypothèse implicite qu'un VLA entraîné sur hardware neuf reste fiable tout au long de son cycle de vie opérationnel. Pour les intégrateurs et responsables de certification, c'est un signal fort : la robustesse mécanique doit entrer dans les critères de qualification aux côtés de la généralisation sémantique. L'approche J-PARC, sans fine-tuning ni capteur supplémentaire, offre une piste d'adaptation réaliste pour les déploiements existants. Les VLA ont connu une montée en puissance rapide depuis Pi-0 (Physical Intelligence, 2024) et GR00T N2 (NVIDIA, 2025), avec des déploiements annoncés chez Figure (modèle 03), Agility Robotics et 1X Technologies. Malgré leurs performances en laboratoire, leur comportement sur hardware vieillissant reste peu documenté dans la littérature. Ce papier s'inscrit dans une tendance croissante sur la fiabilité opérationnelle à long terme, aux côtés des travaux sur le sim-to-real gap. En Europe, des acteurs comme Enchanted Tools avec Mirokaï ou Wandercraft, où la dégradation articulaire est un enjeu quotidien en milieu médical ou logistique, sont directement concernés par ces résultats. Les prochaines étapes naturelles seront une validation sur hardware en vieillissement accéléré et l'intégration de J-PARC dans des pipelines de déploiement continu.

UELes acteurs français Enchanted Tools et Wandercraft, confrontés à la dégradation articulaire en milieu médical et logistique, peuvent directement intégrer J-PARC pour fiabiliser leurs déploiements VLA sans modifier leurs modèles de base.

💬 On a tous fait cette hypothèse implicite : un VLA entraîné en labo reste fiable sur un robot qui a pris des coups après 18 mois en prod. Ce papier montre que non, et c'est un angle mort réel pour tous les intégrateurs qui déploient en milieu industriel ou médical. J-PARC corrige ça sans toucher au modèle de base, bon, reste à voir si ça tient sur du vrai hardware vieilli.

IA physiqueOpinion
1 source
Contrôle de flux : piloter les modèles vision-langage-action avec des entrées simples en temps réel
20arXiv cs.RO 

Contrôle de flux : piloter les modèles vision-langage-action avec des entrées simples en temps réel

Des chercheurs publient en juin 2026 une méthode baptisée "flow control" (arXiv:2606.10180) permettant de piloter en temps réel les modèles VLA (Vision-Language-Action) via des entrées génériques, comme un clavier ou un joystick, sans aucun ré-entraînement ni fine-tuning. L'approche opère à l'inférence en orientant l'échantillonnage du modèle vers des actions qui reflètent l'intention de l'opérateur tout en restant dans la distribution experte apprise à l'entraînement. Les auteurs documentent dans ce preprint quatre propriétés mesurées : guidage précis et réactif, robustesse aux commandes imprécises, taux de succès améliorés avec réduction des temps de tâche, et enfin un gain de performance autonome lorsqu'on fine-tune le VLA sur les trajectoires corrigées par flow control. L'enjeu est concret pour les intégrateurs : les VLAs montrent des performances solides en démo, mais leurs taux d'échec en déploiement réel restent non nuls face aux variations d'environnement et aux instructions ambiguës. Plutôt que de corriger ces défauts par du ré-entraînement coûteux, flow control permet à un opérateur de guider le robot à la volée sans dégrader la qualité des mouvements générés. La boucle est vertueuse : les corrections humaines produisent des trajectoires haute qualité réutilisables comme données d'entraînement, traçant un chemin de déploiement progressif où la supervision humaine se retire au fil des itérations. Les VLAs ont pris de l'ampleur avec Pi-0 de Physical Intelligence (publié fin 2024), dont l'architecture repose précisément sur le flow matching, d'où le jeu de mots du titre. NVIDIA GR00T N2, OpenVLA (Berkeley/Stanford), et les modèles LeRobot de Hugging Face (Paris) constituent les autres plateformes où cette couche de contrôle pourrait s'intégrer sans modifier le pipeline d'entraînement existant. L'idée de guidage conditionné à l'inférence existe déjà en génération d'images via le classifier guidance des modèles de diffusion, mais son application à la robotique physique restait peu explorée. Les prochaines étapes annoncées dans le papier incluent le fine-tuning systématique sur trajectoires flow-control pour quantifier le gain autonome à plus grande échelle.

UEHugging Face (Paris) est explicitement cité comme plateforme d'intégration via LeRobot, ce qui rend cette méthode directement applicable à l'initiative robotique open-source française sans modifier le pipeline d'entraînement existant.

💬 C'est exactement le problème que personne ne veut admettre sur les VLAs : ils impressionnent en démo et flanchent en prod dès que l'environnement bouge un peu. L'idée de guider l'échantillonnage à l'inférence plutôt que de tout ré-entraîner, c'est le genre de solution pragmatique qu'on attendait. La boucle où les corrections humaines deviennent des données d'entraînement, c'est propre, et si ça marche à l'échelle avec LeRobot, Hugging Face tient quelque chose de sérieux.

IA physiqueOpinion
1 source
TacForeSight : un modèle du monde tactile guidé par la force pour la manipulation en contact dense
21arXiv cs.RO 

TacForeSight : un modèle du monde tactile guidé par la force pour la manipulation en contact dense

Des chercheurs ont publié sur arXiv (référence 2606.11184) TacForeSight, un framework léger d'anticipation tactile guidée par la force pour la manipulation en contact riche. Le système repose sur deux composants : TacForceWM, un modèle du monde tactile qui prédit les dynamiques latentes tactiles à court horizon à partir de capteurs bi-doigts conditionnés par les signaux de force et de couple au poignet à haute fréquence, et une politique conditionnée par l'anticipation tactile (Predictive Tactile-Conditioned Policy) qui exploite ces prédictions comme priors de contact, modélise l'évolution tactile courante-vers-future via cross-attention, et fusionne les features visuo-tactiles via un module de gating adaptatif. Les expériences portent sur cinq tâches représentatives de manipulation sur robot réel et trois scénarios de perturbation en cours de manipulation, avec des résultats supérieurs aux baselines existantes dans tous les cas, notamment sous perturbations de contact dynamiques. Le code et les datasets seront mis à disposition publiquement sur tacforesight.github.io. L'apport technique central est de modéliser explicitement les rôles asymétriques de la force globale au poignet (basse résolution spatiale, haute fréquence) et du toucher local bi-doigts (haute résolution spatiale, dynamique plus lente), distinction que la plupart des méthodes d'imitation learning actuelles ignorent. En opérant entièrement dans un espace latent compact, le framework permet un raisonnement de contact proactif compatible avec le contrôle haute fréquence, là où les approches réactives échouent sous perturbations imprévues. Pour les intégrateurs industriels et les équipes travaillant sur l'assemblage ou le conditionnement robotisé, c'est une démonstration concrète que la fusion force+tactile dans un world model améliore la robustesse réelle sans alourdir l'inférence en temps réel. Ce travail s'inscrit dans une vague de recherche combinant world models et retour tactile pour la manipulation dextre, aux côtés d'approches comme Pi-0 (Physical Intelligence) ou les travaux sur GR00T N2 de NVIDIA qui intègrent également des politiques tactile-aware. Aucun concurrent français ou européen direct n'est identifié sur ce créneau précis, bien que des acteurs comme Pollen Robotics ou Enchanted Tools s'appuient aussi sur la manipulation fine. Il s'agit ici d'un preprint non encore évalué par les pairs, sans déploiement industriel ni partenaire annoncé : les résultats, bien que prometteurs sur cinq tâches de laboratoire, devront être reproduits sur des géométries et conditions de contact plus variées avant de valider la généralisation à l'échelle industrielle.

UEImpact indirect : le code open-source prévu sur tacforesight.github.io pourrait être exploité par des équipes européennes travaillant sur la manipulation fine, comme Pollen Robotics ou les labos CEA-List, mais aucun acteur FR/EU n'est impliqué dans ce travail.

RecherchePaper
1 source
NVIDIA et LG Group construisent une usine IA pour entraîner des robots et alimenter la mobilité du futur
22Interesting Engineering 

NVIDIA et LG Group construisent une usine IA pour entraîner des robots et alimenter la mobilité du futur

NVIDIA et le groupe sud-coréen LG ont annoncé lors du Computex 2026 un partenariat stratégique multisectoriel visant à construire un écosystème d'intelligence artificielle physique couvrant la robotique industrielle, les robots domestiques, la mobilité autonome et les infrastructures de calcul. La collaboration mobilise plusieurs entités du conglomérat LG : LG Electronics, LG CNS, LG Innotek, LG Uplus et LG Energy Solution, chacune apportant un périmètre spécifique. Concrètement, LG prévoit de déployer NVIDIA Isaac Sim et Isaac Lab dans ses workflows robotique pour entraîner ses robots domestiques en environnements virtuels avant tout déploiement physique, et d'explorer le modèle de fondation GR00T pour renforcer leurs capacités de raisonnement. LG Electronics construit par ailleurs ce qu'il appelle une "data factory pour l'IA physique", utilisant les world models NVIDIA Cosmos pour générer des datasets synthétiques destinés à la robotique et à l'automatisation industrielle. Sur le volet infrastructure, LG Uplus s'engage à construire des centres de données à grande échelle compatibles avec les dernières générations de GPU NVIDIA, LG Electronics travaillera sur des technologies de refroidissement liquide alignées avec la plateforme NVIDIA DSX, et LG Energy Solution évalue des architectures d'alimentation en courant continu 800 volts pour les installations nouvelle génération. L'intérêt de ce partenariat pour les décideurs industriels tient moins à l'annonce elle-même qu'à ce qu'elle révèle sur la maturité du cycle de développement robotique. L'adoption d'Isaac Sim comme environnement d'entraînement primaire signale que le sim-to-real gap, longtemps le principal obstacle au déploiement à grande échelle, est considéré comme suffisamment maîtrisé pour structurer une chaîne industrielle dessus. La création d'une data factory synthétique répond à l'un des goulots d'étranglement les plus critiques du secteur : la rareté des données labellisées de qualité pour entraîner des VLA (Vision-Language-Action models). Pour les intégrateurs et les COO industriels, le message est que les outils de simulation et les modèles de fondation convergent vers une stack unifiée, ce qui devrait réduire les coûts et délais de portage de nouvelles applications robotiques. Il convient toutefois de noter que l'annonce reste au stade de la feuille de route : aucun chiffre de déploiement, aucun timeline de livraison ni prix n'ont été communiqués. Le contexte de ce rapprochement est celui d'une course mondiale à l'IA physique dans laquelle NVIDIA cherche à s'imposer comme couche d'infrastructure universelle face à des concurrents comme Boston Dynamics Atlas (désormais intégré chez Hyundai), Figure AI avec son modèle Helix, ou encore Physical Intelligence (pi-0) côté recherche. LG, de son côté, investit depuis plusieurs années dans la robotique de service avec ses robots CLOi, sans avoir encore atteint une adoption commerciale significative. Le groupe fait aussi face à la pression de concurrents coréens comme Samsung, qui développe ses propres robots domestiques avec Ballie. Les prochaines étapes annoncées incluent l'intégration des technologies NVIDIA DRIVE dans les systèmes ADAS de LG Electronics pour les véhicules définis par logiciel, et le déploiement de la plateforme d'automatisation industrielle de LG CNS enrichie de briques NVIDIA. La concrétisation de ces engagements sur les 12 à 24 prochains mois sera le véritable indicateur de la profondeur du partenariat.

UECe partenariat accélère la convergence vers une stack NVIDIA (Isaac Sim, GR00T, Cosmos) comme infrastructure d'entraînement robotique de référence, forçant les intégrateurs et OEM européens à évaluer leur alignement avec cet écosystème dans leurs roadmaps 2026-2027.

💬 Le truc intéressant, c'est pas le deal NVIDIA-LG, c'est ce qu'il révèle : le sim-to-real gap est maintenant considéré comme suffisamment sous contrôle pour construire une filière industrielle dessus. Isaac Sim comme environnement d'entraînement primaire dans une data factory à l'échelle d'un conglomérat coréen, ça signale un vrai changement de maturité, pas juste un POC de plus. Sur le papier, du moins, parce qu'aucun chiffre ni calendrier n'a filtré.

IA physiqueOpinion
1 source
MIIT et SASAC lancent l'initiative 2026 d'entraînement des robots humanoïdes en conditions réelles
23Pandaily 

MIIT et SASAC lancent l'initiative 2026 d'entraînement des robots humanoïdes en conditions réelles

Le ministère chinois de l'Industrie et des Technologies de l'Information (MIIT) et la Commission de surveillance des actifs d'État (SASAC) ont publié conjointement, en juin 2026, un plan d'action national intitulé "Action spéciale pour la formation en scénarios réels des robots humanoïdes et de l'IA embodied". L'objectif affiché : d'ici fin 2026, les humanoïdes et leurs composants clés devront avoir achevé leur vérification applicative et basculer en "mode opérationnel" dans des environnements industriels, de services ou spécialisés. Le plan cible l'identification de plus de 100 scénarios à haute valeur et une capacité de déploiement à l'échelle de 10 000 unités. Les autorités provinciales sont tenues de sélectionner au moins 20 scénarios couvrant deux des trois domaines prioritaires ; les grandes entreprises centrales d'État doivent en identifier au moins 10 dans leurs secteurs respectifs. Le dispositif impose la création de consortiums d'innovation applicative regroupant utilisateurs finaux, fabricants, développeurs d'algorithmes et instituts de recherche. Ces consortiums devront produire des jeux de données d'IA embodied couvrant trajectoires de mouvement, courbes de contrôle force-position et séquences d'exécution de tâches, ainsi que des "packages de compétences" issus d'entraînements en conditions réelles. Des mécanismes de financement incluant equity, dette et assurance complètent le dispositif. Ce plan est la feuille de route gouvernementale la plus structurée publiée par Pékin sur l'industrialisation des humanoïdes, mais l'objectif de 10 000 unités déployées d'ici décembre 2026 est ambitieux, plusieurs observateurs le jugeant irréaliste compte tenu des délais habituels entre annonce politique et opérationnel réel. Ce qui est plus significatif, c'est la logique consortiale imposée : en forçant la coopération entre intégrateurs, fabricants et chercheurs autour de scénarios concrets, l'État tente d'accélérer le passage de la démo en laboratoire à l'usage en production. La prescription explicite de datasets couvrant les courbes force-position signale que Pékin cible directement le verrou du sim-to-real, encore non résolu à l'échelle industrielle. Pour un COO ou un intégrateur, cela signifie qu'un écosystème subventionné et doté d'obligations de résultat se structure en Chine avec des délais contractuels précis. Cette initiative prolonge la stratégie "Made in China 2025" et les plans successifs sur la robotique avancée. Les acteurs nationaux directement visés incluent Unitree (H1, G1), UBTECH (Walker S), Agibot et Fourier Intelligence, qui ont tous conduit des tests industriels en 2024-2025. Sur le plan international, la concurrence se structure autour de Figure AI (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (Pi-0) et Nvidia (GR00T N2), tous revendiquant des déploiements pilotes en environnements réels. En Europe, Wandercraft et Enchanted Tools restent positionnés sur des segments distincts, l'exosquelette médical et la robotique de service, sans concurrence directe sur le créneau industriel visé par ce plan. Les prochaines étapes dépendront de la capacité des consortiums à produire des résultats mesurables avant l'échéance de fin 2026.

UELa structuration d'un écosystème humanoïde subventionné en Chine avec des obligations de résultat contractuels accroît la pression concurrentielle sur les acteurs européens, bien que Wandercraft et Enchanted Tools restent positionnés sur des segments (exosquelette médical, robotique de service) non directement visés par ce plan industriel.

Chine/AsieOpinion
1 source
KPGrasp : correspondance de flux de points clés évolutive pour la génération de saisies dextériques
24arXiv cs.RO 

KPGrasp : correspondance de flux de points clés évolutive pour la génération de saisies dextériques

KPGrasp est un framework de génération de préhension dextère présenté dans un preprint arXiv (juin 2026), combinant flow matching et modèle Transformer pour apprendre des priors de saisie à grande échelle, sans recourir aux fonctions de coût contact-based ni au raffinement coûteux à l'inférence. L'approche repose sur une paramétrisation des mains par points-clés 3D en coordonnées euclidiennes pures, exprimés dans le même référentiel que le nuage de points de l'objet cible, évitant l'espace mixte SE(3)/angles articulaires conventionnel. Sur le benchmark Dexonomy, le modèle atteint 76,3% de taux de succès de préhension, soit +47,4% sur la meilleure baseline directement comparable, avec une profondeur de pénétration réduite à 2,4 mm. Sans fine-tuning spécifique, il obtient également les meilleures performances moyennes sur DexGrasp Anything. En inférence batch, chaque préhension est générée en 0,032 seconde. Des expériences réelles sur 20 objets variés confirment le passage au monde physique. La préhension dextère multi-doigts reste l'un des verrous techniques persistants de la manipulation robotique: saisir de façon stable des objets de formes variées exige une coordination articulaire complexe que les méthodes actuelles peinent à généraliser sans supervision dense ou raffinement coûteux. KPGrasp rompt avec ce paradigme en traitant le problème comme un apprentissage de distribution pure, entraîné uniquement avec la loss standard du flow matching. La scalabilité démontrée avec la taille du modèle, le volume de données et la taille des batchs suit la logique des grands modèles génératifs, signal fort pour les intégrateurs: davantage de données synthétiques de préhension pourrait suffire à améliorer les performances sans engineering de loss ad hoc. Le temps de 32 ms par grasp en inférence batch ouvre un déploiement temps-réel réaliste sur cellules robotiques industrielles équipées de mains dextères. La préhension dextère générative a émergé progressivement via les diffusion models (DexDiffuser, GraspDiffusion) et les réseaux de contacts avant que le flow matching ne s'impose. KPGrasp se positionne dans cette vague avec une prétention explicite de scalabilité data-driven que ses prédécesseurs n'affichaient pas. Les benchmarks Dexonomy et DexGrasp Anything sont devenus des références communautaires pour évaluer la généralisation inter-objets. Côté effecteurs, Shadow Robot, Schunk SVH et Inspire Hands sont les acteurs matériels naturellement concernés. Les suites logiques incluent le couplage avec des VLA comme Pi-0 (Physical Intelligence) ou GR00T N2 de NVIDIA, qui assureraient la planification de haut niveau tandis que KPGrasp générerait les préhensions à bas niveau, comblant ainsi le gap entre policy de manipulation et génération de grasp.

UESchunk (Allemagne) figure parmi les fabricants d'effecteurs directement concernés, offrant aux intégrateurs robotiques européens une voie concrète vers la manipulation dextère temps-réel sans engineering de loss ad hoc.

💬 +47% de taux de succès sur le benchmark, c'est pas anodin. Ce qui me frappe, c'est la décision de virer complètement les fonctions de coût contact-based et de traiter ça comme un pur problème de distribution, avec le flow matching comme loss standard, ça simplifie vraiment le pipeline là où tout le monde s'obstinait à rajouter des couches. 32 ms par préhension en batch, ça commence à ressembler à quelque chose d'exploitable en industrie, bon, faut encore voir ce que ça donne hors benchmarks sur des objets vraiment sales ou déformés.

IA physiquePaper
1 source
Prédiction d'intention avec gestion de l'incertitude pour la téléopération d'assemblage humain-robot
25arXiv cs.RO 

Prédiction d'intention avec gestion de l'incertitude pour la téléopération d'assemblage humain-robot

Une équipe de recherche a publié le 9 juin 2026 (arXiv:2606.08341) un cadre de prédiction d'intentions pour la télé-opération assistée en assemblage industriel. L'approche combine trois composants : MS-TCN++, un réseau temporel convolutif pré-entraîné sur des démonstrations de mains humaines puis affiné sur seulement 16 démonstrations de télé-opération robot ; un module de prédiction conforme (conformal prediction) offrant des garanties statistiques de couverture sur l'incertitude trame à trame ; et une correction sélective par VLM (modèle de langage visuel) ciblant les segments temporellement ambigus. Sur un jeu de test à 22 classes d'actions d'assemblage, le transfert humain-robot fait progresser le score Edit de 70,50 à 80,70, et la précision trame de 45,21 % à 46,42 % après correction VLM, avec des gains accompagnateurs sur F1@25 et F1@50. Ce résultat quantifie précisément le volume de données robot nécessaire pour atteindre une performance opérationnelle viable : 16 démonstrations suffisent lorsque le modèle est initialisé sur données humaines, contre des centaines habituellement requises en imitation learning pur. Pour les intégrateurs et les COO qui déploient des cellules de collaboration humain-robot (HRC) en assemblage structuré, c'est une réduction du coût de mise en service potentiellement substantielle. La prédiction conforme est particulièrement pertinente en contexte industriel : contrairement à un score de confiance non calibré, elle génère des ensembles de prédiction avec des garanties formelles de couverture, permettant de détecter les hésitations du système avant qu'une erreur ne survienne, une propriété critique pour la supervision en temps réel sur des lignes à cycle court. Le transfert learning entre démonstrations humaines et données robotiques est un terrain actif dans plusieurs laboratoires. ACT (Stanford), Pi-0 (Physical Intelligence) et GR00T N2 de NVIDIA abordent tous le bootstrapping par données humaines, mais à des échelles très différentes et sans mécanisme d'incertitude formalisé natif. Ce travail se positionne sur la télé-opération industrielle en assemblage structuré, un segment distinct des robots mobiles généralistes, et contribue une couche d'incertitude quantifiée que les grandes architectures VLA n'intègrent pas encore. Les auteurs mettent à disposition code et données via le site du projet ; les suites probables incluent des validations sur environnements industriels réels et des ensembles d'actions plus larges, un terrain où des acteurs européens comme Enchanted Tools pourraient trouver des briques directement exploitables.

UELa disponibilité du code et des données, conjuguée à la réduction du volume de démonstrations nécessaires (16 vs plusieurs centaines), offre aux intégrateurs européens et aux acteurs français comme Enchanted Tools une brique exploitable pour abaisser le coût de mise en service des cellules d'assemblage HRC.

💬 16 démonstrations robot au lieu de plusieurs centaines, c'est le chiffre qui change tout. Le pré-entraînement sur données humaines puis l'affinage sur un tout petit dataset robotique, ça casse le mur d'entrée pour les intégrateurs qui font de l'assemblage structuré. Et la prédiction conforme avec des garanties formelles sur l'incertitude, pas juste un score de confiance non calibré, c'est le détail qui fait qu'on peut l'imaginer en prod, pas seulement sur un papier arXiv.

IA physiquePaper
1 source
Attaquer les modèles du monde pour compromettre les pipelines d'apprentissage robotique
26arXiv cs.RO 

Attaquer les modèles du monde pour compromettre les pipelines d'apprentissage robotique

Un preprint déposé sur arXiv le 9 juin 2026 (arXiv:2606.09499) expose une classe inédite d'attaques par empoisonnement de données ciblant les world models intégrés aux pipelines d'apprentissage robotique. Contrairement aux attaques traditionnelles qui insèrent directement des trajectoires dangereuses dans un jeu de données vendu ou publié, la méthode décrite ici injecte des prompts malveillants ou des dynamiques de transition compromises dans des datasets de téléopération en apparence sûrs. L'attaque reste dormante jusqu'à ce que ces données soient traitées par un world model, lequel génère alors des trajectoires synthétiques d'entraînement dangereuses, aboutissant au déploiement d'une politique robotique unsafe. Les chercheurs démontrent l'efficacité de l'attaque sur deux paradigmes distincts : les world models conditionnés par l'action (action-conditioned) et ceux conditionnés par le texte (text-conditioned). Résultat concret : un backdoor de bout en bout sur une politique DRL (Deep Reinforcement Learning) en aval, et une preuve de concept dans le cadre VLA (Vision-Language-Action). L'enjeu pour l'industrie est structurel. Les world models sont désormais utilisés comme substituts de données dans les pipelines d'entraînement de robots humanoïdes et industriels, notamment pour réduire le coût de la collecte téléopérée. L'attaque décrite contourne l'hypothèse fondatrice de sécurité dans ces pipelines : que des données ground truth visuellement propres garantissent une politique sûre. Ce n'est pas le cas si le world model interposé est lui-même vulnérable. Pour les intégrateurs qui achètent ou mutualisent des datasets de téléopération, et pour les fournisseurs qui commercialisent des world models pré-entraînés, c'est un vecteur d'attaque supply chain directement actionnable, d'autant plus redoutable qu'il ne laisse aucune trace visible dans les données source. Les world models ont connu une adoption rapide ces dix-huit derniers mois, portée par des travaux comme UniSim, IRASim ou le framework GR00T N2 de NVIDIA, promus comme solution au sim-to-real gap et à la pénurie de données réelles. La recherche s'inscrit dans un contexte où Figure, Agility Robotics et 1X accélèrent leurs déploiements en environnement industriel, rendant la surface d'attaque potentielle concrète et non purement théorique. Les auteurs appellent à reconsidérer la position des world models dans la chaîne d'entraînement et à ouvrir un axe de recherche dédié à leur sécurisation, un chantier aujourd'hui quasi inexistant dans la littérature.

UELes acteurs européens de la robotique qui mutualisent des datasets de téléopération ou intègrent des world models pré-entraînés (startups, intégrateurs, labos comme le CEA-List ou l'INRIA) sont exposés au même vecteur d'attaque supply chain, sans qu'aucun standard de sécurité européen ne couvre encore ce risque spécifique.

RechercheOpinion
1 source
Modèle de diffusion sensible aux correspondances pour la manipulation robotique en contact étroit (Robot-DIFT)
27arXiv cs.RO 

Modèle de diffusion sensible aux correspondances pour la manipulation robotique en contact étroit (Robot-DIFT)

La manipulation robotique échoue souvent dans les derniers millimètres : un bras peut identifier le bon objet mais rater l'alignement de pose ou le contact précis nécessaire à l'action. Robot-DIFT (arXiv:2602.11934) est une architecture d'encodeur visuel présentée dans un preprint académique pour combler ce manque, en exposant aux politiques de contrôle des features de correspondance sensibles aux variations fines de pose et de géométrie de contact. L'approche repose sur la distillation de variété (Manifold Distillation) : un modèle de diffusion bruit-conditionné sert de Teacher et transfère sa structure de représentation à un Student déterministe à passe unique, compatible avec le contrôle temps réel. Un réseau pyramidal spatial-sémantique (S2-FPN) fusionne ensuite les features multirésolution pour exposer à la politique à la fois contexte global et détail de contact fin. Évalué sur RoboCasa, LIBERO-10 et sur robots physiques, Robot-DIFT dépasse les encodeurs VLA, auto-supervisés, géométriques et diffusion directe sur les tâches sensibles au contact. L'enjeu est structurant pour la robotique de précision et les intégrateurs industriels. Les encodeurs sémantiques qui équipent les VLA modernes, comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, reconnaissent les objets à l'échelle scène mais écrasent les indices de correspondance fine dont le contrôle en boucle fermée a besoin : c'est ce qui bloque l'assemblage de précision, l'insertion et la manipulation en milieu non structuré. Les modèles de diffusion encodent naturellement ces correspondances denses, mais leur stochasticité et leur latence élevée les rendaient inutilisables directement. Robot-DIFT propose une alternative : distiller ces features en un backbone déterministe temps réel sans perdre leur avantage de correspondance. Les travaux sur les features de diffusion en vision 2D (DIFT, Diffusion Hyperfeatures) avaient posé les bases théoriques sans transposition robotique praticable. Robot-DIFT se positionne face aux encodeurs auto-supervisés établis comme R3M, MVP et VC-1, et aux représentations issues des VLA. Aucun acteur européen n'est cité dans ce travail, mais des entreprises comme Enchanted Tools ou Wandercraft, dont les cas d'usage requièrent une précision millimétrique, sont dans le périmètre d'application direct. Les prochaines étapes logiques incluent l'intégration dans des politiques diffusion (Diffusion Policy, ACT) et des évaluations sur benchmarks industriels plus représentatifs que les suites académiques actuelles.

UEDes entreprises françaises comme Enchanted Tools et Wandercraft, dont les cas d'usage requièrent une précision millimétrique, pourraient bénéficier de cette architecture si elle est intégrée dans des politiques de contrôle open-source diffusion ou ACT.

IA physiquePaper
1 source
CLASP : sélection et composition de compétences robotiques pilotées par le langage avec apprentissage paramétré par la tâche
28arXiv cs.RO 

CLASP : sélection et composition de compétences robotiques pilotées par le langage avec apprentissage paramétré par la tâche

Des chercheurs ont publié sur arXiv (2606.08169) CLASP, une architecture modulaire permettant à un bras manipulateur à 7 degrés de liberté d'exécuter des tâches robotiques à partir de commandes en langage naturel, avec seulement 2 à 5 démonstrations kinesthésiques par compétence. Le système repose sur deux briques : des primitives de mouvement noyau paramétrées par tâche (TP-KMPs), héritées des méthodes d'imitation de données, et un modèle vision-langage (VLM) préentraîné, utilisé sans fine-tuning. Lors de la phase d'apprentissage, le VLM génère des schémas de compétences décrivant les paramètres nécessaires et les préconditions d'exécution. À l'exécution, il sélectionne la compétence adaptée, résout les liaisons de paramètres, et compose des comportements inédits via une pondération par covariance. Lorsqu'aucune compétence existante ne suffit, le système identifie automatiquement la lacune et sollicite une démonstration ciblée. Les taux de succès rapportés vont de 73,3 % à 100 % selon les scénarios testés (sélection, composition, apprentissage actif). Ce résultat est notable parce qu'il attaque un problème structurel du déploiement industriel : les modèles vision-langage-action (VLA) de nouvelle génération, comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, atteignent des performances impressionnantes mais exigent des volumes de données d'entraînement massifs, difficilement compatibles avec les contraintes de production réelle. À l'inverse, les méthodes d'imitation efficaces en données, comme les TP-GMMs de Stefan Calinon, restent rigides face à des instructions non anticipées. CLASP propose une voie intermédiaire : déléguer le raisonnement symbolique au VLM sans le ré-entraîner, et garder la motricité dans un espace probabiliste compact. La boucle d'apprentissage actif intégrée est particulièrement pertinente pour les intégrateurs industriels : le robot peut signaler ce qu'il ne sait pas faire plutôt que d'échouer silencieusement. Les primitives de mouvement paramétrées par tâche ont une longue trajectoire académique, popularisées notamment par les travaux de Calinon et Billard depuis les années 2010. CLASP s'inscrit dans la vague actuelle qui cherche à greffer la compréhension du langage sur ces méthodes sans sacrifier leur frugalité en données, une direction également explorée par des équipes comme celles de CMU, ETH Zurich ou l'INRIA en France. La validation reste limitée à un manipulateur en laboratoire, les scénarios présentés sont sélectionnés, et les taux de succès ne sont pas contextualisés par rapport à la complexité des tâches ni à la variabilité environnementale. La prochaine étape évidente serait une évaluation sur des tâches de manipulation non structurées, voire un transfert vers une plateforme mobile ou humanoïde.

UEL'INRIA est cité parmi les équipes explorant des directions similaires (langage sur primitives de mouvement frugales en données), positionnant la France comme contributeur actif à cette vague de recherche, sans impact industriel direct à court terme.

RecherchePaper
1 source
Communication non verbale par posture corporelle en temps réel avec mesure de fiabilité par cohérence
29arXiv cs.RO 

Communication non verbale par posture corporelle en temps réel avec mesure de fiabilité par cohérence

Une équipe de recherche a publié sur arXiv (ref. 2606.09390) une étude portant sur la reconnaissance d'intention communicative à partir de la seule pose corporelle 2D, sans recours au visage, à la voix ou au texte. Le travail cible explicitement des scénarios de communication personne-robot à longue distance et à faible coût, comme les missions de secours en terrain dégradé. Les chercheurs publient un nouveau dataset de frames réels couvrant dix intents communicatifs distincts, et le comparent à des jeux de données existants : IPC (réel) et trois sources synthétiques, MotionLCM, VEO3.1 et Kimodo, qui couvrent un gradient de difficulté croissant. Plusieurs architectures sont évaluées, des classifieurs graph sur squelette jusqu'aux réseaux de prédiction de mouvement articulaire. Tous les benchmarks sont conduits sur une NVIDIA Orin Nano, un GPU embarqué représentatif des contraintes matérielles d'un robot de terrain, ce qui permet de rapporter à la fois précision de classification et cadence d'inférence en conditions réelles. Le point le plus notable n'est pas le dataset mais la mesure de fiabilité non supervisée proposée : les auteurs montrent que l'auto-cohérence autorégressive d'un modèle, c'est-à-dire la stabilité de ses propres prédictions successives sur une séquence, constitue un signal de confiance exploitable sans étiquettes. Ils fournissent une preuve courte bornant la probabilité qu'une prédiction auto-cohérente soit correcte, et montrent que cette probabilité croît avec le nombre de pas cohérents, tout en identifiant les conditions où une prédiction confiante peut rester fausse. C'est directement utile pour un intégrateur robotique : déployer un tel module sans ground truth disponible en opération reste aujourd'hui un frein majeur, et une mesure de fiabilité embarquée change l'équation. Ce travail s'inscrit dans une lacune documentée de la littérature : les corpus affectifs (combinant corps, visage, voix, texte) et les benchmarks de reconnaissance d'action squelettique étiquètent l'action réalisée, pas le message transmis, ce qui les rend inutilisables pour la communication HRI (human-robot interaction) à distance. Le choix de la pose 2D plutôt que 3D reflète une contrainte de déploiement réaliste : pas de LiDAR, pas de caméra de profondeur. Côté concurrence, les travaux sur VLA (Vision-Language-Action) type Pi-0 ou GR00T N2 de NVIDIA visent des interactions à courte portée en environnement structuré ; ce dataset et ce cadre de fiabilité adressent le segment complémentaire, non-verbal et longue distance. Les prochaines étapes naturelles incluent l'extension à davantage d'intents, l'évaluation sur robot physique en extérieur, et potentiellement une intégration dans des pipelines de perception multi-modale pour robots d'intervention.

RecherchePaper
1 source
Langage comme capteur : estimation calibrée de croyances spatiales en 3D à partir du langage naturel
30arXiv cs.RO 

Langage comme capteur : estimation calibrée de croyances spatiales en 3D à partir du langage naturel

Des chercheurs présentent dans un preprint arXiv (2606.08666, juin 2026) un système permettant aux robots de traiter les descriptions spatiales en langage naturel comme un signal capteur à part entière. Le coeur de la contribution est le Language Sensor Model (LSM), qui convertit chaque énoncé ("j'ai laissé mon sac à dos sur la table") et son graphe de scène en une distribution de probabilités 3D multimodale. Cette distribution encode simultanément l'ambiguïté référentielle ("quelle table parmi plusieurs") via des poids de mélange, et l'incertitude spatiale ("où exactement sur la table") via des covariances par composante. Le LSM s'intègre dans VL-Map (Vision-Language Metric-Semantic Mapping), un framework probabiliste qui fusionne ces prédictions linguistiques avec la perception embarquée dans une carte de croyance unifiée. Évalué sur le benchmark VLA-3D et sur un robot mobile réel, le LSM est le seul prédicteur dont les estimations de covariance restent dans le régime calibré, et produit environ 70 % de masse de probabilité supplémentaire sur la cible correcte par rapport au meilleur modèle de fondation testé. L'enjeu pour les intégrateurs est direct : les robots déployés en environnement humain (logistique, soins, assistance) reçoivent constamment des instructions verbales qui référencent des objets hors de leur champ perceptif. La cartographie métrique-sémantique classique ignore ce canal d'information ; les grands modèles multimodaux généralistes ne produisent pas d'estimations calibrées fusionnables dans un filtre bayésien. La calibration est un point critique souvent sous-estimé : un modèle non calibré surestime ou sous-estime sa confiance, rendant la fusion de capteurs instable et potentiellement dangereuse. Ce travail démontre que le langage peut jouer le rôle d'un vrai capteur réducteur d'incertitude, ce qui modifie le calcul architectural pour tout système de navigation ou manipulation en milieu non structuré. La contribution s'inscrit dans la lignée de la cartographie visuosémantique 3D (ConceptFusion, LERF, OpenScene), qui ancre des embeddings visuolinguistiques dans des représentations de scènes mais demeure passive vis-à-vis du langage conversationnel. Les approches VLA actuelles comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA traitent le langage comme déclencheur d'actions, sans produire de distribution spatiale exploitable par un planificateur externe. Ce système s'y positionne orthogonalement : non pas un planificateur ni un annotateur, mais un capteur probabiliste intégrable à un pipeline SLAM existant. Les expériences décrites restent à un stade exploratoire, sans partenaire industriel ni calendrier de déploiement annoncés dans la publication.

RecherchePaper
1 source
PHUMA : un jeu de données pour la locomotion fiable des robots humanoïdes
31arXiv cs.RO 

PHUMA : un jeu de données pour la locomotion fiable des robots humanoïdes

Une équipe de chercheurs du laboratoire DAVIAN a publié en juin 2026 PHUMA (Physically Reliable HUMAnoid locomotion dataset), un corpus de 73 heures de données de locomotion humanoide produit via un pipeline en deux étapes : une curation physiquement consciente suivie d'un retargeting contraint par des lois physiques. La base de données agrège à la fois des données de motion capture traditionnelles et des vidéos issues d'internet, les deux étant traitées pour éliminer les artefacts physiques récurrents dans les datasets existants, notamment le flottement, la pénétration géométrique et le foot skating. Entraînées sur PHUMA, les politiques de contrôle obtiennent des taux de succès supérieurs à ceux obtenus avec AMASS et Humanoid-X sur les benchmarks de motion tracking standards, et transfèrent en zero-shot vers un Unitree G1 réel. Le code et les données sont disponibles publiquement via davian-robotics.github.io/PHUMA. Le principal verrou que PHUMA prétend lever est la qualité physique des données d'entraînement pour l'imitation de mouvement humanoide. Les approches par imitation sont attractives parce qu'elles permettent d'acquérir des comportements naturels sans reward engineering fastidieux, mais leur efficacité dépend directement de la cohérence physique des données sources. Les artefacts présents dans les datasets basés sur des vidéos internet (comme Humanoid-X) se propagent dans les politiques entraînées, produisant des robots qui glissent ou oscillent de façon instable. La démonstration de transfert zero-shot sur un Unitree G1 physique est le point le plus concret : elle suggère que le filtrage physique en amont réduit effectivement le sim-to-real gap, sans fine-tuning additionnel sur hardware. Reste à qualifier l'ampleur du gain : les métriques de benchmarks internes ne se substituent pas à des comparaisons en conditions réelles standardisées. AMASS, publié en 2019, est resté longtemps la référence en motion capture humanoide, mais sa taille limitée et son coût d'acquisition ont freiné la scalabilité des approches data-driven. Humanoid-X a tenté de combler ce vide en exploitant des vidéos YouTube à grande échelle, au prix d'une dégradation qualitative. PHUMA s'inscrit dans une dynamique plus large où plusieurs équipes cherchent à constituer des datasets de locomotion humanoide à la fois volumineux et physiquement valides, en parallèle des travaux de Figure AI (Figure 03), Boston Dynamics, et des équipes derrière GR00T N2 chez NVIDIA. La prochaine étape logique serait de tester PHUMA sur d'autres plateformes humanoïdes commerciales (H1, Digit) et d'élargir les tâches au-delà de la locomotion simple vers la manipulation en déplacement.

UELe dataset PHUMA étant en accès libre, les équipes de recherche européennes en locomotion humanoïde (INRIA, CEA-List, LAAS-CNRS) peuvent l'intégrer directement dans leurs pipelines d'entraînement sans coût d'acquisition.

RecherchePaper
1 source
Ce que mesurent réellement les benchmarks en manipulation robotique
32arXiv cs.RO 

Ce que mesurent réellement les benchmarks en manipulation robotique

Un article de recherche déposé sur arXiv le 4 juin 2026 (arXiv:2606.04233) remet en cause la fiabilité de cinq benchmarks standards en manipulation robotique : LIBERO, CALVIN, SimplerEnv, RoboCasa et RoboTwin 2.0. Les auteurs identifient quatre modes de défaillance structurelle qui invalident leur usage comme proxy de la capacité de manipulation générale : résolution par raccourci (shortcut solvability), absence de significativité statistique, surapprentissage rampant (creeping overfitting) et dépendance à la source de données. Sur LIBERO, une sonde de 90 millions de paramètres, sans encodeur de langage, atteint des scores au niveau ou proches de l'état de l'art rapporté dans la littérature récente, ce qui suggère que les modèles exploitent des artefacts du benchmark plutôt que des compétences réelles. Sur CALVIN, la simple randomisation des positions des blocs dans la plage d'entraînement fait chuter les performances de toutes les politiques testées, révélant une généralisation quasi nulle même dans des conditions marginalement différentes. Ces résultats ont des implications directes pour les équipes qui évaluent des architectures VLA (Vision-Language-Action). Si LIBERO et CALVIN échouent à plusieurs diagnostics, les progrès revendiqués sur ces benchmarks ne constituent pas une preuve crédible de capacité de manipulation générale. La plupart des gains rapportés sur LIBERO ne sont pas statistiquement significatifs, ce qui signifie que de nombreuses publications revendiquent des améliorations qui pourraient n'être que du bruit. Pour les intégrateurs et les décideurs industriels, cela signifie que les scores de benchmarks courants ne sont pas des indicateurs fiables de la maturité réelle d'un système avant déploiement. Le problème n'est pas nouveau, mais il devient critique au moment où des VLA comme pi0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA sont massivement benchmarkés dans la littérature. RoboCasa et RoboTwin 2.0, moins fréquemment cités dans les claims de progression récents, résistent mieux aux diagnostics proposés et constituent des alternatives plus robustes pour mesurer des progrès réels. Les auteurs publient leurs quatre diagnostics avec des implémentations de référence sur ripl.github.io/manipulationbenchmarkaudit, à destination des chercheurs et des reviewers, pour application avant soumission ou acceptation. La prochaine question est de savoir si des conférences majeures comme CoRL, ICRA ou RSS adopteront ces outils comme critère d'évaluation des soumissions.

UELes équipes de recherche françaises et européennes (INRIA, CEA-List) évaluant des architectures VLA devront appliquer ces diagnostics avant soumission pour ne pas revendiquer des gains qui pourraient n'être que du bruit statistique.

RecherchePaper
1 source
Comment les utilisateurs évaluent les performances des modèles fondation robotiques au-delà du taux de réussite des tâches
33arXiv cs.RO 

Comment les utilisateurs évaluent les performances des modèles fondation robotiques au-delà du taux de réussite des tâches

Une étude publiée sur arXiv (arXiv:2602.03920) examine comment des utilisateurs non-spécialistes interprètent les données de performance des modèles de fondation robotiques (RFM, Robot Foundation Models), ces architectures d'IA généraliste conçues pour piloter des robots domestiques polyvalents comme ceux développés par Physical Intelligence (pi0), Google DeepMind (GR00T N2) ou Figure AI. Le cœur du problème : lorsqu'un utilisateur demande à un robot RFM d'effectuer une tâche hors de son domaine d'entraînement, il doit pouvoir évaluer le risque d'échec, qui peut être coûteux, voire dangereux. Les chercheurs ont exposé des participants à des données réelles issues de plusieurs projets RFM publiés, incluant le taux de succès aux tâches (TSR, Task Success Rate), des descriptions de cas d'échec et des vidéos de démos. Les résultats montrent que les non-experts comprennent et utilisent le TSR de façon conforme aux attentes des spécialistes, ce qui valide son usage comme métrique primaire dans les publications académiques. Mais la découverte la plus significative est ailleurs : les utilisateurs accordent une valeur élevée aux descriptions de cas d'échec, une information rarement reportée de façon systématique dans les évaluations de RFMs. Par extension, ils souhaitent disposer à la fois de données historiques issues des évaluations passées du modèle et d'estimations proactives du robot sur ses chances de succès face à une tâche inédite. Cette attente soulève un défi concret pour les intégrateurs et les équipes produit : la transparence sur les limites du modèle n'est pas optionnelle si l'on vise un déploiement grand public. Ce travail s'inscrit dans un débat plus large sur le fossé entre les démos laboratoire et l'usage réel, souvent qualifié de "demo-to-reality gap". Alors que le secteur converge vers des benchmarks standardisés comme DROID ou Open-X-Embodiment pour comparer les RFMs entre eux, la question de leur lisibilité par les décideurs non-techniques reste largement ouverte. Des acteurs comme Enchanted Tools en France ou Wandercraft misent sur des interfaces d'interaction proches de l'utilisateur final, mais peu d'équipes formalisent encore la communication sur les taux d'échec. Cette étude plaide pour l'intégration de "failure reporting" structuré dans les fiches produit et les publications techniques, une évolution qui pourrait devenir un critère de certification dans les futures réglementations européennes sur la robotique.

UEL'étude plaide pour un 'failure reporting' structuré qui pourrait devenir un critère de certification dans les futures réglementations européennes sur la robotique, concernant directement Enchanted Tools et Wandercraft pour leurs fiches produit.

RecherchePaper
1 source
TRAP : détournement du raisonnement CoT dans les VLA par patches adversariaux
34arXiv cs.RO 

TRAP : détournement du raisonnement CoT dans les VLA par patches adversariaux

Des chercheurs ont publié sur arXiv (réf. 2603.23117) une attaque baptisée TRAP (Targeted Reasoning Adversarial Patch), démontrant pour la première fois qu'un patch adversarial physique peut détourner le comportement d'un robot manipulateur piloté par un modèle Vision-Language-Action (VLA) à raisonnement Chain-of-Thought (CoT). Dans les expériences présentées, un patch imprimé sur papier et déposé sur la surface de travail, tel qu'une nappe aux motifs spécifiques, suffit à faire en sorte que le robot remette un couteau à l'opérateur au lieu d'une pomme, sans qu'aucune modification de l'instruction utilisateur ne soit nécessaire. L'attaque a été validée sur trois VLA représentatifs intégrant des mécanismes CoT distincts, et mise en oeuvre en conditions réelles avec un simple imprimé papier. Ce résultat pointe une vulnérabilité structurelle dans les VLA à raisonnement intermédiaire, famille de modèles qui inclut notamment π0 de Physical Intelligence, OpenVLA-OFT ou les variantes de GR00T (NVIDIA) basées sur des CoT explicites. Les auteurs montrent empiriquement que le raisonnement CoT gouverne la génération d'actions de façon prépondérante, même lorsqu'il est sémantiquement incohérent avec l'instruction initiale : le modèle suit la chaîne de pensée corrompue plutôt que l'intention de l'utilisateur. Pour les intégrateurs déployant des bras robotisés en environnement ouvert, entrepôts, blocs opératoires ou assistance à domicile, cela signifie qu'un adversaire pourrait modifier le comportement du robot par simple altération visuelle de l'environnement, sans accès au modèle ni au flux de commandes, ce qui rend l'attaque particulièrement préoccupante en contexte de sécurité physique. Les VLA à raisonnement CoT ont émergé comme réponse aux limites des modèles action-réflexe classiques : le CoT améliore la généralisation et offre une trace d'interprétabilité utile pour la certification. TRAP montre que cette avancée introduit simultanément une surface d'attaque inédite. La recherche en sécurité des systèmes robotiques autonomes reste largement sous-investie par rapport à la sécurité des LLM textuels, et ce travail rejoint un corpus naissant incluant des attaques sur les politiques de diffusion et les modèles de perception. Aucun correctif ni benchmark défensif n'est proposé dans cette version ; les auteurs appellent à une sécurisation urgente des pipelines CoT dans les VLA avant tout déploiement à grande échelle dans des environnements critiques.

UELes intégrateurs européens déployant des VLA sur des bras robotisés en environnement industriel, médical ou d'assistance doivent suspendre tout déploiement à grande échelle dans des environnements critiques et auditer leurs pipelines CoT, en l'absence totale de correctifs défensifs disponibles.

RechercheOpinion
1 source
Nvidia dévoile son robot humanoïde Isaac GR00T… et il déchire grave
35Le Big Data 

Nvidia dévoile son robot humanoïde Isaac GR00T… et il déchire grave

Nvidia a présenté le 1er juin 2026, lors du Computex à Taipei, son robot humanoïde de référence baptisé Isaac GR00T Reference Humanoid Robot. Développé en partenariat avec Unitree, spécialiste chinois de la robotique, et Sharpa, entreprise singapourienne experte en mains robotiques, ce système repose sur le corps humanoïde H2 Plus d'Unitree, 1,80 mètre, 68 kilogrammes, 31 degrés de liberté. Les mains tactiles à cinq doigts de Sharpa ajoutent 22 degrés de liberté chacune, portant le total à 75 points d'articulation sur l'ensemble du corps. Chaque bras peut soulever 7 kilogrammes en continu, avec des pics à 15 kilogrammes. Le cerveau du système est le calculateur Jetson Thor, basé sur l'architecture Blackwell de Nvidia, capable de dépasser 2 000 téraflops dédiés à l'IA. Le robot embarque le modèle GR00T 1.7 dès sa sortie de boîte, et une batterie de 0,972 kWh offrirait environ trois heures d'autonomie, selon des sources non confirmées officiellement par Nvidia. L'enjeu de cette annonce dépasse largement le robot lui-même. Nvidia ne vend pas un produit commercial destiné aux entreprises ou aux particuliers, mais une plateforme de référence pour la recherche. L'idée est de fournir aux laboratoires un socle matériel et logiciel unifié, comparable à ce qu'un PC de référence représente pour l'informatique grand public : éviter que chaque équipe perde des mois à assembler et intégrer ses propres composants, pour se concentrer sur ce qui compte, à savoir développer des algorithmes, des comportements et des capacités cognitives. Stanford Robotics Center, ETH Zurich, Ai2 de Seattle et le laboratoire de robotique de l'UC San Diego figurent parmi les premiers partenaires confirmés. La disponibilité pour les développeurs et laboratoires intéressés est prévue d'ici fin 2026. Cette initiative s'inscrit dans une bataille industrielle et géopolitique de grande ampleur autour de la robotique humanoïde. Des acteurs comme Boston Dynamics, Figure, Tesla avec Optimus, ou encore 1X Technologies investissent massivement dans ce domaine, perçu comme le prochain grand marché de l'IA physique. Nvidia, jusqu'ici positionné comme fournisseur de puissance de calcul, tente avec Isaac GR00T de devenir la couche d'infrastructure incontournable de toute la filière robotique mondiale. L'absence notable d'institutions chinoises parmi les premiers partenaires, alors même qu'Unitree est un acteur chinois central du projet, révèle la tension géopolitique qui traverse ce secteur. En standardisant la plateforme de recherche, Nvidia espère non seulement accélérer les progrès scientifiques, mais aussi s'imposer comme le standard de référence avant que ses concurrents ne définissent les leurs.

UEETH Zurich figure parmi les premiers laboratoires partenaires confirmés, ouvrant aux chercheurs européens un accès potentiel à cette plateforme de référence en robotique humanoïde d'ici fin 2026.

💬 Ce qui m'intéresse, c'est pas le robot, c'est le coup qu'essaie de rejouer Nvidia. Imposer une plateforme de référence à la recherche avant que le marché se structure, c'est exactement comme ça que CUDA est devenu incontournable il y a vingt ans. L'absence des labos chinois dans les premiers partenaires alors qu'Unitree est au coeur du hardware, ça dit tout sur où se joue vraiment la bataille.

HumanoïdesOpinion
1 source
SilentDrift : exploiter le découpage en actions pour des attaques par porte dérobée furtives sur les modèles VLA
36arXiv cs.RO 

SilentDrift : exploiter le découpage en actions pour des attaques par porte dérobée furtives sur les modèles VLA

Des chercheurs en sécurité informatique ont publié sur arXiv (référence 2601.14323) une attaque baptisée SilentDrift, ciblant les modèles Vision-Language-Action (VLA) utilisés pour piloter des robots manipulateurs. L'attaque exploite deux mécanismes devenus standards dans les architectures VLA modernes : l'action chunking, qui consiste à générer des séquences de K actions d'un coup plutôt qu'action par action, et la représentation en delta de pose, qui encode chaque mouvement sous forme d'incrément relatif à la position précédente. Cette combinaison crée une boucle ouverte visuelle intra-chunk : une fois la séquence lancée, le robot l'exécute sans relire le flux caméra à chaque pas. Des perturbations imperceptibles à l'échelle d'un pas s'accumulent alors par intégration, déviant la trajectoire finale de manière significative. Sur le benchmark LIBERO, SilentDrift atteint un taux de succès d'attaque de 93,2 % avec un taux d'empoisonnement inférieur à 2 % des données d'entraînement, tout en maintenant un taux de réussite sur tâches propres de 95,3 %, rendant la backdoor pratiquement indétectable par les métriques standards. L'impact pour les intégrateurs et décideurs B2B est direct : les VLA comme pi-0 de Physical Intelligence, OpenVLA ou les variantes de RT-2 s'appuient précisément sur ces mécanismes d'action chunking pour obtenir des mouvements fluides et cohérents. Un attaquant ayant accès à une fraction marginale des données d'entraînement peut donc compromettre un système de manipulation robotique déployé en environnement industriel sans déclencher d'alarme sur les métriques de performance habituelles. Les trajectoires empoisonnées sont visuellement identiques aux démonstrations saines, ce qui invalide les audits visuels comme contrôle de qualité suffisant. La stratégie dite "keyframe attack" de SilentDrift cible spécifiquement la phase d'approche critique d'une saisie, maximisant l'effet de déviation tout en minimisant l'exposition du trigger. Ce travail s'inscrit dans un courant de recherche naissant sur la sécurité des modèles de fondation pour la robotique, un champ largement ignoré jusqu'ici face à l'effervescence autour des performances. Les VLA connaissent une adoption rapide depuis 2023, portée par des acteurs comme Physical Intelligence (pi-0), Google DeepMind (RT-2, GR00T N2 de Nvidia) et les laboratoires académiques via des benchmarks comme LIBERO ou Open-X Embodiment. SilentDrift est une attaque en boîte noire, ce qui signifie qu'elle ne nécessite pas d'accès au modèle entraîné, uniquement aux données. Les auteurs n'annoncent pas de contre-mesure, ouvrant un chantier de recherche défensive urgent à mesure que ces modèles approchent de déploiements réels dans la logistique et l'assemblage manufacturier.

UELes intégrateurs européens qui déploient ou évaluent des VLA (pi-0, OpenVLA, RT-2) dans la logistique ou l'assemblage doivent intégrer l'audit de sécurité des données d'entraînement dans leurs processus de qualification, car les métriques de performance standards ne détectent pas ce vecteur d'attaque.

RechercheOpinion
1 source
Doubao payant fin juin, incendie chez SK Hynix, Unitree obtient son IPO : Wang Xingxing vaudrait plus de 14 milliards de yuans
3736Kr 

Doubao payant fin juin, incendie chez SK Hynix, Unitree obtient son IPO : Wang Xingxing vaudrait plus de 14 milliards de yuans

Le 1er juin 2026, la commission d'examen des introductions en bourse de la Bourse de Shanghai a approuvé le dossier d'IPO de Unitree Robotics sur le marché STAR, le segment technologique de la place boursière chinoise. Le fabricant de robots prévoit de lever 4,202 milliards de yuans (environ 575 millions d'euros) répartis sur quatre axes : recherche sur les modèles d'IA embarquée, développement du corps robotique, nouveaux produits humanoïdes et construction d'une usine de fabrication dédiée. Le même jour, lors du GTC Taipei, Jensen Huang, PDG de NVIDIA, a annoncé le H2+, un robot humanoïde présenté comme architecture de référence développée conjointement avec Unitree et désigné sous l'appellation Isaac GR00T System. La plateforme mesure 1,8 mètre pour 68 kilogrammes, embarque 31 degrés de liberté (DOF) sur le corps principal et 25 DOF par main. Huang a déclaré l'intégration système finalisée. Sur le front financier, Alphabet a confirmé une levée de 80 milliards de dollars incluant un placement privé de 10 milliards de dollars souscrit par Berkshire Hathaway à 351,81 dollars l'action de classe A, explicitement destinés à étendre les capacités d'infrastructure IA face à une demande jugée supérieure à l'offre existante. OpenAI a par ailleurs officialisé le même jour son entrée dans la robotique, en se concentrant à court terme sur les robots d'assistance. Pour les intégrateurs et décideurs industriels, la conjonction de l'IPO de Unitree et du partenariat NVIDIA marque un passage vers une commercialisation plus structurée des humanoïdes. Les 575 millions d'euros levés dépassent la quasi-totalité des tours de table récents des fabricants occidentaux hors Tesla, offrant à Unitree un capital de montée en cadence inédit dans le secteur. Le H2+ positionné comme architecture de référence ouverte change la logique d'intégration : NVIDIA apporte la stack logicielle Isaac GR00T et le simulateur Omniverse pour le sim-to-real, Unitree fournit le corps mécanique validé, réduisant le coût d'entrée pour tout OEM souhaitant déployer des humanoïdes sans construire l'ensemble de la chaîne. Les 25 DOF par main ciblent la manipulation fine en assemblage et en logistique pick-and-place, non la manutention de charges lourdes. Ces métriques restent celles d'une annonce de conférence : l'écart entre démonstration et déploiement productif sur des cycles de travail réels demeure à quantifier indépendamment. Unitree s'est imposé sur le marché des quadrupèdes avec les séries Go1, Go2 et B2 avant de lancer les humanoïdes H1 puis G1, construisant une réputation de rapport performance-prix difficile à ignorer. Son fondateur Wang Xingxing voit sa fortune estimée à plus de 14 milliards de yuans après la validation du dossier. NVIDIA avait posé les bases de sa stratégie robotique avec Isaac GR00T, présenté au GTC 2024 comme modèle de fondation pour humanoïdes, et Omniverse pour la simulation; le H2+ est le premier résultat hardware public de cette architecture. Les concurrents directs en Occident incluent Figure AI, Tesla avec Optimus, Boston Dynamics avec Atlas et Physical Intelligence avec son modèle Pi-0; en Chine, Fourier Intelligence et UBTECH couvrent des segments comparables. L'entrée simultanée d'OpenAI dans la robotique pourrait redistribuer les équilibres dans la couche logicielle, chaque acteur hardware cherchant à s'associer au modèle fondation le plus performant. Zhipu AI, spécialiste chinois des grands modèles de langage, a également annoncé le 1er juin son intention de s'introduire sur le marché STAR, signal supplémentaire d'un afflux de capitaux publics vers l'ensemble de la chaîne IA-robotique en Chine.

UELes OEM et intégrateurs européens doivent évaluer si l'architecture de référence ouverte H2+ (NVIDIA/Unitree) réduit suffisamment le coût d'entrée pour justifier un premier pilote humanoïde, mais aucune entreprise ni réglementation française ou européenne n'est directement impliquée.

HumanoïdesActu
1 source
NVIDIA dévoile une plateforme complète pour robots humanoïdes, robotaxis et usines intelligentes
38Interesting Engineering 

NVIDIA dévoile une plateforme complète pour robots humanoïdes, robotaxis et usines intelligentes

Lors du GTC Taipei, NVIDIA a dévoilé une plateforme full-stack destinée aux robots humanoïdes, aux véhicules autonomes et à l'automatisation industrielle. Le cœur de l'annonce est Cosmos 3, un omnimodèle fondational open-source construit sur une architecture mixture-of-transformers, capable de traiter simultanément texte, images, vidéo, son et commandes d'action dans un seul système. Il se décline en Cosmos 3 Super, orienté haute précision pour la robotique et les véhicules autonomes, et Cosmos 3 Nano, optimisé pour l'inférence rapide. NVIDIA lance également l'Isaac GR00T Reference Humanoid Robot, un design de référence intégrant le robot Unitree H2 Plus, les mains articulées Sharpa, le calculateur embarqué Jetson Thor et la pile logicielle GR00T, adopté par Ai2, ETH Zurich, Stanford Robotics Center et UC San Diego. La collaboration avec TSMC porte les bibliothèques CUDA-X dans la fab pour la lithographie computationnelle, la simulation de transistors et l'inspection de plaquettes à l'échelle nanométrique. Alpamayo 2 Super, un modèle de raisonnement à 32 milliards de paramètres, cible quant à lui les applications robotaxi. La cohérence verticale de la plateforme est sa principale valeur ajoutée : NVIDIA prétend désormais couvrir l'intégralité de la chaîne de valeur de l'IA physique, de la génération de données synthétiques à la simulation, jusqu'au déploiement en production. Pour les équipes R&D en robotique humanoïde, GR00T Reference Robot réduit potentiellement plusieurs mois d'intégration hardware/software. Cosmos 3 s'attaque par ailleurs au sim-to-real gap en proposant un world model capable de générer des environnements d'entraînement réalistes, l'un des verrous structurels du secteur. Cela dit, les benchmarks avancés ("meilleur modèle ouvert" sur plusieurs évaluations) émanent de NVIDIA lui-même sans validation tierce, ce qui invite à une lecture prudente. L'intégration dans la fab TSMC est plus tangible : des gains d'efficacité mesurables dans la détection de défauts nanométriques signalent une adoption industrielle réelle, pas seulement un proof-of-concept. NVIDIA construit ce positionnement depuis plusieurs années via Isaac Sim, Omniverse et la famille GR00T N2 présentée en 2025. Sur le marché des humanoïdes, les concurrents directs incluent Figure (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (Pi-0), Boston Dynamics (Atlas) et Agility Robotics (Digit). Le choix du robot Unitree H2 Plus, acteur chinois concurrent sur le segment humanoïde, comme base matérielle du design de référence NVIDIA est notable. En Europe, Enchanted Tools (Miroki, France) et Wandercraft pourraient tirer parti de Cosmos 3 pour la génération de données d'entraînement, même si aucun partenariat public n'a été annoncé. Les prochaines étapes incluent l'accès des institutions de recherche à GR00T Reference Robot et la disponibilité de Cosmos 3 via NVIDIA NGC ; aucune tarification ni date de commercialisation n'a été communiquée pour l'ensemble de la plateforme.

UEEnchanted Tools et Wandercraft pourraient exploiter Cosmos 3 pour la génération de données d'entraînement, et ETH Zurich figure parmi les partenaires de recherche du GR00T Reference Robot, mais aucun déploiement commercial en Europe n'est confirmé à ce stade.

💬 NVIDIA ne vend plus du silicium, il vend une plateforme verticale, de la simulation jusqu'au robot en prod. Le détail qui m'a accroché : le choix d'Unitree, concurrent chinois direct, comme base matérielle du robot de référence GR00T. C'est soit du pragmatisme pur, soit une façon de dire que l'avantage NVIDIA est dans le software, pas le hardware.

IA physiqueOpinion
1 source
Les 10 actualités robotique incontournables de mai 2026
39Robotics Business Review 

Les 10 actualités robotique incontournables de mai 2026

Mai 2026 a concentré plusieurs avancées concrètes dans la robotique, mises en lumière lors du Robotics Summit & Expo de Boston qui a réuni des milliers de professionnels du secteur. Genesis AI a dévoilé GENE-26.5, un modèle d'IA qu'elle présente comme atteignant des "capacités de manipulation physique au niveau humain", une affirmation à relativiser en l'absence de benchmarks indépendants publiés. Dans le domaine des humanoïdes, 1X Technologies a lancé la production en série de son robot NEO dans une nouvelle usine à Hayward, en Californie, conçu pour fonctionner en dessous du niveau sonore d'un réfrigérateur moderne dans des espaces domestiques. La startup londonienne Humanoid a formalisé un partenariat avec Bosch et Schaeffler pour industrialiser sa production, après un proof of concept conjoint validé en mars 2026. Du côté des capteurs, Ouster a annoncé la famille REV8, basée sur sa puce L4 Ouster Silicon, avec une portée et une résolution doublées par rapport à la génération précédente, et un lidar couleur natif breveté. Automated Tire est sortie de la discrétion avec SmartBay, une plateforme robotique autonome pour le changement de pneus et l'inspection de véhicules, promettant de réduire le temps de service de moitié, soit environ 30 minutes par intervention. Ces actualités illustrent une bifurcation nette dans le secteur: d'un côté, des acteurs humanoïdes comme 1X passent de la démonstration à la production réelle, signal que le "reality gap" se réduit pour certains challengers; de l'autre, des verticaux industriels précis comme la maintenance automobile ou la manipulation dextère cherchent à démontrer un ROI mesurable à court terme. Le partenariat Humanoid-Bosch-Schaeffler est particulièrement notable car il intègre deux équipementiers automobiles de premier plan dans la chaîne d'approvisionnement des humanoïdes, anticipant un marché commercial proche. Hugging Face a également lancé une boîte à outils agentique pour son robot desktop open-source Reachy Mini, permettant de créer des applications fonctionnelles en moins d'une heure sans écrire de code, ce qui signale une démocratisation de la programmation robotique au-delà des équipes d'ingénieurs spécialisés. Le contexte est celui d'une course à la commercialisation qui s'accélère, avec Figure (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (pi0), Boston Dynamics et NVIDIA (GR00T N2) en embuscade sur le même marché des humanoïdes polyvalents. Pour structurer les comparaisons, le Fraunhofer IPA a publié un benchmark standardisé pour évaluer objectivement ces plateformes, une initiative qui faisait défaut jusqu'ici. Les RBR50 Innovation Awards 2026, qui fêtent leur 15e édition, ont dressé un panorama des leaders actuels, reflétant la diversité des approches: AMR, cobots, architectures VLA (Vision-Language-Action). Les prochains trimestres seront déterminants: les premiers bilans chiffrés des déploiements chez 1X et Humanoid constitueront des tests de réalité cruciaux avant d'éventuels nouveaux tours de financement.

UEHugging Face (française) démocratise la programmation robotique avec sa boîte à outils low-code pour Reachy Mini, tandis que le partenariat Humanoid-Bosch-Schaeffler ancre deux équipementiers automobiles allemands dans la chaîne d'approvisionnement des humanoïdes, posant les bases d'une filière européenne commerciale, et le benchmark Fraunhofer IPA offre enfin un cadre d'évaluation standardisé aux acteurs du marché EU.

FR/EU ecosystemeActu
1 source
Le robot humanoïde de NVIDIA embarque 2 070 téraflops de puissance « cérébrale » pour apprendre dans le monde réel
40Interesting Engineering 

Le robot humanoïde de NVIDIA embarque 2 070 téraflops de puissance « cérébrale » pour apprendre dans le monde réel

NVIDIA a dévoilé le 1er juin 2026, au GTC Taipei, l'Isaac GR00T Reference Humanoid Robot, un design de référence humanoïde open source associant le corps du Unitree H2 (1,80 m, 68 kg, 31 degrés de liberté) aux mains tactiles cinq doigts Sharpa Wave (44 DOF supplémentaires), soit 75 DOF au total. L'intelligence embarquée repose sur le module Jetson AGX Thor T5000, équipé d'un GPU Blackwell délivrant 2 070 téraflops en précision FP4, d'un CPU Arm 14 cœurs et de 128 Go de mémoire unifiée pour le traitement sensoriel en temps réel. Le robot supporte 120 N.m de couple aux bras, 360 N.m aux jambes et une charge utile de 15 kg, avec perception stéréo en tête, caméras montées aux poignets et centrale inertielle. La pile logicielle Isaac GR00T couvre tout le cycle de développement: Isaac Teleop pour la collecte de démonstrations humaines, Isaac Sim et Isaac Lab pour la simulation et l'entraînement, Isaac ROS pour le déploiement sur robot physique. Quatre institutions ont déjà rejoint l'initiative: Ai2, l'ETH Zurich, le Stanford Robotics Center et le laboratoire Advanced Robotics and Controls de l'UC San Diego. La compatibilité avec l'Unitree G1, très répandu en recherche, est également confirmée. La fragmentation du développement humanoïde constitue aujourd'hui l'un des freins majeurs à la recherche: hardware, environnements de simulation, modèles de fondation et middleware proviennent de sources hétérogènes, multipliant les frictions d'intégration. En proposant une pile unifiée et documentée, NVIDIA cherche à compresser le délai entre une nouvelle politique de contrôle et son test sur robot physique. Les 2 070 téraflops FP4 embarqués ne visent pas uniquement l'inférence: la puissance disponible cible l'apprentissage par renforcement en ligne et la collecte de données en situation réelle, deux leviers critiques pour combler le sim-to-real gap qui limite encore la majorité des VLA (Vision-Language-Action models). Steve Cousins, directeur exécutif du Stanford Robotics Center, a résumé la logique: "La robotique avance plus vite quand les chercheurs peuvent construire sur des plateformes ouvertes, partager du code et tester sur de vraies machines." NVIDIA avait posé les premières briques d'Isaac GR00T au GTC 2024 avec des modèles de fondation pour l'imitation et le transfert sim-to-real; l'annonce de Taipei franchit une étape différente avec un design de référence hardware-software complet. NVIDIA ne fabrique pas de robots mais joue explicitement la carte du fournisseur de plateforme, fournissant calcul, modèles et outils à l'ensemble de l'écosystème humanoïde: Figure (02), Tesla (Optimus Gen 3), Physical Intelligence (pi0), Boston Dynamics (Atlas Electric), et les acteurs européens comme Wandercraft ou Enchanted Tools, qui pourraient bénéficier de cette pile ouverte pour accélérer leur R&D. Le risque principal de cette stratégie est que les grands constructeurs, Tesla et Figure en tête, développent des piles entièrement propriétaires, réduisant la surface d'adoption. Les prochaines étapes documentées se limitent aux déploiements dans les quatre institutions partenaires, sans calendrier de commercialisation industrielle annoncé à ce stade.

UEL'ETH Zurich est l'un des quatre partenaires fondateurs de l'initiative, et la plateforme ouverte pourrait permettre à Wandercraft et Enchanted Tools d'accélérer leur R&D humanoïde sans repartir de zéro sur la pile logicielle.

HumanoïdesOpinion
1 source
Wall-OSS-0.5 : rapport technique
41arXiv cs.RO 

Wall-OSS-0.5 : rapport technique

Une équipe de chercheurs a publié sur arXiv (2605.30877) le rapport technique de Wall-OSS-0.5, un modèle Vision-Language-Action (VLA) open source de 4 milliards de paramètres, construit sur un backbone VLM de 3B paramètres auquel sont greffés des composants de génération d'actions. Le modèle a été pré-entraîné sur plus de 20 morphologies robotiques différentes, en ingérant plus d'un million de trajectoires robot par époque, couplées à un corpus multimodal ancré. La recette d'entraînement repose sur un co-entraînement à gradient bridgé combinant trois objectifs complémentaires : prédiction d'actions discrètes pour faire circuler des gradients VLM forts dans le backbone, prédiction multimodale pour préserver la compréhension vision-langage, et flow matching continu comme interface d'action au moment du déploiement. Avant tout fine-tuning spécifique, le checkpoint pré-entraîné atteint des comportements zero-shot non triviaux sur un banc de 17 tâches réelles, y compris une tâche de manipulation d'objets déformables hors distribution. Après fine-tuning, il affiche 60,5% de progression moyenne sur 15 tâches réelles et surpasse Pi-0.5 de 17,5 points de pourcentage. Ce résultat repose la question fondamentale du pré-entraînement VLA : jusqu'ici, la quasi-totalité des preuves de performance étaient mesurées après fine-tuning, rendant impossible la distinction entre "le pré-entraînement forme une politique utilisable" et "le pré-entraînement fournit juste une meilleure initialisation". Wall-OSS-0.5 démontre que le checkpoint brut produit des comportements exécutables sur matériel physique, y compris sur des tâches jamais vues. Le fait que l'entraînement sur données d'action ne dégrade pas les capacités vision-langage générales est également significatif pour les intégrateurs : cela suggère qu'un seul modèle fondation peut couvrir perception, raisonnement et contrôle sans compromis majeur, ce qui simplifie l'architecture système. Wall-OSS-0.5 s'inscrit dans la dynamique des VLA fondationnels initiée par des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA. Sa publication open source le distingue dans un secteur dominé par des checkpoints propriétaires, et permet des comparaisons reproductibles. La performance zero-shot sur manipulation déformable est notable car ce type de tâche est réputé difficile à généraliser : c'est précisément le type de gap sim-to-real que les approches purement simulées peinent à combler. Les prochaines étapes probables incluent un scaling du corpus et des évaluations sur des plateformes humanoïdes commerciales, où la generalisation cross-embodiment du modèle pourra être testée en conditions industrielles.

UELe caractère open source de Wall-OSS-0.5 permet aux équipes de R&D françaises et européennes d'accéder librement à un modèle VLA fondationnel compétitif, réduisant la dépendance aux checkpoints propriétaires américains et asiatiques.

💬 Le vrai truc ici, c'est pas les 60,5% sur le benchmark. C'est que le checkpoint pré-entraîné produit des comportements exécutables sur du vrai matériel, sans fine-tuning, y compris sur des tâches jamais vues. Et open source par-dessus le marché, dans un secteur où tout le monde garde jalousement ses poids pour soi.

IA physiqueOpinion
1 source
Déploiement de pipelines VLA en atelier d'emballage industriel : étude de cas, flux de travail, échecs et enseignements
42arXiv cs.RO 

Déploiement de pipelines VLA en atelier d'emballage industriel : étude de cas, flux de travail, échecs et enseignements

Des chercheurs associés à Siemens ont publié le 28 mai 2026 sur arXiv (2605.27461) une étude de déploiement industriel d'une politique VLA (Vision-Language-Action) dans l'usine Siemens GWE d'Erlangen, en Allemagne. La tâche ciblée est précisément définie : un bras robotique doit saisir un sachet d'accessoires transparent au sein d'un tas encombré, l'insérer dans la cavité restante d'un emballage carton, puis vérifier que le sachet et son contenu restent en dessous du plan de fermeture du carton. Le modèle de base utilisé est Pi0.5, la politique VLA de Physical Intelligence, affinée de manière itérative sur données terrain. L'équipe a accumulé 2535 épisodes d'entraînement, soit environ 10 heures de données collectées directement en conditions d'usine, via un pipeline cyclique comprenant collecte, curation, fine-tuning, évaluation et collecte de données de récupération ciblées. Ce qui rend cette publication notable, c'est son positionnement éditorial délibérément empirique : les auteurs ne communiquent pas sur un taux de succès global, mais documentent les modes de défaillances récurrents et les ajustements nécessaires à chaque cycle. C'est précisément ce type de retour d'expérience qui manque dans la littérature robotique, où les démonstrations sélectionnées occultent souvent le coût réel d'adaptation d'un modèle généraliste à une tâche industrielle spécifique. La gestion d'objets transparents, notoire pour tromper les systèmes de vision par profondeur, illustre ici les limites concrètes du sim-to-real et du transfert zero-shot. L'étude confirme que le fine-tuning dirigé par les échecs terrain, plutôt que la montée en données brutes, reste le levier dominant pour atteindre la fiabilité industrielle. Pi0.5 est le successeur de π0, lancé par Physical Intelligence (San Francisco) fin 2024, conçu comme politique généraliste pour la manipulation dextère. Son déploiement chez Siemens marque une étape significative dans la commercialisation B2B des VLA, un segment que se disputent actuellement Figure AI avec sa pile Helix, 1X Technologies avec NEO, et des initiatives internes comme GR00T N2 de NVIDIA ou les travaux de Boston Dynamics sur Atlas. Aucun acteur européen n'est directement impliqué dans ce déploiement, bien que Wandercraft et Enchanted Tools positionnent des produits complémentaires sur le segment français. La prochaine étape logique de ce type d'étude serait une généralisation multi-tâches ou multi-sites, mais les auteurs restent prudents : l'article conclut sur des leçons méthodologiques, non sur un déploiement à l'échelle.

UELe déploiement de Pi0.5 dans l'usine Siemens d'Erlangen fournit le premier retour d'expérience empirique documenté d'un modèle VLA généraliste en conditions industrielles réelles au sein d'un acteur EU majeur, directement exploitable par les intégrateurs et équipementiers robotiques européens.

FR/EU ecosystemeOpinion
1 source
L'open source commence à aider les robots à raisonner
43IEEE Spectrum Robotics 

L'open source commence à aider les robots à raisonner

Depuis deux ans, Hugging Face, Nvidia et Alibaba ont multiplié les publications open source dans la robotique cognitive, cherchant à résoudre ce qui était jusque-là le goulot d'étranglement du secteur : faire raisonner, décider et agir un robot. Nvidia a constitué une pile complète articulée autour de trois couches : Cosmos, des world models qui génèrent des données d'entraînement synthétiques et simulent des environnements physiques ; GR00T, des modèles permettant l'exécution de tâches complexes ; et Isaac, un ensemble de frameworks d'orchestration reliant entraînement, simulation et déploiement. Ces modèles sont hébergés sur Hugging Face. Ce mouvement s'inscrit dans une longue tradition : le Robot Operating System (ROS), lancé en 2007, a unifié le secteur en fournissant un framework standardisé au-dessus de Linux pour les fonctions fondamentales de la robotique, communication inter-composants, gestion du hardware, cartographie, planification de trajectoires. Avant ROS, chaque équipe réécrivait cette infrastructure de zéro, absorbant souvent une à deux années de travail avant de pouvoir conduire les recherches réelles. L'enjeu est structurant : si l'open source peut faire pour la cognition robotique ce qu'il a fait pour les LLMs, la barrière à l'entrée pour construire un robot capable pourrait chuter aussi vite qu'elle l'a fait pour les applications d'IA générative. Spencer Huang, directeur produit robotique chez Nvidia, note que la vision par ordinateur, autrefois coûteuse en expertise, se code aujourd'hui en quelques lignes. "Pour entrer dans la robotique, il ne faut plus nécessairement un doctorat", dit-il. La logique économique est explicite : fournir un modèle pré-entraîné de haute qualité que chaque acteur peut fine-tuner, plutôt que de demander à chacun de reprendre le pré-entraînement from scratch. Pour les intégrateurs et les décideurs industriels, cela se traduit concrètement par des cycles de développement raccourcis et une moindre dépendance aux profils rares. Le parallèle avec l'histoire de l'IA est tracé explicitement par Brian Gerkey, co-créateur de ROS, aujourd'hui Board Chair d'Open Robotics et CTO d'Intrinsic, l'unité robotique et IA de Google. La communauté IA a, dès ses débuts, partagé recherches, modèles et données en open source, et le domaine a progressé bien plus vite que presque tous les observateurs ne l'anticipaient. Les premières briques d'infrastructure open source pour la robotique remontent au milieu des années 1990, avec des projets comme le package Inter-Process Communication de Carnegie Mellon et le projet Player au début des années 2000, mais ces initiatives restaient fragmentées et liées à des groupes isolés. ROS a unifié la couche basse du secteur ; Nvidia, Hugging Face et Alibaba tentent aujourd'hui de reproduire cette unification pour la couche cognitive. Les outils de simulation sont désormais suffisamment précis pour être utiles à l'entraînement et accessibles hors des laboratoires spécialisés. La question qui demeure ouverte : ces modèles pré-entraînés tiendront-ils leurs promesses dans des déploiements industriels réels, au-delà des démonstrations contrôlées ?

UEHugging Face, fondée à Paris et co-initiatrice de ce mouvement open source aux côtés de Nvidia et Alibaba, se positionne comme infrastructure centrale de distribution des modèles cognitifs robotiques mondiaux.

FR/EU ecosystemeOpinion
1 source
Humanoid s'associe à Bosch et Schaeffler pour industrialiser la production de robots
44Robotics Business Review 

Humanoid s'associe à Bosch et Schaeffler pour industrialiser la production de robots

La startup londonienne Humanoid, fondée en 2024 sous le nom SKL Robotics Ltd., a annoncé en mai 2026 deux partenariats industriels majeurs pour industrialiser son robot HMND 01 sur le marché européen. Le premier accord, conclu avec Robert Bosch GmbH (siège à Gerlingen, Allemagne), fait suite à un proof of concept réalisé en mars 2026 dans un entrepôt intralogistique Bosch à Bühl, en Allemagne : le HMND 01, un manipulateur mobile à roues doté d'un torse humanoïde, d'une tête et de deux bras, a transféré de manière autonome des cartons depuis un convoyeur vers des chariots, en gérant cinq formats de boîtes différents sur plusieurs hauteurs, empreintes au sol et masses. Le second accord, signé la semaine précédente avec Schaeffler Technologies AG, est décrit comme un contrat "contraignant et phasé" visant à intégrer les robots HMND dans des lignes de production réelles en Allemagne d'ici fin 2026. Humanoid qualifie ce déploiement de "l'un des plus importants rollouts de robots humanoïdes annoncés à ce jour", ce qui reste difficile à vérifier indépendamment faute de chiffres de volumes publiés. Ces deux partenariats signalent un changement de phase pour Humanoid : de la validation POC vers la fabrication en série et le déploiement industriel. Bosch endosse le rôle de sous-traitant industriel (contract manufacturer) et apportera son infrastructure de production mondiale, sa chaîne d'approvisionnement et son expertise en DfX (design for excellence), un cadre méthodologique couvrant la fabricabilité, la fiabilité, la maintenabilité et l'optimisation des coûts. L'orchestration des tâches repose sur KinetIQ, le framework IA propriétaire d'Humanoid. Pour un COO ou un directeur industriel, l'intérêt concret est double : un robot conçu pour les espaces humano-centriques (convoyeurs, chariots, manipulation multi-format) testé en conditions réelles, et un partenaire de fabrication capable de passer rapidement du prototype au volume. La mention d'une future intégration de composants Bosch (actionneurs, variateurs, capteurs) dans les prochaines versions du HMND ouvre aussi une trajectoire de co-développement hardware. Humanoid s'est constitué rapidement un réseau de partenaires industriels de premier rang : outre Bosch et Schaeffler, la société avait annoncé le mois précédent un accord avec Siemens. Ce positionnement agressif intervient dans un contexte de consolidation du marché humanoïde industriel, où Figure AI (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (pi0), NVIDIA (GR00T N2) et 1X Technologies se disputent les premiers déploiements à l'échelle. Humanoid mise sur une stratégie de distribution européenne différenciée, en s'appuyant sur l'écosystème industriel allemand plutôt que sur une intégration verticale américaine. La prochaine étape visible sera la mise en service effective des premiers systèmes chez Schaeffler avant la fin de l'année 2026, date qui permettra de valider si le saut du POC au déploiement réel est aussi rapide que le suggèrent les annonces.

UELes partenariats avec Bosch (contract manufacturer mondial) et Schaeffler (déploiement en ligne de production d'ici fin 2026 en Allemagne) constituent le premier ancrage industriel sérieux d'un robot humanoïde dans l'écosystème manufacturier européen, avec une trajectoire de co-développement hardware qui pourrait servir de modèle différencié face à l'intégration verticale américaine.

FR/EU ecosystemeOpinion
1 source
FANUC et NVIDIA développent des robots au comportement identique en simulation et en réalité
45Interesting Engineering 

FANUC et NVIDIA développent des robots au comportement identique en simulation et en réalité

FANUC, le géant japonais de la robotique industrielle, et NVIDIA ont annoncé en mai 2026 une extension significative de leur partenariat visant à éliminer l'écart entre simulation et déploiement réel en usine. L'intégration technique combine NVIDIA Isaac Sim avec le logiciel de simulation propriétaire de FANUC, ROBOGUIDE, pour créer des jumeaux numériques où les robots virtuels reproduisent exactement les mêmes trajectoires et temps de cycle que leurs homologues physiques, en s'appuyant sur des algorithmes de contrôle identiques. Deux modes de fonctionnement sont proposés : dans le premier, Isaac Sim orchestre l'environnement virtuel tandis que ROBOGUIDE synchronise les comportements en arrière-plan, avec support des pupitres de programmation physiques et virtuels. Dans le second, ROBOGUIDE prend la main pendant que le moteur physique PhysX de NVIDIA gère la simulation, notamment pour des tâches comme le bin picking, où le robot doit identifier et saisir des pièces empilées en vrac. En parallèle, FANUC a présenté un système bi-bras composé de deux robots collaboratifs CRX capables de plier des T-shirts en temps réel, entraînés par imitation learning via le modèle de fondation robotique Isaac GR00T N de NVIDIA. La plateforme Jetson Thor équipe désormais le robot d'évitement humain de FANUC, avec une puissance de calcul multipliée par 7,5 par rapport à l'ancienne génération Jetson AGX Orin. L'enjeu industriel est direct : le problème du sim-to-real gap coûte des semaines de recalibration sur site à chaque nouveau déploiement. Si FANUC et NVIDIA tiennent leur promesse d'une fidélité totale entre simulation et réalité, les intégrateurs pourraient valider des cellules complètes en virtuel avant même d'avoir commandé les équipements physiques, compressant drastiquement les timelines de mise en production. La démonstration du pliage de textile est également notable : les objets déformables restent l'un des angles morts historiques de la robotique industrielle, et un système capable de gérer le linge en temps réel avec retour visuel ouvre des perspectives concrètes pour la logistique e-commerce et le textile. Le chiffre de 7,5x de gain en calcul sur Jetson Thor est cohérent avec les besoins croissants des pipelines vision-action (VLA) embarqués. Il convient toutefois de noter que les démonstrations présentées, notamment le pliage de T-shirts, restent des prototypes de laboratoire : aucun déploiement en production à grande échelle n'est annoncé à ce stade. FANUC avait une première fois montré cette intégration Isaac Sim / ROBOGUIDE à l'International Robot Exhibition de Tokyo fin 2024, mais la version actuelle approfondit substantiellement la communication entre les deux systèmes. FANUC, avec plus de 700 000 robots installés dans le monde, est l'un des rares acteurs à pouvoir valider ce type d'approche à l'échelle industrielle réelle plutôt qu'en conditions de laboratoire. Sur le terrain concurrentiel, cette initiative s'inscrit dans une course directe avec ABB et son partenariat Isaac Sim, ainsi qu'avec KUKA et Universal Robots qui développent leurs propres pipelines de simulation physique. NVIDIA, de son côté, consolide Isaac comme couche d'abstraction standard pour la simulation robotique industrielle, une position stratégique face à des alternatives open-source comme Gazebo ou MuJoCo. Les technologies seront présentées en conditions réelles lors de l'Open House FANUC prévu en mai 2026, premier test public de la robustesse de l'intégration hors cadre contrôlé.

UELes industriels européens équipés de robots FANUC bénéficieraient d'une réduction significative des délais de mise en production, tandis qu'ABB et KUKA, concurrents européens directs, sont contraints d'accélérer leurs propres pipelines de simulation physique pour ne pas se laisser distancer sur ce segment.

IndustrielActu
1 source
TAVIS : un benchmark pour la vision active égocentrique et le regard anticipateur en apprentissage par imitation
46arXiv cs.RO 

TAVIS : un benchmark pour la vision active égocentrique et le regard anticipateur en apprentissage par imitation

Une équipe de chercheurs a publié TAVIS, un environnement d'évaluation standardisé pour comparer les approches de vision active en apprentissage par imitation, soit la capacité d'une politique robotique à contrôler son propre regard pendant une tâche de manipulation. Le benchmark comprend deux suites : TAVIS-Head (5 tâches avec caméra sur cardan pan/tilt pour la recherche globale de scène) et TAVIS-Hands (3 tâches avec caméras de poignet pour gérer les occlusions locales). Il est construit sur IsaacLab et s'appuie sur deux embodiments de torse humanoïde : le GR1T2 de Fourier Intelligence et le Reachy2 de Pollen Robotics (Bordeaux). Environ 2 200 épisodes de démonstrations téléopérées sont publiés en format LeRobot v3.0 sur HuggingFace, avec Diffusion Policy et π₀ (Physical Intelligence) comme baselines. Trois résultats principaux ressortent : la vision active améliore les performances, mais de façon conditionnelle à la tâche ; les politiques multi-tâches se dégradent nettement sous distribution shift contrôlé ; et l'imitation seule produit un regard anticipatoire dont les temps de préemption médians, mesurés par la métrique GALT (Gaze-Action Lead Time), sont comparables à ceux du téléopérateur humain de référence. Jusqu'ici, plusieurs groupes avaient démontré indépendamment les bénéfices de la vision active en 2024-2025, sans base commune de comparaison. TAVIS comble ce vide avec trois primitives reproductibles : un protocole comparatif caméra mobile/caméra fixe sur des démonstrations identiques, la métrique GALT issue des sciences cognitives et de l'HRI (Human-Robot Interaction), et des splits procéduraux in-distribution/out-of-distribution. Le constat que les gains sont task-conditional invalide l'hypothèse naïve qu'ajouter des degrés de liberté à la caméra améliore systématiquement les performances, nuance décisive pour les intégrateurs industriels. La fragilité sous distribution shift constitue un signal d'alarme concret pour tout déploiement hors simulation. La vision active en manipulation connaît un regain d'intérêt depuis 2024, porté par les progrès des VLA (Vision-Language-Action models) et la disponibilisation de robots humanoïdes à têtes articulées. Le choix de Reachy2 comme plateforme de référence est notable : Pollen Robotics, startup bordelaise fondée en 2016, est l'un des rares acteurs européens dont le robot open-source figure dans des benchmarks académiques internationaux, face aux concurrents américains (Figure, Agility) et asiatiques (Fourier, Unitree). Les prochaines étapes naturelles incluent l'évaluation de politiques VLA récentes comme GR00T N2 ou OpenVLA sur TAVIS, ainsi que le transfert sim-to-real, que le papier ne couvre pas encore.

UEPollen Robotics (Bordeaux) est l'une des deux seules plateformes de référence du benchmark TAVIS, ce qui ancre un acteur français open-source au cœur d'une infrastructure d'évaluation académique internationale pour les politiques VLA.

FR/EU ecosystemePaper
1 source
Genesis AI publie GENE-26.5 : un robot humanoïde réussit enfin à préparer des œufs brouillés à la tomate
47Pandaily 

Genesis AI publie GENE-26.5 : un robot humanoïde réussit enfin à préparer des œufs brouillés à la tomate

La startup française Genesis AI a publié les premières démonstrations de GENE-26.5, son premier système de modèle de fondation pour robot humanoïde. Les vidéos montrent le robot casser des œufs d'une seule main, couper des tomates en mode bimanuel, préparer des smoothies, effectuer du pipetage, résoudre un Rubik's cube et saisir simultanément quatre objets de tailles différentes entre ses doigts. Le démo central est une tâche de cuisine de 4 minutes décomposée en plus de 20 sous-tâches : casser un œuf, trancher des tomates, manier un fouet, un couteau, une spatule et une poêle. Un détail révélateur : pour transférer les tomates coupées, le robot utilise le dos du couteau et la planche à découper comme appui, une coordination bimanuelles typiquement humaine. Genesis AI déclare des taux de réussite de 90 à 95 % sur la plupart des étapes, mais seulement 50-60 % pour les deux plus délicates (cassage d'œuf d'une main, transfert avec le dos du couteau) -- un niveau d'honnêteté inhabituel dans les communications de ce secteur. La vitesse d'exécution atteint 60-70 % de celle d'un humain. La main dextère est fournie par Dance Muscle (舞肌科技) ; les deux entreprises co-conçoivent une prochaine génération ciblant le format 1:1 main humaine avec 20 degrés de liberté actifs et back-drivables. La portée de GENE-26.5 dépasse les performances brutes des démos. Les tâches domestiques exigent une adaptation en temps réel à des objets imprévisibles et à des états de contact changeants, sans trajectoire pré-programmée, ce qui les rend parmi les problèmes de manipulation les plus difficiles à généraliser en robotique. La recette de données de Genesis combine trois sources : données de gant (mouvements fins et signaux tactiles haute fidélité), vidéo en première et troisième personne, pour un total annoncé de plus de 200 000 heures de données cross-modales collectées avec des partenaires. La simulation Genesis, moteur physique open-source développé en parallèle par l'entreprise, assure l'évaluation en boucle fermée et accélère les itérations. Ce pipeline (préentraînement massif sur données humaines, adaptation sur peu de données robot, évaluation en simulation) ressemble structurellement au paradigme qui a transformé le NLP vers les LLMs, et constitue un signal fort pour les intégrateurs et les décideurs industriels : le sim-to-real gap sur la manipulation dextère commence peut-être à se réduire sérieusement. Genesis AI a été fondée début 2025 et a levé 105 millions de dollars en seed round, l'un des plus importants jamais réalisés en France dans la robotique. Parmi les investisseurs figurent Eric Schmidt (ancien PDG de Google), Xavier Niel et Bpifrance. Le CEO Zhou Xian est titulaire d'un doctorat du Carnegie Mellon University Robotics Institute, ce qui ancre l'entreprise dans la tradition académique américaine malgré son origine française. Dans une course humanoïde particulièrement dense qui comprend Figure AI (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (Pi-0) et NVIDIA (GR00T N2), Genesis se distingue par son pari sur la donnée humaine à grande échelle et la simulation comme levier de généralisation, en opposition aux approches centrées sur la téléopération robot. GENE-26.5 reste toutefois au stade de démo laboratoire : aucun pilote industriel ni calendrier de déploiement n'a été annoncé à ce stade.

UEGenesis AI, startup française ayant levé 105 M€ avec Bpifrance et Xavier Niel, positionne la France comme acteur de premier plan dans la course mondiale aux modèles de fondation pour robots humanoïdes, avec un pipeline données/simulation potentiellement transposable à l'industrie européenne.

FR/EU ecosystemeOpinion
1 source
Galbot lance LDA-1B, un modèle du monde-action en open source
48Pandaily 

Galbot lance LDA-1B, un modèle du monde-action en open source

Galbot a publié LDA-1B, un modèle fondation monde-action cross-embodiment de 1,6 milliard de paramètres, construit sur son architecture propriétaire WAM (World-Action Model). Ce modèle unifie modèles de monde et modèles d'action au niveau des données, permettant un apprentissage conjoint sur données de simulation et données réelles, données humaines et robotiques, ainsi que sur jeux de données d'action labellisés et non labellisés. LDA-1B peut s'adapter à différentes morphologies de robots après seulement une heure de post-entraînement, selon Galbot. À mesure que le volume de données d'entraînement est passé de 5 000 à 30 000 heures, l'erreur de prédiction d'action a diminué de façon continue, démontrant un comportement de scaling cohérent. La recherche a été acceptée à RSS 2026 et le code source est désormais public. Le modèle est intégré dans AstraBrain et AstraData, l'infrastructure de déploiement de Galbot, couvrant la logistique industrielle, les tâches domestiques et les scénarios retail. En avril 2026, la société est l'entreprise d'IA incarnée non cotée la mieux valorisée en Chine, avec une valorisation dépassant 20 milliards de yuans (2,8 milliards de dollars). Plusieurs points méritent attention. La capacité d'adaptation cross-embodiment en une heure de fine-tuning est une affirmation forte, mais elle reste à valider hors démonstrations contrôlées. Le comportement de scaling confirmé entre 5 000 et 30 000 heures de données est un signal positif pour les VLA (Vision-Language-Action models) à grande échelle, suggérant que les lois d'échelle s'appliquent à l'action robotique de façon analogue aux LLM textuels. L'open-source du codebase réduit la barrière d'entrée pour les intégrateurs souhaitant expérimenter sans infrastructure propriétaire, et positionne Galbot comme fournisseur d'infrastructure fondationale, pas seulement constructeur de robots. Galbot est une startup spécialisée dans les robots humanoïdes et l'IA incarnée. LDA-1B entre en compétition directe avec pi0 de Physical Intelligence, GR00T N2 de NVIDIA, et les approches internes de Figure AI et Agility Robotics côté américain. En Chine, la société rivalise avec Unitree et UBTECH sur le terrain humanoïde. L'acceptation à RSS 2026 lui confère une légitimité académique rare dans ce secteur encore dominé par les communiqués marketing. Les prochaines étapes probables incluent des pilotes industriels en logistique et retail, et une expansion internationale que la valorisation de 2,8 milliards de dollars rend plausible.

UEPression concurrentielle indirecte sur les équipes VLA européennes (INRIA, CEA-List), mais aucun déploiement ni partenariat européen annoncé.

💬 Le comportement de scaling sur les données robotiques, c'est le vrai signal ici, pas le chiffre de valorisation. Que les lois d'échelle s'appliquent à l'action physique comme au texte, ça dit quelque chose sur ce qu'on va voir dans 3 ans, et tu commences à comprendre pourquoi les gros acteurs américains s'agitent. L'open source est une bonne décision stratégique, mais une heure de fine-tuning pour changer de morphologie de robot, j'attends de voir ça hors démo contrôlée.

IA physiqueOpinion
1 source
Hexagon et Schaeffler vont déployer 1 000 humanoïdes Aeon dans leur réseau d'usines mondial
49Robotics & Automation News 

Hexagon et Schaeffler vont déployer 1 000 humanoïdes Aeon dans leur réseau d'usines mondial

Hexagon Robotics et Schaeffler, fabricant allemand de composants de précision et de technologie de mouvement (roulements, actionneurs, systèmes d'entraînement), ont annoncé en 2026 l'élargissement de leur partenariat stratégique avec un objectif chiffré : déployer 1 000 robots humanoïdes Aeon dans les usines du réseau mondial de Schaeffler. L'accord fait suite à un programme pilote conjoint mené en 2025, décrit comme concluant par les deux parties. Les spécifications techniques de l'Aeon, payload, degrés de liberté, cadence de cycle, n'ont pas été communiquées dans cette annonce, ce qui limite l'évaluation indépendante des performances réelles. Un engagement à 1 000 unités représente l'un des ordres de déploiement les plus élevés annoncés publiquement dans le segment humanoïde industriel, où la plupart des acteurs en sont encore aux phases de pilote à moins de 50 robots. Si le chiffre est tenu, il constituerait une preuve d'échelle manufacturière que ni Figure (Figure 03), ni Agility Robotics (Digit), ni 1X Technologies n'ont encore atteinte. Pour les intégrateurs et les COO industriels, le signal est que la phase "demo-to-reality gap" peut être franchie dans un environnement de production réel, à condition de disposer d'un partenaire industriel ancré dans la supply chain mécanique. Hexagon est principalement connu comme éditeur de logiciels de métrologie et de fabrication numérique (ex-Hexagon AB), ce qui rend son bras robotique Hexagon Robotics moins visible que ses concurrents purement hardware. Schaeffler, lui, apporte un réseau d'usines dense en Europe, Asie et Amériques, ainsi qu'une expertise en actionneurs pertinente pour la co-conception des bras et des articulations de l'Aeon. Dans la course humanoïde, les concurrents directs sur le segment industriel incluent Tesla Optimus, GR00T N2 de Nvidia/partenaires, et Apollo de Apptronik. Aucune date de livraison ferme ni calendrier de déploiement par site n'a été précisé.

UESchaeffler, fabricant allemand de composants de précision avec un réseau d'usines dense en Europe, est le déployeur central de l'accord ; si le cap des 1 000 unités est atteint, cela établirait une référence d'échelle industrielle directement pertinente pour les constructeurs et intégrateurs robotiques européens.

ROBOGATE : détection adaptative des défaillances pour un déploiement sûr des politiques de robots via un échantillonnage en deux étapes axé sur les limites
50arXiv cs.RO 

ROBOGATE : détection adaptative des défaillances pour un déploiement sûr des politiques de robots via un échantillonnage en deux étapes axé sur les limites

Des chercheurs ont publié ROBOGATE (arXiv:2603.22126), un framework open-source de validation pré-déploiement pour les politiques de manipulation robotique, conçu pour identifier les zones de défaillance avant mise en production industrielle. Le système repose sur un échantillonnage adaptatif en deux étapes dans un espace de paramètres à huit dimensions : une première phase par Latin Hypercube Sampling (LHS) couvre l'espace global, puis une seconde phase concentre l'effort sur la zone de transition critique entre 30 % et 70 % de taux de réussite, là où les échecs sont les plus révélateurs. Le tout est exécuté dans NVIDIA Isaac Sim avec le moteur physique Newton, sur quatre morphologies robotiques : Franka Panda (7-DOF), UR3e, UR5e et UR10e (tous 6-DOF). Au total, plus de 50 000 expériences ont été simulées, produisant un modèle de régression logistique avec une AUC de 0,780 et une équation analytique fermée de la frontière de défaillance. Le framework a également benchmarké huit politiques VLA, dont une version fine-tunée de NVIDIA GR00T N1.6 (3 milliards de paramètres), entraînée sur LIBERO-Spatial pendant 20 000 étapes. Le chiffre le plus frappant de l'étude est un écart de 97,65 points de pourcentage entre les environnements de simulation : le même checkpoint GR00T N1.6 atteint 97,65 % de réussite sur le benchmark LIBERO sous MuJoCo, mais tombe à 0 % sur les 68 scénarios industriels de ROBOGATE sous Isaac Sim. Ce résultat met en lumière un problème structurel du déploiement des VLA : les scores de benchmark en simulation ne prédisent pas le comportement dans un simulateur différent, a fortiori dans le monde réel. Pour les intégrateurs et les décideurs industriels, cela signifie qu'un modèle validé sur benchmark standard peut être totalement non opérationnel dans leur environnement cible. ROBOGATE propose une couche de validation intermédiaire, inspirée du paradigme que NVIDIA a formalisé pour le calcul quantique avec Ising, transposé ici à l'IA physique. Le gap sim-to-real reste l'un des verrous majeurs de la robotique manipulatrice apprise, et la plupart des acteurs du secteur, de Figure AI (Figure 03) à Physical Intelligence (Pi-0) en passant par Boston Dynamics ou les équipes internes de NVIDIA, travaillent à le réduire via des pipelines sim-to-real renforcés ou de la synthèse de données domain-randomisée. ROBOGATE ne prétend pas résoudre ce gap mais fournit un outil de diagnostic structuré : cartographier les frontières d'échec avant déploiement, ce qui est précisément ce qui manque dans les workflows industriels actuels. Le framework est publié en open-source, ce qui devrait faciliter son adoption par les équipes de validation, en particulier celles qui travaillent sur des cellules pick-and-place standardisées avec des bras industriels UR ou Franka. Les prochaines étapes naturelles seraient l'extension à des morphologies mobiles-manipulatrices et l'intégration dans des pipelines CI/CD robotiques, un domaine encore embryonnaire mais en progression rapide chez des acteurs comme Intrinsic (Alphabet) ou Covariant.

UELes équipes R&D européennes travaillant sur des cellules robotiques avec bras UR (Universal Robots, Danemark) ou Franka Panda peuvent adopter ce framework open-source pour structurer leur validation pré-déploiement et éviter des échecs coûteux en production.

IA physiqueActu
1 source