Aller au contenu principal

Dossier Figure

508 articles

Figure, le constructeur de robots humanoïdes le plus capitalisé : Figure 02 et 03, modèle Helix VLA, déploiements BMW, partenariats avec OpenAI puis indépendance.

Sommet en robotique : un panel fait le point sur la conception des robots humanoïdes
1Robotics Business Review HumanoïdesActu

Sommet en robotique : un panel fait le point sur la conception des robots humanoïdes

Lors du Robotics Summit & Expo 2026, tenu à Boston au Thomas B. Menino Convention & Exhibition Center devant quelque 3 900 participants, un panel de haut niveau a fait le point sur l'état réel du développement des robots humanoïdes. Alberto Rodriguez, directeur du comportement robot pour Atlas chez Boston Dynamics, y a révélé que l'entreprise a engagé le déploiement de l'ordre de 25 000 humanoïdes Atlas dans des usines, avec un objectif de capacité de production portée à 30 000 unités par an d'ici 2028. Boston Dynamics a conduit une première démonstration en conditions réelles en usine en 2025, architecture entièrement pilotée par les données, puis a présenté Atlas au CES de janvier 2026 pendant une semaine complète. Pour 2026, la société prévoit un retour en usine pour une démonstration plus complète, de bout en bout, connectant le robot au système d'information de l'usine et gérant les exceptions opérationnelles. Du côté d'Agility, dont la marque commerciale s'est récemment stabilisée sous le nom Agility (ex-Agility Robotics), les déploiements du robot Digit avancent avec Amazon, GXO, Schaeffler, Toyota et Mercado Libre, marquant une sortie effective de la phase pilote. Ce que ce panel signale clairement pour les intégrateurs et décideurs industriels, c'est que le vrai verrou n'est plus mécanique ni même algorithmique, mais stratégique. Rodriguez a posé le problème avec précision : sauf pour de rares applications à très grand volume et très stable, presque tous les postes de travail sont des cas uniques. Le défi du passage à l'échelle repose sur trois axes simultanés, hardware, modèles de comportement, et stratégie d'intégration, et l'échec sur l'un suffit à rendre le déploiement économiquement non viable. La décision de Boston Dynamics de commencer par la logistique en manufacturing, un environnement qui exige de la généralité sans imposer encore les contraintes de timing et de sécurité de la ligne d'assemblage, illustre une approche pragmatique et graduée. Ces chiffres de déploiement engagés, 25 000 unités, sont une donnée de marché rare dans un secteur habitué aux annonces sans livraisons. Boston Dynamics, filiale de Hyundai depuis 2021, a traversé une longue période de recherche pure avant de commercialiser Atlas dans sa version électrique présentée en 2024, succédant aux plateformes hydrauliques historiques. Le marché des humanoïdes reste en pleine effervescence : Figure AI avec Figure 03, Tesla avec Optimus Gen 3 sur sa propre ligne de production, Physical Intelligence avec Pi-0, NVIDIA avec GR00T N2, et des acteurs émergents comme 1X Technologies ou Apptronik positionnent tous leurs solutions sur des créneaux différents, de l'assemblage léger à la manutention lourde. Côté Europe, Enchanted Tools (France) et Wandercraft restent focalisés sur des niches spécifiques, assistance et rééducation, sans viser encore le marché industriel général. Les prochaines étapes à surveiller : la publication par ASTM International (représenté dans le panel par Aaron Prather) de standards de sécurité pour la cohabitation humains-humanoïdes, et les résultats concrets des déploiements Agility/Amazon, dont les métriques opérationnelles restent pour l'instant non publiques.

UELes entreprises françaises (Enchanted Tools, Wandercraft) restent cantonnées aux niches assistance/rééducation sans feuille de route vers l'industriel général, creusant un écart stratégique avec les déploiements à grande échelle désormais en cours en Amérique du Nord.

1 source
Prometheus : ce que prépare la nouvelle startup de Jeff Bezos
2Ars Technica AI 

Prometheus : ce que prépare la nouvelle startup de Jeff Bezos

Jeff Bezos a officiellement lancé Prometheus en novembre dernier en tant que co-PDG aux côtés du co-fondateur Vik Bajaj, et la startup vient de boucler une nouvelle levée de fonds de 12 milliards de dollars, portant sa valorisation à 41 milliards. Cela fait suite à un premier tour de 6,2 milliards de dollars l'année précédente. Les investisseurs comprennent des noms de premier plan comme JPMorgan Chase, Goldman Sachs et BlackRock, auxquels s'ajoute une contribution personnelle significative de Bezos lui-même. L'entreprise compte actuellement 150 employés. Une grande partie de ces capitaux sera consacrée à l'achat de puissance de calcul, Bezos ayant confié à CNBC que l'activité est "très gourmande en calcul" et nécessite la création de vastes ensembles de données. Prometheus se positionne sur le créneau de l'IA physique, une discipline qui applique les principes du deep learning, ceux-là mêmes qui alimentent les grands modèles de langage et l'IA générative, à des domaines concrets comme la robotique et la fabrication industrielle. L'enjeu est considérable : si les LLM ont révolutionné le traitement du langage et de l'image, l'IA physique ambitionne de faire de même avec le monde réel, en dotant les machines d'une capacité à percevoir, raisonner et agir dans des environnements non structurés. Pour l'industrie manufacturière, la logistique et la robotique, les retombées potentielles sont massives. La démarche de Bezos s'inscrit dans une vague plus large d'investissements colossaux dans l'IA physique, un domaine où figurent aussi des acteurs comme Figure AI, Physical Intelligence ou encore Boston Dynamics. Avec 18,2 milliards de dollars levés en deux tours, Prometheus dispose d'une puissance de feu rare pour une startup aussi jeune, lui permettant de construire les infrastructures de données et de calcul nécessaires à l'entraînement de modèles complexes. Les détails sur les produits concrets restent encore flous, mais l'ampleur du financement et le profil des investisseurs institutionnels signalent des ambitions industrielles de long terme.

UEL'afflux massif de capitaux américains dans l'IA physique pourrait à terme fragiliser la compétitivité de l'industrie manufacturière et robotique européenne face à des acteurs bien mieux capitalisés.

💬 18 milliards levés pour 150 employés, ça fait réfléchir sur l'échelle du truc. L'IA physique, c'est le pari que les LLM n'étaient que le début, et que la vraie disruption arrive dans les usines et les entrepôts, pas dans les chatbots. Reste à voir ce que Prometheus sort concrètement, parce que pour l'instant on a surtout une valorisation vertigineuse et des slides.

HumanoïdesOpinion
1 source
μVLA : mémoire récurrente pour la manipulation partiellement observable dans les modèles VLA
3arXiv cs.RO 

μVLA : mémoire récurrente pour la manipulation partiellement observable dans les modèles VLA

Des chercheurs ont publié sur arXiv (arXiv:2606.12497) une étude d'isolation contrôlée baptisée muVLA, une famille de variantes du modèle OpenVLA-OFT augmentées de récurrence minimale. Le principe : injecter un petit ensemble de tokens mémoire apprenables dans le transformer, transportés d'un pas de temps au suivant et mis à jour par auto-attention, sans loss auxiliaire ni modification architecturale. L'entraînement se fait de bout en bout avec rétropropagation tronquée dans le temps (TBPTT), paramétrée par la largeur mémoire m et la longueur de troncature K, avec deux règles de mise à jour comparées -- gradients inter-pas ou EMA détachée. Sur le benchmark MIKASA-Robo, muVLA porte le taux de succès moyen sur cinq tâches d'entraînement de 0,42 à 0,84 dans la configuration la plus forte, et atteint 0,23 sur des tâches hors distribution contre 0,07 pour la baseline sans mémoire. Sur LIBERO, environnement à observabilité complète, la variante récurrente la plus forte atteint 96,2 % de succès moyen -- sans régression par rapport au modèle de base. Ce travail apporte une contribution méthodologique précise à un champ encombré d'ablations mal contrôlées. La quasi-totalité des VLA à mémoire existants couplent récurrence, retrieval, compression et objectifs hiérarchiques dans un seul système, rendant impossible d'attribuer les gains à un mécanisme isolé. muVLA démontre que la récurrence seule -- sans aucune machinerie additionnelle -- suffit à doubler le taux de succès sur des tâches à observabilité partielle, c'est-à-dire les situations où une partie de l'état pertinent a disparu du champ de vision. Pour les intégrateurs robotiques travaillant sur des cellules avec occlusions ou des séquences d'assemblage multi-étapes, c'est un signal clair : le goulot n'est pas la puissance brute du modèle de base, mais la capacité à maintenir un état latent persistant. Le résultat sur LIBERO indique également que l'ajout de mémoire ne dégrade pas les performances en pleine observabilité, ce qui lève un frein souvent cité à l'adoption de ces architectures en production. OpenVLA est un modèle open-source lancé fin 2024 par une collaboration Stanford/Berkeley/Toyota Research Institute, positionné comme alternative ouverte aux VLA propriétaires comme RT-2 (Google DeepMind) ou pi0 (Physical Intelligence). OpenVLA-OFT en est une variante fine-tunée pour l'exécution rapide. La question de la mémoire dans les VLA est activement travaillée par plusieurs équipes -- RoboVLMs, SpatialVLA, Helix (Figure AI) -- mais avec des architectures nettement plus lourdes. muVLA se distingue par sa minimalité revendiquée et son protocole d'isolation rigoureux, ce qui en fait un outil de calibration plus qu'un système prêt au déploiement. Les auteurs délimitent explicitement le "régime de suffisance" de la récurrence minimale : elle fonctionne pour les tâches où la structure mémoire requise est homogène entre entraînement et évaluation, et atteint ses limites dès que les tâches hors distribution exigent une structure mémorielle différente. Les prochaines étapes naturelles -- combinaison avec des mécanismes de retrieval ou de compression -- sont implicitement balisées par ces résultats.

RechercheOpinion
1 source
IA incarnée : la correspondance proprioceptive-visuelle permet aux robots humanoïdes de se distinguer d'autrui
4arXiv cs.RO 

IA incarnée : la correspondance proprioceptive-visuelle permet aux robots humanoïdes de se distinguer d'autrui

Des chercheurs ont publié en juin 2026 un préprint sur arXiv (2606.13222) décrivant un système permettant à un robot humanoïde d'apprendre à se distinguer des autres agents présents dans son environnement, sans recourir à des étiquettes d'identité ni à des modèles cinématiques prédéfinis. Le mécanisme repose sur la correspondance proprioceptive-visuelle : le robot corrèle ses propres états articulaires avec ce qu'il perçoit visuellement, ce qui lui permet d'identifier ses propres membres parmi d'autres corps en mouvement. À partir de cette capacité, le système construit automatiquement un modèle prédictif de soi qui associe les configurations articulaires à une représentation d'occupation corporelle en trois dimensions. Le système a été validé dans des scènes multi-agents impliquant soit des humains, soit des robots morphologiquement identiques, et supporte des tâches aval concrètes : atteinte de cibles, planification de mouvement avec évitement de collision, et retargeting de mouvement humain-robot. L'enjeu pratique est significatif pour les intégrateurs déployant des humanoïdes en environnements partagés. Jusqu'ici, la distinction soi/autrui dans les robots était traitée soit par des marqueurs extérieurs, soit par des modèles cinématiques codés en dur, deux approches qui échouent dès que le robot opère aux côtés d'agents inconnus ou de copies identiques de lui-même. Que cette capacité puisse émerger d'un signal d'apprentissage auto-supervisé, sans annotation, contredit l'hypothèse selon laquelle la conscience corporelle nécessite une ingénierie explicite. La robustesse face à des robots morphologiquement identiques est particulièrement notable : c'est précisément le scénario qui se généralise dans les lignes d'assemblage où plusieurs unités du même modèle cohabitent. Le problème de la représentation de soi chez les robots est un sujet actif depuis les travaux fondateurs sur le « miroir robotique », mais les approches précédentes restaient limitées à des configurations contrôlées. Côté concurrent, des équipes chez Figure AI, Boston Dynamics et Sanctuary AI travaillent sur des architectures d'apprentissage incarné, mais peu publient sur la distinction soi/autrui en contexte multi-agent. Ce travail reste à ce stade un preprint non évalué par les pairs ; aucun déploiement industriel ni partenariat n'est annoncé. Les auteurs publient une page projet avec démonstrations vidéo, ce qui permettra d'évaluer la robustesse hors conditions de laboratoire.

IA physiquePaper
1 source
FTP-1 : une politique fondation généraliste pour la manipulation en contact, compatible tous capteurs tactiles
5arXiv cs.RO 

FTP-1 : une politique fondation généraliste pour la manipulation en contact, compatible tous capteurs tactiles

Des chercheurs ont publié sur arXiv (arXiv:2606.13102) FTP-1, une politique tactile fondatrice généraliste préentraînée sur environ 3 000 heures de données de manipulation tactile agrégées depuis 26 sources distinctes, couvrant des démonstrations humaines et robotiques sur 21 capteurs différents. L'architecture repose sur des encodeurs hétérogènes qui projettent des signaux tactiles de natures variées -- images, tableaux de valeurs, états discrets -- en tokens latents unifiés et conscients de la morphologie, traités ensuite par un Transformer tactile partagé. Lors des expériences de fine-tuning sur 5 configurations matérielles distinctes, FTP-1 améliore les performances en manipulation riche en contacts de +17,2 % sur les capteurs vus à l'entraînement, et atteint un gain de +31 % sur deux configurations de capteurs jamais rencontrées lors du préentraînement. Ces chiffres sont issus d'un preprint académique et n'ont pas encore été soumis à évaluation par les pairs. Le résultat clé ici n'est pas la performance absolue mais la généralisation hors distribution. Depuis plusieurs années, les politiques tactiles restent prisonnières de leur hardware : un modèle entraîné sur un capteur GelSight ne transfère pas sur un capteur BioTac ou un réseau de pression matriciel. FTP-1 casse cette contrainte en proposant un point de départ partagé au niveau modèle, analogue à ce que les grands modèles de vision-langage-action (VLA) comme Pi-0 ou OpenVLA ont fait pour la manipulation visuelle. Pour un intégrateur industriel ou un laboratoire robotique, cela signifie potentiellement réduire le coût de collecte de données par capteur cible, en capitalisant sur un préentraînement généraliste plutôt que de repartir de zéro à chaque changement de gripper ou de skin tactile. Le chantier des politiques tactiles généralisables reste neuf. Les approches précédentes, comme celles développées autour des capteurs DIGIT (Meta) ou des grippers instrumentés de Stanford et MIT, sont restées cantonnées à des benchmarks monosenseurs. FTP-1 s'inscrit dans la tendance plus large des foundation models appliqués à la robotique physique, portée notamment par Physical Intelligence (Pi-0), Google DeepMind (RoboVLMs) et Figure AI. Aucun déploiement industriel ni partenariat commercial n'est annoncé à ce stade ; les poids préentraînés, les données et le code d'entraînement sont mis à disposition publiquement sur le site du projet, ce qui pourrait accélérer l'adoption par la communauté académique et les startups robotiques cherchant une base tactile mutualisée.

UELes laboratoires et startups européens travaillant sur la manipulation en contact peuvent exploiter directement les poids, données et code open-source de FTP-1 pour démarrer le développement de politiques tactiles sur leurs propres capteurs sans collecter de données from scratch.

💬 Le +31% sur les capteurs jamais vus pendant l'entraînement, c'est ça le vrai chiffre à retenir. Depuis des années, chaque politique tactile restait coincée sur son hardware, impossible de capitaliser d'un gripper à l'autre sans tout recommencer de zéro. Là on a enfin une base commune open-source pour le toucher, et ça c'est du concret.

IA physiqueOpinion
1 source
Du numérique au physique : des agents numériques comme coachs autonomes de l'intelligence physique
6arXiv cs.RO 

Du numérique au physique : des agents numériques comme coachs autonomes de l'intelligence physique

Des chercheurs ont publié EmboCoach-Bench, un benchmark évaluant la capacité d'agents LLM à automatiser l'ingénierie de politiques pour systèmes robotiques incarnés. Présenté sur arXiv (arXiv:2501.21570), le cadre couvre 32 tâches conçues par des experts en apprentissage par renforcement (RL) et apprentissage par imitation (IL), avec le code exécutable comme interface universelle entre l'agent et l'environnement de simulation. Plutôt que de générer des solutions statiques, les agents opèrent en boucle fermée: ils proposent du code, l'exécutent dans le simulateur, analysent le retour d'environnement, puis itèrent pour corriger et optimiser. Les tâches couvrent des aspects allant de la conception de fonctions de récompense informées par la physique aux architectures de politiques avancées, notamment les diffusion policies. Les résultats quantitatifs méritent attention: les agents autonomes ont surpassé les baselines conçues manuellement par des humains de 26,5% en taux de succès moyen, contestant l'hypothèse selon laquelle l'expertise humaine en reward shaping serait difficilement substituable pour les politiques incarnées. Deuxième enseignement: le workflow agentique avec retour d'environnement réduit substantiellement l'écart de performance entre modèles open-source et propriétaires, ce qui suggère que la boucle de feedback itératif est plus déterminante que le modèle sous-jacent. Enfin, les agents démontrent une capacité de self-correction sur des cas pathologiques d'ingénierie, récupérant des tâches en quasi-échec total via un débogage itératif en simulation. Pour les équipes robotiques, cela représente une voie potentielle pour réduire le temps ingénieur consacré au tuning manuel des hyperparamètres et à la conception artisanale de fonctions de récompense. Ce travail s'inscrit dans une tendance plus large: l'application des workflows agentiques LLM, prouvés dans l'automatisation logicielle et la découverte scientifique, au domaine de l'IA incarnée. Le goulot d'étranglement identifié, à savoir la supervision manuelle intensive pour le réglage des simulations, est un problème structurel bien connu des équipes travaillant sur Optimus (Tesla), GR00T N2 (NVIDIA) ou les systèmes de Figure AI. La contribution différenciante d'EmboCoach-Bench est de proposer un cadre d'évaluation standardisé pour mesurer ce que les agents LLM peuvent réellement automatiser, plutôt que des démos ciblées. Les extensions naturelles incluent l'intégration à des backends hétérogènes (Isaac Lab, MuJoCo, Genesis) et la validation sim-to-real pour confirmer si ces gains en simulation se transfèrent aux systèmes physiques, ce qui reste le test décisif pour une adoption industrielle.

RecherchePaper
1 source
Voir de façon sélective, agir de façon adaptative : décomposition structurelle à deux niveaux pour la manipulation bimanuelles par robot
7arXiv cs.RO 

Voir de façon sélective, agir de façon adaptative : décomposition structurelle à deux niveaux pour la manipulation bimanuelles par robot

Une équipe de chercheurs a publié le 16 juin 2026 (arXiv:2606.13279) un nouveau cadre VLA pour la manipulation bimanuelles robotique, baptisé "Dual-Level Structural Decomposition". L'architecture repose sur deux modules distincts : un "View-Selective Visual Router" qui pondère dynamiquement la contribution de chaque caméra de poignet selon le contexte de la tâche, et un générateur d'actions basé sur un Mixture-of-Experts (MoE) qui sépare explicitement les trajectoires coordonnées (les deux bras agissent ensemble) des trajectoires indépendantes (chaque bras opère séparément). Évalué sur six tâches bimanuelles simulées dans l'environnement RoboTwin 2.0 et trois tâches longues en conditions réelles, le système affiche un gain de 27,7 % de taux de réussite moyen en simulation et de 43,3 % en déploiement physique par rapport à une baseline VLA monolithique équivalente. Ces résultats interpellent directement les équipes qui développent des politiques de contrôle pour robots humanoïdes ou manipulateurs industriels à deux bras. La progression de 43 % en real-world est significative car elle s'applique à des tâches dites "long-horizon", c'est-à-dire enchaînant plusieurs sous-étapes, là où les VLA monolithiques accumulent les erreurs. Le choix du MoE comme mécanisme de décomposition est notable : plutôt que d'entraîner deux politiques séparées, le modèle apprend à router dynamiquement selon le mode d'interaction détecté, ce qui limite l'explosion du coût d'inférence. Cela valide partiellement l'hypothèse que la structure de l'interaction bimanuele est un biais inductif exploitable -- et que les architectures "tout-en-un" atteignent leurs limites sur ces configurations. Les VLA bimanuelles constituent un chantier actif depuis l'essor des modèles de fondation robotiques en 2024-2025. Des systèmes comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) ciblent déjà la manipulation généraliste, mais traitent souvent l'entrée visuelle et la génération d'action de façon uniforme. Ce travail s'inscrit dans une tendance plus large vers des architectures modulaires, aux côtés d'initiatives comme RoboTwin 2.0 lui-même, qui sert ici de benchmark standardisé. Les prochaines étapes naturelles seraient un test sur des robots humanoïdes commerciaux (Figure 03, Unitree H1) ou une intégration dans des cellules industrielles bimanuelles -- les auteurs ne mentionnent pas de partenariat industriel ni de timeline de transfert dans la version preprint.

IA physiqueOpinion
1 source
Main bionique MCR : structures anatomiques au service de la manipulation habile
8arXiv cs.RO 

Main bionique MCR : structures anatomiques au service de la manipulation habile

Une équipe de recherche publie sur arXiv (référence 2606.13601, juin 2026) la MCR-Bionic Hand, une main robotique biomimétique reproduisant à l'échelle 1:1 l'architecture musculo-squelettique de la main humaine. Le système intègre un poignet à deux rangées de huit os, des tendons croisés au poignet, un routage anatomique des fléchisseurs superficiels (FDS) et profonds (FDP), des contraintes de plaque palmaire et de ligaments collatéraux, le capuchon extenseur dorsal, ainsi que les voies musculaires intrinsèques (lombricaux, interosseux). L'architecture repose sur deux formes de "raisonnement structurel" : la génération de postures par défaut via la ténodèse poignet-doigts, qui transforme des entrées à faible dimension en configurations de préhension pré-formées et assure la coordination IPP-IPD ; et la modulation musculaire fine, qui règle la posture MCP, la stabilité distale et les trajectoires de force des doigts autour de cet état par défaut. Les démonstrations expérimentales couvrent des tâches de contact riche : rotation de pièce de monnaie, transfert de stylo, retournement dorsal de pièce et manipulation de cube. L'intérêt tient à un changement de paradigme dans la conception des mains robotiques. L'état de l'art traite la dextérité comme un problème de contrôle actif à haute dimension, où chaque degré de liberté est piloté par des algorithmes. Ici, la géométrie de la structure mécanique encode elle-même une partie du contrôle : la posture du poignet induit passivement une pré-mise en forme multi-articulaire, sans commande explicite, et le capuchon extenseur couple le mouvement IPP à une réponse IPD de manière entièrement mécanique. Ce mécanisme allège la charge de calcul et simplifie les pipelines de contrôle, ce qui est directement pertinent pour les intégrateurs cherchant à déployer des manipulateurs en environnements non structurés. La démonstration sur tâches à contact riche indique que le "sim-to-real gap" peut partiellement se résorber si la morphologie physique absorbe la complexité que le contrôleur devrait autrement gérer. Ce travail s'inscrit dans une ligne de recherche où dominent des systèmes comme la Shadow Hand (Shadow Robot, Royaume-Uni), l'Allegro Hand (Wonik Robotics) ou les mains embarquées sur des humanoïdes commerciaux tels que le Figure 03 ou l'Optimus Gen 3 de Tesla, la plupart s'appuyant sur un grand nombre d'actionneurs et des contrôleurs appris. La MCR-Bionic Hand, présentée comme preprint académique et non comme produit commercialisé, plaide pour un retour aux structures anatomiques fonctionnelles plutôt qu'à la simple ressemblance visuelle, une distinction que le secteur des prothèses actives, notamment Ottobock (Allemagne), pourrait exploiter. La suite naturelle serait une évaluation de robustesse sur cycles répétés et une intégration à des pipelines de manipulation apprise de type VLA, pour déterminer si ces priors structurels améliorent la généralisation hors distribution.

UEOttobock (Allemagne), leader européen des prothèses actives, est l'acteur EU le mieux positionné pour exploiter cette architecture musculo-squelettique dans ses futures générations de mains prothétiques.

RecherchePaper
1 source
THEKER lève 85 millions de dollars : l’Europe produit enfin ses candidats à la robotique généraliste
9FrenchWeb 

THEKER lève 85 millions de dollars : l’Europe produit enfin ses candidats à la robotique généraliste

La startup barcelonaise THEKER a annoncé une levée de fonds de 85 millions de dollars, s'imposant comme l'un des paris les plus ambitieux de l'écosystème européen sur la robotique généraliste. Ce financement, dont les détails du tour et des investisseurs n'ont pas été précisés dans l'annonce publique, intervient alors que le secteur de l'intelligence physique connaît une accélération notable des investissements à l'échelle mondiale. THEKER développe des robots capables d'accomplir une grande variété de tâches dans des environnements non structurés, une approche dite "généraliste" qui contraste avec les robots industriels traditionnels, conçus pour des tâches répétitives et prédéfinies. Ce financement marque un tournant pour la scène technologique européenne, longtemps absente de la course à la robotique avancée dominée par des acteurs américains comme Figure AI ou Physical Intelligence, et asiatiques comme Unitree. Pour l'industrie, l'enjeu est considérable : des robots capables de s'adapter à des contextes variés pourraient transformer la logistique, les soins, la construction et l'agriculture sans nécessiter de reprogrammation coûteuse. THEKER représente ainsi un signal que l'Europe peut produire des challengers crédibles dans ce segment stratégique. Après trois années dominées par les modèles de langage, les data centers et les agents logiciels, les capitaux se redirigent désormais vers l'intelligence physique, c'est-à-dire la capacité des machines à agir dans le monde réel. Plusieurs facteurs alimentent cette tendance : la maturité des modèles de fondation multimodaux, la baisse des coûts des composants mécaniques et la pression des industriels cherchant à automatiser dans un contexte de pénurie de main-d'oeuvre. THEKER devra démontrer que ses robots tiennent leurs promesses hors des laboratoires, face à une compétition mondiale qui se densifie rapidement.

UETHEKER, startup barcelonaise, s'impose comme l'un des premiers challengers européens crédibles dans la robotique généraliste, un secteur stratégique jusqu'ici dominé par des acteurs américains et asiatiques.

HumanoïdesOpinion
1 source
DuoBench : un benchmark reproductible pour la manipulation bimanuelles en simulation et dans le monde réel
10arXiv cs.RO 

DuoBench : un benchmark reproductible pour la manipulation bimanuelles en simulation et dans le monde réel

Une équipe de chercheurs a publié en juin 2026 DuoBench, un cadre de benchmarking dédié à la manipulation bimanuelle, conçu pour la plateforme FR3 Duo de Franka Robotics. Le benchmark comprend onze tâches réparties en quatre catégories de coordination, implémentées en simulation et partiellement reproduites en environnement réel grâce à des protocoles reproductibles incluant des composants imprimables en 3D. Les auteurs ont constitué des jeux de données de télé-opération humaine pour l'ensemble des onze tâches, et proposent un schéma d'évaluation par étapes (stage-based evaluation) permettant une analyse sémantique fine des modes d'échec, au-delà du simple critère binaire succès/échec. Plusieurs politiques d'apprentissage par imitation à deux bras ainsi que des politiques VLA (vision-language-action) ont été évaluées en simulation et sur matériel réel. Les résultats sont sans ambiguïté : les politiques actuelles, y compris les approches VLA considérées comme l'état de l'art, restent insuffisantes pour la manipulation bimanuelle. Les échecs se concentrent sur trois axes : les phases d'interaction initiale, l'exécution parallèle des deux bras, et le transfert simulation-réel (sim-to-real). Ce dernier point est particulièrement significatif : malgré les progrès récents sur le gap sim-to-real pour la manipulation à un bras, DuoBench révèle que la coordination bimanuelle pose des défis supplémentaires non résolus. Pour les équipes R&D et les intégrateurs industriels, ce benchmark fournit un outil diagnostique structuré pour identifier précisément où les politiques échouent, une lacune que les frameworks existants comme RLBench ou LIBERO, conçus pour les systèmes à un seul bras, ne comblaient pas. La manipulation bimanuelle est un prérequis pour de nombreuses tâches complexes en industrie (assemblage, conditionnement, manipulation d'objets déformables), ce qui explique l'intérêt croissant du secteur pour les plateformes à deux bras. Le FR3 Duo de Franka Robotics est l'une des rares plateformes de recherche standardisées pour ce segment. Dans la course aux capacités bimanuelles, des acteurs comme Physical Intelligence avec Pi-0, NVIDIA avec GR00T N2, ou Figure AI avec ses robots humanoïdes ont annoncé des performances prometteuses, mais les benchmarks publics rigoureux permettant de les comparer restent rares. DuoBench, dont le code, les jeux de données et les vidéos sont disponibles sur duobench.github.io, ambitionne de combler ce manque avec un protocole reproductible que tout laboratoire peut répliquer à faible coût grâce aux assets imprimables en 3D.

UEFranka Robotics (Allemagne) est la plateforme centrale de DuoBench, offrant aux laboratoires et équipes R&D européens un benchmark standardisé et reproductible pour évaluer leurs politiques bimanuelle, y compris les approches VLA, sans disposer de ressources matérielles coûteuses.

FR/EU ecosystemePaper
1 source
FACTR 2 : la détection de force externe sur bras robotiques standard améliore l'apprentissage des politiques
11arXiv cs.RO 

FACTR 2 : la détection de force externe sur bras robotiques standard améliore l'apprentissage des politiques

Des chercheurs ont publié en juin 2026 sur arXiv (2606.12406) deux méthodes complémentaires pour doter les bras robotiques low-cost d'une sensibilité à l'effort sans capteur de force dédié. NEXT (Neural External Torque Estimation) estime les couples externes appliqués aux articulations à partir de données de mouvement libre uniquement : dix minutes de collecte suffisent pour un entraînement d'une minute, avec des performances comparables à celles de capteurs de couples articulaires dédiés. FIRST (Force-Informed Re-Sampling Training) exploite ces estimations pendant le behavior cloning en sur-échantillonnant les phases précédant le contact et les phases de contact elles-mêmes. Sur cinq tâches à horizon long impliquant des manipulations contacts-riches, FIRST dépasse les politiques force-aware antérieures de plus de 17% en progression de tâche. Code et vidéos sont disponibles à jasonjzliu.com/factr2. L'impact principal concerne les intégrateurs opérant sur des bras collaboratifs sans instrumentation force-couple : UR, Franka, Kinova ou Dobot ne sont pas livrés avec des capteurs six axes, dont le coût unitaire dépasse fréquemment 5 000 euros. En éliminant ce prérequis matériel, NEXT rend la télé-opération à retour d'effort et l'apprentissage par démonstration accessibles sur flottilles existantes sans modification mécanique. Le gain de 17% sur des tâches longues comme l'insertion ou l'assemblage est non trivial, même si ces benchmarks en laboratoire restent à valider en conditions industrielles. Ce que cette contribution établit : la perception d'effort peut être inférée par voie logicielle, sans modifier la mécanique du robot. La publication s'inscrit dans la continuité de FACTR (arXiv:2502.02022, 2025, même groupe), qui explorait déjà l'apprentissage de politiques contacts-riches par télé-opération avec retour de force. Le paysage concurrentiel inclut les approches à capteurs tactiles (DIGIT de Meta, GelSight du MIT), les estimateurs de couple par résidus de dynamique utilisés à DLR et Fraunhofer, et les travaux sur la perception haptique chez Physical Intelligence et Figure AI. Les prochaines étapes naturelles seront la validation sur hardware industriel certifié et l'intégration dans des pipelines VLA (Vision-Language-Action), où la perception d'effort reste une lacune connue des politiques déployées à grande échelle.

UELes laboratoires européens (DLR, Fraunhofer) et intégrateurs utilisant des bras Franka Emika (fabricant allemand) peuvent évaluer NEXT/FIRST sur leurs flottes existantes sans investissement matériel supplémentaire, abaissant le coût d'accès à l'apprentissage contacts-riches.

💬 Dix minutes de collecte de données pour remplacer un capteur à 5 000€, c'est là que ça devient vraiment intéressant. Les intégrateurs qui tournent sur du Franka ou du UR sans instrumentation force-couple vont pouvoir tester ça sur leurs flottes sans toucher à la mécanique, et le +17% sur des tâches longues comme l'insertion c'est pas du bruit. Reste à voir si ça tient hors conditions de labo, mais la direction est la bonne.

IA physiquePaper
1 source
IA incarnée en évolution : Embodied-R1.5 améliore l'intelligence physique grâce aux modèles fondation
12arXiv cs.RO 

IA incarnée en évolution : Embodied-R1.5 améliore l'intelligence physique grâce aux modèles fondation

Une équipe de chercheurs a publié sur arXiv Embodied-R1.5, un modèle de fondation incarné (EFM pour Embodied Foundation Model) de 8 milliards de paramètres intégrant cognition incarnée, planification, auto-correction et pointage d'affordances dans une architecture unifiée, entraîné sur un corpus dépassant 15 milliards de tokens construit via trois pipelines automatisés. Le cadre Planner-Grounder-Corrector (PGC) en boucle fermée permet l'exécution autonome et l'auto-correction sur des tâches longues, soutenu par une recette d'apprentissage par renforcement multi-tâches équilibré pour atténuer les conflits entre sous-domaines hétérogènes. Sur les benchmarks standardisés, Embodied-R1.5 atteint l'état de l'art sur 16 des 24 benchmarks de VLM incarnés, devançant Gemini-Robotics-ER-1.5 de Google DeepMind et GPT-5.4 d'OpenAI. Adapté en VLA (Vision-Language-Action) avec peu de données de fine-tuning, il surpasse pi-0.5 de Physical Intelligence sur quatre suites de benchmarks de manipulation. Des tests zero-shot sur robot réel valident les performances en suivi d'instructions, ancrage d'affordances, manipulation d'objets articulés et tâches longues, les poids, le code d'entraînement et EmbodiedEvalKit, un framework d'évaluation dédié, étant publiés en open source. Qu'un modèle de 8 milliards de paramètres surpasse des systèmes adossés aux ressources de Google et d'OpenAI est un signal notable pour les intégrateurs industriels, car la compacité ouvre la voie à un déploiement embarqué sur plateformes contraintes. L'auto-correction en boucle fermée du PGC répond directement au demo-to-reality gap qui freine la commercialisation des robots polyvalents, tandis que la capacité à fine-tuner en VLA avec peu de données cible le goulot d'étranglement central de la collecte de données de manipulation étiquetées. L'open source complet facilite la comparaison reproductible et devrait accélérer les itérations communautaires, à condition que les performances zero-shot annoncées soient confirmées dans des configurations adversariales que le papier ne documente pas. Embodied-R1.5 s'inscrit dans la vague des modèles de fondation robotiques généraux densifiée depuis RT-2 de Google et OpenVLA, avec pour concurrents directs Physical Intelligence (pi-0, pi-0.5) et Google DeepMind (Gemini Robotics). L'absence d'acteurs européens parmi les concurrents benchmarkés reflète le retard du continent, où des acteurs comme Wandercraft ou Enchanted Tools restent cantonnés à des niches spécialisées. L'approche open source total distingue ce travail des modèles propriétaires de Figure AI (Figure 03) ou de 1X Technologies, positionnant potentiellement Embodied-R1.5 comme base de référence pour les laboratoires et industriels souhaitant spécialiser un EFM sur leurs propres flux de manipulation.

UELes poids et le code d'Embodied-R1.5 publiés en open source constituent une base de référence accessible pour les laboratoires européens (CEA-List, INRIA) souhaitant spécialiser un EFM sur leurs propres flux de manipulation sans dépendre des modèles propriétaires de Google ou OpenAI.

💬 8 milliards de paramètres qui coiffent Gemini Robotics et GPT-5.4 sur leurs propres benchmarks, en open source total, c'est inattendu. L'auto-correction en boucle fermée s'attaque directement au fossé entre la démo en labo et le robot qui tient la route en prod, ce qui est le vrai mur depuis RT-2. Bon, le papier esquive les configurations difficiles, donc on verra ce que ça donne quand la communauté s'en empare.

IA physiqueOpinion
1 source
L'architecture du critique est cruciale : critiques doubles ou unifiés pour la loco-manipulation des humanoïdes
13arXiv cs.RO 

L'architecture du critique est cruciale : critiques doubles ou unifiés pour la loco-manipulation des humanoïdes

Une étude publiée sur arXiv le 11 juin 2026 (réf. 2606.11891) présente une comparaison rigoureuse de deux architectures de critique en apprentissage par renforcement multi-objectifs pour robots humanoïdes : un critique unifié (un seul réseau estimant la valeur combinée de tous les objectifs) contre des critiques duaux (deux réseaux distincts, chacun associé à un signal de récompense séparé, l'un pour la locomotion, l'autre pour la manipulation). Les expériences ont été conduites sur le Unitree G1, un humanoïde à 23 degrés de liberté actifs, dans le simulateur NVIDIA Isaac Lab, via un curriculum séquentiel de 13 niveaux progressant de l'atteinte stationnaire jusqu'à la marche avec des cibles à orientation variable. Résultat : les politiques entraînées avec critiques duaux atteignent leurs cibles 3,5 fois plus vite (6,5 pas de simulation contre 22,6), affichent un débit deux fois supérieur (14,3 contre 7,0 atteintes validées pour 1 000 pas), et un taux de réussite validé de 65,2 % contre 53,8 % pour le critique unifié. Ce que l'étude démontre, c'est que le choix de l'architecture du critique est un levier de conception primaire, souvent négligé, dont l'impact surpasse celui du reward engineering. Fait notable : l'ajout de mécanismes anti-gaming, conçus pour empêcher la politique d'exploiter les failles de la fonction de récompense, ne produit aucun gain au-delà du changement architectural seul (60,9 % contre 65,2 %). L'implication la plus immédiate concerne le fine-tuning RL de politiques pré-entraînées par imitation : lorsqu'on affine un modèle de manipulation déjà appris (style Pi-0 ou GR00T N2), un critique unifié risque de supprimer les comportements acquis par interférence des gradients de locomotion. Pour les équipes qui cherchent à spécialiser des modèles de fondation robotiques par RL, cette mise en garde est directement opérationnelle. Le Unitree G1, vendu autour de 16 000 dollars, est devenu un banc de test standard pour la recherche en humanoïde abordable, face aux plateformes de Figure AI, Agility Robotics ou 1X Technologies qui opèrent sur des gammes de prix bien supérieures. NVIDIA Isaac Lab, successeur d'Isaac Gym, s'est imposé comme l'environnement de référence pour l'entraînement sim-to-real. La question du découplage locomotion/manipulation en RL multi-objectifs est au coeur de plusieurs groupes de recherche (Stanford, CMU, ETH Zurich), et les résultats de cette étude, issus d'un cadre contrôlé et reproductible, offrent une base solide pour orienter les choix d'architecture avant tout entraînement coûteux sur robot réel.

RecherchePaper
1 source
APT : le pré-entraînement par expertise d'action améliore la généralisation des politiques VLA aux nouvelles instructions
14arXiv cs.RO 

APT : le pré-entraînement par expertise d'action améliore la généralisation des politiques VLA aux nouvelles instructions

Une équipe de chercheurs a publié le 11 juin 2026 sur arXiv (identifiant 2606.12366) APT (Action expert PreTraining), une méthode d'entraînement en deux étapes conçue pour améliorer la généralisation des politiques robotiques Vision-Langage-Action (VLA) face à des instructions en langage naturel hors distribution. Le problème ciblé : les modèles VLA actuels, qui couplent un grand modèle de vision-langage (VLM) préentraîné à un expert d'action continu, peinent à exécuter des consignes qu'ils n'ont pas vues pendant l'entraînement. La méthode s'applique aux architectures mainstream du domaine, notamment les architectures de style pi (Physical Intelligence) et GR00T (NVIDIA), et démontre des gains cohérents sur des instructions inédites et des tâches compositionnelles selon les expériences rapportées dans l'article. Le problème fondamental identifié par les auteurs est un déséquilibre structurel dans les données VLA : la diversité linguistique y est bien plus faible que la diversité visuelle ou motrice, ce qui pousse les politiques à s'appuyer sur des raccourcis visuels plutôt que sur les instructions textuelles. Les méthodes à actions discrètes, comme OpenVLA, atténuent ce biais via un co-entraînement vision-langage, mais les experts d'action continus, initialisés aléatoirement, génèrent des gradients bruités qui corrompent le VLM et n'exploitent pas sa capacité de compréhension linguistique. APT résout cela par une factorisation bayésienne : l'expert d'action est d'abord préentraîné comme un prior vision-action sans supervision linguistique, sur un VLM gelé (étape 1), puis les tokens de langage sont injectés via un mécanisme de fusion à porte (gated fusion) qui intègre les représentations du VLM tout en préservant le prior visuomoteur appris (étape 2). Cette séparation empêche l'imbalance linguistique de polluer l'apprentissage moteur initial. Le domaine des VLA robotiques connaît depuis 2024 une accélération notable avec pi0 de Physical Intelligence, GR00T N2 de NVIDIA, et Helix de Figure AI, tous construits autour du paradigme VLM couplé à un expert d'action continu. La généralisation aux instructions non vues reste l'un des défis non résolus du secteur : les démos en laboratoire reposent souvent sur des jeux de consignes étroits, loin de la variabilité d'un déploiement industriel réel, ce qui constitue un frein concret à la commercialisation. APT propose une réponse méthodologique à ce gap sans modifier les architectures cibles, en réordonnant uniquement leur processus d'entraînement. Les prochaines étapes naturelles incluront des validations indépendantes sur des benchmarks standardisés comme LIBERO ou RoboSuite, ainsi que des tests à l'échelle sur robots physiques en environnement non structuré.

RechercheActu
1 source
DAM-VLA : modèle vision-langage-action multimodal asynchrone et découplé
15arXiv cs.RO 

DAM-VLA : modèle vision-langage-action multimodal asynchrone et découplé

Une équipe du groupe Intuitive Robots publie DAM-VLA (Decoupled Asynchronous Multimodal Vision-Language-Action), un modèle VLA déposé sur arXiv le 11 juin 2026 (2606.12105) qui remet en cause le paradigme d'horloge synchrone des architectures VLA actuelles. Le problème identifié est structurel : les modèles vision-langage-action héritent d'un préentraînement où toutes les modalités partagent la même fréquence de traitement. Or en manipulation physique, les capteurs proprioceptifs opèrent à plusieurs centaines de hertz, la vision évolue bien plus lentement, et les instructions langagières restent constantes sur l'ensemble d'un épisode. Oversampler la vision et sous-échantillonner la proprioception plafonne la qualité du contrôle. DAM-VLA maintient des tampons latents par modalité, chacun rafraîchi à la fréquence de son propre capteur et consulté en continu par la tête d'action via gated cross-attention, sans modifier le backbone préentraîné. Sur sept tâches de manipulation en contact réel (contact-rich), le modèle atteint 95,2 % de succès contre 40,95 % pour la meilleure baseline synchrone, tout en assurant un contrôle fluide à 100 Hz. Ce doublement du taux de succès sur des tâches contact-rich est un résultat conséquent. Il suggère que le sim-to-real gap dans les VLA est aussi un problème de temporalité : rater des transitions haptiques critiques lors d'une insertion ou d'un vissage dégrade le contrôle plus que la généralisation visuelle. Pour un intégrateur industriel, 100 Hz en sortie d'action passe le seuil minimal pour des tâches de précision en cellule automatisée. L'architecture ne modifiant pas le backbone, elle préserve la réutilisabilité des poids préentraînés, ce qui réduit le coût d'adoption pour les équipes déjà investies sur des bases VLA existantes. Les VLA déployés en production récente, Pi-0 de Physical Intelligence, OpenVLA et Octo, ainsi que les approches commerciales de Figure AI (Figure 03) ou NVIDIA (GR00T N2), opèrent sur le paradigme synchrone. DAM-VLA propose une troisième voie entre la boucle unifiée et le découpage hiérarchique dual-system. Quelques réserves s'imposent : il s'agit d'un preprint sans revue par les pairs confirmée, les sept tâches évaluées restent de portée laboratoire, et aucun déploiement industriel ni partenariat commercial n'est annoncé. Les étapes critiques, validation sur manipulateurs bi-bras et intégration de capteurs force-couple haute fréquence comme modalité principale, restent à démontrer hors contexte académique.

IA physiqueOpinion
1 source
NEURA ROBOTICS lève 1,2 milliard d’euros : la robotique devient le nouveau pari stratégique de l’Europe
16FrenchWeb 

NEURA ROBOTICS lève 1,2 milliard d’euros : la robotique devient le nouveau pari stratégique de l’Europe

Neura Robotics, startup allemande spécialisée dans la robotique humanoïde, vient d'annoncer une levée de fonds de 1,4 milliard de dollars, soit environ 1,2 milliard d'euros, portant sa valorisation à près de 6 milliards d'euros. L'opération regroupe un consortium d'investisseurs aussi large qu'inédit : Amazon, NVIDIA et Qualcomm côté tech, Bosch et Schaeffler côté industrie allemande, la Banque européenne d'investissement comme acteur public, auxquels s'ajoutent plusieurs fonds financiers internationaux. Il s'agit du plus grand tour de financement jamais réalisé pour une entreprise européenne de robotique. Ce signal dépasse la simple performance financière. La présence simultanée de géants technologiques américains, de champions industriels allemands et d'une institution publique européenne traduit une convergence rare : le robot humanoïde n'est plus un projet de laboratoire, il devient une infrastructure industrielle crédible. Pour Amazon, qui déploie déjà des robots dans ses entrepôts, l'enjeu est d'intégrer des machines capables de remplacer la main humaine dans les tâches non automatisées. Pour NVIDIA et Qualcomm, c'est un débouché majeur pour leurs puces d'IA embarquée. Fondée par David Reger, Neura Robotics s'inscrit dans une course mondiale qui oppose désormais les Américains Figure AI, Agility Robotics et Boston Dynamics aux acteurs chinois en pleine montée en puissance. L'Europe, longtemps absente de ce segment, tente d'y placer un champion. Ce financement donne à Neura les moyens d'accélérer la production et de conquérir des clients industriels avant que la fenêtre de leadership ne se referme.

UEUne startup allemande lève 1,2 milliard d'euros avec le soutien de la Banque européenne d'investissement et des industriels allemands Bosch et Schaeffler, positionnant l'Europe comme acteur crédible dans la course mondiale aux robots humanoïdes industriels.

💬 La liste des investisseurs dit tout : Amazon, NVIDIA, Bosch et la BEI dans le même tour, ça ne ressemble plus à un pari de VC, ça ressemble à une infrastructure qui se construit. L'Europe avait besoin d'un champion dans cette course aux humanoïdes, Neura pourrait être lui, bon, sur le papier du moins. Reste à voir si 1,2 milliard suffit à tenir le rythme face aux acteurs américains et chinois qui n'ont pas attendu.

HumanoïdesOpinion
1 source
NEURA Robotics lève jusqu'à 1,4 milliard de dollars en Série C pour son IA physique
17Robotics Business Review 

NEURA Robotics lève jusqu'à 1,4 milliard de dollars en Série C pour son IA physique

NEURA Robotics GmbH, basée à Metzingen en Allemagne, a annoncé le 10 juin 2026 une levée de fonds de Série C pouvant atteindre 1,4 milliard de dollars, financée par un consortium d'investisseurs technologiques dont Tether, Qualcomm et Amazon. La startup, fondée en 2019 par David Reger, commercialise une gamme couvrant des bras robotiques légers, des robots mobiles (série MAV), des robots humanoïdes (modèle 4NE1) et un manipulateur mobile polyvalent baptisé MiPA, ciblant principalement la fabrication et la supply chain. Ce tour de table vient financer deux axes prioritaires : le développement de la plateforme "Neuraverse", décrite comme un écosystème ouvert d'IA physique permettant aux robots d'apprendre collectivement entre déploiements, et l'expansion d'un réseau mondial de "NEURA Gyms", des environnements d'entraînement à grande échelle combinant interaction sensorielle réelle, simulation et pipelines d'apprentissage multimodal. Il s'agit à ce stade d'une annonce de financement, pas d'un produit expédié ni d'un déploiement industriel documenté à grande échelle. Sur le fond, une levée de 1,4 milliard de dollars pour un acteur européen de la robotique humanoïde est un signal fort : les capitaux qui se concentraient jusqu'ici quasi exclusivement sur Figure AI, Agility Robotics, 1X ou Tesla Optimus commencent à irriguer des challengers hors Silicon Valley. Pour les intégrateurs et les décideurs industriels, la question concrète est celle du sim-to-real gap, que NEURA tente de réduire via son partenariat avec Dassault Systèmes annoncé en avril 2026. Le concept de Neuraverse, où plusieurs robots partagent une intelligence distribuée entre déploiements, s'inscrit dans une tendance plus large des architectures VLA (Vision-Language-Action) à l'échelle fleet, comme l'illustre Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. Les métriques de performance annoncées restent cependant absentes du communiqué, ce qui rend toute comparaison technique avec les concurrents impossible à ce stade. NEURA Robotics a bâti depuis 2019 un réseau de partenaires industriels structurant : Bosch pour le développement logiciel des humanoïdes (janvier 2026), Dassault Systèmes pour la simulation, mais aussi Schaeffler, Kawasaki, Delta Electronics, Qualcomm et NVIDIA pour l'infrastructure edge AI et les composants. Ce positionnement d'écosystème décentralisé tranche avec l'approche verticalement intégrée de Figure ou de Tesla. En Europe, NEURA est aujourd'hui l'acteur humanoïde le mieux capitalisé, loin devant des startups comme Enchanted Tools (France) ou Wandercraft, qui opèrent sur des segments différents (cobots expressifs et exosquelettes médicaux). Les prochaines étapes déclarées portent sur l'accélération du déploiement à l'échelle industrielle et l'ouverture de nouveaux NEURA Gyms à l'international, sans calendrier précis communiqué.

UENEURA Robotics, acteur allemand désormais le humanoïde le mieux capitalisé d'Europe avec 1,4 Md$, implique directement Dassault Systèmes (France) comme partenaire stratégique simulation et repositionne l'UE comme concurrent crédible face aux leaders américains de la robotique humanoïde industrielle.

FR/EU ecosystemeOpinion
1 source
L'équipe Tsinghua-Harvard développe Acorn, un robot « zéro-données » qui apprend par instinct, sans entraînement
18Pandaily 

L'équipe Tsinghua-Harvard développe Acorn, un robot « zéro-données » qui apprend par instinct, sans entraînement

La startup Acorn Robot, cofondée par le Dr. Jiang Yao (doctorat en génie mécanique à Tsinghua, postdoctorat en neurosciences à Harvard), a présenté un robot de manipulation capable d'apprendre des tâches physiques sans aucune donnée d'entraînement préalable, sans trajectoires de démonstration et sans modèle visuel. Le système repose sur un modèle de décision embarqué baptisé "Natus" (pour "instinct-driven behavioral emergence"), qui fonctionne par essais et erreurs en temps réel sur le matériel physique. Le hardware est délibérément minimaliste : une pince industrielle parallèle à 1 degré de liberté, équipée de capteurs tactiles sur ses deux mâchoires en V, sans caméra externe ni connexion cloud. La démonstration présentée montre le robot parvenir à saisir une carte bancaire posée à plat sur une table, un défi reconnu pour les préhenseurs industriels conventionnels, en utilisant une mâchoire comme levier contre le bord de la carte et la surface de la table comme point d'appui. Le système requiert typiquement huit à neuf tentatives pour converger vers cette stratégie. Selon la société, une preuve de concept a été validée chez l'un des principaux fabricants de cosmétiques en Chine, avec un déploiement à l'échelle annoncé. La cible commerciale visée est la fabrication flexible B2B, où l'adaptabilité prime sur le volume de données. L'approche représente une rupture philosophique avec le paradigme dominant de la robotique contemporaine, qui s'appuie massivement sur des données de démonstration, des modèles vision-langage-action (VLA) et de l'apprentissage par simulation. Le Dr. Jiang soutient que les forces de contact imprévisibles et les variations mécaniques entre robots individuels rendent les approches data-driven structurellement fragiles, décrivant la dépendance aux données comme un "puits sans fond impossible à combler" et affirmant qu'il n'existe pas de modèle universel, seulement un modèle optimal pour un robot donné. Pour les intégrateurs industriels et les décideurs en fabrication flexible, le claim est potentiellement significatif : un système capable de s'adapter à une nouvelle tâche physique sans pipeline de collecte de données ni infrastructure cloud réduit le coût de déploiement et le délai de mise en service. Il convient toutefois de nuancer : les huit à neuf tentatives annoncées proviennent d'une vidéo de démonstration sélectionnée, les conditions exactes du déploiement cosmétique ne sont pas détaillées, et la distinction entre preuve de concept validée et déploiement industriel à grande échelle reste à préciser. Acorn Robot s'inscrit dans un paysage robotique mondial où l'essentiel des investissements se concentre sur les humanoïdes dotés de VLA à grande échelle : Figure 03 de Figure AI, Optimus Gen 3 de Tesla, pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. L'approche d'Acorn, centrée sur un préhenseur industriel à faible complexité matérielle plutôt que sur une plateforme humanoïde généraliste, repositionne la question de la généralisation robotique au niveau du comportement émergent plutôt que de la capacité de représentation. La startup appartient à une génération de chercheurs sino-américains explorant des alternatives à l'apprentissage supervisé massif, un espace également investigué par des équipes européennes en robotique cognitive, notamment en France et en Suisse. Les prochaines étapes annoncées portent sur l'extension à d'autres scénarios de fabrication flexible, sans calendrier précis communiqué à ce stade.

Chine/AsiePaper
1 source
Prise de contrôle adversariale en temps réel des politiques de diffusion robotique
19arXiv cs.RO 

Prise de contrôle adversariale en temps réel des politiques de diffusion robotique

Une équipe de chercheurs a publié le 10 juin 2026 sur arXiv (réf. 2606.10371) une attaque baptisée TAKO (Test-time Adversarial Takeover), qui permet de prendre le contrôle en temps réel d'un robot opérant sous une politique de diffusion visuomotrice, sans modifier le modèle cible. La méthode repose sur un vocabulaire restreint de patches adversariaux universels et réutilisables, appris hors ligne via inférence de diffusion différentiable. À l'exécution, un opérateur humain injecte ces patches dans le flux caméra du robot et les commute dynamiquement pour composer des trajectoires de son choix. Sur quatre tâches évaluées (manipulation 2D, livraison aérienne simulée, navigation sol simulée et navigation sol en environnement physique réel), deux encodeurs visuels (ResNet-18 et EfficientNet-B0 + Transformer) et trois familles d'inférence générative (DDPM, DDIM et flow matching), les opérateurs attaquants ont atteint 100 % de succès de détournement dans l'ensemble des scénarios testés. Ce résultat interpelle directement les intégrateurs robotiques et les équipes de sécurité industrielle qui déploient des systèmes pilotés par des politiques de diffusion ou des VLA (Vision-Language-Action models). Jusqu'ici, la quasi-totalité des attaques adversariales sur robots visaient la dégradation des performances, induire un échec de tâche ou un comportement erratique. TAKO introduit une menace qualitativement différente : le robot ne s'arrête pas, il obéit à un attaquant distant. La perturbation agit sur le chemin de conditionnement visuel de la politique, et le biais introduit se propage à travers le processus de génération itératif propre aux modèles de diffusion, ce qui le rend difficile à détecter par supervision classique. Les auteurs démontrent aussi que la baseline naturelle "target-policy matching" échoue, car la politique victime ne peut pas se superviser fiablement sur des shifts hors distribution, invalidant une hypothèse de défense couramment avancée. Les politiques de diffusion pour la robotique se sont imposées comme paradigme dominant depuis 2023, portées par Diffusion Policy (Chi et al.) et intégrées dans des systèmes tels que pi0 de Physical Intelligence, les pipelines de Figure AI ou les robots de 1X Technologies. Ces architectures conditionnent l'action sur une observation visuelle, ce qui les rend structurellement vulnérables aux perturbations du flux caméra. Les pistes de défense habituelles, détection d'anomalies ou purification adversariale, restent largement expérimentales à cette échelle. L'évaluation demeure dans un cadre académique contrôlé, sans partenaire industriel ni calendrier de déploiement annoncé. Pour les équipes préparant des déploiements en logistique, livraison autonome ou manipulation industrielle, TAKO pose une question de sécurité concrète à laquelle le secteur n'a pas encore de réponse standardisée.

UELes intégrateurs robotiques européens déployant des systèmes à politiques de diffusion en logistique ou industrie doivent intégrer ce vecteur d'attaque dans leur modèle de menace, en l'absence de défense standardisée disponible.

RechercheActu
1 source
YUBI : interface bidigitale universelle pour la manipulation dextérique bimanuelle à grande échelle
20arXiv cs.RO 

YUBI : interface bidigitale universelle pour la manipulation dextérique bimanuelle à grande échelle

Des chercheurs ont publié le 10 juin 2026 YUBI (Yielding Universal Bidigital Interface), un préhenseur bi-digital conçu pour la collecte de données bimanuelle dextère à grande échelle. Contrairement aux systèmes pistol-grip comme l'UMI (Universal Manipulation Interface), YUBI adopte un principe d'actionnement dit "yielding" : les mouvements des doigts de l'opérateur sont transcrits directement en mouvement des mâchoires du préhenseur, sans intermédiaire mécanique rigide. Le système intègre un tracking 6 DOF basé sur la réalité virtuelle pour une acquisition de trajectoires haute fidélité. L'équipe a constitué un dataset d'une ampleur inédite dans la littérature : 8 434 heures de démonstrations, 1,20 million d'épisodes répartis sur 119 tâches. Un politique unique entraîné sur ce corpus a été validée sur trois plateformes robotiques bimanuelle distinctes : UR, Franka et ELEY, via simple montage du préhenseur. Ce résultat a une portée directe pour quiconque travaille sur les fondation models robotiques : le bottleneck historique n'est plus le modèle mais la donnée, et YUBI apporte une réponse concrète sur la scalabilité de la collecte. Le fait qu'une seule politique transfère sur trois robots hétérogènes confirme que l'interface impose une représentation suffisamment générique pour servir de supervision directe, sans fine-tuning plateforme-spécifique. C'est un argument fort en faveur de l'approche "data-centric" face aux pipelines sim-to-real, souvent coûteux à valider en conditions industrielles. L'ergonomie améliorée réduit aussi la fatigue opérateur sur les tâches fines, un point non-trivial pour des sessions de collecte longues et répétitives que les démonstrateurs UMI rendaient problématiques. L'UMI, développé à l'Université de Columbia et largement adopté pour sa simplicité et son coût, reste la référence low-cost pour la collecte de données manipulation, mais son grip pistolet montrait ses limites sur les tâches bimanuelle complexes. YUBI s'inscrit dans un mouvement plus large visant à démocratiser la collecte de données pour les robot foundation models, en parallèle d'initiatives comme ACT, Diffusion Policy ou les efforts open-data de Physical Intelligence (Pi-0). L'ensemble du stack est publié en open source : hardware du préhenseur, logiciel de collecte, et dataset complet, ce qui représente une contribution substantielle pour les laboratoires ne disposant pas des moyens de Unitree, Figure AI ou Boston Dynamics pour constituer leurs propres corpus propriétaires. Les prochaines étapes probables incluent l'extension du dataset et l'intégration avec des architectures VLA plus récentes.

UELes laboratoires européens (INRIA, CEA-List, universités) et PME robotiques peuvent directement exploiter le dataset open-source YUBI (8 434 h, 1,2M épisodes) et l'interface hardware pour entraîner des politiques de manipulation sans constituer de corpus propriétaire, avec validation native sur Franka (allemand) et UR (danois).

RechercheOpinion
1 source
BadRobot : contourner les garde-fous des agents LLM incarnés dans le monde physique
21arXiv cs.RO 

BadRobot : contourner les garde-fous des agents LLM incarnés dans le monde physique

Des chercheurs ont publié BadRobot (arXiv:2407.20242, juillet 2024, v5), un cadre d'attaque ciblant les agents IA incarnés (embodied AI) : des robots et systèmes physiques dont la planification de tâches est pilotée par un grand modèle de langage. L'attaque exploite trois vecteurs distincts : la manipulation du LLM embarqué via des interactions vocales standard, le désalignement structurel entre les sorties linguistiques du modèle et les actions physiques réellement exécutées, et les comportements dangereux involontaires causés par des lacunes dans les connaissances du monde encodées dans le modèle. Pour évaluer la menace, les auteurs ont constitué un benchmark de requêtes d'actions physiques malveillantes, testé contre trois frameworks embodied AI de référence : VoxPoser, Code as Policies et ProgPrompt. Les expériences montrent que ces trois systèmes peuvent être amenés à exécuter des comportements nuisibles dans le monde physique, sans nécessiter de modification matérielle ni d'accès privilégié au système. Ce travail pointe un angle mort structurel : les techniques de jailbreaking, jusqu'à présent évaluées sur des sorties textuelles, produisent des conséquences physiques irréversibles lorsque le LLM pilote un effecteur. Le désalignement documenté est systémique, car les guardrails de sécurité sont appliqués à la couche linguistique sans validation cohérente lors de la planification motrice ou de l'exécution de tâches. Pour un intégrateur industriel déployant un robot manipulateur ou un AMR guidé par LLM, cela signifie que les mécanismes de conformité conçus pour les chatbots sont insuffisants en contexte physique. La démonstration sur trois frameworks activement utilisés en recherche et en prototypage industriel renforce la portée opérationnelle de l'alerte. VoxPoser (2023) et Code as Policies (Google, 2022) ont popularisé l'utilisation des LLM comme planificateurs de tâches haut niveau en robotique, tandis que ProgPrompt (2022) ciblait les robots de service autonomes. BadRobot paraît alors que des systèmes commerciaux comme Figure 02, l'Optimus de Tesla ou les robots Agility déployés chez Amazon commencent à intégrer des pipelines LLM en production réelle, rendant la surface d'attaque concrète. Aucun acteur français ou européen n'est directement mentionné dans l'étude, mais des entreprises comme Enchanted Tools (Mirokaï) ou Pollen Robotics (Reachy), qui explorent l'intégration de LLM dans leurs plateformes, sont exposées aux mêmes vecteurs. Les auteurs ont mis leur code en accès libre sur GitHub, ouvrant la voie à des reproductions indépendantes et au développement de contre-mesures architecturales spécifiques à l'embodied AI.

UEEnchanted Tools (Mirokaï) et Pollen Robotics (Reachy), deux acteurs français intégrant des LLM dans leurs plateformes robotiques, sont explicitement cités comme exposés aux mêmes vecteurs d'attaque documentés par BadRobot.

RechercheOpinion
1 source
Contrôle corps entier généraliste et adaptable pour la locomotion de divers humanoïdes
22arXiv cs.RO 

Contrôle corps entier généraliste et adaptable pour la locomotion de divers humanoïdes

Des chercheurs ont publié sur arXiv (référence 2602.05791) un framework baptisé XHugWBC, conçu pour entraîner un contrôleur de locomotion whole-body universel sur une large distribution de morphologies humanoïdes, puis le déployer en zero-shot sur des robots non vus durant l'entraînement. Les expériences couvrent douze humanoïdes simulés et sept robots réels. Le système repose sur trois briques techniques : une randomisation morphologique physiquement cohérente (masse des segments, longueur des membres, inertie), des espaces d'observation et d'action alignés sémantiquement entre châssis hétérogènes, et une architecture de politique qui encode explicitement les propriétés morphologiques et dynamiques de chaque instance. L'entraînement est unique, "one-time training" : aucun fine-tuning par robot n'est requis à l'inférence. L'enjeu industriel est direct. Aujourd'hui, chaque équipe robotique entraîne ses contrôleurs de locomotion depuis zéro pour chaque châssis, ce qui représente des semaines de simulation et d'itérations sim-to-real. XHugWBC déplace ce coût vers une phase d'entraînement généraliste unique, ouvrant la voie à un modèle de déploiement où un intégrateur peut adopter un nouveau châssis humanoïde sans reconstruire l'intégralité de sa stack de contrôle. La validation sur sept robots physiques est plus convaincante que les résultats purement simulés habituels, même si la nature exacte des tâches testées et les taux de succès détaillés ne figurent pas dans le résumé disponible. La capacité de transfert zero-shot sur morphologies inédites renforce l'hypothèse que les biais structuraux appris sur distributions larges surpassent les politiques spécialisées sur certains régimes de locomotion, ce que le secteur débattait encore il y a dix-huit mois. Ce travail s'inscrit dans un mouvement vers les contrôleurs dits "fondation" pour la robotique incarnée. En manipulation, des systèmes comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) ont déjà exploré la généralisation cross-embodiment sur bras et effecteurs; l'extension à la locomotion whole-body humanoïde est plus contrainte par la stabilité dynamique. Les acteurs du secteur, Figure Robotics (Figure 03), Unitree (G1, H1), Agility Robotics (Digit), Fourier Intelligence et 1X Technologies, maintiennent tous des pipelines de contrôle propriétaires et spécialisés. Si XHugWBC tient ses promesses à l'échelle, il réduirait significativement la barrière à l'entrée pour les nouveaux constructeurs, notamment les acteurs européens comme Enchanted Tools (Mirokaï) ou Wandercraft, qui ne disposent pas des ressources d'entraînement des géants américains. Le preprint n'a pas encore fait l'objet d'une évaluation par les pairs.

UELes constructeurs humanoïdes français Wandercraft et Enchanted Tools (Mirokaï) sont explicitement identifiés comme bénéficiaires potentiels, ce framework pouvant réduire significativement leurs coûts d'entraînement de locomotion sans nécessiter les ressources des géants américains.

💬 C'est le genre de papier qui résout un vrai problème industriel : chaque robot humanoïde qui sort oblige aujourd'hui à tout réentraîner depuis zéro. Sept robots physiques en zero-shot, c'est pas du tout la même chose que des résultats simulés, ça valide quelque chose de sérieux. Pour Wandercraft ou Enchanted Tools, bien plus contraints en ressources que Figure ou Unitree, ce type de contrôleur généraliste c'est du concret.

IA physiqueOpinion
1 source
Transfert de trajectoires humain-robot centré sur la main à partir de vidéos via localisation de contacts en monde ouvert
23arXiv cs.RO 

Transfert de trajectoires humain-robot centré sur la main à partir de vidéos via localisation de contacts en monde ouvert

Des chercheurs ont publié sur arXiv (arXiv:2606.10743, juin 2026) HOWTransfer, un cadre algorithmique centré sur la main pour transférer des démonstrations humaines filmées en trajectoires exécutables par un bras robotique. Le système fonctionne en trois étapes : reconstruction 3D temporellement cohérente du mouvement du poignet humain, localisation automatique des intervalles de contact main-objet à partir de cues visuels d'interaction, puis génération d'hypothèses de saisie en pince parallèle (parallel-jaw grasp) propagées le long de la trajectoire du poignet. Une phase finale d'édition raffine l'alignement de contact et produit plusieurs variantes exécutables depuis une seule vidéo de démonstration. Sur un ensemble de tâches de manipulation variées, le système atteint 86 % de taux de succès et est préféré aux trajectoires téléopérées dans une étude comparative en aveugle. Ce résultat mérite attention parce qu'il attaque directement le goulot d'étranglement principal du learning from demonstration (LfD) : collecter suffisamment de données de qualité. La téléopération reste coûteuse, lente et non scalable en industrie ; si un système peut extraire des trajectoires robotes directement depuis des vidéos de travailleurs humains filmés sur une chaîne d'assemblage ou en entrepôt, le coût d'entrée pour déployer de la manipulation apprise s'effondre. Fait notable : HOWTransfer ne s'appuie pas sur des descripteurs d'objets prédéfinis ni sur un tracking d'état explicite, ce qui le rend potentiellement généraliste sur des objets non vus. Le 86 % de succès annoncé est encourageant, mais les conditions expérimentales exactes (diversité des objets, profondeur de la caméra, nombre de tâches, robot cible) ne sont pas précisées dans le résumé, ce qui justifie une lecture du papier complet avant toute intégration industrielle. Le transfert de démonstration humaine vers robot via vidéo est un domaine en pleine effervescence depuis 2022-2023, porté par des travaux comme DROID, RoboAgent ou les approches VLA (Vision-Language-Action) de Google DeepMind et Physical Intelligence (Pi-0). HOWTransfer se distingue en adoptant une approche sans modèle de langage ni segmentation objet, ce qui le rend plus léger mais aussi plus fragile sur les scènes encombrées. Aucune affiliation industrielle ni partenariat de déploiement n'est mentionné : il s'agit pour l'instant d'un preprint académique, pas d'un produit. Les prochaines étapes naturelles seraient une validation sur des robots commerciaux (Franka, UR, ou humanoïdes comme Figure 03 ou Unitree G1) et une évaluation sur des benchmarks standardisés comme RLBench ou LIBERO pour situer la performance par rapport à l'état de l'art.

RecherchePaper
1 source
Une méthode pratique pour améliorer la corrélation simulation-réel dans l'évaluation des modèles VLA
24arXiv cs.RO 

Une méthode pratique pour améliorer la corrélation simulation-réel dans l'évaluation des modèles VLA

Une équipe de chercheurs a publié en juin 2026 sur arXiv (arXiv:2606.10366) une étude systématique visant à quantifier et améliorer la corrélation entre évaluation en simulation et déploiement réel pour les politiques de type VLA (Vision-Language-Action). Ces politiques, qui combinent perception visuelle, compréhension du langage naturel et génération d'actions motrices, sont au coeur des robots généralistes actuels. L'étude couvre plusieurs plateformes de simulation, plusieurs politiques VLA, plusieurs familles de tâches manipulatoires, et plusieurs facteurs de perturbation contrôlés. Les métriques retenues sont la cohérence du classement des politiques entre simulation et réel, la corrélation de performance absolue, et les patterns d'échec induits par perturbation. Les auteurs examinent également à quel moment le fine-tuning d'une politique sur données simulées améliore réellement les performances en monde réel, et comment le volume de données post-entraînement influence cet alignement. Ce travail s'attaque à un verrou identifié de longue date dans la robotique apprise : les benchmarks en simulation, malgré des progrès significatifs en réalisme et diversité ces deux dernières années, ne sont pas encore adoptés comme proxies fiables pour l'évaluation hors-lab. En pratique, cela signifie que les équipes d'intégration et les labs reproduisent des évaluations coûteuses en monde réel à chaque itération de politique, faute de pouvoir faire confiance aux scores simulés. L'étude identifie quels signaux simulés restent alignés avec le déploiement réel et lesquels divergent, donnant aux praticiens une grille de lecture concrète pour calibrer leur utilisation de la simulation dans le pipeline de développement. Le problème du sim-to-real gap accompagne la robotique apprise depuis les travaux fondateurs sur le domain randomization (OpenAI, 2017-2019), mais il devient critique à mesure que les VLA cherchent à passer à l'échelle industrielle. Des acteurs comme Physical Intelligence (Pi-0), Google DeepMind (RT-X, GR00T N2 côté Nvidia), ou encore Figure AI avec Figure 03 s'appuient tous sur des pipelines simulation-réel pour accélérer l'entraînement. En proposant un cadre unifié pour mesurer, interpréter et améliorer l'utilité de la simulation pour les VLA, ce papier vise à fournir une référence méthodologique commune, à la fois pour les concepteurs de simulateurs et pour les praticiens. Les prochaines étapes logiques incluent l'intégration de ces recommandations dans des benchmarks publics existants tels que RoboVerse ou LIBERO.

UEImpact indirect : ce cadre méthodologique pourrait réduire les coûts d'évaluation réelle répétée pour les équipes R&D européennes travaillant sur des politiques VLA.

RechercheOpinion
1 source
HandCept : un cadre de fusion visuo-inertielle pour la proprioception précise des mains dextériques
25arXiv cs.RO 

HandCept : un cadre de fusion visuo-inertielle pour la proprioception précise des mains dextériques

Une équipe de chercheurs a publié sur arXiv en mai 2025 (référence 2505.08213) HandCept, un framework de proprioception visuo-inertielle pour mains dextres robotiques. Le système combine une caméra RGB-D montée au poignet et des IMU à 9 axes (accéléromètre, gyroscope, magnétomètre) pour estimer les angles articulaires en temps réel, via un filtre de Kalman étendu (EKF) sans latence ajoutée. Les erreurs d'estimation se situent entre 2° et 4° sur les angles articulaires, sans dérive observable sur la durée, surpassant selon les auteurs les approches purement visuelles ou purement inertielles. L'approche repose sur un apprentissage zero-shot, sans données réelles annotées, rendu possible par un pipeline de rendu photoréaliste haute fidélité sous Blender, publié en open-source sur GitHub. La proprioception, c'est-à-dire la capacité d'une main robotique à connaître précisément la position de ses propres doigts, reste l'un des verrous techniques de la manipulation dextre généraliste. Les encodeurs magnétiques et capteurs de force embarqués dans des mains multi-DOF imposent des contraintes de volume, de câblage et de calibration souvent incompatibles avec un déploiement à l'échelle. HandCept contourne ces limites en s'appuyant sur des capteurs déjà présents dans de nombreuses plateformes humanoïdes ou cobots, et la fusion EKF temps réel réduit le fossé sim-to-real, point critique pour accélérer le déploiement de politiques d'imitation learning ou de VLA (Vision-Language-Action) apprises en simulation. La précision annoncée de 2 à 4° reste toutefois à contextualiser: les résultats sont issus de conditions de laboratoire contrôlées et le papier n'a pas encore été évalué par les pairs. La course à la manipulation dextre s'est intensifiée en 2024-2025 avec des mains à haute densité d'actionneurs chez Figure (Figure 03), Sanctuary AI, Physical Intelligence (pi0), ou encore LEAP Hand côté recherche ouverte. La précision proprioceptive conditionne directement les performances de ces architectures. HandCept reste à ce stade un résultat de laboratoire: les auteurs n'annoncent ni partenaire industriel, ni timeline de commercialisation, ni intégration sur une plateforme humanoïde spécifique. Le pipeline Blender open-sourcé constitue néanmoins une contribution tangible pour la communauté, en facilitant la génération de données synthétiques pour d'autres équipes travaillant sur des architectures similaires sans accès à un système de capture de mouvement coûteux.

RecherchePaper
1 source
Les robots humanoïdes chinois font sensation sur Internet comme influenceurs à l'étranger
26Pandaily 

Les robots humanoïdes chinois font sensation sur Internet comme influenceurs à l'étranger

Le robot humanoïde G1 de Unitree Robotics est devenu en quelques semaines un phénomène viral mondial, déployé dans des contextes radicalement différents selon les pays. En Corée du Sud, un G1 a été ordonné moine bouddhiste au temple Jogyesa de Séoul sous le nom de "Gabi", revêtu d'une robe monastique grise et d'un chapelet, ayant reçu les cinq préceptes dont l'interdiction de "surcharger" -- précepte que les journalistes coréens ont vérifié techniquement, confirmant que le BMS du robot coupe effectivement la charge automatiquement. Au Japon, le temple Seirenji de Kyoto héberge un "Buddharoid" basé sur la même plateforme G1, équipé d'un LLM entraîné sur des sutras et couplé à ChatGPT, capable de mener des séances de conseil individuel avec les visiteurs. En Pologne, un G1 baptisé "Edek" déambule dans Varsovie avec un sac à dos Adidas et une Rolex ornée de diamants, générant du contenu viral en simulant des commandes chez McDonald's, en intervenant à la radio nationale et en prononçant des discours au parlement polonais. Aux États-Unis, "Jake", un G1 customisé en "bro" de l'ère IA avec chapeau de cowboy et chaîne en argent, a déclenché une controverse après une altercation physique avec le streameur IShowSpeed, aboutissant à des accusations d'agression et à une plainte en justice à hauteur d'un million de dollars déposée par sa société de management, RizzBot. Ces déploiements révèlent une dynamique inattendue : le G1 de Unitree, commercialisé autour de 16 000 dollars, s'avère suffisamment accessible pour que des acteurs indépendants -- temples, créateurs de contenu, agences de divertissement -- l'intègrent sans soutien industriel lourd. Le robot humanoïde devient ainsi un vecteur de présence culturelle avant d'être un outil de productivité. Pour les décideurs et intégrateurs, ce phénomène signale que la barrière à l'adoption n'est plus uniquement technique ou financière, mais narrative : le premier humanoïde qui capte l'attention devient une référence de marché, indépendamment de ses capacités réelles en manipulation ou locomotion. Ces usages ne prouvent pas la résolution du sim-to-real gap ni la viabilité industrielle -- les vidéos restent sélectionnées, les environnements contrôlés -- mais ils démontrent que la forme humanoïde génère une adhésion sociale difficile à obtenir avec les AMR classiques. Unitree Robotics, fondée en 2016 à Hangzhou, s'est imposée dans le segment des robots quadrupèdes bon marché avant de lancer le G1 en 2024 comme humanoïde d'entrée de gamme. La société évolue dans un écosystème concurrentiel dense : Figure AI (Figure 03), Boston Dynamics (Atlas), 1X Technologies, et côté chinois Agibot, Fourier Intelligence et UBTECH, tous positionnés sur des segments industriels avec des arguments de payload et de robustesse que le G1 ne revendique pas. La stratégie de Unitree semble délibérément différente -- volume, prix, accessibilité -- et ces déploiements viraux, qu'ils soient spontanés ou orchestrés, construisent une notoriété mondiale qui précède toute annonce de pilote industriel formel.

UEUn acteur indépendant polonais déploie déjà le G1 d'Unitree à Varsovie, signalant que la barrière financière à l'adoption d'humanoïdes en Europe est passée sous 20 000€ et accessible à des non-industriels.

Chine/AsieOpinion
1 source
NVIDIA et LG Group construisent une usine IA pour entraîner des robots et alimenter la mobilité du futur
27Interesting Engineering 

NVIDIA et LG Group construisent une usine IA pour entraîner des robots et alimenter la mobilité du futur

NVIDIA et le groupe sud-coréen LG ont annoncé lors du Computex 2026 un partenariat stratégique multisectoriel visant à construire un écosystème d'intelligence artificielle physique couvrant la robotique industrielle, les robots domestiques, la mobilité autonome et les infrastructures de calcul. La collaboration mobilise plusieurs entités du conglomérat LG : LG Electronics, LG CNS, LG Innotek, LG Uplus et LG Energy Solution, chacune apportant un périmètre spécifique. Concrètement, LG prévoit de déployer NVIDIA Isaac Sim et Isaac Lab dans ses workflows robotique pour entraîner ses robots domestiques en environnements virtuels avant tout déploiement physique, et d'explorer le modèle de fondation GR00T pour renforcer leurs capacités de raisonnement. LG Electronics construit par ailleurs ce qu'il appelle une "data factory pour l'IA physique", utilisant les world models NVIDIA Cosmos pour générer des datasets synthétiques destinés à la robotique et à l'automatisation industrielle. Sur le volet infrastructure, LG Uplus s'engage à construire des centres de données à grande échelle compatibles avec les dernières générations de GPU NVIDIA, LG Electronics travaillera sur des technologies de refroidissement liquide alignées avec la plateforme NVIDIA DSX, et LG Energy Solution évalue des architectures d'alimentation en courant continu 800 volts pour les installations nouvelle génération. L'intérêt de ce partenariat pour les décideurs industriels tient moins à l'annonce elle-même qu'à ce qu'elle révèle sur la maturité du cycle de développement robotique. L'adoption d'Isaac Sim comme environnement d'entraînement primaire signale que le sim-to-real gap, longtemps le principal obstacle au déploiement à grande échelle, est considéré comme suffisamment maîtrisé pour structurer une chaîne industrielle dessus. La création d'une data factory synthétique répond à l'un des goulots d'étranglement les plus critiques du secteur : la rareté des données labellisées de qualité pour entraîner des VLA (Vision-Language-Action models). Pour les intégrateurs et les COO industriels, le message est que les outils de simulation et les modèles de fondation convergent vers une stack unifiée, ce qui devrait réduire les coûts et délais de portage de nouvelles applications robotiques. Il convient toutefois de noter que l'annonce reste au stade de la feuille de route : aucun chiffre de déploiement, aucun timeline de livraison ni prix n'ont été communiqués. Le contexte de ce rapprochement est celui d'une course mondiale à l'IA physique dans laquelle NVIDIA cherche à s'imposer comme couche d'infrastructure universelle face à des concurrents comme Boston Dynamics Atlas (désormais intégré chez Hyundai), Figure AI avec son modèle Helix, ou encore Physical Intelligence (pi-0) côté recherche. LG, de son côté, investit depuis plusieurs années dans la robotique de service avec ses robots CLOi, sans avoir encore atteint une adoption commerciale significative. Le groupe fait aussi face à la pression de concurrents coréens comme Samsung, qui développe ses propres robots domestiques avec Ballie. Les prochaines étapes annoncées incluent l'intégration des technologies NVIDIA DRIVE dans les systèmes ADAS de LG Electronics pour les véhicules définis par logiciel, et le déploiement de la plateforme d'automatisation industrielle de LG CNS enrichie de briques NVIDIA. La concrétisation de ces engagements sur les 12 à 24 prochains mois sera le véritable indicateur de la profondeur du partenariat.

UECe partenariat accélère la convergence vers une stack NVIDIA (Isaac Sim, GR00T, Cosmos) comme infrastructure d'entraînement robotique de référence, forçant les intégrateurs et OEM européens à évaluer leur alignement avec cet écosystème dans leurs roadmaps 2026-2027.

💬 Le truc intéressant, c'est pas le deal NVIDIA-LG, c'est ce qu'il révèle : le sim-to-real gap est maintenant considéré comme suffisamment sous contrôle pour construire une filière industrielle dessus. Isaac Sim comme environnement d'entraînement primaire dans une data factory à l'échelle d'un conglomérat coréen, ça signale un vrai changement de maturité, pas juste un POC de plus. Sur le papier, du moins, parce qu'aucun chiffre ni calendrier n'a filtré.

IA physiqueOpinion
1 source
MIIT et SASAC lancent l'initiative 2026 d'entraînement des robots humanoïdes en conditions réelles
28Pandaily 

MIIT et SASAC lancent l'initiative 2026 d'entraînement des robots humanoïdes en conditions réelles

Le ministère chinois de l'Industrie et des Technologies de l'Information (MIIT) et la Commission de surveillance des actifs d'État (SASAC) ont publié conjointement, en juin 2026, un plan d'action national intitulé "Action spéciale pour la formation en scénarios réels des robots humanoïdes et de l'IA embodied". L'objectif affiché : d'ici fin 2026, les humanoïdes et leurs composants clés devront avoir achevé leur vérification applicative et basculer en "mode opérationnel" dans des environnements industriels, de services ou spécialisés. Le plan cible l'identification de plus de 100 scénarios à haute valeur et une capacité de déploiement à l'échelle de 10 000 unités. Les autorités provinciales sont tenues de sélectionner au moins 20 scénarios couvrant deux des trois domaines prioritaires ; les grandes entreprises centrales d'État doivent en identifier au moins 10 dans leurs secteurs respectifs. Le dispositif impose la création de consortiums d'innovation applicative regroupant utilisateurs finaux, fabricants, développeurs d'algorithmes et instituts de recherche. Ces consortiums devront produire des jeux de données d'IA embodied couvrant trajectoires de mouvement, courbes de contrôle force-position et séquences d'exécution de tâches, ainsi que des "packages de compétences" issus d'entraînements en conditions réelles. Des mécanismes de financement incluant equity, dette et assurance complètent le dispositif. Ce plan est la feuille de route gouvernementale la plus structurée publiée par Pékin sur l'industrialisation des humanoïdes, mais l'objectif de 10 000 unités déployées d'ici décembre 2026 est ambitieux, plusieurs observateurs le jugeant irréaliste compte tenu des délais habituels entre annonce politique et opérationnel réel. Ce qui est plus significatif, c'est la logique consortiale imposée : en forçant la coopération entre intégrateurs, fabricants et chercheurs autour de scénarios concrets, l'État tente d'accélérer le passage de la démo en laboratoire à l'usage en production. La prescription explicite de datasets couvrant les courbes force-position signale que Pékin cible directement le verrou du sim-to-real, encore non résolu à l'échelle industrielle. Pour un COO ou un intégrateur, cela signifie qu'un écosystème subventionné et doté d'obligations de résultat se structure en Chine avec des délais contractuels précis. Cette initiative prolonge la stratégie "Made in China 2025" et les plans successifs sur la robotique avancée. Les acteurs nationaux directement visés incluent Unitree (H1, G1), UBTECH (Walker S), Agibot et Fourier Intelligence, qui ont tous conduit des tests industriels en 2024-2025. Sur le plan international, la concurrence se structure autour de Figure AI (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (Pi-0) et Nvidia (GR00T N2), tous revendiquant des déploiements pilotes en environnements réels. En Europe, Wandercraft et Enchanted Tools restent positionnés sur des segments distincts, l'exosquelette médical et la robotique de service, sans concurrence directe sur le créneau industriel visé par ce plan. Les prochaines étapes dépendront de la capacité des consortiums à produire des résultats mesurables avant l'échéance de fin 2026.

UELa structuration d'un écosystème humanoïde subventionné en Chine avec des obligations de résultat contractuels accroît la pression concurrentielle sur les acteurs européens, bien que Wandercraft et Enchanted Tools restent positionnés sur des segments (exosquelette médical, robotique de service) non directement visés par ce plan industriel.

Chine/AsieOpinion
1 source
RLWRLD et Nvidia lancent DexBench pour standardiser la dextérité des robots humanoïdes
29Robotics & Automation News 

RLWRLD et Nvidia lancent DexBench pour standardiser la dextérité des robots humanoïdes

RLWRLD, une startup spécialisée en IA physique, a annoncé en partenariat avec Nvidia le lancement de DexBench, un benchmark universel destiné à standardiser l'évaluation des capacités de dextérité des robots humanoïdes. L'initiative repose sur trois axes : DexBench en tant que référentiel d'évaluation commun, un standard de données pour l'entraînement à la manipulation dextre, et une intégration native aux frameworks open-source Nvidia Isaac Lab et Isaac Lab-Arena. Aucune date de disponibilité publique ni métriques de performance n'ont été communiquées à ce stade -- il s'agit d'une annonce de feuille de route, pas d'un produit shipped. L'absence de standard commun pour mesurer la dextérité est l'un des obstacles majeurs à la comparaison objective entre systèmes humanoïdes. Sans référentiel partagé, chaque constructeur publie ses propres métriques dans des conditions contrôlées, ce qui rend les comparaisons entre Figure 03, Optimus, Unitree ou 1X quasi impossibles pour les intégrateurs industriels. DexBench vise à combler ce vide en établissant des protocoles reproductibles, ce qui pourrait accélérer la qualification de robots pour des tâches d'assemblage ou de picking en milieu non structuré. RLWRLD s'inscrit dans un écosystème naissant autour des fondations de simulation Nvidia, qui positionne Isaac Lab comme infrastructure commune pour le sim-to-real dans la robotique humanoïde. Des acteurs comme Physical Intelligence (Pi-0), Agility Robotics ou Boston Dynamics s'appuient également sur des pipelines de simulation propriétaires. Le choix de standardiser via un framework open Nvidia plutôt qu'un consortium neutre (comme ROS 2 ou IEEE) est un pari sur l'adoption par l'écosystème Jetson/Omniverse -- une dynamique à surveiller face aux initiatives concurrentes en Europe.

UELa standardisation de l'évaluation de la dextérité pourrait indirectement bénéficier aux intégrateurs industriels européens, mais aucun acteur FR/EU n'est impliqué et l'initiative demeure au stade de feuille de route sans métriques ni date de disponibilité.

HumanoïdesOpinion
1 source
Évaluation des modèles vision-langage-action (VLA) sur SO-101 : analyse des échecs et de la récupération
30arXiv cs.RO 

Évaluation des modèles vision-langage-action (VLA) sur SO-101 : analyse des échecs et de la récupération

Une équipe de chercheurs a publié le 10 juin 2026 (arXiv:2606.08881) un benchmark standardisé pour évaluer des modèles Vision-Language-Action (VLA) sur le robot SO-101, une plateforme manipulatrice à faible coût issue de la communauté open-source. Quatre politiques ont été comparées sur quatre tâches de manipulation représentatives avec des protocoles d'évaluation unifiés : Pi-0.5 (Physical Intelligence), SmolVLA (HuggingFace), Wall-X et ACT (Action Chunking with Transformers, référence en imitation learning). Toutes ont été fine-tunées directement sur le matériel physique à partir de démonstrations télé-opérées en conditions réelles, sans passer par la simulation. Au-delà du simple taux de succès binaire, l'étude introduit une taxonomie structurée des échecs, une décomposition sémantique et d'exécution, ainsi que des métriques de récupération (recovery-aware metrics) pour qualifier la robustesse de chaque architecture. Les résultats confirment que les VLA pré-entraînés sur de larges corpus surpassent globalement la baseline en imitation learning pure, mais cette supériorité reste fortement dépendante de la tâche. Ce point est crucial pour les intégrateurs : l'instabilité d'exécution, et non les erreurs de compréhension sémantique, constitue la source d'échec dominante. La capacité de récupération varie significativement selon les architectures, ce qui suggère que les benchmarks centrés uniquement sur le taux de succès final masquent des différences opérationnelles importantes. Pour un COO industriel, cela signifie que le choix d'un modèle VLA ne peut pas se faire sur des métriques agrégées sans analyser le comportement en cas d'échec partiel. Le SO-101 s'est imposé comme plateforme de référence communautaire grâce à son coût accessible, là où la plupart des évaluations VLA existantes reposent sur des robots industriels onéreux (Franka, UR, Boston Dynamics Spot) ou restent cantonnées à la simulation. Ce travail s'inscrit dans un effort plus large de démocratisation des benchmarks robotiques, face à des acteurs comme Figure AI, Agility Robotics ou 1X Technologies qui évaluent leurs systèmes en environnements propriétaires non reproductibles. Les auteurs positionnent explicitement le SO-101 comme socle pratique pour l'évaluation de l'IA incarnée dans des conditions de déploiement réalistes à faible coût. La prochaine étape naturelle serait d'étendre ce protocole à des scénarios de manipulation plus complexes et à davantage d'architectures VLA émergentes, notamment celles intégrant des retours haptiques.

UESmolVLA de HuggingFace (entreprise française) est directement comparé à Pi-0.5, Wall-X et ACT dans ce benchmark standardisé, offrant une visibilité internationale sur les forces et faiblesses du modèle français face aux architectures VLA concurrentes.

FR/EU ecosystemeActu
1 source
Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes
31arXiv cs.RO 

Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes

Une équipe de chercheurs a publié le 9 juin 2026 sur arXiv (2606.08278) SIMPLE, un banc de test de simulation unifié pour l'apprentissage et l'évaluation de politiques de contrôle de robots humanoïdes. La plateforme couple la simulation de dynamique de contact de MuJoCo avec le rendu photoréaliste d'IsaacSim, et propose 60 tâches de loco-manipulation plein corps, 50 scènes d'intérieur et plus de 1 000 assets d'objets. Pour la collecte de données, deux pipelines sont intégrés : génération automatisée de trajectoires par planification de mouvement, et interface de téléopération VR à faible latence. Les auteurs y benchmarkent plusieurs familles de politiques humanoïdes : réseaux d'imitation légers, grands modèles vision-langage-action (VLA) et les récents modèles d'action du monde (WAM, World Action Models). Les expériences démontrent, selon les auteurs, un transfert zero-shot vers des robots humanoïdes physiques dans des configurations similaires. L'enjeu central est un goulot d'étranglement d'évaluation : les modèles fondationnels humanoïdes progressent plus vite que les protocoles pour les tester. Les benchmarks existants se concentrent sur la robotique de table ou les robots à roues, sans couvrir la loco-manipulation plein corps, compétence clé pour les humanoïdes déployés en environnement industriel ou domestique. Si la corrélation sim-to-real revendiquée dans l'article se confirme à plus grande échelle, elle légitime le recours massif à la simulation pour entraîner des politiques de contrôle, réduisant drastiquement les coûts de collecte de données en conditions réelles. C'est précisément le pari industriel de Physical Intelligence avec pi-0, et de Figure AI avec Figure 02 : remplacer les démos téléopérées coûteuses par des pipelines simulés reproductibles. La fragmentation des benchmarks est un problème structurel en robotique humanoïde : chaque laboratoire publie sur ses propres protocoles, rendant toute comparaison inter-équipes difficile. Des initiatives comme HumanoidBench, RoboVerse ou Isaac Lab ont tenté d'y répondre, mais sans couvrir la chaîne complète loco-manipulation avec rendu photoréaliste et pipelines de données intégrés. SIMPLE se positionne à cette intersection. Les équipes de Google DeepMind (GR00T N2, Helix), Agility Robotics (Digit) et Boston Dynamics sont directement concernées. Ce preprint arXiv n'est pas encore évalué par les pairs ; l'adoption par la communauté dépendra de la disponibilité publique du code et des assets, non encore confirmée.

RecherchePaper
1 source
VAIC : contrôle humanoïde agile d'interaction avec des objets par vision et commandes découplées
32arXiv cs.RO 

VAIC : contrôle humanoïde agile d'interaction avec des objets par vision et commandes découplées

Des chercheurs ont publié en juin 2026 sur arXiv (référence 2606.09286) VAIC, un cadre de contrôle unifié pour robots humanoïdes capable d'interagir avec des objets en milieu non structuré. La contribution principale est l'élimination de deux hypothèses restrictives qui limitent la transposition terrain des contrôleurs existants : les trajectoires de référence denses et l'observabilité complète de l'état. VAIC opère exclusivement à partir d'un flux de profondeur embarqué et de la proprioception historique, via une interface de commandes découplées composée de cibles de vitesse multi-axes et d'un indicateur d'interaction par segment corporel. L'apprentissage suit un paradigme de distillation en deux étapes : une politique "enseignant" privilégiée, entraînée avec accès complet à la cinématique des objets et à l'état environnemental exact, transfère ses compétences à une politique "étudiant" déployable qui reconstruit implicitement la dynamique des objets depuis le flux de profondeur brut via un module d'adaptation récurrent. Sur robot humanoïde (non nommé dans le preprint), cette politique unique exécute en conditions réelles trois familles de tâches dynamiques : transport de carton, interaction avec un chariot, et skateboard, surpassant selon les auteurs les approches baseline comparées. Ce résultat, s'il se confirme à plus grande échelle, adresse directement le "deployment gap" qui freine la commercialisation des humanoïdes : la quasi-totalité des démos publiques repose encore sur des systèmes de capture de mouvement externe ou sur des objets instrumentés avec tracking précis. Proposer une politique unique généraliste, sans trajectoires de référence et fonctionnant sur capteurs embarqués bas coût, réduirait significativement la friction d'intégration pour les opérateurs industriels et les intégrateurs robotiques. La distillation enseignant-étudiant avec module d'adaptation récurrent n'est pas une architecture inédite, mais son application à des tâches aussi hétérogènes sur un humanoïde réel constitue un pas mesurable vers la généralisation. À noter que le preprint ne fournit ni métriques de cycle time par tâche, ni taux de succès quantifiés, ni spécification du robot utilisé, ce qui limite l'évaluation indépendante des performances annoncées. Ce travail s'inscrit dans une course aux contrôleurs généralisés qui oppose des équipes académiques (Berkeley, CMU, ETH Zurich) aux acteurs commerciaux : Figure Robotics avec son pipeline VLA sur Figure 02/03, Physical Intelligence et sa politique Pi-0, 1X Technologies et Unitree, tous actifs simultanément sur le sim-to-real et les architectures polyvalentes. L'approche de VAIC, centrée sur la profondeur et la proprioception plutôt que sur les vision-language models à grande échelle, constitue un positionnement différenciant en termes de coût de calcul embarqué et de simplicité sensorielle. Aucun partenariat industriel ni calendrier de déploiement n'est annoncé dans ce preprint : il s'agit à ce stade d'une démonstration de recherche, dont la validation sur plusieurs plateformes robotiques et environnements variés reste entièrement à mener.

RecherchePaper
1 source
Récupération après chute sur terrains variés par apprentissage à phases et terrains découplés
33arXiv cs.RO 

Récupération après chute sur terrains variés par apprentissage à phases et terrains découplés

Des chercheurs proposent une méthode de récupération après chute pour robots humanoïdes sur terrains variés, publiée en juin 2026 sur arXiv (identifiant 2606.08922). Baptisée PTDL (Phase-Terrain Decoupled Learning), elle cible un problème concret : un humanoïde tombé sur du gravier, une pente ou un sol inégal doit non seulement se relever, mais reprendre immédiatement une marche dirigée par commande de vitesse, sans capteurs externes ni étiquettes de terrain fournies au moment de l'exécution. La validation porte sur le Unitree G1, humanoïde commercial de 29 degrés de liberté, testé en simulation et sur robot réel, sur sol plat, gravier et inclinaisons allant jusqu'à 20 degrés. L'architecture de PTDL repose sur une double décorrélation. Sur l'axe des phases, des discriminateurs de mouvement à double prior conditionnés par la gravité projetée lient la récupération post-chute à la reprise de locomotion normale. Sur l'axe des terrains, un façonnage de récompense stratifié par surface applique des supervisions d'entraînement spécifiques à chaque sol, labels qui sont ensuite retirés à la politique au déploiement : le robot développe des comportements de lever implicitement adaptés à chaque surface, sans qu'on lui indique sur quoi il repose. Les méthodes antérieures s'arrêtaient généralement au lever quasi-statique ou entraînaient une politique de compromis dégradée face à la diversité des terrains. PTDL enchaîne récupération et reprise de marche sous une seule politique proprioceptive unifiée, ce qui est directement pertinent pour tout déploiement en environnement industriel non structuré où la chute n'est pas une exception mais une probabilité réelle. Le G1 de Unitree Robotics (Shenzhen) est devenu en 2024-2025 une plateforme de référence pour la recherche en locomotion humanoïde, notamment grâce à son accessibilité tarifaire (environ 16 000 USD). La récupération après chute reste un angle mort notoire dans la course humanoïde actuelle : Figure AI (Figure 03), Boston Dynamics (Atlas), Agility Robotics (Digit) et Tesla (Optimus) se concentrent principalement sur les démonstrations de marche et de manipulation, peu sur les protocoles de résilience post-chute. Ce preprint arXiv n'annonce pas de déploiement industriel immédiat et n'a pas encore subi de révision par les pairs, mais il ouvre une piste méthodologique solide : entraîner sur des terrains stratifiés tout en maintenant une politique unifiée à l'inférence, une approche transposable à d'autres défis de robustesse en conditions réelles.

RecherchePaper
1 source
ActProbe : sonde dans l'espace d'action pour la détection précoce des défaillances des politiques robotiques génératives
34arXiv cs.RO 

ActProbe : sonde dans l'espace d'action pour la détection précoce des défaillances des politiques robotiques génératives

Des chercheurs ont publié ActProbe (arXiv:2606.08508), un détecteur de défaillances léger pour les politiques robotiques génératives, ces systèmes qui produisent des séquences d'actions continues comme les politiques de diffusion ou les architectures ACT déployées sur des robots tels que Figure 03 ou entraînés avec pi-0. Plutôt que d'accéder aux états internes du modèle ou d'introduire un rééchantillonnage coûteux à l'exécution, ActProbe opère exclusivement sur les chunks d'actions émis lors d'un seul passage avant (forward pass). Deux signaux suffisent : l'erreur de cohérence temporelle (TCE), qui mesure l'incohérence entre deux chunks consécutifs, et l'amplitude du chunk courant (ACM). Ces métriques alimentent une architecture LSTM-MLP légère conditionnée par la tâche, produisant une probabilité de défaillance par étape. Sur un ensemble diversifié de benchmarks, ActProbe améliore le front de Pareto précision (F1)/précocité d'un gain en hypervolume de +12,7 % par rapport aux méthodes existantes, et affiche un avantage de +9,0 % en ROC-AUC sur des tâches non vues à l'entraînement. L'intérêt opérationnel tient à une contrainte réelle : les politiques commerciales comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) ne donnent pas accès à leurs états internes. Un détecteur purement black-box est donc la seule option viable en déploiement industriel. ActProbe émet ses alertes avant que la défaillance ne soit visuellement reconnaissable, ce qui est critique pour interrompre une action irréversible avant qu'elle ne soit engagée. Côté fine-tuning par renforcement (PPO), le système réduit de 2,9 fois le nombre d'interactions nécessaires avec l'environnement, un gain direct lorsque chaque interaction implique un robot physique. Le transfert sur des tâches de saisie réelles non vues lors de l'entraînement valide la généralisation hors simulateur. ActProbe s'inscrit dans les travaux ciblant le fossé entre démonstration en laboratoire et déploiement à l'échelle, l'obstacle central à la commercialisation des robots généralistes depuis 2023. Les approches concurrentes, qu'elles reposent sur le monitoring d'incertitude interne ou sur des signaux côté observation, souffrent d'un manque d'accès aux internals ou d'une latence incompatible avec le temps réel. La prochaine étape logique serait l'intégration dans des boucles de contrôle réactives pour robots humanoïdes industriels, terrain où Figure AI, Apptronik et Agility Robotics accélèrent leurs déploiements en entrepôt en 2026. ActProbe reste à ce stade une publication académique préliminaire, sans produit ni partenariat industriel annoncé.

RechercheOpinion
1 source
Une entreprise chinoise va déployer 100 robots humanoïdes dans des foyers pour les tâches quotidiennes
35Interesting Engineering 

Une entreprise chinoise va déployer 100 robots humanoïdes dans des foyers pour les tâches quotidiennes

La société chinoise GigaAI, basée à Wuhan, a déployé un premier lot de 100 robots humanoïdes SeeLight S1 dans des foyers réels, dans ce que l'entreprise présente comme le premier test à grande échelle d'un robot humanoïde polyvalent à usage domestique en Chine. Dans un appartement de démonstration à Wuhan, deux unités ont exécuté une série de tâches documentées fin mai 2026: l'une a préparé un petit-déjeuner (récupération d'aliments, chauffe au micro-ondes, débarrassage des couverts, chargement du lave-vaisselle), l'autre a sorti le linge d'un sèche-linge, plié des vêtements et rangé une armoire. Selon GigaAI, ces séquences ont été apprises en moins d'un mois de formation sur site. Le SeeLight S1 repose sur ce que l'entreprise appelle un "modèle de fondation incarné" (embodied foundation model), capable de traiter des instructions en langage naturel, d'interpréter son environnement visuel, de planifier une action et de l'exécuter de manière autonome, y compris lorsque la disposition des meubles change en cours de route. Ce déploiement illustre le changement de paradigme central dans la course humanoïde: passer de la démonstration contrôlée au test en conditions réelles, là où réside précisément la difficulté. Contrairement aux environnements d'usine, structurés et prévisibles, les foyers sont imprévisibles: meubles déplacés, objets laissés hors de leur place, conditions lumineuses variables, routines différentes d'un foyer à l'autre. Ce phénomène, connu sous le nom de paradoxe de Moravec, explique pourquoi des tâches en apparence simples comme plier du linge ou saisir un objet sans le renverser restent plus difficiles à automatiser que des problèmes mathématiques complexes. Les limites constatées lors du déploiement sont significatives et méritent d'être signalées: organiser quelques livres peut prendre plusieurs minutes, plier un seul vêtement peut dépasser dix minutes, et le robot a eu des difficultés à manipuler des verres contenant des liquides. GigaAI qualifie elle-même ce déploiement de "plateforme de collecte de données" plutôt que de produit fini, une distinction importante pour les intégrateurs et décideurs industriels qui suivent le secteur. GigaAI s'inscrit dans une vague de startups chinoises qui accélèrent sur le segment humanoïde domestique, en concurrence directe avec des acteurs américains comme Figure (Figure 02), Physical Intelligence (Pi-0) ou encore Tesla (Optimus Gen 2), ainsi qu'avec des compétiteurs locaux tels qu'Unitree Robotics (G1) et UBTECH (Walker S). Le co-fondateur et directeur scientifique Zhu Zheng résume l'enjeu technique en opposant "cervelet" (mouvements acrobatiques, équilibre) et "cerveau" (planification, adaptation au contexte), soulignant que c'est cette seconde dimension qui différencie la robotique domestique de la robotique industrielle classique. L'entreprise prévoit de lancer le SeeLight S2 d'ici fin 2026, avec un châssis plus compact, une autonomie de batterie étendue, une portée de bras améliorée et des algorithmes d'IA plus avancés. Le programme de tests devrait également s'élargir à des foyers avec des personnes âgées et des enfants, deux segments particulièrement exigeants pour l'embodied AI et potentiellement les plus porteurs commercialement.

UESignal concurrentiel indirect pour les acteurs européens de la robotique humanoïde : la Chine franchit le cap du déploiement domestique réel avant les occidentaux, ce qui pourrait accélérer la pression sur les roadmaps et financements européens du secteur.

Chine/AsieOpinion
1 source
Vidéo : des robots humanoïdes volent la vedette dans America's Got Talent
36Interesting Engineering 

Vidéo : des robots humanoïdes volent la vedette dans America's Got Talent

Huit robots humanoïdes G1 du fabricant chinois Unitree ont performé en direct sur NBC lors du premier épisode de la saison en cours d'America's Got Talent, diffusé mardi soir aux États-Unis. Aux côtés du danseur Wu Yufei, originaire du Sichuan et connu sous le pseudonyme "Flying Bug", les machines ont exécuté une chorégraphie synchronisée combinant mouvements rythmés et coordination précise avec l'interprète humain. Le numéro a reçu une ovation debout du public en studio et l'approbation unanime des quatre juges, propulsant le duo vers la prochaine étape d'une compétition dotée d'un grand prix d'un million de dollars. Yufei a présenté l'un des robots sous le surnom "Jackie", en référence au kung-fu. Le mode de pilotage des machines pendant la performance (téléopération partielle, séquences préenregistrées ou autonomie hybride) n'a pas été divulgué par l'équipe, un point que les commentateurs spécialisés n'ont pas manqué de relever. La prestation illustre un paradoxe croissant aux États-Unis: l'enthousiasme du grand public pour les humanoïdes chinois se heurte à une pression législative grandissante. Le lendemain même de la diffusion, une proposition de loi bipartisane, le Guard Act, a été déposée au Congrès pour interdire les robots d'origine chinoise jugés risques pour la sécurité nationale. En parallèle, l'American Security Robotics Act avance avec pour objectif d'empêcher les agences fédérales d'acquérir des robots produits par des entreprises chinoises, humanoïdes inclus. Pour les décideurs B2B et les intégrateurs industriels, cette double dynamique crée une incertitude réelle: adopter une technologie qui capte l'adhésion populaire tout en naviguant un risque réglementaire croissant. La visibilité télévisée d'Unitree renforce la crédibilité commerciale de ses machines auprès des acheteurs non spécialisés, un levier marketing qu'aucun salon professionnel ne peut reproduire à cette échelle. Fondée à Hangzhou, Unitree commercialise ses robots à l'international via la plateforme AliExpress d'Alibaba, ciblant les marchés d'Amérique du Nord, d'Europe et du Japon. La société a récemment annoncé un partenariat avec Nvidia pour concevoir un design de référence humanoïde baptisé H2+, dont la disponibilité est prévue pour la fin de l'année. Sur le terrain, les observateurs notent que le déploiement opérationnel des robots chinois à l'étranger se heurte à des obstacles concrets: identification des cas d'usage industriels, collecte de données opérationnelles, et construction de réseaux locaux de maintenance, d'intégration et de calibration. Face à Unitree, le marché des humanoïdes voit s'affronter Figure AI (Figure 02), Tesla (Optimus Gen 2), Boston Dynamics (Atlas électrique), Physical Intelligence (pi0) et Agility Robotics (Digit), tous positionnés sur des verticales industrielles précises. L'apparition télévisée ne règle aucun de ces défis opérationnels, mais marque une étape dans la bataille pour la normalisation culturelle des humanoïdes auprès du grand public américain.

UEUnitree ciblant explicitement les marchés européens via AliExpress, la pression réglementaire américaine sur les robots chinois (Guard Act, American Security Robotics Act) pourrait inspirer des mesures similaires en Europe sur l'acquisition de robotique d'origine chinoise par les entités publiques et industrielles.

Chine/AsieOpinion
1 source
Le robot humanoïde biomimétique pleine taille d'UBTECH dépasse 1 000 précommandes en 3 jours
37Pandaily 

Le robot humanoïde biomimétique pleine taille d'UBTECH dépasse 1 000 précommandes en 3 jours

UBTECH Robotics, coté à Hong Kong et souvent présenté comme "la première action cotée sur le marché des humanoïdes", a lancé en précommande sur JD.com son robot humanoïde biomimétique grand format, enregistrant plus de 1 200 réservations en trois jours. Le robot se décline en deux versions: masculine (183 cm, 42 kg) et féminine (168 cm, 35,2 kg), toutes deux équipées de 88 degrés de liberté (DOF) répartis sur l'ensemble du corps et d'une autonomie batterie de 2 à 4 heures. La précommande requiert un acompte de 3 000 yuans (environ 380 euros), intégralement remboursable avant le 15 juillet. UBTECH n'a pas encore communiqué de prix définitif, mais des analystes sectoriels estiment la fourchette à plusieurs centaines de milliers de yuans, soit le prix d'un véhicule automobile de milieu de gamme en Chine. Les caractéristiques complètes du produit seront dévoilées lors d'un événement de lancement annoncé avant fin juin 2026. Plus de 150 000 internautes rien qu'à Pékin ont visité la page produit dans les trois premiers jours, signe d'un intérêt grand public notable. Sur le plan technique, 88 DOF full-body représente un niveau de granularité cinématique rarement atteint dans un produit à vocation grand public, là où la plupart des humanoïdes industriels actuels tournent entre 30 et 60 DOF. Cela dit, le DOF seul ne dit rien de la qualité des actionneurs, des boucles de contrôle ni de la latence, et UBTECH n'a pas encore publié de données de performance indépendantes. Le positionnement "compagnon émotionnel et assistant domestique", réservé aux utilisateurs adultes, marque un tournant stratégique explicite: après des années centrées sur la robotique éducative et les déploiements B2B, la société mise sur le marché résidentiel, un segment encore sans standard établi. Ce signal de demande (1 200 unités en 72 heures, sans prix final annoncé) intéresse autant les intégrateurs que les décideurs industriels cherchant à calibrer l'appétit réel pour l'humanoïde hors usine. UBTECH existe depuis 2012 et a construit sa notoriété avec Walker X, un humanoïde de démonstration, et des robots pédagogiques déployés dans les écoles chinoises. L'introduction en bourse à Hong Kong lui a conféré une visibilité unique dans un secteur dominé par des startups non cotées. Sur le marché international, les concurrents directs dans la catégorie grand format incluent Figure Robotics (Figure 02), Boston Dynamics (Atlas), Tesla (Optimus Gen 3) et Unitree (H1/G1), tous encore principalement positionnés sur des cas d'usage industriels ou de recherche. En Chine, Fourier Intelligence et Agibot représentent une concurrence locale directe. Les prochaines étapes pour UBTECH passent par la révélation du prix final et les premiers retours sur la tenue réelle des performances biomimétiques annoncées, deux éléments qui conditionneront la crédibilité de ce pivot consommateur.

UESignal de marché indirect : la validation d'une demande consommateur pour l'humanoïde grand public en Chine pourrait accélérer les arbitrages de positionnement des acteurs européens, mais aucun déploiement ni partenariat EU n'est impliqué.

Chine/AsieOpinion
1 source
La diversité est-elle tout ce qu'il faut pour la manipulation robotique à grande échelle ?
38arXiv cs.RO 

La diversité est-elle tout ce qu'il faut pour la manipulation robotique à grande échelle ?

Une équipe de chercheurs publie sur arXiv (référence 2507.06219) une étude systématique sur le rôle de la diversité des données dans l'apprentissage de la manipulation robotique, remettant en cause l'intuition du "plus c'est divers, mieux c'est". Trois dimensions sont examinées indépendamment. La diversité des tâches s'avère plus critique que le volume de démonstrations par tâche pour le transfert vers de nouveaux scénarios. L'entraînement multi-robots (multi-embodiment) n'est pas nécessaire au transfert inter-plateformes : un modèle entraîné sur un seul type de robot avec des données de haute qualité transfère aussi efficacement, avec de meilleures propriétés de scaling au fine-tuning. Enfin, la diversité des experts humains peut nuire à l'apprentissage via la multimodalité des vitesses d'exécution, chaque opérateur ayant ses propres rythmes et préférences gestuelles. Pour corriger ce biais, les auteurs introduisent une méthode de distribution debiasing appliquée à leur modèle GO-1-Pro, qui gagne 15% de performance, l'équivalent de multiplier par 2,5 le volume de pré-entraînement. Ces résultats ont des implications directes pour les équipes qui conçoivent des pipelines de collecte de données. La conclusion sur le multi-embodiment est particulièrement contre-intuitive : constituer un corpus mono-robot de haute qualité avant de fine-tuner est plus efficace qu'accumuler des datasets disparates multi-robots. Pour un intégrateur ou un décideur industriel, cela redéfinit les priorités de curation : couvrir un maximum de tâches prime sur l'accumulation brute de démonstrations, et standardiser les démonstrations expert devient un levier de performance mesurable. La multimodalité des vitesses est désormais un biais identifiable et corrigeable en amont du pipeline, pas une fatalité inhérente à la collecte humaine. Ce travail s'inscrit dans la dynamique portée par Google DeepMind (RT-2), Physical Intelligence (Pi-0) et les équipes de Berkeley (OpenVLA, Octo), qui cherchent à construire des fondations généralistes pour la manipulation depuis 2023. Contrairement au texte ou aux images, les données de démonstration robotique restent coûteuses à produire, ce qui rend les choix de stratégie de scaling particulièrement stratégiques. Les conclusions orientent directement les acteurs comme Figure AI (Figure 03), Agility Robotics ou, en France, Enchanted Tools (Mirokaï), qui investissent dans de larges datasets de manipulation. Ce travail est purement académique : aucun déploiement ni partenariat commercial n'est annoncé.

UEEnchanted Tools (Mirokaï) est explicitement citée comme acteur concerné par ces stratégies de scaling des données de manipulation, rendant les conclusions directement applicables à leur R&D en France.

RecherchePaper
1 source
PHUMA : un jeu de données pour la locomotion fiable des robots humanoïdes
39arXiv cs.RO 

PHUMA : un jeu de données pour la locomotion fiable des robots humanoïdes

Une équipe de chercheurs du laboratoire DAVIAN a publié en juin 2026 PHUMA (Physically Reliable HUMAnoid locomotion dataset), un corpus de 73 heures de données de locomotion humanoide produit via un pipeline en deux étapes : une curation physiquement consciente suivie d'un retargeting contraint par des lois physiques. La base de données agrège à la fois des données de motion capture traditionnelles et des vidéos issues d'internet, les deux étant traitées pour éliminer les artefacts physiques récurrents dans les datasets existants, notamment le flottement, la pénétration géométrique et le foot skating. Entraînées sur PHUMA, les politiques de contrôle obtiennent des taux de succès supérieurs à ceux obtenus avec AMASS et Humanoid-X sur les benchmarks de motion tracking standards, et transfèrent en zero-shot vers un Unitree G1 réel. Le code et les données sont disponibles publiquement via davian-robotics.github.io/PHUMA. Le principal verrou que PHUMA prétend lever est la qualité physique des données d'entraînement pour l'imitation de mouvement humanoide. Les approches par imitation sont attractives parce qu'elles permettent d'acquérir des comportements naturels sans reward engineering fastidieux, mais leur efficacité dépend directement de la cohérence physique des données sources. Les artefacts présents dans les datasets basés sur des vidéos internet (comme Humanoid-X) se propagent dans les politiques entraînées, produisant des robots qui glissent ou oscillent de façon instable. La démonstration de transfert zero-shot sur un Unitree G1 physique est le point le plus concret : elle suggère que le filtrage physique en amont réduit effectivement le sim-to-real gap, sans fine-tuning additionnel sur hardware. Reste à qualifier l'ampleur du gain : les métriques de benchmarks internes ne se substituent pas à des comparaisons en conditions réelles standardisées. AMASS, publié en 2019, est resté longtemps la référence en motion capture humanoide, mais sa taille limitée et son coût d'acquisition ont freiné la scalabilité des approches data-driven. Humanoid-X a tenté de combler ce vide en exploitant des vidéos YouTube à grande échelle, au prix d'une dégradation qualitative. PHUMA s'inscrit dans une dynamique plus large où plusieurs équipes cherchent à constituer des datasets de locomotion humanoide à la fois volumineux et physiquement valides, en parallèle des travaux de Figure AI (Figure 03), Boston Dynamics, et des équipes derrière GR00T N2 chez NVIDIA. La prochaine étape logique serait de tester PHUMA sur d'autres plateformes humanoïdes commerciales (H1, Digit) et d'élargir les tâches au-delà de la locomotion simple vers la manipulation en déplacement.

UELe dataset PHUMA étant en accès libre, les équipes de recherche européennes en locomotion humanoïde (INRIA, CEA-List, LAAS-CNRS) peuvent l'intégrer directement dans leurs pipelines d'entraînement sans coût d'acquisition.

RecherchePaper
1 source
TAGA : apprentissage du regard actif adapté au terrain pour une locomotion humanoïde agile et généralisable
40arXiv cs.RO 

TAGA : apprentissage du regard actif adapté au terrain pour une locomotion humanoïde agile et généralisable

Des chercheurs ont publié sur arXiv (référence 2606.05880) un cadre d'apprentissage baptisé TAGA pour "Terrain-aware Active Gaze", conçu pour améliorer la locomotion agile des robots humanoïdes sur des terrains variés et difficiles. L'approche fusionne vision, proprioception et commandes de mouvement pour guider le modèle dans l'anticipation des obstacles et la sélection active des zones d'intérêt dans le scan de hauteur du terrain. Le résultat le plus notable annoncé est une traversée de brèches atteignant 1,2 mètre en conditions réelles, présentée par les auteurs comme la plus grande distance rapportée pour la locomotion humanoïde perceptive. Le système démontre également la sélection fiable de points d'appui (foothold selection), la traversée de plateformes surélevées et la navigation sur des appuis épars. Ce qui distingue TAGA des approches classiques est l'émergence des comportements de regard actif par apprentissage par renforcement seul, sans supervision supplémentaire ni guidage explicite. En s'inspirant de la manière dont les humains orientent naturellement leur regard vers les zones du sol pertinentes lors de la marche, le modèle apprend à concentrer son attention sur les régions informatives du scan terrain. Cela augmente la densité d'information des observations tout en respectant les contraintes computationnelles embarquées typiques des plateformes humanoïdes. Pour les ingénieurs robotiques, c'est un signal positif sur la convergence possible entre efficacité computationnelle et robustesse perceptive, deux contraintes souvent antagonistes dans les systèmes embarqués temps réel. La locomotion perceptive humanoïde est un champ de recherche très actif où plusieurs équipes cherchent à combler le fossé simulation-réel. Des plateformes comme ANYmal (ANYbotics) ou les robots Boston Dynamics ont posé des références solides pour la locomotion tout-terrain sur quadrupèdes, mais les humanoïdes ajoutent des défis mécaniques liés à leur centre de masse élevé et leur dynamique plus instable. L'absence de mention d'une plateforme matérielle spécifique dans ce preprint limite pour l'instant la reproductibilité externe des chiffres annoncés, et la métrique de 1,2 m reste auto-rapportée sans benchmark tiers. La prochaine étape naturelle sera la validation sur des humanoïdes commerciaux comme Unitree H1/G1, Fourier GR-1 ou Figure 02/03, dont les équipes publient régulièrement des benchmarks similaires.

HumanoïdesPaper
1 source
HERO : saisie visuelle d'objets à vocabulaire ouvert par contrôle corps entier d'un humanoïde
41arXiv cs.RO 

HERO : saisie visuelle d'objets à vocabulaire ouvert par contrôle corps entier d'un humanoïde

Des chercheurs ont publié sur arXiv (référence 2602.16705, version 3) un système de manipulation locomotrice pour humanoïdes baptisé HERO (Humanoid End-Effector Residual cOntrol), conçu pour saisir des objets du quotidien sans liste prédéfinie de cibles. Le système fonctionne en open-vocabulary : il identifie visuellement les objets via des images RGB-D et des grands modèles de vision, puis planifie et exécute la saisie en temps réel. L'innovation centrale est une politique de suivi de l'effecteur terminal (EE) dite "résidual-aware", qui combine trois composants : une cinématique inverse pour convertir les cibles résiduelles de l'EE en trajectoires de référence, un modèle neuronal de cinématique directe entraîné en simulation, et un mécanisme de ré-planification dynamique. Ce pipeline réduit l'erreur de suivi de l'effecteur à 2,44 cm, soit une amélioration annoncée de 5,5x par rapport à la meilleure méthode antérieure. Les tests en environnements réels, bureaux, cafés, démontrent la saisie de mugs, pommes et jouets sur des surfaces allant de 43 à 92 cm de hauteur. L'approche modulaire de HERO rompt avec la tendance dominante des méthodes end-to-end monolithiques (apprentissage par imitation, sim-to-real intégral) qui peinent à généraliser sans retraining massif. En séparant la compréhension de scène, déléguée aux fondations vision, du contrôle moteur précis, entraîné entièrement en simulation, les auteurs obtiennent une généralisation out-of-distribution plus robuste sur de nouveaux environnements. Pour un intégrateur, cela signifie potentiellement moins de données de démonstration à collecter par site de déploiement. Les 2,44 cm d'erreur restent trop élevés pour des tâches d'assemblage de précision, mais suffisants pour le pick-and-place d'objets courants. La métrique "5,5x meilleure" mérite réserve : les conditions exactes du benchmark ne sont pas détaillées dans l'abstract. Ce travail s'inscrit dans une course dense sur le contrôle loco-manipulation des humanoïdes. Physical Intelligence avec Pi-0, Figure AI avec Figure 03, Agility Robotics avec Digit, et Unitree explorent tous des pipelines combinant grands modèles de vision-langage-action (VLA) et contrôle fin de l'effecteur. La question du sim-to-real gap reste le principal verrou non résolu dans le secteur pour les tâches de manipulation dextre, et HERO propose une réponse architecturale partielle en hybridant cinématique classique et apprentissage neuronal, une direction explorée également par des équipes européennes comme Wandercraft sur leurs plateformes bipèdes. Aucun partenariat industriel ni timeline de déploiement n'est mentionné : il s'agit pour l'instant d'un résultat de recherche, pas d'un produit commercialisé.

UEDes équipes européennes comme Wandercraft explorent des architectures similaires sur le contrôle bipède ; l'approche hybride de HERO (cinématique classique + apprentissage neuronal) peut informer leurs pipelines de R&D, mais l'impact reste indirect, sans déploiement ni partenariat industriel européen associé.

IA physiquePaper
1 source
MotionDisco : découverte de mouvements pour la loco-manipulation extrême des robots humanoïdes
42arXiv cs.RO 

MotionDisco : découverte de mouvements pour la loco-manipulation extrême des robots humanoïdes

Des chercheurs ont publié sur arXiv (réf. 2606.06139, juin 2026) MotionDisco, un cadre méthodologique capable de générer automatiquement des séquences de mouvements corps entier pour robots humanoïdes, sans recourir à la téleopération ni au retargeting de mouvements humains. Le système couple une recherche évolutionnaire guidée par un grand modèle de langage (LLM) sur des séquences d'interactions de contact, un optimiseur de trajectoire cinodynamique séquentiel et une stratégie d'élagage. Les trajectoires ainsi découvertes servent à entraîner des politiques de suivi par apprentissage par renforcement (RL), déployées ensuite sur un robot humanoïde physique dans des tâches de loco-manipulation longue durée. Des études d'ablation documentent que la recherche guidée par LLM produit des trajectoires corps entier cohérentes sur plusieurs tâches à long horizon impliquant des contacts riches avec l'environnement. L'enjeu principal est de contourner la téleopération, aujourd'hui le principal mode d'acquisition de données pour les humanoïdes en manipulation, approche coûteuse et difficile à passer à l'échelle. La difficulté est fondamentalement combinatoire: le nombre d'interactions de contact possibles croît exponentiellement avec l'horizon temporel et le nombre d'objets en scène. En automatisant la découverte de compétences, MotionDisco ouvre une voie potentiellement scalable pour les intégrateurs industriels sans infrastructure de téleopération. Le transfert sim-to-real sur robot physique est démontré, ce qui distingue ce travail de nombreuses contributions demeurant en simulation. Les auteurs revendiquent une première mondiale: la découverte et le déploiement de compétences humanoïdes loco-manipulation longue durée par recherche évolutionnaire entièrement automatisée, une affirmation qui reste à valider indépendamment par la communauté. Ce travail s'inscrit dans un paysage où les principaux acteurs humanoïdes, tels que Figure (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (pi0), Unitree et NVIDIA (GR00T N2), misent massivement sur la téleopération et les démonstrations humaines pour entraîner leurs politiques de manipulation. L'utilisation d'un LLM comme moteur de recherche pour guider l'exploration de contacts s'apparente aux travaux récents sur les VLA (Vision-Language-Action models), mais positionnée en amont comme générateur de curriculum plutôt que comme politique de contrôle direct. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans l'article, qui demeure une contribution de recherche fondamentale sans affiliation ou plateforme matérielle spécifiée. Les extensions naturelles porteraient sur des scènes multi-objets plus complexes et la validation sur une gamme élargie de plateformes humanoïdes commerciales.

RecherchePaper
1 source
Le robot d'entrepôt Proteus d'Amazon planifie désormais ses tâches directement depuis des instructions textuelles
43Interesting Engineering 

Le robot d'entrepôt Proteus d'Amazon planifie désormais ses tâches directement depuis des instructions textuelles

Amazon a présenté une version mise à jour de son robot autonome Proteus lors de l'événement "Delivering the Future" à Londres, accompagnée d'un investissement annoncé de plus de 10 milliards d'euros dans la modernisation de son réseau logistique européen. La principale nouveauté de ce Proteus de nouvelle génération est son interface en langage naturel : un opérateur saisit une requête textuelle ordinaire, et le robot détermine lui-même la priorité de la tâche, calcule un itinéraire et planifie l'exécution. Contrairement aux versions précédentes cantonnées aux zones de quai (dock operations), il peut désormais circuler dans l'ensemble d'un centre de distribution pour tracter des chariots lourds. Amazon mène actuellement des pilotes dans ses installations de recherche et prévoit un déploiement européen au premier semestre 2027. L'événement a aussi annoncé l'extension de STARK, un système de manutention de bacs de stockage (tote-handling) déjà piloté à Barcelone, vers 15 sites européens d'ici 2027, et la poursuite du déploiement de Vulcan, son robot à préhension tactile. L'intégration d'une interface en langage naturel dans un robot de manutention industrielle représente un changement opérationnel potentiellement significatif. Diriger un AGV ou un robot autonome nécessitait jusqu'ici une programmation spécialisée ou une configuration via interfaces dédiées, une barrière réelle en contexte d'entrepôt à fort turnover. Si cette approche tient à l'échelle, elle réduit le coût d'intégration humain-robot et accélère l'onboarding des opérateurs. Pour les décideurs B2B, le signal est notable : Amazon teste une couche d'abstraction LLM au-dessus de sa flotte robotique, une direction qu'explorent également Figure AI côté humanoïde avec son interface vocale sur Figure 02. L'annonce confirme que le principal verrou n'est plus le sim-to-real mais l'interfaçage homme-machine et la flexibilité de déploiement. Il faut cependant souligner qu'il s'agit ici de pilotes en cours avec un horizon 2027, pas d'un déploiement en production généralisé. Proteus existe depuis 2022, présenté alors comme le premier robot autonome d'Amazon certifié pour opérer aux côtés des humains sans cage de protection, mais limité aux opérations de quai. Amazon compte aujourd'hui plus de 750 000 robots dans ses entrepôts mondiaux, dans un écosystème incluant Sparrow, Cardinal, Vulcan et STARK. En Europe, les concurrents directs sur le segment AMR logistique incluent Exotec (France, système Skypod déployé chez Carrefour et Decathlon) et AutoStore, bien qu'aucun n'ait encore annoncé d'interface LLM pour la direction des robots en langage naturel. L'annonce des 25 000 créations d'emplois en Europe et du milliard de dollars engagé dans le programme Career Choice d'ici 2030 s'inscrit dans la communication habituelle d'Amazon pour contrebalancer les narratifs d'automatisation-suppression d'emplois. Les prochaines étapes à surveiller : la performance réelle des pilotes Proteus en conditions de production, le calendrier précis de l'extension de STARK, et d'éventuelles publications techniques sur l'architecture LLM embarquée.

UEAmazon engage plus de 10 milliards d'euros dans son réseau logistique européen avec déploiement prévu dans 15 sites EU d'ici 2027, ce qui met directement sous pression les acteurs AMR européens, notamment Exotec (France), sur leur différenciation technologique face à une interface LLM qu'aucun concurrent n'a encore annoncée.

IndustrielOpinion
1 source
Generalist lève 400 millions de dollars pour développer ses modèles d'IA généralistes
44The Robot Report 

Generalist lève 400 millions de dollars pour développer ses modèles d'IA généralistes

Generalist AI Inc. a annoncé une levée de fonds de 400 millions de dollars, portant son financement total à plus de 500 millions depuis sa création en 2024. Le tour a été mené par Radical Ventures, avec de nouveaux entrants incluant 8VC, Union Square Ventures, Hanabi Capital et Norwest, auxquels s'ajoutent les investisseurs historiques NVentures (NVIDIA), Boldstart Ventures, Spark Capital et Bezos Expeditions. Parmi les investisseurs individuels figurent Fei-Fei Li, Eric Yuan (PDG de Zoom), Bin Lin et Naval Ravikant. Basée à San Mateo, en Californie, la startup développe des modèles fondamentaux destinés à des robots généralistes, capables d'opérer sur différentes architectures matérielles. En novembre 2025, elle avait lancé GEN-0, présenté comme le premier modèle à appliquer les lois de mise à l'échelle (scaling laws) à la robotique physique. En avril 2026, elle a publié GEN-1, avec des métriques communiquées par la société elle-même: taux de succès moyen de 99 % sur des tâches où les modèles précédents atteignaient 64 %, vitesse d'exécution environ trois fois supérieure sur des manipulations dextères, et seulement une heure de données robotiques nécessaires par compétence apprise. Ces chiffres, s'ils se confirment en conditions industrielles réelles, représenteraient un changement structurel pour la commercialisation de la robotique généraliste. Le principal verrou du secteur reste logiciel: la plupart des intégrateurs investissent encore des semaines de collecte de données pour chaque nouvelle tâche. Un modèle nécessitant une heure de données par compétence transformerait radicalement l'économie du déploiement. Cela dit, les métriques publiées proviennent exclusivement des communications internes de Generalist AI, sans validation indépendante ni précision sur les conditions de benchmark ou la nature des tâches testées. Le concept de "data flywheel", selon lequel les déploiements chez des clients industriels génèrent les données qui alimentent le modèle suivant, est éprouvé dans le logiciel; sa transposition à la robotique physique, avec ses contraintes de sécurité et de variabilité du monde réel, reste à démontrer à l'échelle. Generalist AI a été fondée en 2024 par Pete Florence (CEO), Andy Zeng (Chief Scientist) et Andrew Barry (CTO), trois chercheurs issus des milieux académiques et industriels de la robotique. La startup s'inscrit dans un marché en forte compétition: Physical Intelligence avec son modèle Pi-0, Figure AI avec le Figure 03, Boston Dynamics, Apptronik et 1X Technologies ciblent tous le même segment des modèles d'IA généralistes pour robots physiques. En Europe, Enchanted Tools et Wandercraft progressent sur des verticales plus ciblées. Avec cette levée, Generalist AI prévoit d'accélérer le développement de modèles de nouvelle génération, d'étendre son infrastructure d'entraînement et de renforcer son moteur de collecte de données physiques. La prochaine étape observable sera la documentation de déploiements industriels concrets chez des clients identifiés, seul critère qui permettra de distinguer les performances en laboratoire de la viabilité commerciale annoncée.

UELa montée en puissance de Generalist AI accentue la pression concurrentielle sur les acteurs européens comme Enchanted Tools et Wandercraft, dont les verticales ciblées et les capacités de financement ne sont pas comparables aux 500 M$ levés par cette startup américaine en moins de deux ans.

💬 500 millions en deux ans, c'est du sérieux. Ce qui m'intéresse vraiment, c'est pas le chèque, c'est cette histoire d'une heure de données par compétence apprise (contre des semaines pour les intégrateurs actuels). Si ça tient en conditions industrielles, tu changes complètement l'économie du déploiement robotique, mais tous les chiffres sortent de chez eux sans validation externe, donc faut voir les premiers clients réels avant de s'emballer.

IA physiqueOpinion
1 source
Un nouveau robot humanoïde apporte perception avancée et manipulation aux robots industriels
45Interesting Engineering 

Un nouveau robot humanoïde apporte perception avancée et manipulation aux robots industriels

VinRobotics, filiale robotique du conglomérat vietnamien Vingroup, a présenté le VR-H3 simultanément à l'ICRA 2026 de Vienne et au COMPUTEX Taipei 2026 fin mai. Ce robot humanoïde de troisième génération embarque plus de 31 actionneurs assurant la coordination corps entier, deux ordinateurs de bord pour le traitement local des données sensorielles, et une capacité de charge utile annoncée entre 6 et 8 kilogrammes. Il est conçu pour la manutention, l'assemblage et la navigation en environnement industriel dynamique. Lors de la démonstration à l'ICRA, VinRobotics a illustré une téléopération via casque de réalité virtuelle couplé à une capture de mouvement intégrée, sans équipement de tracking externe. La même semaine, VinDynamics, autre filiale de Vingroup, dévoilait Dyno, un premier humanoïde dédié à la sécurité, la surveillance urbaine et l'assistance domestique, déjà testé comme guide autonome au Vinpearl Safari Phu Quoc en dialogue multilingue avec les visiteurs. VinRobotics revendique un développement 100 % interne : architecture mécanique, infrastructure temps réel, architecture électrique et électronique, gestion de batterie et framework IA corps entier. Ce double lancement positionne Vingroup comme le premier acteur vietnamien à présenter plusieurs plateformes humanoïdes simultanément dans des conférences de rang mondial. L'intégration verticale revendiquée, si elle est confirmée, confère un avantage potentiel sur la maîtrise des coûts et les cycles d'itération, un levier que cherchent précisément les intégrateurs industriels soumis à des délais d'approvisionnement longs sur les actionneurs. La charge utile de 6 à 8 kg reste cependant modeste face aux références actuelles du secteur (Tesla Optimus Gen 3 annonce 20 kg, Figure 02 vise des tâches similaires avec un payload supérieur). Les vidéos publiées montrent des démonstrations en conditions contrôlées : aucun chiffre de temps de cycle, de taux de succès en tâche répétitive ou de volume de déploiement n'est communiqué, ce qui situe le VR-H3 clairement au stade prototype démontré, pas produit expédié. Vingroup, groupe diversifié dont la capitalisation dépasse 10 milliards de dollars et qui couvre l'automobile (VinFast), l'immobilier et la technologie, a structuré depuis 2023 une branche robotique active avec VinRobotics et VinDynamics. Le contexte global est celui d'une course humanoïde intense : en Chine, Unitree, Agibot et XPENG Robotics produisent déjà à petite série ; aux États-Unis, Agility Robotics déploie Digit chez Amazon ; en Europe, 1X Technologies et Enchanted Tools (Mirokaï) avancent sur des niches de service. Le Vietnam, qui cherche à monter en gamme dans la chaîne de valeur manufacturière, mise sur la robotique comme vitrine technologique nationale. Les prochaines étapes pour VinRobotics restent floues : aucun pilote industriel signé ni timeline de commercialisation n'a été annoncé à l'issue des deux événements.

UELa présentation à l'ICRA de Vienne signale l'émergence d'un concurrent asiatique supplémentaire sur le marché humanoïde, renforçant la pression concurrentielle sur les acteurs européens comme Enchanted Tools ou 1X Technologies, mais sans déploiement ni partenariat européen annoncé.

Chine/AsieOpinion
1 source
Comment les utilisateurs évaluent les performances des modèles fondation robotiques au-delà du taux de réussite des tâches
46arXiv cs.RO 

Comment les utilisateurs évaluent les performances des modèles fondation robotiques au-delà du taux de réussite des tâches

Une étude publiée sur arXiv (arXiv:2602.03920) examine comment des utilisateurs non-spécialistes interprètent les données de performance des modèles de fondation robotiques (RFM, Robot Foundation Models), ces architectures d'IA généraliste conçues pour piloter des robots domestiques polyvalents comme ceux développés par Physical Intelligence (pi0), Google DeepMind (GR00T N2) ou Figure AI. Le cœur du problème : lorsqu'un utilisateur demande à un robot RFM d'effectuer une tâche hors de son domaine d'entraînement, il doit pouvoir évaluer le risque d'échec, qui peut être coûteux, voire dangereux. Les chercheurs ont exposé des participants à des données réelles issues de plusieurs projets RFM publiés, incluant le taux de succès aux tâches (TSR, Task Success Rate), des descriptions de cas d'échec et des vidéos de démos. Les résultats montrent que les non-experts comprennent et utilisent le TSR de façon conforme aux attentes des spécialistes, ce qui valide son usage comme métrique primaire dans les publications académiques. Mais la découverte la plus significative est ailleurs : les utilisateurs accordent une valeur élevée aux descriptions de cas d'échec, une information rarement reportée de façon systématique dans les évaluations de RFMs. Par extension, ils souhaitent disposer à la fois de données historiques issues des évaluations passées du modèle et d'estimations proactives du robot sur ses chances de succès face à une tâche inédite. Cette attente soulève un défi concret pour les intégrateurs et les équipes produit : la transparence sur les limites du modèle n'est pas optionnelle si l'on vise un déploiement grand public. Ce travail s'inscrit dans un débat plus large sur le fossé entre les démos laboratoire et l'usage réel, souvent qualifié de "demo-to-reality gap". Alors que le secteur converge vers des benchmarks standardisés comme DROID ou Open-X-Embodiment pour comparer les RFMs entre eux, la question de leur lisibilité par les décideurs non-techniques reste largement ouverte. Des acteurs comme Enchanted Tools en France ou Wandercraft misent sur des interfaces d'interaction proches de l'utilisateur final, mais peu d'équipes formalisent encore la communication sur les taux d'échec. Cette étude plaide pour l'intégration de "failure reporting" structuré dans les fiches produit et les publications techniques, une évolution qui pourrait devenir un critère de certification dans les futures réglementations européennes sur la robotique.

UEL'étude plaide pour un 'failure reporting' structuré qui pourrait devenir un critère de certification dans les futures réglementations européennes sur la robotique, concernant directement Enchanted Tools et Wandercraft pour leurs fiches produit.

RecherchePaper
1 source
Attaques adversariales par patches partiellement observables sur les modèles VLA en robotique
47arXiv cs.RO 

Attaques adversariales par patches partiellement observables sur les modèles VLA en robotique

Des chercheurs ont publié début juin 2026 une étude (arXiv:2606.03556) démontrant la vulnérabilité des modèles Vision-Language-Action (VLA) à des attaques adversariales par patch dans des conditions partiellement observables. Contrairement aux travaux antérieurs qui supposaient un accès complet à l'intégralité de la trajectoire d'exécution du robot, cette équipe formule un modèle de menace plus réaliste : l'adversaire ne dispose que d'un court préfixe de trajectoire pour générer un patch visuel fixe, ensuite appliqué à toutes les trames suivantes. Leur framework en deux phases consiste d'abord à localiser la zone optimale du patch en exploitant les cartes d'attention du modèle pour identifier les régions visuellement critiques liées à l'instruction en cours, puis à optimiser ce patch pour simultanément perturber l'ancrage sémantique des objets cibles et augmenter la courbure des trajectoires d'action planifiées. Les expériences menées en simulation et en environnements robotiques réels montrent une réduction significative des taux de succès sur des tâches longues. Ce résultat est important car les VLA sont de plus en plus intégrés dans des bras manipulateurs et des robots mobiles déployés en environnements industriels et logistiques, précisément parce qu'ils promettent une généralisation robuste à partir d'instructions en langage naturel. Prouver qu'un patch physique imprimable, placé dans le champ de vision du robot, peut dégrader durablement ses performances de contrôle sans accès complet à son état interne remet en question les hypothèses de sécurité des déploiements actuels. Cela soulève un gap réel entre robustesse en démo contrôlée et résilience en production, particulièrement pour des intégrateurs qui s'appuient sur des modèles comme OpenVLA, pi-0 (Physical Intelligence) ou RT-2 (Google DeepMind) sans auditer leur surface d'attaque perceptive. Les VLA connaissent une montée en puissance depuis 2023 avec RT-2 de Google, suivi de pi-0 de Physical Intelligence et des travaux d'Embodied Intelligence. La sécurité adversariale de ces modèles reste un angle quasi-inexploré dans la littérature par rapport à leur homologues LLM ou vision-langage purs. Cette publication s'inscrit dans un effort émergent pour caractériser les vecteurs d'attaque physiques sur les systèmes robotiques autonomes, un enjeu croissant alors que Figure AI, Agility Robotics et 1X Technologies accélèrent leurs déploiements en entrepôt. Les prochaines étapes probables incluent des défenses basées sur l'augmentation adversariale à l'entraînement et des mécanismes de détection d'anomalie sur les cartes d'attention, domaine dans lequel des équipes européennes comme celles du LAAS-CNRS et du DLR commencent également à publier.

UELes équipes du LAAS-CNRS et du DLR commencent à publier sur la défense adversariale des VLA, positionnant l'Europe comme contributrice émergente à la sécurisation des déploiements robotiques industriels.

RechercheOpinion
1 source
PHASER : rejeu d'expérience sémantique et par phase pour les modèles VLA
48arXiv cs.RO 

PHASER : rejeu d'expérience sémantique et par phase pour les modèles VLA

Des chercheurs ont publié sur arXiv (référence 2606.03598) un framework de continual learning baptisé PHASER (Phase-Aware and Semantic Experience Replay), conçu pour les modèles Vision-Language-Action (VLA) appliqués à la manipulation robotique. L'architecture est agnostique au backbone sous-jacent et a été évaluée sur trois modèles VLA distincts dans les suites de benchmarks LIBERO, une référence du domaine. Sur le scénario LIBERO-Goal CL (continual learning), PHASER atteint un taux de succès moyen (Average Success Rate, ASR) de 87,8 % en fin d'entraînement, soit un gain de 31 points de pourcentage par rapport à l'experience replay uniforme standard avec le même budget mémoire. Le problème que PHASER attaque est celui de l'oubli catastrophique : lorsqu'un robot apprend séquentiellement de nouvelles compétences gestuelles, les représentations antérieures se dégradent rapidement dans les poids du modèle. L'experience replay classique échoue parce qu'il échantillonne uniformément, sous-représentant les sous-phases courtes mais critiques d'une trajectoire de manipulation (la saisie, le transfert, la dépose), un phénomène que les auteurs nomment "phase starvation". PHASER corrige cela avec deux mécanismes : une allocation mémoire par phase (capacity allocation) pour garantir une couverture équilibrée de tous les sous-comportements, et un routage dynamique qui priorise les phases historiques à haut risque d'oubli. Un troisième composant, Auto-PC, automatise la détection des frontières temporelles entre sous-phases par analyse non supervisée des signaux d'action, validée ensuite par un VLM, évitant ainsi l'annotation manuelle coûteuse. Les VLA, qui conditionnent les actions du robot sur du langage naturel et des images, sont devenus un axe central de la robotique généraliste, portés notamment par des modèles comme OpenVLA (UC Berkeley), pi0 (Physical Intelligence) ou RT-2 (Google DeepMind). L'un des verrous majeurs à leur déploiement industriel reste précisément la capacité à apprendre de nouvelles tâches sans régression sur les anciennes, prérequis pour tout robot polyvalent en atelier. PHASER reste pour l'instant une contribution de recherche évaluée en simulation, mais son caractère agnostique au backbone en fait un candidat naturel pour une intégration dans des pipelines d'entraînement continuel sur des plateformes hardware comme Figure 02, Unitree G1 ou Boston Dynamics Atlas.

IA physiqueOpinion
1 source
Mémoire épisodique pour robots à filtrage par surprise
49arXiv cs.RO 

Mémoire épisodique pour robots à filtrage par surprise

Des chercheurs ont publié sur arXiv (référence 2606.03787) une architecture de mémoire épisodique sélective pour robots généralistes, baptisée "Surprise-Gated Episodic Memory". Le principe central : utiliser la surprise bayésienne comme filtre pour décider quels événements méritent d'être mémorisés à long terme. Plutôt que de stocker l'intégralité du flux sensoriel, un mécanisme de calcul de surprise opère dans l'espace latent de V-JEPA-2, le modèle vidéo de Meta, jugé sémantiquement riche et indépendant du contexte de déploiement. Cette mémoire épisodique filtrée vient augmenter une mémoire spatiale fondée sur des graphes de scène 4D. Sur les benchmarks de question-answering robot, l'approche surpasse les méthodes de référence d'au moins 12 % sur les questions temporelles, spatiales et binaires, et bat également des méthodes supervisées ainsi que des approches non-causales, avec une méthode non supervisée et causale pour la segmentation d'événements. L'enjeu derrière ce résultat est directement opérationnel : un robot généraliste déployé en entrepôt, en hôpital ou sur un chantier reçoit des instructions ancrées dans des événements passés ("Retourne là où le colis a été mal placé hier soir"). Sans mémoire épisodique sélective, soit le robot stocke tout et sature sa mémoire, soit il oublie et échoue à répondre. La surprise bayésienne comme critère de filtrage est élégante parce qu'elle ne nécessite aucun superviseur humain ni liste de tâches futures a priori, elle capte l'inhabituel de façon autonome. Que cette méthode non supervisée et causale batte des méthodes supervisées est un signal fort : le sim-to-real gap pour la mémoire sémantique pourrait se réduire sans annotation coûteuse. Ce travail s'inscrit dans un courant de recherche en pleine accélération autour de la mémoire à long terme pour les robots mobiles, face aux limites des approches purement réactives popularisées par les VLA (Vision-Language-Action models). V-JEPA-2, publié par Meta en 2025, s'impose progressivement comme fondation visuelle pour plusieurs équipes de recherche extérieures à Meta. Sur le plan concurrentiel, des approches comparables sont développées par des groupes travaillant sur les représentations spatiales pour l'embodied AI (CMU, Stanford, ETH Zurich). L'étape suivante naturelle serait de valider la méthode sur du matériel réel en conditions non contrôlées, les résultats actuels restant des benchmarks, la question du passage à l'échelle sur des robots comme Figure 03 ou Unitree G1 en déploiement continu reste entière.

RecherchePaper
1 source
Human2Humanoid : transfert de mouvement multi-morphologie assisté par la physique pour robots humanoïdes
50arXiv cs.RO 

Human2Humanoid : transfert de mouvement multi-morphologie assisté par la physique pour robots humanoïdes

Une équipe de recherche a publié le 3 juin 2026 sur arXiv (référence 2606.03476) un framework baptisé Human2Humanoid, conçu pour transférer automatiquement des mouvements humains vers des robots humanoïdes sans nécessiter de données d'entraînement appariées. La méthode, entièrement non supervisée, a été validée sur le robot Unitree G1, un humanoïde à 23 degrés de liberté commercialisé par la société chinoise Unitree Robotics. L'architecture repose sur un réseau adversarial de type CycleGAN couplé à un réseau de convolution sur graphes sensible à la topologie squelettique, permettant de capturer les caractéristiques motrices dépendantes de la structure anatomique. Pour compenser les écarts de proportions entre morphologies humaine et robotique, les auteurs introduisent une fonction de perte dite "morphology-invariant end-effector consistency" qui aligne les trajectoires normalisées des effecteurs terminaux (mains et pieds) afin de préserver la sémantique du mouvement d'un corps à l'autre. Des contraintes de faisabilité physique explicites sont également imposées pour reproduire les patterns de contact de la séquence source et limiter les artefacts cinématiques. Ce travail s'attaque à un goulot d'étranglement majeur du secteur humanoïde : le retargeting de mouvement est fondamental pour le télé-opération, l'apprentissage par imitation et l'interaction homme-robot, mais les approches supervisées exigent des corpus de données appariées humain-robot quasi inexistants à grande échelle. En supprimant cette contrainte, Human2Humanoid ouvre la voie à l'exploitation de bibliothèques de capture de mouvement (mocap) existantes sans phase de labellisation. Les résultats expérimentaux indiquent que la méthode surpasse les approches concurrentes sur deux critères clés : contrôlabilité en aval (la politique apprise est plus exploitable pour des tâches réelles) et faisabilité physique (moins de violations de contraintes, meilleure reproductibilité des contacts). C'est un signal positif dans un contexte où le fossé démo-réalité reste la critique récurrente du secteur. Le retargeting de mouvement humain vers robot est un champ de recherche actif depuis plusieurs années, alimenté par la course aux humanoïdes commerciaux. Unitree, positionné comme fournisseur de plateformes matérielles accessibles face à Boston Dynamics, Figure AI (modèle Figure 03), Tesla (Optimus Gen 3) ou Agility Robotics, bénéficie directement de ce type de contribution académique qui enrichit l'écosystème logiciel autour de son G1. Du côté des méthodes concurrentes, on trouve notamment des approches à base de réseaux de retargeting supervisés ou de politiques d'imitation directe comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Human2Humanoid n'est pas encore un produit déployé : c'est une contribution de recherche fondamentale, sans annonce de pilote industriel associée. Les prochaines étapes naturelles seraient une validation sur d'autres plateformes humanoïdes et une intégration dans des pipelines d'apprentissage par renforcement ou d'imitation à grande échelle.

IA physiquePaper
1 source