Aller au contenu principal

Dossier Enchanted Tools — Mirokaï

173 articles

Enchanted Tools et Mirokaï : robot social français à roues, animations expressives, expérimentations en hôpitaux et hôtels.

Première mondiale : un chien robot quadrupède traverse des plaques de glace arctiques traîtresses
1Interesting Engineering Chine/AsieOpinion

Première mondiale : un chien robot quadrupède traverse des plaques de glace arctiques traîtresses

Un quadrupède de moins de 20 kilogrammes vient de traverser les banquises de l'océan Arctique en navigation autonome, une première revendiquée pour un robot à pattes commercialement disponible. Le Lynx S10, développé par la société chinoise DEEP Robotics (spin-off de l'université de Zhejiang fondé en 2018), a été engagé lors d'une expédition polaire en conditions réelles, naviguant sur des plaques de glace flottantes parsemées de zones d'eau libre. La plateforme standard embarque 16 articulations de précision, quatre caméras ultra grand-angle à haute plage dynamique et des capteurs LiDAR avant/arrière pour la cartographie 3D en temps réel. Elle opère entre -20°C et +55°C, plafonne à 8 m/s sur sol plat, franchit des obstacles de 50 cm de hauteur et supporte une charge utile supérieure à 8 kg. Pour l'Arctique, DEEP Robotics a modifié la machine : les roues standards ont cédé la place à des pattes biomimétiques inspirées du pied de l'ours polaire (surface élargie pour répartir le poids, crampons anti-glisse intégrés), l'indice d'étanchéité est passé de l'IP66 à l'IP67, et les membres ont été redessinés pour fonctionner comme des pagaies dans les zones de gadoue mêlant glace et eau. L'enjeu ne se résume pas à la résistance au froid, que plusieurs plateformes industrielles atteignent déjà. Ce qui est nouveau, c'est la capacité à planifier des trajectoires et éviter des obstacles en autonomie sur un terrain non structuré, instable et potentiellement mortel. Les banquises arctiques cumulent les cas limites qui font échouer les algorithmes classiques : surface déformable, obstacles dissimulés sous la neige, zones d'eau affleurante sans marquage visuel net. La réussite du Lynx S10 valide simultanément plusieurs hypothèses : la fusion LiDAR-caméra HDR est suffisamment robuste pour distinguer neige sèche, glace vive et slush ; le contrôle de gait s'adapte en temps réel à des frictions variables ; la morphologie biomimétique des pattes apporte un gain mesurable là où roues et chenilles peinent. Pour les intégrateurs et décideurs industriels, la portabilité par une seule personne sans logistique lourde ouvre des cas d'usage concrets en milieu polaire, offshore et post-catastrophe. DEEP Robotics occupe un segment intermédiaire dans un marché quadrupède dominé par Boston Dynamics (Spot), Unitree (Go2, B2) et ANYbotics (ANYmal), ce dernier déjà qualifié pour les inspections offshore et les environnements ATEX. Cette expédition arctique s'inscrit dans une stratégie de validation terrain agressive, comparable aux démonstrations industrielles d'Unitree. Aucun concurrent n'a publié de données équivalentes sur des déploiements polaires réels, même si Boston Dynamics a documenté des tests hivernaux avec Spot. En Europe, des acteurs comme Enchanted Tools et Pollen Robotics restent positionnés sur des niches distinctes. DEEP Robotics n'a communiqué ni calendrier de commercialisation ni tarification pour la variante arctique du Lynx S10 : l'expédition demeure à ce stade une preuve de concept documentée, pas un produit commercialisé.

1 source
Sommet en robotique : un panel fait le point sur la conception des robots humanoïdes
2Robotics Business Review 

Sommet en robotique : un panel fait le point sur la conception des robots humanoïdes

Lors du Robotics Summit & Expo 2026, tenu à Boston au Thomas B. Menino Convention & Exhibition Center devant quelque 3 900 participants, un panel de haut niveau a fait le point sur l'état réel du développement des robots humanoïdes. Alberto Rodriguez, directeur du comportement robot pour Atlas chez Boston Dynamics, y a révélé que l'entreprise a engagé le déploiement de l'ordre de 25 000 humanoïdes Atlas dans des usines, avec un objectif de capacité de production portée à 30 000 unités par an d'ici 2028. Boston Dynamics a conduit une première démonstration en conditions réelles en usine en 2025, architecture entièrement pilotée par les données, puis a présenté Atlas au CES de janvier 2026 pendant une semaine complète. Pour 2026, la société prévoit un retour en usine pour une démonstration plus complète, de bout en bout, connectant le robot au système d'information de l'usine et gérant les exceptions opérationnelles. Du côté d'Agility, dont la marque commerciale s'est récemment stabilisée sous le nom Agility (ex-Agility Robotics), les déploiements du robot Digit avancent avec Amazon, GXO, Schaeffler, Toyota et Mercado Libre, marquant une sortie effective de la phase pilote. Ce que ce panel signale clairement pour les intégrateurs et décideurs industriels, c'est que le vrai verrou n'est plus mécanique ni même algorithmique, mais stratégique. Rodriguez a posé le problème avec précision : sauf pour de rares applications à très grand volume et très stable, presque tous les postes de travail sont des cas uniques. Le défi du passage à l'échelle repose sur trois axes simultanés, hardware, modèles de comportement, et stratégie d'intégration, et l'échec sur l'un suffit à rendre le déploiement économiquement non viable. La décision de Boston Dynamics de commencer par la logistique en manufacturing, un environnement qui exige de la généralité sans imposer encore les contraintes de timing et de sécurité de la ligne d'assemblage, illustre une approche pragmatique et graduée. Ces chiffres de déploiement engagés, 25 000 unités, sont une donnée de marché rare dans un secteur habitué aux annonces sans livraisons. Boston Dynamics, filiale de Hyundai depuis 2021, a traversé une longue période de recherche pure avant de commercialiser Atlas dans sa version électrique présentée en 2024, succédant aux plateformes hydrauliques historiques. Le marché des humanoïdes reste en pleine effervescence : Figure AI avec Figure 03, Tesla avec Optimus Gen 3 sur sa propre ligne de production, Physical Intelligence avec Pi-0, NVIDIA avec GR00T N2, et des acteurs émergents comme 1X Technologies ou Apptronik positionnent tous leurs solutions sur des créneaux différents, de l'assemblage léger à la manutention lourde. Côté Europe, Enchanted Tools (France) et Wandercraft restent focalisés sur des niches spécifiques, assistance et rééducation, sans viser encore le marché industriel général. Les prochaines étapes à surveiller : la publication par ASTM International (représenté dans le panel par Aaron Prather) de standards de sécurité pour la cohabitation humains-humanoïdes, et les résultats concrets des déploiements Agility/Amazon, dont les métriques opérationnelles restent pour l'instant non publiques.

UELes entreprises françaises (Enchanted Tools, Wandercraft) restent cantonnées aux niches assistance/rééducation sans feuille de route vers l'industriel général, creusant un écart stratégique avec les déploiements à grande échelle désormais en cours en Amérique du Nord.

HumanoïdesActu
1 source
Un robot humanoïde coréen exécute une danse K-POP virale apprise en regardant des vidéos
3Interesting Engineering 

Un robot humanoïde coréen exécute une danse K-POP virale apprise en regardant des vidéos

ROBOTIS, fabricant coréen de composants et plateformes robotiques, a publié début juin 2026 une démonstration de son humanoïde AI Sapiens reproduisant le "CORTIS REDRED Challenge", une chorégraphie K-POP virale, à partir d'une unique vidéo captée sur smartphone. La chaîne de traitement repose sur quatre étapes enchaînées : capture de mouvement vidéo, retargeting cinématique vers la morphologie du robot, entraînement par apprentissage par renforcement en simulation, puis transfert Sim2Real vers le matériel physique. Aucun système de motion capture professionnel (OptiTrack, Vicon) n'a été utilisé. AI Sapiens mesure 1,3 mètre pour 34 kilogrammes, dispose de 23 degrés de liberté assurés par 23 actionneurs DYNAMIXEL-Q quasi-direct-drive (14 QM-060 et 9 QM-080), et embarque un NVIDIA Jetson Orin NX 16 Go offrant jusqu'à 100 TOPS de puissance de calcul. L'alimentation est assurée par une batterie 46,8 V, 9 000 mAh. ROBOTIS prévoit de publier l'intégralité du pipeline en open-source, incluant les fichiers CAD, le code source, les assets de simulation et les tutoriels. Ce qui mérite attention, ce n'est pas la danse en elle-même -- les vidéos de robots qui dansent sont devenues un genre communicationnel à part entière -- mais la suppression du goulot d'étranglement de la collecte de données de mouvement. Jusqu'ici, entraîner un humanoïde sur des mouvements complexes requérait des studios de capture équipés et des techniciens spécialisés, coûts prohibitifs pour les équipes de recherche et les PME industrielles. Substituer cela à une vidéo smartphone abaisse drastiquement la barrière d'entrée pour la production de comportements moteurs variés. La démonstration valide aussi partiellement le pipeline Sim2Real comme suffisamment robuste pour des mouvements dynamiques à corps entier -- un point que beaucoup d'équipes considéraient encore fragile hors de contextes très contraints. Reste que la vidéo présente un mouvement expressif non critique : il faudra des preuves comparables sur des tâches à charge utile ou à contact riche pour juger de la généralisation réelle de la méthode. ROBOTIS est une entreprise coréenne historiquement centrée sur les actionneurs Dynamixel, composants de référence dans la robotique académique mondiale depuis les années 2000. AI Sapiens constitue sa montée en gamme vers les plateformes humanoides complètes, en compétition directe avec des systèmes comme Unitree H1/G1 (Chine), Agility Robotics Digit (USA) ou Sanctuary AI Phoenix (Canada), tous également positionnés sur l'open-source partiel ou la recherche collaborative. Dans le paysage européen, des acteurs comme Enchanted Tools (Mirokaï, France) ou Wandercraft (exosquelette, Paris) restent sur des segments plus spécialisés. La publication open-source annoncée par ROBOTIS est un pari sur l'effet de communauté : si le pipeline se diffuse dans les labos universitaires, ROBOTIS consolide son écosystème Dynamixel comme standard de facto pour la prochaine génération d'humanoides de recherche. Aucune date de release précise n'a été communiquée à ce stade.

UELes laboratoires de recherche européens utilisant des actionneurs Dynamixel (standard académique mondial) pourront potentiellement bénéficier de la publication open-source du pipeline vidéo-vers-mouvement, réduisant le coût d'entrée pour l'entraînement de comportements moteurs complexes sans équipement de capture de mouvement professionnel.

HumanoïdesPaper
1 source
Apprendre à assister : des modèles VLA collaboratifs pour la coopération implicite humain-robot
4arXiv cs.RO 

Apprendre à assister : des modèles VLA collaboratifs pour la coopération implicite humain-robot

Des chercheurs ont publié le 12 juin 2026 (arXiv:2606.12475) une étude sur l'usage de modèles vision-langage-action (VLA) entraînés par imitation learning pour la collaboration humain-robot (HRC) implicite, sans signal explicite déclenchant l'assistance robotique. Évaluant deux VLA de référence sur des tâches d'assemblage collaboratif, l'équipe identifie un défaut propre aux politiques d'action-chunking : la "fuite d'actions de démonstration" (demonstration action leakage). Ce phénomène survient lorsque des chunks d'actions enjambent des transitions latentes de sous-tâches, poussant le robot à assister l'humain trop tôt, comme tendre un outil avant que l'opérateur soit prêt à le saisir. Pour corriger ce comportement sans réentraîner le modèle, les auteurs proposent un pilotage à l'inférence (inference-time steering). Une étude à 16 participants sur une tâche d'assemblage longue horizon confirme que le steering réduit les interventions prématurées, accélère la collaboration et diminue les échecs par rapport à une politique à horizon court. Ce résultat ouvre une voie concrète pour l'intégration des VLA dans des workflows industriels collaboratifs, jusqu'ici dépendants de pipelines codés à la main, peu scalables vers de nouvelles tâches. La fuite d'actions constitue un avertissement direct pour les équipes déployant des politiques ACT ou diffusion en mode HRC : allonger l'horizon d'exécution, souvent souhaitable pour la fluidité du mouvement, aggrave le problème. Le steering à l'inférence fournit un correctif opérationnel sans modification du modèle entraîné, ce qui le rend attractif pour un déploiement rapide. Les VLA généralistes comme Pi-0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA) ont prouvé leur efficacité en manipulation autonome, mais leur usage en HRC implicite restait peu documenté. Cette publication comble ce manque méthodologique. En Europe, des acteurs comme Enchanted Tools et Wandercraft, dont les robots sont conçus pour opérer aux côtés d'humains, pourraient réduire leur charge d'ingénierie manuelle en s'appuyant sur ces résultats. La prochaine étape sera d'étendre la méthode à des environnements industriels non contrôlés et à des tâches encore plus longues, afin d'évaluer la robustesse du steering face à la variabilité réelle des comportements humains.

UEEnchanted Tools et Wandercraft, acteurs européens de la robotique collaborative, pourraient réduire leur charge d'ingénierie manuelle en adoptant le steering à l'inférence pour corriger la fuite d'actions dans leurs déploiements VLA, sans réentraîner leurs modèles.

RechercheOpinion
1 source
EquiDexFlow : un modèle génératif de préhension habile équivariant SE(3) ancré dans le contact
5arXiv cs.RO 

EquiDexFlow : un modèle génératif de préhension habile équivariant SE(3) ancré dans le contact

Une équipe de chercheurs publie EquiDexFlow, un modèle génératif de préhension dextère intégrant les contraintes physiques de contact directement dans l'architecture, sans étape de vérification séparée. Publié sur arXiv en juin 2026, il exploite le flow-matching avec équivariance SE(3) pour prédire simultanément la pose du poignet, les angles articulaires, les contacts du bout des doigts, les normales de surface et les forces de contact à partir d'un nuage de points de l'objet. Contrairement aux générateurs classiques qui traitent les forces comme un filtre a posteriori, EquiDexFlow projette les contacts sur la surface de l'objet et les forces dans le cône de friction de Coulomb par construction, sans terme de pénalité dans la fonction de perte. Entraîné sur 8 100 saisies en fermeture de force sur 81 objets pour la main Allegro à 16 degrés de liberté (DDL), il atteint zéro violation de frottement et le plus faible résidu de torseur parmi toutes les variantes d'ablation, avec une équivariance SE(3) vérifiée sur 200 rotations et des résidus de poignet inférieurs à 0,04 degré. Retransposé vers une main LEAP à 16 DDL par cinématique inverse doigt par doigt, le modèle réussit en boucle ouverte sur six objets physiques, y compris des objets asymétriques à la pose canonique et après une co-rotation de 120 degrés. Le verrou adressé est structurel : dans la plupart des pipelines de préhension dextère appris, un générateur produit une pose cinématiquement valide qu'un module aval filtre selon des critères physiques, laissant potentiellement passer des saisies plausibles mais instables au contact réel. En intégrant le cône de Coulomb dans l'architecture même, EquiDexFlow élimine cette classe d'erreurs par construction plutôt que par filtrage, ce qui réduit le taux de rejet et simplifie le pipeline de déploiement pour les intégrateurs industriels. Le retargeting réussi de la main Allegro vers la main LEAP suggère en outre une généralisation de la représentation des contacts au-delà de la main d'entraînement, propriété encore rare dans les systèmes de préhension dextère actuels, même si l'évaluation sur six objets reste un périmètre de test limité. La préhension dextère multi-doigt demeure un verrou central de la manipulation généraliste en robotique. Des travaux récents comme DexGraspNet ou UniGrasp ont progressé sur la génération de poses, mais la modélisation explicite des forces dans la boucle générative reste peu courante. Le flow-matching, popularisé dans les modèles VLA (Vision-Language-Action), est ici appliqué avec une contrainte d'équivariance formellement démontrée, ce qui constitue une contribution méthodologique distincte. Code, checkpoints et vidéos sont disponibles sur equidexflow.github.io. Des acteurs comme Enchanted Tools ou Wandercraft, qui développent des systèmes de manipulation à actionnement avancé, pourraient s'appuyer sur ce formalisme pour leurs propres pipelines de préhension.

UEEnchanted Tools et Wandercraft, acteurs français de la manipulation avancée, pourraient directement intégrer ce formalisme de préhension physique (cône de Coulomb dans la boucle générative) dans leurs pipelines R&D, le code et les checkpoints étant publiquement disponibles.

RecherchePaper
1 source
À l'intérieur de XRZero-G0, un nouveau jeu de données ouvert de 2 000 heures pour la recherche en robotique
6Robotics Business Review 

À l'intérieur de XRZero-G0, un nouveau jeu de données ouvert de 2 000 heures pour la recherche en robotique

X Square Robot a mis en open source XRZero-G0, un système de collecte de données robotiques combinant un casque VR PICO 4 à tracking spatial inside-out, une caméra frontale et deux caméras poignet, ainsi qu'une paire de grippers physiques duals, un gripper en H à actionnement par pression et un gripper en G à entraînement digital. Le dispositif assure une estimation de pose 6-DOF à précision millimétrique et intègre un parsing spatiotemporel embarqué pour synchroniser flux visuels, données de trajectoire et annotations langagières. En parallèle, la société publie le G0-Dataset : 2 000 heures de démonstrations humaines multimodales, disponibles sur HuggingFace avec le code source sur GitHub. Sous conditions expérimentales contrôlées, X Square Robot annonce une réduction des besoins en données réelles pouvant atteindre un facteur 20x : environ 10 épisodes collectés sans robot, combinés à un seul épisode sur robot réel, suffiraient à égaler les performances d'un entraînement purement issu de données robotiques. L'enjeu est direct pour les équipes qui développent des politiques de manipulation dextre : le goulot d'étranglement de l'embodied AI n'est pas le compute, c'est la donnée de qualité à grande échelle. XRZero-G0 formalise ce que le secteur cherche depuis plusieurs années, une pipeline fermée "collecte-inspection-entraînement-évaluation" qui filtre automatiquement les trajectoires invalides via cinématique inverse corps entier avec contraintes de collision et de limites articulaires, et valide par rejeu réel sur robot avant d'intégrer les épisodes à l'entraînement. Si les chiffres de réduction 20x se confirment sur des tâches variées hors conditions de labo, cela change structurellement l'économie de déploiement des VLA (Vision-Language-Action models) : les industriels pourraient composer leurs datasets sans immobiliser de flotte robotique pendant des semaines. Le transfert cross-embodiment revendiqué, démontration humaine transférable à des plateformes non vues à l'entraînement, reste la promesse la plus forte, et la plus à vérifier indépendamment. X Square Robot s'inscrit dans un mouvement plus large de standardisation de la collecte de données robotiques, aux côtés d'initiatives comme Open-X Embodiment (Google DeepMind, 2023), DROID (Berkeley, 2024) ou les efforts de Physical Intelligence autour de pi0. Le positionnement open source du G0-Dataset rappelle la stratégie d'Hugging Face avec LeRobot, visant à créer une infrastructure commune de benchmarking. Aucun concurrent européen direct n'est impliqué ici, bien qu'Enchanted Tools et Wandercraft opèrent sur des segments adjacents (interaction et mobilité bipède) qui pourraient bénéficier de telles ressources de préentraînement. Les prochaines étapes annoncées incluent l'utilisation du dataset pour du préentraînement à grande échelle et des expériences de transfert cross-embodiment, sans timeline commerciale précisée, ce projet reste pour l'instant dans le périmètre recherche.

UELes équipes R&D françaises et européennes (Enchanted Tools, Wandercraft) pourraient exploiter le G0-Dataset open source pour le préentraînement de leurs modèles VLA, réduisant potentiellement leur dépendance à la collecte de données robotiques en flotte, si le facteur 20x se confirme hors conditions contrôlées.

IA physiqueOpinion
1 source
IA incarnée en évolution : Embodied-R1.5 améliore l'intelligence physique grâce aux modèles fondation
7arXiv cs.RO 

IA incarnée en évolution : Embodied-R1.5 améliore l'intelligence physique grâce aux modèles fondation

Une équipe de chercheurs a publié sur arXiv Embodied-R1.5, un modèle de fondation incarné (EFM pour Embodied Foundation Model) de 8 milliards de paramètres intégrant cognition incarnée, planification, auto-correction et pointage d'affordances dans une architecture unifiée, entraîné sur un corpus dépassant 15 milliards de tokens construit via trois pipelines automatisés. Le cadre Planner-Grounder-Corrector (PGC) en boucle fermée permet l'exécution autonome et l'auto-correction sur des tâches longues, soutenu par une recette d'apprentissage par renforcement multi-tâches équilibré pour atténuer les conflits entre sous-domaines hétérogènes. Sur les benchmarks standardisés, Embodied-R1.5 atteint l'état de l'art sur 16 des 24 benchmarks de VLM incarnés, devançant Gemini-Robotics-ER-1.5 de Google DeepMind et GPT-5.4 d'OpenAI. Adapté en VLA (Vision-Language-Action) avec peu de données de fine-tuning, il surpasse pi-0.5 de Physical Intelligence sur quatre suites de benchmarks de manipulation. Des tests zero-shot sur robot réel valident les performances en suivi d'instructions, ancrage d'affordances, manipulation d'objets articulés et tâches longues, les poids, le code d'entraînement et EmbodiedEvalKit, un framework d'évaluation dédié, étant publiés en open source. Qu'un modèle de 8 milliards de paramètres surpasse des systèmes adossés aux ressources de Google et d'OpenAI est un signal notable pour les intégrateurs industriels, car la compacité ouvre la voie à un déploiement embarqué sur plateformes contraintes. L'auto-correction en boucle fermée du PGC répond directement au demo-to-reality gap qui freine la commercialisation des robots polyvalents, tandis que la capacité à fine-tuner en VLA avec peu de données cible le goulot d'étranglement central de la collecte de données de manipulation étiquetées. L'open source complet facilite la comparaison reproductible et devrait accélérer les itérations communautaires, à condition que les performances zero-shot annoncées soient confirmées dans des configurations adversariales que le papier ne documente pas. Embodied-R1.5 s'inscrit dans la vague des modèles de fondation robotiques généraux densifiée depuis RT-2 de Google et OpenVLA, avec pour concurrents directs Physical Intelligence (pi-0, pi-0.5) et Google DeepMind (Gemini Robotics). L'absence d'acteurs européens parmi les concurrents benchmarkés reflète le retard du continent, où des acteurs comme Wandercraft ou Enchanted Tools restent cantonnés à des niches spécialisées. L'approche open source total distingue ce travail des modèles propriétaires de Figure AI (Figure 03) ou de 1X Technologies, positionnant potentiellement Embodied-R1.5 comme base de référence pour les laboratoires et industriels souhaitant spécialiser un EFM sur leurs propres flux de manipulation.

UELes poids et le code d'Embodied-R1.5 publiés en open source constituent une base de référence accessible pour les laboratoires européens (CEA-List, INRIA) souhaitant spécialiser un EFM sur leurs propres flux de manipulation sans dépendre des modèles propriétaires de Google ou OpenAI.

💬 8 milliards de paramètres qui coiffent Gemini Robotics et GPT-5.4 sur leurs propres benchmarks, en open source total, c'est inattendu. L'auto-correction en boucle fermée s'attaque directement au fossé entre la démo en labo et le robot qui tient la route en prod, ce qui est le vrai mur depuis RT-2. Bon, le papier esquive les configurations difficiles, donc on verra ce que ça donne quand la communauté s'en empare.

IA physiqueOpinion
1 source
Apprendre quoi dire à son modèle VLA : un guidage presque inoffensif
8arXiv cs.RO 

Apprendre quoi dire à son modèle VLA : un guidage presque inoffensif

Des chercheurs publient sur arXiv (2606.12299, juin 2026) une méthode pour rendre les VLA (Vision-Language-Action) plus robustes aux variations de formulation en langage naturel. Le problème documenté est précis : des instructions sémantiquement proches induisent des comportements radicalement différents chez un robot piloté par VLA, et certaines capacités restent inaccessibles via le prompting standard. L'approche proposée, la "language feedback policy" (LFP), recherche interactivement des formulations optimales en boucle fermée, les distille en une politique de feedback activée au moment du test, puis utilise la prédiction conforme pour bloquer toute intervention susceptible de dégrader les performances hors distribution. Les résultats annoncés sont significatifs : +24,7 % de succès en simulation et +65,0 % sur matériel réel, sans fine-tuning du modèle sous-jacent ni accès aux données d'entraînement d'origine. Ce gain de 65 % sur robot physique est notable, même si les auteurs ne précisent pas les tâches ou les manipulateurs testés, ce qui rend la comparaison directe avec d'autres travaux difficile. L'absence totale de réentraînement constitue l'apport pratique le plus clair : les intégrateurs peuvent superposer cette couche sur n'importe quel VLA pré-entraîné gelé (Pi-0, GR00T N2, Helix, OpenVLA) sans toucher aux pipelines existants. La garantie de "harmlessness" via prédiction conforme est une contribution méthodologique rigoureuse : l'intervention est bloquée dès que la LFP risque de faire pire que l'instruction originale, critère essentiel pour un déploiement industriel où la fiabilité prime sur la performance brute. Ce travail s'inscrit dans un contexte de déploiements VLA accélérés : Physical Intelligence a commercialisé Pi-0, NVIDIA a publié GR00T N2, Figure déploie Helix en production chez BMW à Spartanburg. En Europe, Wandercraft intègre des architectures de contrôle apprenant pour la rééducation, et Enchanted Tools teste des interactions langage-robot sur son humanoïde Miroka. Tous ces systèmes partagent la même fragilité au prompt que l'ingénierie manuelle ne résout pas systématiquement. Ce travail propose une couche d'adaptation automatique complémentaire aux approches de fine-tuning comme RLHF ou DPO appliqués aux VLA. Les suites naturelles seraient une évaluation sur des benchmarks standardisés tels que LIBERO ou OpenX-Embodiment, et un test sur des VLA propriétaires à architecture fermée.

UEWandercraft et Enchanted Tools, qui intègrent des architectures de contrôle apprenant sur leurs systèmes respectifs, sont des bénéficiaires directs potentiels de cette couche d'adaptation VLA déployable sans réentraînement ni accès aux données d'origine.

💬 65 % de gain sur matériel réel sans toucher au modèle sous-jacent, c'est pas rien. Ce qui m'intéresse surtout, c'est la garantie de ne pas dégrader les performances : l'intervention est bloquée dès qu'elle risque de faire pire que l'instruction d'origine, et ça c'est le seul argument qui tient vraiment dans un déploiement industriel. Reste à voir sur quelles tâches ils ont testé ça, les détails manquent pour comparer sérieusement avec l'existant.

IA physiqueOpinion
1 source
Main dextérique modulaire et anthropomorphique : conception par analyse comparative multi-paramètres des doigts
9arXiv cs.RO 

Main dextérique modulaire et anthropomorphique : conception par analyse comparative multi-paramètres des doigts

Des chercheurs ont publié en juin 2026 sur arXiv (arXiv:2606.11826) un framework de conception pour mains robotiques anthropomorphiques dextres, fondé sur une approche modulaire de sélection des doigts. Le principe : évaluer quantitativement des prototypes de doigts de manière indépendante, via une batterie de benchmarks, avant leur intégration dans une main complète téléopérée. Les variations testées portent sur le type d'articulation, la structure osseuse, les matériaux de peau et le placement des capteurs. Le framework a été validé sur deux tâches concrètes : la saisie simultanée de plusieurs objets et le vissage d'une ampoule, deux exercices représentatifs de la manipulation dextre à contraintes mécaniques variables. Ce travail s'attaque à un verrou structurel du domaine : la conception de mains dextres souffre d'un espace de design trop vaste, où morphologie, actuation et capteurs interagissent de façon non-linéaire. Les méthodes d'optimisation existantes traitent rarement plus d'un critère à la fois, ce qui rend les comparaisons inter-prototypes difficiles et les itérations coûteuses. En découplant l'optimisation des doigts de la validation au niveau de la main entière, le framework proposé réduit potentiellement le temps de screening et établit un lien quantitatif entre les métriques composant et la performance globale en tâche. Pour les équipes d'ingénierie et les intégrateurs, c'est une promesse de pipeline de développement plus prédictif, moins dépendant de l'empirisme. À noter : l'article est un preprint arXiv, sans peer review encore validé, et les gains de performance sur les deux tâches choisies restent difficiles à extrapoler à des scénarios industriels réels. La conception de mains dextres est un enjeu central pour les robots humanoïdes actuels : Figure AI, 1X, Apptronik, et Agility Robotics dépendent toutes de mains capables d'alimenter des pipelines de téléopération et d'apprentissage par imitation pour entraîner des modèles VLA. Côté académique, des groupes à Stanford, CMU et au MIT travaillent sur des architectures similaires, tandis que Shadow Robotics (UK) reste la référence commerciale en matière de main dextre à actuation tendon. En Europe, Pollen Robotics (Bordeaux) intègre des mains articulées dans sa plateforme Reachy, et Enchanted Tools (Paris) développe des mains expressives pour ses robots Miroka. Ce preprint ne s'accompagne pas d'annonce commerciale ni de calendrier de déploiement, mais la méthodologie de benchmarking modulaire pourrait être adoptée comme standard de facto dans les équipes hardware des startups d'humanoïdes, où la vitesse d'itération sur les effecteurs est aujourd'hui un facteur différenciant clé.

UEPollen Robotics (Bordeaux) et Enchanted Tools (Paris) sont directement mentionnés comme bénéficiaires potentiels de cette méthodologie de benchmarking modulaire, qui pourrait accélérer leurs cycles d'itération sur les effecteurs.

RecherchePaper
1 source
NEURA Robotics lève jusqu'à 1,4 milliard de dollars en Série C pour son IA physique
10Robotics Business Review 

NEURA Robotics lève jusqu'à 1,4 milliard de dollars en Série C pour son IA physique

NEURA Robotics GmbH, basée à Metzingen en Allemagne, a annoncé le 10 juin 2026 une levée de fonds de Série C pouvant atteindre 1,4 milliard de dollars, financée par un consortium d'investisseurs technologiques dont Tether, Qualcomm et Amazon. La startup, fondée en 2019 par David Reger, commercialise une gamme couvrant des bras robotiques légers, des robots mobiles (série MAV), des robots humanoïdes (modèle 4NE1) et un manipulateur mobile polyvalent baptisé MiPA, ciblant principalement la fabrication et la supply chain. Ce tour de table vient financer deux axes prioritaires : le développement de la plateforme "Neuraverse", décrite comme un écosystème ouvert d'IA physique permettant aux robots d'apprendre collectivement entre déploiements, et l'expansion d'un réseau mondial de "NEURA Gyms", des environnements d'entraînement à grande échelle combinant interaction sensorielle réelle, simulation et pipelines d'apprentissage multimodal. Il s'agit à ce stade d'une annonce de financement, pas d'un produit expédié ni d'un déploiement industriel documenté à grande échelle. Sur le fond, une levée de 1,4 milliard de dollars pour un acteur européen de la robotique humanoïde est un signal fort : les capitaux qui se concentraient jusqu'ici quasi exclusivement sur Figure AI, Agility Robotics, 1X ou Tesla Optimus commencent à irriguer des challengers hors Silicon Valley. Pour les intégrateurs et les décideurs industriels, la question concrète est celle du sim-to-real gap, que NEURA tente de réduire via son partenariat avec Dassault Systèmes annoncé en avril 2026. Le concept de Neuraverse, où plusieurs robots partagent une intelligence distribuée entre déploiements, s'inscrit dans une tendance plus large des architectures VLA (Vision-Language-Action) à l'échelle fleet, comme l'illustre Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA. Les métriques de performance annoncées restent cependant absentes du communiqué, ce qui rend toute comparaison technique avec les concurrents impossible à ce stade. NEURA Robotics a bâti depuis 2019 un réseau de partenaires industriels structurant : Bosch pour le développement logiciel des humanoïdes (janvier 2026), Dassault Systèmes pour la simulation, mais aussi Schaeffler, Kawasaki, Delta Electronics, Qualcomm et NVIDIA pour l'infrastructure edge AI et les composants. Ce positionnement d'écosystème décentralisé tranche avec l'approche verticalement intégrée de Figure ou de Tesla. En Europe, NEURA est aujourd'hui l'acteur humanoïde le mieux capitalisé, loin devant des startups comme Enchanted Tools (France) ou Wandercraft, qui opèrent sur des segments différents (cobots expressifs et exosquelettes médicaux). Les prochaines étapes déclarées portent sur l'accélération du déploiement à l'échelle industrielle et l'ouverture de nouveaux NEURA Gyms à l'international, sans calendrier précis communiqué.

UENEURA Robotics, acteur allemand désormais le humanoïde le mieux capitalisé d'Europe avec 1,4 Md$, implique directement Dassault Systèmes (France) comme partenaire stratégique simulation et repositionne l'UE comme concurrent crédible face aux leaders américains de la robotique humanoïde industrielle.

FR/EU ecosystemeOpinion
1 source
Exploration des robots à base de modèles fondation dans les soins aux patients et aux personnes âgées
11arXiv cs.RO 

Exploration des robots à base de modèles fondation dans les soins aux patients et aux personnes âgées

Une équipe de chercheurs a publié en juin 2026 sur arXiv (référence 2606.10208) une analyse de synthèse portant sur l'intégration des modèles de fondation dans les robots de soin aux personnes âgées et aux patients. L'article, classé comme Perspective, passe en revue l'état de l'art sur trois axes : les caractéristiques de conception, l'expérience utilisateur mesurée, et les preuves d'impact sur les soins. Le constat central est que les architectures dominantes utilisent les modèles de fondation comme couche de conversation et de raisonnement au sein d'incarnations socioassistives centrées sur la voix, des agents qui parlent et écoutent mais dont l'autonomie physique et la compréhension multimodale restent fortement limitées. Les évaluations empiriques rapportent des bénéfices positifs en termes d'utilisabilité et d'engagement, mais des défaillances de fiabilité persistent : hallucinations, ruptures conversationnelles et pannes dans le pipeline d'interaction. L'enjeu pour les intégrateurs et décideurs du secteur santé est précisément là : les métriques actuellement rapportées portent sur des résultats proximaux comme l'engagement cognitif ou la participation, et non sur des indicateurs cliniques validés. Les robots sociaux conversationnels améliorent peut-être le ressenti ou l'interaction, mais aucun système décrit dans la littérature ne démontre d'impact mesurable sur des outcomes de santé standardisés. Cette lacune est critique pour tout déploiement en EHPAD ou à l'hôpital, où la responsabilité médicale exige traçabilité et supervision humaine explicite. Les auteurs soulignent que les benchmarks génériques importés du NLP ou de la robotique généraliste ne sont pas adaptés aux contraintes des environnements de soin. Le contexte est celui d'une accélération massive des modèles de fondation en robotique, de PaLM-E à Pi-0 de Physical Intelligence en passant par GR00T N2 de NVIDIA, qui creuse un écart croissant entre capacités techniques et readiness clinique. Du côté des plateformes établies, Pepper (SoftBank) et PARO (AIST, Japon) restent les références les plus documentées en milieu de soin. Des acteurs européens comme Enchanted Tools avec Mirokaï, ou des projets portés par l'Inria, s'inscrivent dans cette dynamique. Les auteurs appellent à une transition vers des standards d'évaluation spécifiques aux soins, une autonomie avec supervision humaine intégrée dès la conception, et une intégration réelle dans les flux de travail cliniques, trois conditions encore largement non remplies par les systèmes actuels.

UEEnchanted Tools (Mirokaï) et l'Inria sont explicitement cités comme acteurs européens engagés dans la robotique de soin, et les lacunes identifiées (absence de standards d'évaluation cliniques, supervision humaine insuffisante) concernent directement les déploiements en EHPAD et hôpitaux français soumis à la réglementation médicale.

RecherchePaper
1 source
BadRobot : contourner les garde-fous des agents LLM incarnés dans le monde physique
12arXiv cs.RO 

BadRobot : contourner les garde-fous des agents LLM incarnés dans le monde physique

Des chercheurs ont publié BadRobot (arXiv:2407.20242, juillet 2024, v5), un cadre d'attaque ciblant les agents IA incarnés (embodied AI) : des robots et systèmes physiques dont la planification de tâches est pilotée par un grand modèle de langage. L'attaque exploite trois vecteurs distincts : la manipulation du LLM embarqué via des interactions vocales standard, le désalignement structurel entre les sorties linguistiques du modèle et les actions physiques réellement exécutées, et les comportements dangereux involontaires causés par des lacunes dans les connaissances du monde encodées dans le modèle. Pour évaluer la menace, les auteurs ont constitué un benchmark de requêtes d'actions physiques malveillantes, testé contre trois frameworks embodied AI de référence : VoxPoser, Code as Policies et ProgPrompt. Les expériences montrent que ces trois systèmes peuvent être amenés à exécuter des comportements nuisibles dans le monde physique, sans nécessiter de modification matérielle ni d'accès privilégié au système. Ce travail pointe un angle mort structurel : les techniques de jailbreaking, jusqu'à présent évaluées sur des sorties textuelles, produisent des conséquences physiques irréversibles lorsque le LLM pilote un effecteur. Le désalignement documenté est systémique, car les guardrails de sécurité sont appliqués à la couche linguistique sans validation cohérente lors de la planification motrice ou de l'exécution de tâches. Pour un intégrateur industriel déployant un robot manipulateur ou un AMR guidé par LLM, cela signifie que les mécanismes de conformité conçus pour les chatbots sont insuffisants en contexte physique. La démonstration sur trois frameworks activement utilisés en recherche et en prototypage industriel renforce la portée opérationnelle de l'alerte. VoxPoser (2023) et Code as Policies (Google, 2022) ont popularisé l'utilisation des LLM comme planificateurs de tâches haut niveau en robotique, tandis que ProgPrompt (2022) ciblait les robots de service autonomes. BadRobot paraît alors que des systèmes commerciaux comme Figure 02, l'Optimus de Tesla ou les robots Agility déployés chez Amazon commencent à intégrer des pipelines LLM en production réelle, rendant la surface d'attaque concrète. Aucun acteur français ou européen n'est directement mentionné dans l'étude, mais des entreprises comme Enchanted Tools (Mirokaï) ou Pollen Robotics (Reachy), qui explorent l'intégration de LLM dans leurs plateformes, sont exposées aux mêmes vecteurs. Les auteurs ont mis leur code en accès libre sur GitHub, ouvrant la voie à des reproductions indépendantes et au développement de contre-mesures architecturales spécifiques à l'embodied AI.

UEEnchanted Tools (Mirokaï) et Pollen Robotics (Reachy), deux acteurs français intégrant des LLM dans leurs plateformes robotiques, sont explicitement cités comme exposés aux mêmes vecteurs d'attaque documentés par BadRobot.

RechercheOpinion
1 source
Contrôle corps entier généraliste et adaptable pour la locomotion de divers humanoïdes
13arXiv cs.RO 

Contrôle corps entier généraliste et adaptable pour la locomotion de divers humanoïdes

Des chercheurs ont publié sur arXiv (référence 2602.05791) un framework baptisé XHugWBC, conçu pour entraîner un contrôleur de locomotion whole-body universel sur une large distribution de morphologies humanoïdes, puis le déployer en zero-shot sur des robots non vus durant l'entraînement. Les expériences couvrent douze humanoïdes simulés et sept robots réels. Le système repose sur trois briques techniques : une randomisation morphologique physiquement cohérente (masse des segments, longueur des membres, inertie), des espaces d'observation et d'action alignés sémantiquement entre châssis hétérogènes, et une architecture de politique qui encode explicitement les propriétés morphologiques et dynamiques de chaque instance. L'entraînement est unique, "one-time training" : aucun fine-tuning par robot n'est requis à l'inférence. L'enjeu industriel est direct. Aujourd'hui, chaque équipe robotique entraîne ses contrôleurs de locomotion depuis zéro pour chaque châssis, ce qui représente des semaines de simulation et d'itérations sim-to-real. XHugWBC déplace ce coût vers une phase d'entraînement généraliste unique, ouvrant la voie à un modèle de déploiement où un intégrateur peut adopter un nouveau châssis humanoïde sans reconstruire l'intégralité de sa stack de contrôle. La validation sur sept robots physiques est plus convaincante que les résultats purement simulés habituels, même si la nature exacte des tâches testées et les taux de succès détaillés ne figurent pas dans le résumé disponible. La capacité de transfert zero-shot sur morphologies inédites renforce l'hypothèse que les biais structuraux appris sur distributions larges surpassent les politiques spécialisées sur certains régimes de locomotion, ce que le secteur débattait encore il y a dix-huit mois. Ce travail s'inscrit dans un mouvement vers les contrôleurs dits "fondation" pour la robotique incarnée. En manipulation, des systèmes comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) ont déjà exploré la généralisation cross-embodiment sur bras et effecteurs; l'extension à la locomotion whole-body humanoïde est plus contrainte par la stabilité dynamique. Les acteurs du secteur, Figure Robotics (Figure 03), Unitree (G1, H1), Agility Robotics (Digit), Fourier Intelligence et 1X Technologies, maintiennent tous des pipelines de contrôle propriétaires et spécialisés. Si XHugWBC tient ses promesses à l'échelle, il réduirait significativement la barrière à l'entrée pour les nouveaux constructeurs, notamment les acteurs européens comme Enchanted Tools (Mirokaï) ou Wandercraft, qui ne disposent pas des ressources d'entraînement des géants américains. Le preprint n'a pas encore fait l'objet d'une évaluation par les pairs.

UELes constructeurs humanoïdes français Wandercraft et Enchanted Tools (Mirokaï) sont explicitement identifiés comme bénéficiaires potentiels, ce framework pouvant réduire significativement leurs coûts d'entraînement de locomotion sans nécessiter les ressources des géants américains.

💬 C'est le genre de papier qui résout un vrai problème industriel : chaque robot humanoïde qui sort oblige aujourd'hui à tout réentraîner depuis zéro. Sept robots physiques en zero-shot, c'est pas du tout la même chose que des résultats simulés, ça valide quelque chose de sérieux. Pour Wandercraft ou Enchanted Tools, bien plus contraints en ressources que Figure ou Unitree, ce type de contrôleur généraliste c'est du concret.

IA physiqueOpinion
1 source
Vulnérabilités des modèles vision-langage-action (VLA) face aux défauts physiques d'articulation
14arXiv cs.RO 

Vulnérabilités des modèles vision-langage-action (VLA) face aux défauts physiques d'articulation

Des chercheurs ont publié le 10 juin 2026 (arXiv:2606.10501) une étude identifiant une vulnérabilité critique des modèles Vision-Language-Action (VLA) face aux défauts physiques articulaires. Ces modèles, qui traduisent instructions en langage naturel et observations visuelles en commandes motrices, équipent aujourd'hui les robots humanoïdes et manipulateurs les plus avancés. Les auteurs montrent que des failles réalistes, notamment dégradation d'actionneur, friction excessive due à l'usure, dommages de collision ou limites de sécurité restreintes, cassent la boucle fermée entre action commandée, mouvement réalisé et observation suivante, dégradant les taux de succès même pour des défauts physiquement « faisables ». L'impact varie selon l'articulation affectée, rendant toute mitigation générique difficile. En réponse, les auteurs proposent J-PARC (Joint-level Physical-fault Aware Residual Calibrator), un module léger ajouté au-dessus d'une politique VLA figée, qui infère un régime de défaut latent depuis la dynamique articulaire récente et applique une correction résiduelle adaptative sans modifier le modèle de base. Ce résultat comble un angle mort réel dans la validation des systèmes robotiques à base de VLA. L'effort de robustification s'est jusqu'ici concentré sur les variations perceptuelles et sémantiques : éclairage, occlusion, reformulation d'instructions. Or tout robot industriel accumule friction, chocs et dégradation d'actionneur au fil du temps. Montrer que ces perturbations physiquement réalisables suffisent à faire chuter les performances remet en cause l'hypothèse implicite qu'un VLA entraîné sur hardware neuf reste fiable tout au long de son cycle de vie opérationnel. Pour les intégrateurs et responsables de certification, c'est un signal fort : la robustesse mécanique doit entrer dans les critères de qualification aux côtés de la généralisation sémantique. L'approche J-PARC, sans fine-tuning ni capteur supplémentaire, offre une piste d'adaptation réaliste pour les déploiements existants. Les VLA ont connu une montée en puissance rapide depuis Pi-0 (Physical Intelligence, 2024) et GR00T N2 (NVIDIA, 2025), avec des déploiements annoncés chez Figure (modèle 03), Agility Robotics et 1X Technologies. Malgré leurs performances en laboratoire, leur comportement sur hardware vieillissant reste peu documenté dans la littérature. Ce papier s'inscrit dans une tendance croissante sur la fiabilité opérationnelle à long terme, aux côtés des travaux sur le sim-to-real gap. En Europe, des acteurs comme Enchanted Tools avec Mirokaï ou Wandercraft, où la dégradation articulaire est un enjeu quotidien en milieu médical ou logistique, sont directement concernés par ces résultats. Les prochaines étapes naturelles seront une validation sur hardware en vieillissement accéléré et l'intégration de J-PARC dans des pipelines de déploiement continu.

UELes acteurs français Enchanted Tools et Wandercraft, confrontés à la dégradation articulaire en milieu médical et logistique, peuvent directement intégrer J-PARC pour fiabiliser leurs déploiements VLA sans modifier leurs modèles de base.

💬 On a tous fait cette hypothèse implicite : un VLA entraîné en labo reste fiable sur un robot qui a pris des coups après 18 mois en prod. Ce papier montre que non, et c'est un angle mort réel pour tous les intégrateurs qui déploient en milieu industriel ou médical. J-PARC corrige ça sans toucher au modèle de base, bon, reste à voir si ça tient sur du vrai hardware vieilli.

IA physiqueOpinion
1 source
TacForeSight : un modèle du monde tactile guidé par la force pour la manipulation en contact dense
15arXiv cs.RO 

TacForeSight : un modèle du monde tactile guidé par la force pour la manipulation en contact dense

Des chercheurs ont publié sur arXiv (référence 2606.11184) TacForeSight, un framework léger d'anticipation tactile guidée par la force pour la manipulation en contact riche. Le système repose sur deux composants : TacForceWM, un modèle du monde tactile qui prédit les dynamiques latentes tactiles à court horizon à partir de capteurs bi-doigts conditionnés par les signaux de force et de couple au poignet à haute fréquence, et une politique conditionnée par l'anticipation tactile (Predictive Tactile-Conditioned Policy) qui exploite ces prédictions comme priors de contact, modélise l'évolution tactile courante-vers-future via cross-attention, et fusionne les features visuo-tactiles via un module de gating adaptatif. Les expériences portent sur cinq tâches représentatives de manipulation sur robot réel et trois scénarios de perturbation en cours de manipulation, avec des résultats supérieurs aux baselines existantes dans tous les cas, notamment sous perturbations de contact dynamiques. Le code et les datasets seront mis à disposition publiquement sur tacforesight.github.io. L'apport technique central est de modéliser explicitement les rôles asymétriques de la force globale au poignet (basse résolution spatiale, haute fréquence) et du toucher local bi-doigts (haute résolution spatiale, dynamique plus lente), distinction que la plupart des méthodes d'imitation learning actuelles ignorent. En opérant entièrement dans un espace latent compact, le framework permet un raisonnement de contact proactif compatible avec le contrôle haute fréquence, là où les approches réactives échouent sous perturbations imprévues. Pour les intégrateurs industriels et les équipes travaillant sur l'assemblage ou le conditionnement robotisé, c'est une démonstration concrète que la fusion force+tactile dans un world model améliore la robustesse réelle sans alourdir l'inférence en temps réel. Ce travail s'inscrit dans une vague de recherche combinant world models et retour tactile pour la manipulation dextre, aux côtés d'approches comme Pi-0 (Physical Intelligence) ou les travaux sur GR00T N2 de NVIDIA qui intègrent également des politiques tactile-aware. Aucun concurrent français ou européen direct n'est identifié sur ce créneau précis, bien que des acteurs comme Pollen Robotics ou Enchanted Tools s'appuient aussi sur la manipulation fine. Il s'agit ici d'un preprint non encore évalué par les pairs, sans déploiement industriel ni partenaire annoncé : les résultats, bien que prometteurs sur cinq tâches de laboratoire, devront être reproduits sur des géométries et conditions de contact plus variées avant de valider la généralisation à l'échelle industrielle.

UEImpact indirect : le code open-source prévu sur tacforesight.github.io pourrait être exploité par des équipes européennes travaillant sur la manipulation fine, comme Pollen Robotics ou les labos CEA-List, mais aucun acteur FR/EU n'est impliqué dans ce travail.

RecherchePaper
1 source
Sémantique et exécution physique : une architecture neuro-symbolique pour l'assemblage robotique multi-paire
16arXiv cs.RO 

Sémantique et exécution physique : une architecture neuro-symbolique pour l'assemblage robotique multi-paire

Une équipe de chercheurs présente un cadre neuro-symbolique de bout en bout conçu pour l'assemblage robotique multi-paires en environnements non structurés, publié sur arXiv (2606.10808). Le système fonctionne à partir d'une caméra RGB-D montée sur le bras (configuration eye-on-hand) et s'appuie sur un bras UR3 d'Universal Robots. Le pipeline traite chaque paire pièce-cible en générant un sous-graphe optimal via un grand modèle de langage (LLM), puis coordonne l'ensemble des sous-graphes en une séquence globale cohérente grâce à une étape de résolution topologique. Des arbres de comportement dynamiques intégrant des compétences atomiques pilotées par retour d'effort ferment la boucle d'exécution physique. Sur 100 scènes réelles évaluées hors ligne, le framework atteint 97 % d'exécutabilité globale, et le déploiement sur robot réel obtient un taux de succès de 90 % avec une tolérance de 0,5 mm sous forte interférence entre pièces. Ce résultat est notable parce qu'il adresse deux défauts symétriques qui bloquent l'industrialisation de la planification autonome d'assemblage. Les planificateurs classiques (recherche d'état, PDDl) explosent combinatoirement dès que le nombre de pièces augmente. Les approches purement neuronales ou LLM-only produisent des "hallucinations logiques" : séquences d'actions syntaxiquement valides mais physiquement incohérentes (conflits topologiques, collisions ignorées). Le framework proposé découple les deux niveaux : le LLM génère uniquement des actions basiques pour limiter les hallucinations, tandis qu'un discriminateur léger insère les actions de support pour les cas limites. La tolérance de 0,5 mm sous interférence forte est un indicateur concret de robustesse, même si les vidéos de démonstration disponibles ne couvrent pas l'ensemble des 100 configurations testées, ce qui limite la vérification indépendante des chiffres annoncés. Le problème de l'assemblage multi-paires est un verrou industriel identifié depuis les années 1990 dans la robotique manufacturière, avec des applications directes en électronique, aéronautique et assemblage de sous-systèmes automobiles. Les approches concurrentes actuelles incluent les planificateurs symboliques classiques (MoveIt, OpenRAVE), les politiques d'imitation learning (ACT, Diffusion Policy) et les Visual Language Action models (pi-0 de Physical Intelligence, RoboFlamingo). Ce framework se positionne entre la planification symbolique vérifiable et l'inférence neuronale généraliste. Les auteurs soulignent que l'architecture est extensible à faible coût par ajout de nouvelles paires ou actions. Les prochaines étapes logiques seraient un déploiement sur des bras à plus haute charge utile et une validation sur des lignes d'assemblage industrielles réelles, domaine où des acteurs européens comme Wandercraft ou Enchanted Tools pourraient trouver des synergies applicatives.

UELes équipes R&D robotique européennes (notamment dans l'aéronautique et l'électronique) pourraient intégrer cette architecture pour automatiser des tâches d'assemblage multi-pièces à tolérance serrée, un verrou industriel non résolu par les planificateurs classiques.

RecherchePaper
1 source
MIIT et SASAC lancent l'initiative 2026 d'entraînement des robots humanoïdes en conditions réelles
17Pandaily 

MIIT et SASAC lancent l'initiative 2026 d'entraînement des robots humanoïdes en conditions réelles

Le ministère chinois de l'Industrie et des Technologies de l'Information (MIIT) et la Commission de surveillance des actifs d'État (SASAC) ont publié conjointement, en juin 2026, un plan d'action national intitulé "Action spéciale pour la formation en scénarios réels des robots humanoïdes et de l'IA embodied". L'objectif affiché : d'ici fin 2026, les humanoïdes et leurs composants clés devront avoir achevé leur vérification applicative et basculer en "mode opérationnel" dans des environnements industriels, de services ou spécialisés. Le plan cible l'identification de plus de 100 scénarios à haute valeur et une capacité de déploiement à l'échelle de 10 000 unités. Les autorités provinciales sont tenues de sélectionner au moins 20 scénarios couvrant deux des trois domaines prioritaires ; les grandes entreprises centrales d'État doivent en identifier au moins 10 dans leurs secteurs respectifs. Le dispositif impose la création de consortiums d'innovation applicative regroupant utilisateurs finaux, fabricants, développeurs d'algorithmes et instituts de recherche. Ces consortiums devront produire des jeux de données d'IA embodied couvrant trajectoires de mouvement, courbes de contrôle force-position et séquences d'exécution de tâches, ainsi que des "packages de compétences" issus d'entraînements en conditions réelles. Des mécanismes de financement incluant equity, dette et assurance complètent le dispositif. Ce plan est la feuille de route gouvernementale la plus structurée publiée par Pékin sur l'industrialisation des humanoïdes, mais l'objectif de 10 000 unités déployées d'ici décembre 2026 est ambitieux, plusieurs observateurs le jugeant irréaliste compte tenu des délais habituels entre annonce politique et opérationnel réel. Ce qui est plus significatif, c'est la logique consortiale imposée : en forçant la coopération entre intégrateurs, fabricants et chercheurs autour de scénarios concrets, l'État tente d'accélérer le passage de la démo en laboratoire à l'usage en production. La prescription explicite de datasets couvrant les courbes force-position signale que Pékin cible directement le verrou du sim-to-real, encore non résolu à l'échelle industrielle. Pour un COO ou un intégrateur, cela signifie qu'un écosystème subventionné et doté d'obligations de résultat se structure en Chine avec des délais contractuels précis. Cette initiative prolonge la stratégie "Made in China 2025" et les plans successifs sur la robotique avancée. Les acteurs nationaux directement visés incluent Unitree (H1, G1), UBTECH (Walker S), Agibot et Fourier Intelligence, qui ont tous conduit des tests industriels en 2024-2025. Sur le plan international, la concurrence se structure autour de Figure AI (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (Pi-0) et Nvidia (GR00T N2), tous revendiquant des déploiements pilotes en environnements réels. En Europe, Wandercraft et Enchanted Tools restent positionnés sur des segments distincts, l'exosquelette médical et la robotique de service, sans concurrence directe sur le créneau industriel visé par ce plan. Les prochaines étapes dépendront de la capacité des consortiums à produire des résultats mesurables avant l'échéance de fin 2026.

UELa structuration d'un écosystème humanoïde subventionné en Chine avec des obligations de résultat contractuels accroît la pression concurrentielle sur les acteurs européens, bien que Wandercraft et Enchanted Tools restent positionnés sur des segments (exosquelette médical, robotique de service) non directement visés par ce plan industriel.

Chine/AsieOpinion
1 source
RGB-S : saillance tactile alignée sur l'image pour une manipulation dextérique robuste
18arXiv cs.RO 

RGB-S : saillance tactile alignée sur l'image pour une manipulation dextérique robuste

Des chercheurs ont publié sur arXiv en juin 2026 un framework nommé RGB-S pour améliorer la fusion visuo-tactile dans la manipulation dextre robotique sous conditions d'occlusion. La méthode projette les emplacements des capteurs tactiles directement sur le plan image RGB via la cinématique directe du robot et la calibration caméra, puis génère des cartes de saillance gaussiennes modulées par la force pour modéliser l'incertitude spatiale liée aux erreurs de calibration. Ces ancres 2D sont injectées dans un backbone visuel standard via une architecture de conditionnement à initialisation zéro, ce qui préserve les représentations visuelles pré-entraînées. Testé sur six tâches de manipulation dextre en simulation et en monde réel sous occlusions sévères, RGB-S dépasse la meilleure baseline visuo-tactile implicite de 26,7 points de pourcentage en taux de succès sur les scénarios occludés. Ce résultat touche à un verrou majeur du déploiement de mains robotiques polyvalentes. Les approches implicites existantes laissent au modèle le soin d'apprendre seul les correspondances inter-modalités depuis un faible nombre de démonstrations, ce qui les rend fragiles dès que la vision est dégradée par l'auto-occlusion des doigts, la poussière ou un éclairage défavorable. En ancrant explicitement les contacts physiques dans l'espace image avec un prior géométrique fort, RGB-S court-circuite ce problème sans détruire les capacités visuelles pré-entraînées. Le gain de 26,7 points sur des expériences réelles est solide, bien que la sélection restreinte à six tâches de benchmark et l'absence de comparaison avec des architectures VLA récentes invitent à nuancer la portée des conclusions. La fusion visuo-tactile est un champ actif depuis l'essor des capteurs haute résolution comme GelSight ou DIGIT. Les approches précédentes, qu'il s'agisse d'imitation learning ou de reinforcement learning, peinent à résoudre le transfert sim-to-real sur des prises complexes. Du côté industriel, des acteurs comme Sanctuary AI, Dexterous Robotics ou Enchanted Tools (France) intègrent des interfaces tactiles dans leurs plateformes humanoïdes pour la manipulation fine. RGB-S se positionne comme une brique modulaire compatible avec des backbones standards, ce qui facilite son intégration dans des pipelines existants. Les prochaines validations naturelles passeront par des benchmarks standardisés comme DexYCB et des tests sur des mains à plus de six degrés de liberté en environnement industriel non contrôlé.

UEEnchanted Tools (France), qui intègre des interfaces tactiles dans ses humanoïdes, pourrait bénéficier directement de cette brique modulaire pour renforcer la manipulation fine sous occlusion sans reconstruire ses représentations visuelles pré-entraînées.

RecherchePaper
1 source
Prédiction d'intention avec gestion de l'incertitude pour la téléopération d'assemblage humain-robot
19arXiv cs.RO 

Prédiction d'intention avec gestion de l'incertitude pour la téléopération d'assemblage humain-robot

Une équipe de recherche a publié le 9 juin 2026 (arXiv:2606.08341) un cadre de prédiction d'intentions pour la télé-opération assistée en assemblage industriel. L'approche combine trois composants : MS-TCN++, un réseau temporel convolutif pré-entraîné sur des démonstrations de mains humaines puis affiné sur seulement 16 démonstrations de télé-opération robot ; un module de prédiction conforme (conformal prediction) offrant des garanties statistiques de couverture sur l'incertitude trame à trame ; et une correction sélective par VLM (modèle de langage visuel) ciblant les segments temporellement ambigus. Sur un jeu de test à 22 classes d'actions d'assemblage, le transfert humain-robot fait progresser le score Edit de 70,50 à 80,70, et la précision trame de 45,21 % à 46,42 % après correction VLM, avec des gains accompagnateurs sur F1@25 et F1@50. Ce résultat quantifie précisément le volume de données robot nécessaire pour atteindre une performance opérationnelle viable : 16 démonstrations suffisent lorsque le modèle est initialisé sur données humaines, contre des centaines habituellement requises en imitation learning pur. Pour les intégrateurs et les COO qui déploient des cellules de collaboration humain-robot (HRC) en assemblage structuré, c'est une réduction du coût de mise en service potentiellement substantielle. La prédiction conforme est particulièrement pertinente en contexte industriel : contrairement à un score de confiance non calibré, elle génère des ensembles de prédiction avec des garanties formelles de couverture, permettant de détecter les hésitations du système avant qu'une erreur ne survienne, une propriété critique pour la supervision en temps réel sur des lignes à cycle court. Le transfert learning entre démonstrations humaines et données robotiques est un terrain actif dans plusieurs laboratoires. ACT (Stanford), Pi-0 (Physical Intelligence) et GR00T N2 de NVIDIA abordent tous le bootstrapping par données humaines, mais à des échelles très différentes et sans mécanisme d'incertitude formalisé natif. Ce travail se positionne sur la télé-opération industrielle en assemblage structuré, un segment distinct des robots mobiles généralistes, et contribue une couche d'incertitude quantifiée que les grandes architectures VLA n'intègrent pas encore. Les auteurs mettent à disposition code et données via le site du projet ; les suites probables incluent des validations sur environnements industriels réels et des ensembles d'actions plus larges, un terrain où des acteurs européens comme Enchanted Tools pourraient trouver des briques directement exploitables.

UELa disponibilité du code et des données, conjuguée à la réduction du volume de démonstrations nécessaires (16 vs plusieurs centaines), offre aux intégrateurs européens et aux acteurs français comme Enchanted Tools une brique exploitable pour abaisser le coût de mise en service des cellules d'assemblage HRC.

💬 16 démonstrations robot au lieu de plusieurs centaines, c'est le chiffre qui change tout. Le pré-entraînement sur données humaines puis l'affinage sur un tout petit dataset robotique, ça casse le mur d'entrée pour les intégrateurs qui font de l'assemblage structuré. Et la prédiction conforme avec des garanties formelles sur l'incertitude, pas juste un score de confiance non calibré, c'est le détail qui fait qu'on peut l'imaginer en prod, pas seulement sur un papier arXiv.

IA physiquePaper
1 source
Modèle de diffusion sensible aux correspondances pour la manipulation robotique en contact étroit (Robot-DIFT)
20arXiv cs.RO 

Modèle de diffusion sensible aux correspondances pour la manipulation robotique en contact étroit (Robot-DIFT)

La manipulation robotique échoue souvent dans les derniers millimètres : un bras peut identifier le bon objet mais rater l'alignement de pose ou le contact précis nécessaire à l'action. Robot-DIFT (arXiv:2602.11934) est une architecture d'encodeur visuel présentée dans un preprint académique pour combler ce manque, en exposant aux politiques de contrôle des features de correspondance sensibles aux variations fines de pose et de géométrie de contact. L'approche repose sur la distillation de variété (Manifold Distillation) : un modèle de diffusion bruit-conditionné sert de Teacher et transfère sa structure de représentation à un Student déterministe à passe unique, compatible avec le contrôle temps réel. Un réseau pyramidal spatial-sémantique (S2-FPN) fusionne ensuite les features multirésolution pour exposer à la politique à la fois contexte global et détail de contact fin. Évalué sur RoboCasa, LIBERO-10 et sur robots physiques, Robot-DIFT dépasse les encodeurs VLA, auto-supervisés, géométriques et diffusion directe sur les tâches sensibles au contact. L'enjeu est structurant pour la robotique de précision et les intégrateurs industriels. Les encodeurs sémantiques qui équipent les VLA modernes, comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, reconnaissent les objets à l'échelle scène mais écrasent les indices de correspondance fine dont le contrôle en boucle fermée a besoin : c'est ce qui bloque l'assemblage de précision, l'insertion et la manipulation en milieu non structuré. Les modèles de diffusion encodent naturellement ces correspondances denses, mais leur stochasticité et leur latence élevée les rendaient inutilisables directement. Robot-DIFT propose une alternative : distiller ces features en un backbone déterministe temps réel sans perdre leur avantage de correspondance. Les travaux sur les features de diffusion en vision 2D (DIFT, Diffusion Hyperfeatures) avaient posé les bases théoriques sans transposition robotique praticable. Robot-DIFT se positionne face aux encodeurs auto-supervisés établis comme R3M, MVP et VC-1, et aux représentations issues des VLA. Aucun acteur européen n'est cité dans ce travail, mais des entreprises comme Enchanted Tools ou Wandercraft, dont les cas d'usage requièrent une précision millimétrique, sont dans le périmètre d'application direct. Les prochaines étapes logiques incluent l'intégration dans des politiques diffusion (Diffusion Policy, ACT) et des évaluations sur benchmarks industriels plus représentatifs que les suites académiques actuelles.

UEDes entreprises françaises comme Enchanted Tools et Wandercraft, dont les cas d'usage requièrent une précision millimétrique, pourraient bénéficier de cette architecture si elle est intégrée dans des politiques de contrôle open-source diffusion ou ACT.

IA physiquePaper
1 source
TORL-VLA : apprentissage par renforcement en ligne à guidage tactile pour la manipulation à contacts intensifs
21arXiv cs.RO 

TORL-VLA : apprentissage par renforcement en ligne à guidage tactile pour la manipulation à contacts intensifs

Des chercheurs ont publié le 10 juin 2026 sur arXiv (arXiv:2606.09337) un framework baptisé TORL-VLA (Tactile-guided Online Reinforcement Learning for Vision-Language-Action), conçu pour résoudre un point de blocage précis des VLA en robotique de manipulation : l'inadaptation en temps réel aux conditions de contact. TORL-VLA couple un module VLA enrichi de retour tactile, capable de prédire à la fois une action de référence et une séquence de forces futures (wrench sequences), avec un module d'apprentissage par renforcement en ligne, léger, qui raffine ces actions au fil des tentatives. Le système a été validé sur des tâches longues et en contact soutenu avec l'environnement : manipulation d'une serrure (latch manipulation), placement précis d'une tasse à café, et manipulation d'un œuf cru. Sur l'ensemble de ces scénarios, TORL-VLA améliore les taux de succès à l'échelle des sous-tâches et des tâches complètes, ainsi que l'efficacité temporelle d'exécution par rapport aux baselines comparées. L'enjeu technique est bien réel : les VLA actuels sont déployés comme des politiques hors ligne (offline policies), c'est-à-dire figées après entraînement. Dès que les conditions de contact s'écartent de la distribution d'entraînement, friction différente, compliance d'objet inattendue, positionnement imprécis, la politique échoue sans mécanisme de correction. Le résultat concret est une accumulation de forces de contact inappropriées et des boucles de retry inefficaces, problème critique pour tout déploiement industriel où la reproductibilité du geste est exigée. TORL-VLA introduit également un "intervention-censored critic", un mécanisme qui évite d'attribuer à tort un succès post-intervention humaine aux actions de la politique générées avant cette intervention, ce qui stabilise l'apprentissage sur des données mixtes (exploration autonome + corrections opérateur). Cette approche est méthodologiquement significative : elle rend l'apprentissage en ligne viable dans un contexte d'apprentissage par démonstration avec supervision humaine intermittente, ce qui correspond précisément aux conditions réelles de mise en service. Les VLA comme Pi-0 (Physical Intelligence), OpenVLA, ou les architectures dérivées de RT-2 (Google DeepMind) ont démontré une généralisation impressionnante en manipulation, mais leur rigidité post-entraînement constitue un frein reconnu au déploiement en production. Des travaux comme DexVLA ou des approches avec force feedback (ForceSight, TacVLA) ont commencé à intégrer la modalité tactile, mais sans adaptation en ligne. TORL-VLA se positionne à l'intersection de ces deux axes : adaptation dynamique et perception haptique. Aucun chiffre de performance absolu (taux de succès brut, temps de cycle) n'est communiqué dans l'abstract, ce qui limite la comparaison directe avec d'autres systèmes, les résultats complets sont dans le papier complet. Du côté européen, des acteurs comme Enchanted Tools (France, robot Mirokaï) ou Wandercraft travaillent sur la compliance et l'interaction physique, mais sur des architectures différentes. Les prochaines étapes naturelles pour TORL-VLA concernent la généralisation à d'autres objets déformables, la réduction de la latence du module RL en ligne, et une validation à plus grande échelle avant tout positionnement comme solution industrielle.

UELes équipes françaises comme Enchanted Tools ou Wandercraft, actives sur la compliance et l'interaction physique, pourraient s'appuyer sur cette méthodologie d'adaptation tactile en ligne pour améliorer la robustesse au contact de leurs robots, bien qu'aucun transfert direct ne soit documenté.

IA physiqueOpinion
1 source
La diversité est-elle tout ce qu'il faut pour la manipulation robotique à grande échelle ?
22arXiv cs.RO 

La diversité est-elle tout ce qu'il faut pour la manipulation robotique à grande échelle ?

Une équipe de chercheurs publie sur arXiv (référence 2507.06219) une étude systématique sur le rôle de la diversité des données dans l'apprentissage de la manipulation robotique, remettant en cause l'intuition du "plus c'est divers, mieux c'est". Trois dimensions sont examinées indépendamment. La diversité des tâches s'avère plus critique que le volume de démonstrations par tâche pour le transfert vers de nouveaux scénarios. L'entraînement multi-robots (multi-embodiment) n'est pas nécessaire au transfert inter-plateformes : un modèle entraîné sur un seul type de robot avec des données de haute qualité transfère aussi efficacement, avec de meilleures propriétés de scaling au fine-tuning. Enfin, la diversité des experts humains peut nuire à l'apprentissage via la multimodalité des vitesses d'exécution, chaque opérateur ayant ses propres rythmes et préférences gestuelles. Pour corriger ce biais, les auteurs introduisent une méthode de distribution debiasing appliquée à leur modèle GO-1-Pro, qui gagne 15% de performance, l'équivalent de multiplier par 2,5 le volume de pré-entraînement. Ces résultats ont des implications directes pour les équipes qui conçoivent des pipelines de collecte de données. La conclusion sur le multi-embodiment est particulièrement contre-intuitive : constituer un corpus mono-robot de haute qualité avant de fine-tuner est plus efficace qu'accumuler des datasets disparates multi-robots. Pour un intégrateur ou un décideur industriel, cela redéfinit les priorités de curation : couvrir un maximum de tâches prime sur l'accumulation brute de démonstrations, et standardiser les démonstrations expert devient un levier de performance mesurable. La multimodalité des vitesses est désormais un biais identifiable et corrigeable en amont du pipeline, pas une fatalité inhérente à la collecte humaine. Ce travail s'inscrit dans la dynamique portée par Google DeepMind (RT-2), Physical Intelligence (Pi-0) et les équipes de Berkeley (OpenVLA, Octo), qui cherchent à construire des fondations généralistes pour la manipulation depuis 2023. Contrairement au texte ou aux images, les données de démonstration robotique restent coûteuses à produire, ce qui rend les choix de stratégie de scaling particulièrement stratégiques. Les conclusions orientent directement les acteurs comme Figure AI (Figure 03), Agility Robotics ou, en France, Enchanted Tools (Mirokaï), qui investissent dans de larges datasets de manipulation. Ce travail est purement académique : aucun déploiement ni partenariat commercial n'est annoncé.

UEEnchanted Tools (Mirokaï) est explicitement citée comme acteur concerné par ces stratégies de scaling des données de manipulation, rendant les conclusions directement applicables à leur R&D en France.

RecherchePaper
1 source
Generalist lève 400 millions de dollars pour développer ses modèles d'IA généralistes
23The Robot Report 

Generalist lève 400 millions de dollars pour développer ses modèles d'IA généralistes

Generalist AI Inc. a annoncé une levée de fonds de 400 millions de dollars, portant son financement total à plus de 500 millions depuis sa création en 2024. Le tour a été mené par Radical Ventures, avec de nouveaux entrants incluant 8VC, Union Square Ventures, Hanabi Capital et Norwest, auxquels s'ajoutent les investisseurs historiques NVentures (NVIDIA), Boldstart Ventures, Spark Capital et Bezos Expeditions. Parmi les investisseurs individuels figurent Fei-Fei Li, Eric Yuan (PDG de Zoom), Bin Lin et Naval Ravikant. Basée à San Mateo, en Californie, la startup développe des modèles fondamentaux destinés à des robots généralistes, capables d'opérer sur différentes architectures matérielles. En novembre 2025, elle avait lancé GEN-0, présenté comme le premier modèle à appliquer les lois de mise à l'échelle (scaling laws) à la robotique physique. En avril 2026, elle a publié GEN-1, avec des métriques communiquées par la société elle-même: taux de succès moyen de 99 % sur des tâches où les modèles précédents atteignaient 64 %, vitesse d'exécution environ trois fois supérieure sur des manipulations dextères, et seulement une heure de données robotiques nécessaires par compétence apprise. Ces chiffres, s'ils se confirment en conditions industrielles réelles, représenteraient un changement structurel pour la commercialisation de la robotique généraliste. Le principal verrou du secteur reste logiciel: la plupart des intégrateurs investissent encore des semaines de collecte de données pour chaque nouvelle tâche. Un modèle nécessitant une heure de données par compétence transformerait radicalement l'économie du déploiement. Cela dit, les métriques publiées proviennent exclusivement des communications internes de Generalist AI, sans validation indépendante ni précision sur les conditions de benchmark ou la nature des tâches testées. Le concept de "data flywheel", selon lequel les déploiements chez des clients industriels génèrent les données qui alimentent le modèle suivant, est éprouvé dans le logiciel; sa transposition à la robotique physique, avec ses contraintes de sécurité et de variabilité du monde réel, reste à démontrer à l'échelle. Generalist AI a été fondée en 2024 par Pete Florence (CEO), Andy Zeng (Chief Scientist) et Andrew Barry (CTO), trois chercheurs issus des milieux académiques et industriels de la robotique. La startup s'inscrit dans un marché en forte compétition: Physical Intelligence avec son modèle Pi-0, Figure AI avec le Figure 03, Boston Dynamics, Apptronik et 1X Technologies ciblent tous le même segment des modèles d'IA généralistes pour robots physiques. En Europe, Enchanted Tools et Wandercraft progressent sur des verticales plus ciblées. Avec cette levée, Generalist AI prévoit d'accélérer le développement de modèles de nouvelle génération, d'étendre son infrastructure d'entraînement et de renforcer son moteur de collecte de données physiques. La prochaine étape observable sera la documentation de déploiements industriels concrets chez des clients identifiés, seul critère qui permettra de distinguer les performances en laboratoire de la viabilité commerciale annoncée.

UELa montée en puissance de Generalist AI accentue la pression concurrentielle sur les acteurs européens comme Enchanted Tools et Wandercraft, dont les verticales ciblées et les capacités de financement ne sont pas comparables aux 500 M$ levés par cette startup américaine en moins de deux ans.

💬 500 millions en deux ans, c'est du sérieux. Ce qui m'intéresse vraiment, c'est pas le chèque, c'est cette histoire d'une heure de données par compétence apprise (contre des semaines pour les intégrateurs actuels). Si ça tient en conditions industrielles, tu changes complètement l'économie du déploiement robotique, mais tous les chiffres sortent de chez eux sans validation externe, donc faut voir les premiers clients réels avant de s'emballer.

IA physiqueOpinion
1 source
Un nouveau robot humanoïde apporte perception avancée et manipulation aux robots industriels
24Interesting Engineering 

Un nouveau robot humanoïde apporte perception avancée et manipulation aux robots industriels

VinRobotics, filiale robotique du conglomérat vietnamien Vingroup, a présenté le VR-H3 simultanément à l'ICRA 2026 de Vienne et au COMPUTEX Taipei 2026 fin mai. Ce robot humanoïde de troisième génération embarque plus de 31 actionneurs assurant la coordination corps entier, deux ordinateurs de bord pour le traitement local des données sensorielles, et une capacité de charge utile annoncée entre 6 et 8 kilogrammes. Il est conçu pour la manutention, l'assemblage et la navigation en environnement industriel dynamique. Lors de la démonstration à l'ICRA, VinRobotics a illustré une téléopération via casque de réalité virtuelle couplé à une capture de mouvement intégrée, sans équipement de tracking externe. La même semaine, VinDynamics, autre filiale de Vingroup, dévoilait Dyno, un premier humanoïde dédié à la sécurité, la surveillance urbaine et l'assistance domestique, déjà testé comme guide autonome au Vinpearl Safari Phu Quoc en dialogue multilingue avec les visiteurs. VinRobotics revendique un développement 100 % interne : architecture mécanique, infrastructure temps réel, architecture électrique et électronique, gestion de batterie et framework IA corps entier. Ce double lancement positionne Vingroup comme le premier acteur vietnamien à présenter plusieurs plateformes humanoïdes simultanément dans des conférences de rang mondial. L'intégration verticale revendiquée, si elle est confirmée, confère un avantage potentiel sur la maîtrise des coûts et les cycles d'itération, un levier que cherchent précisément les intégrateurs industriels soumis à des délais d'approvisionnement longs sur les actionneurs. La charge utile de 6 à 8 kg reste cependant modeste face aux références actuelles du secteur (Tesla Optimus Gen 3 annonce 20 kg, Figure 02 vise des tâches similaires avec un payload supérieur). Les vidéos publiées montrent des démonstrations en conditions contrôlées : aucun chiffre de temps de cycle, de taux de succès en tâche répétitive ou de volume de déploiement n'est communiqué, ce qui situe le VR-H3 clairement au stade prototype démontré, pas produit expédié. Vingroup, groupe diversifié dont la capitalisation dépasse 10 milliards de dollars et qui couvre l'automobile (VinFast), l'immobilier et la technologie, a structuré depuis 2023 une branche robotique active avec VinRobotics et VinDynamics. Le contexte global est celui d'une course humanoïde intense : en Chine, Unitree, Agibot et XPENG Robotics produisent déjà à petite série ; aux États-Unis, Agility Robotics déploie Digit chez Amazon ; en Europe, 1X Technologies et Enchanted Tools (Mirokaï) avancent sur des niches de service. Le Vietnam, qui cherche à monter en gamme dans la chaîne de valeur manufacturière, mise sur la robotique comme vitrine technologique nationale. Les prochaines étapes pour VinRobotics restent floues : aucun pilote industriel signé ni timeline de commercialisation n'a été annoncé à l'issue des deux événements.

UELa présentation à l'ICRA de Vienne signale l'émergence d'un concurrent asiatique supplémentaire sur le marché humanoïde, renforçant la pression concurrentielle sur les acteurs européens comme Enchanted Tools ou 1X Technologies, mais sans déploiement ni partenariat européen annoncé.

Chine/AsieOpinion
1 source
Comment les utilisateurs évaluent les performances des modèles fondation robotiques au-delà du taux de réussite des tâches
25arXiv cs.RO 

Comment les utilisateurs évaluent les performances des modèles fondation robotiques au-delà du taux de réussite des tâches

Une étude publiée sur arXiv (arXiv:2602.03920) examine comment des utilisateurs non-spécialistes interprètent les données de performance des modèles de fondation robotiques (RFM, Robot Foundation Models), ces architectures d'IA généraliste conçues pour piloter des robots domestiques polyvalents comme ceux développés par Physical Intelligence (pi0), Google DeepMind (GR00T N2) ou Figure AI. Le cœur du problème : lorsqu'un utilisateur demande à un robot RFM d'effectuer une tâche hors de son domaine d'entraînement, il doit pouvoir évaluer le risque d'échec, qui peut être coûteux, voire dangereux. Les chercheurs ont exposé des participants à des données réelles issues de plusieurs projets RFM publiés, incluant le taux de succès aux tâches (TSR, Task Success Rate), des descriptions de cas d'échec et des vidéos de démos. Les résultats montrent que les non-experts comprennent et utilisent le TSR de façon conforme aux attentes des spécialistes, ce qui valide son usage comme métrique primaire dans les publications académiques. Mais la découverte la plus significative est ailleurs : les utilisateurs accordent une valeur élevée aux descriptions de cas d'échec, une information rarement reportée de façon systématique dans les évaluations de RFMs. Par extension, ils souhaitent disposer à la fois de données historiques issues des évaluations passées du modèle et d'estimations proactives du robot sur ses chances de succès face à une tâche inédite. Cette attente soulève un défi concret pour les intégrateurs et les équipes produit : la transparence sur les limites du modèle n'est pas optionnelle si l'on vise un déploiement grand public. Ce travail s'inscrit dans un débat plus large sur le fossé entre les démos laboratoire et l'usage réel, souvent qualifié de "demo-to-reality gap". Alors que le secteur converge vers des benchmarks standardisés comme DROID ou Open-X-Embodiment pour comparer les RFMs entre eux, la question de leur lisibilité par les décideurs non-techniques reste largement ouverte. Des acteurs comme Enchanted Tools en France ou Wandercraft misent sur des interfaces d'interaction proches de l'utilisateur final, mais peu d'équipes formalisent encore la communication sur les taux d'échec. Cette étude plaide pour l'intégration de "failure reporting" structuré dans les fiches produit et les publications techniques, une évolution qui pourrait devenir un critère de certification dans les futures réglementations européennes sur la robotique.

UEL'étude plaide pour un 'failure reporting' structuré qui pourrait devenir un critère de certification dans les futures réglementations européennes sur la robotique, concernant directement Enchanted Tools et Wandercraft pour leurs fiches produit.

RecherchePaper
1 source
Feuille de route mondiale des technologies robotiques
26Robohub 

Feuille de route mondiale des technologies robotiques

Henrik I. Christensen, professeur d'informatique à l'Université de Californie San Diego, a publié un document de positionnement de 52 pages intitulé "Global Robotics Technology Roadmap", couvrant la trajectoire mondiale de la robotique sur la décennie 2025-2035. Ce rapport de référence agrège des données issues des principales conférences du secteur (ICRA, IROS, RSS, CoRL, NeurIPS, ICML) ainsi que des statistiques industrielles collectées lors de visites directes dans des laboratoires de recherche sur trois continents. Les chiffres clés sont les suivants : le marché mondial de la robotique a atteint 53,2 milliards de dollars en 2024, avec une trajectoire projetée à 178,7 milliards en 2033. L'Asie domine le déploiement industriel avec 74 % des installations mondiales en 2024, dont 54 % pour la Chine seule. Le segment humanoïde, valorisé à 370 millions de dollars en 2025, est projeté à 6,5 milliards en 2030, avec des OEM chinois et des entreprises technologiques américaines en course pour la montée en production. Sur le plan algorithmique, le roadmap identifie les modèles Vision-Language-Action (VLA) comme le développement le plus structurant de la période, car ils permettent pour la première fois une généralisation cross-embodiment: un même modèle peut en principe piloter des morphologies robotiques différentes sans réentraînement complet. Du côté matériaux, les mécanismes souples à base d'élastomères à cristaux liquides (LCE), de polymères électroactifs (EAP) et d'hydrogels auto-cicatrisants sont signalés comme vecteurs de convergence entre systèmes industriels rigides et dispositifs médicaux bio-compatibles. Le document pointe également l'asymétrie réglementaire comme variable géopolitique critique: l'EU AI Act, premier cadre légal complet pour les systèmes d'IA à haut risque, est déjà en train de remodeler la conception des robots humanoïdes à l'échelle mondiale, y compris chez des acteurs non européens. Le rapport s'inscrit dans un effort de cartographie stratégique à destination des décideurs politiques, des agences de recherche et des directeurs R&D industriels. L'Europe y est positionnée comme leader en régulation de sécurité et en cobots collaboratifs, les États-Unis en autonomie propulsée par l'IA et en robotique de défense, tandis que l'Asie, pilotée par la Chine, écrase le reste du monde sur le volume de déploiement. Le document couvre des secteurs allant de la logistique à l'agriculture en passant par la construction et le minier, et formule des priorités de recherche différenciées par région. Aucun pilote ni timeline de déploiement concret n'est annoncé: il s'agit d'un document de prospective et d'orientation, pas d'un engagement industriel. Sa valeur tient à la synthèse structurée qu'il offre aux intégrateurs et stratèges qui naviguent dans un écosystème fragmenté entre acteurs américains (Boston Dynamics, Figure, Agility), chinois (Unitree, Fourier) et européens comme Wandercraft ou Enchanted Tools.

UEL'EU AI Act est identifié comme le premier cadre légal contraignant pour les systèmes d'IA à haut risque et remodèle déjà la conception des robots humanoïdes à l'échelle mondiale, positionnant l'Europe comme référence réglementaire pour la décennie 2025-2035.

RecherchePaper
1 source
RobotValues : évaluer les robots domestiques face aux conflits de valeurs humaines
27arXiv cs.RO 

RobotValues : évaluer les robots domestiques face aux conflits de valeurs humaines

Une équipe de chercheurs a publié début juin 2026 RobotValues (arXiv:2606.03312), un benchmark constitué de 10 000 scénarios destinés à évaluer les robots domestiques dans des situations où les valeurs humaines entrent en conflit. Chaque instance associe une image réaliste d'intérieur résidentiel à plusieurs actions robot plausibles, chacune privilégiant une valeur différente : autonomie de l'utilisateur, efficacité, sécurité, ou respect de la vie privée. Le corpus a été généré par une pipeline semi-automatique combinant génération assistée par LLM, extraction de valeurs ancrée dans des retours de parties prenantes, génération d'images et contrôle qualité automatique. Les modèles de vision-langage (VLM) couramment utilisés comme planificateurs robotiques y ont été évalués, avec des résultats préoccupants : lorsqu'on leur demande explicitement de prioriser une valeur qui contredit leurs préférences par défaut, les modèles échouent dans 80 % des cas et maintiennent leur comportement initial. Ce résultat chiffré remet en cause un angle mort de l'évaluation robotique standard, qui se concentre quasi exclusivement sur le taux de complétion de tâche et la conformité aux règles de sécurité. Dans un foyer, un robot aspirateur qui désactive un microphone pour respecter la vie privée d'un utilisateur fait un choix contraire à l'efficacité opérationnelle mais aligné avec une valeur légitime. RobotValues formalise exactement ces arbitrages. Le constat que les modèles favorisent par défaut la sécurité et l'accommodement au détriment de la protection de la vie privée soulève des questions concrètes pour les intégrateurs B2B et les équipes produit déployant des assistants domestiques, notamment sur la robustesse des mécanismes d'instruction fine-grained dans les VLMs. Les VLMs utilisés comme planificateurs robotiques constituent une tendance lourde depuis les travaux de Google sur RT-2 et les architectures Vision-Language-Action (VLA) comme Pi-0 de Physical Intelligence ou OpenVLA. Ces modèles héritent de biais d'entraînement qui ne posent pas de problème dans des contextes de complétion de tâche pure, mais deviennent critiques dès que le robot opère dans un espace privé avec des occupants ayant des préférences potentiellement contradictoires. RobotValues s'inscrit dans un agenda de recherche plus large sur l'alignement des agents embarqués, distinct des débats sur les LLMs conversationnels. Aucun fabricant de robot domestique (Samsung, LG, Amazon Astro, ou les startups européennes comme Enchanted Tools) n'est cité dans le papier ; le benchmark reste pour l'instant un outil académique, mais sa structure modulaire et son échelle de 10 000 instances le positionnent comme un candidat sérieux à l'intégration dans les pipelines d'évaluation de prochaines générations de plateformes embarquées.

UELe benchmark RobotValues pourrait servir de référentiel d'évaluation pour les startups européennes de robotique domestique comme Enchanted Tools, notamment dans le cadre des exigences de l'AI Act sur les systèmes autonomes opérant en espace privé.

RecherchePaper
1 source
Transfert de style de mouvement humain pour le contrôle physique de robots humanoïdes
28arXiv cs.RO 

Transfert de style de mouvement humain pour le contrôle physique de robots humanoïdes

Un groupe de chercheurs présente dans un preprint arXiv (2606.03536, soumis le 3 juin 2026) un framework de transfert de style de mouvement pour robots humanoïdes. Le système prend en entrée un court clip humain illustrant un style moteur désiré (rythme de marche, balancement des bras, posture) et un mouvement cible distinct, puis génère un mouvement corps entier stylisé adapté au robot. Le modèle central est un modèle de diffusion latente multi-condition, sensible à la physique, fusionnant conditions de style, de contenu et de trajectoire. La guidance classifier-free permet d'ajuster l'intensité du style sans réentraîner le modèle. Les références générées sont ensuite converties pour le robot Unitree G1 et exécutées par une politique de suivi corps entier entraînée via une stratégie "cluster-and-distill". Sur 125 essais sur robot réel, la méthode atteint un taux de réussite de 96,0 %, avec moins d'artefacts de contact et de jitter que les baselines orientées animation. Ce résultat remet en question le paradigme dominant où chaque comportement expressif d'un humanoïde est soit capturé en démonstration directe, soit scripté manuellement, deux approches coûteuses et non réutilisables entre contenus de mouvement différents. En permettant à un court clip humain de servir de source de style transférable sur des contenus arbitraires, le framework ouvre la voie à une personnalisation motrice procédurale. L'écart simulation-hardware est adressé directement par des régularisations de cohérence de contact et de lissage temporel imposées lors de l'entraînement, un point de friction récurrent dans la chaîne génération-contrôle. Un taux de 96 % sur 125 essais réels représente un résultat solide pour de la recherche académique dans ce domaine, où beaucoup de travaux restent confinés à la simulation. Le Unitree G1 (environ 16 000 dollars) s'est imposé ces 18 derniers mois comme la plateforme de référence pour la recherche humanoïde académique. Ces travaux s'inscrivent dans la tendance des modèles de diffusion appliqués à la génération de mouvement (MDM, MotionDiffuse), prolongée ici jusqu'au contrôle physique sur hardware réel. Dans la course à l'expression motrice des humanoïdes, Boston Dynamics (Atlas), Figure et 1X investissent massivement côté imitation learning et VLA end-to-end, tandis que ce preprint se positionne sur la génération procédurale contrôlée, approche complémentaire. Du côté européen, Wandercraft et Enchanted Tools (France, robot Mirokaï) travaillent sur des problématiques d'expression motrice proches, sur des architectures distinctes. La suite logique serait l'intégration de ce framework dans des pipelines de téléopération ou d'interfaces humain-robot en conditions industrielles réelles.

UEWandercraft et Enchanted Tools (France) travaillent sur des problématiques d'expression motrice similaires et pourraient s'inspirer de cette approche de transfert de style procédural sur hardware réel.

HumanoïdesPaper
1 source
IA incarnée fiable : un programme communautaire du test à la vérification formelle
29arXiv cs.RO 

IA incarnée fiable : un programme communautaire du test à la vérification formelle

Un article de position publié sur arXiv (2606.03593) dans le cadre du programme AAAI'26 Bridge sur la fiabilité des IA embarquées pose un constat cru : malgré l'accélération des déploiements en environnements ouverts, l'industrie ne dispose d'aucune méthodologie unifiée pour garantir le comportement sûr et prévisible de ces systèmes. Les auteurs identifient trois axes complémentaires : des tests par scénarios appuyés sur des spécifications validées et des métriques de couverture, une vérification compositionnelle via des représentations symboliques structurées, et des mécanismes d'assurance à l'exécution capables de gérer les incertitudes et les glissements de distribution (distribution shifts) en déploiement réel. Leur thèse centrale : ces trois approches doivent être intégrées dans un workflow d'assurance continu reliant tests, vérification formelle et adaptation runtime via des représentations neuro-symboliques partagées, sur l'ensemble du cycle de vie du système. L'enjeu est direct pour les intégrateurs et les COO industriels. Les systèmes d'IA embarquée, robots humanoïdes, AMR, bras de manipulation autonome, atteignent un niveau de capacité qui autorise des déploiements commerciaux, mais la certification de leurs comportements reste un angle mort. Là où l'automobile dispose de l'ISO 26262 et l'aéronautique de la DO-178C, la robotique IA ne dispose d'aucun cadre équivalent. Ce papier ne propose pas de norme : il trace un agenda de recherche communautaire pour combler cet écart. Prouver formellement les propriétés de sécurité d'un système dont les comportements émergent d'un réseau de neurones reste un problème ouvert, et l'absence de solution freine les déploiements à grande échelle en logistique, en industrie et dans les soins à la personne. Ce travail s'inscrit dans le sillage de l'essor des VLA (Vision-Language-Action models), Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, Helix de Figure, qui ont rendu les robots plus capables mais aussi moins prédictibles, compliquant d'autant leur vérification. Des acteurs français comme Wandercraft (exosquelette marchant) et Enchanted Tools (robot Mirokaï) se heurtent au même verrou réglementaire dès qu'ils visent des environnements hospitaliers ou publics. La suite logique de cet agenda passe par la constitution de benchmarks partagés et d'outils de vérification formelle adaptés aux architectures neuro-symboliques, un chantier que le Bridge Program de l'AAAI'26, prévu pour 2026, entend contribuer à structurer.

UEWandercraft et Enchanted Tools sont cités explicitement comme confrontés à ce verrou réglementaire dès qu'ils visent des environnements hospitaliers ou publics en France, cet agenda de recherche pourrait structurer le cadre de certification qui leur fait défaut.

RechercheOpinion
1 source
PACE : exécution par segments selon les phases pour les politiques robotiques avec découpage d'actions
30arXiv cs.RO 

PACE : exécution par segments selon les phases pour les politiques robotiques avec découpage d'actions

Des chercheurs présentent PACE (Phase-Aware Chunk Execution), une méthode d'exécution sans réentraînement publiée sur arXiv (2606.00537) qui s'applique aux politiques robotiques exploitant l'action chunking. Le principe de l'action chunking, popularisé par des architectures comme ACT et les politiques de diffusion, consiste à faire prédire au modèle une séquence d'actions futures en bloc, dont seul un préfixe est exécuté en boucle ouverte avant de re-interroger le modèle. Le paramètre clé, l'horizon d'exécution (combien d'étapes du bloc sont jouées avant la prochaine observation), est jusqu'ici fixé statiquement. PACE le détermine dynamiquement en analysant le profil de vitesse prédit : les points de transition basse vitesse dans la trajectoire correspondent aux frontières naturelles entre phases de manipulation, et PACE les utilise comme candidats au replanning. La méthode a été validée sur 50 tâches RoboTwin 2.0 (passage de 57,8 % à 64,2 % de taux de succès), et sur robots réels avec une plateforme bimanuelle ALOHA et un bras Franka single-arm (score moyen 60,7 à 77,7, taux de succès 50,7 % à 70,4 %). Un gain de près de 20 points de pourcentage en conditions réelles sans modifier ni réentraîner le modèle sous-jacent est un résultat notable pour le secteur. Il confirme que le goulot d'étranglement ne réside pas toujours dans la qualité intrinsèque de la politique VLA ou diffusion, mais dans la stratégie de déploiement elle-même. PACE s'insère en plug-and-play au-dessus de n'importe quelle politique existante, sans accès aux poids ni aux couches internes, ce qui en fait un outil immédiatement utilisable par les intégrateurs et les équipes de mise en production, sans investissement en données ou calcul supplémentaire. L'action chunking s'est imposé comme standard d'exécution depuis les travaux sur ACT (Stanford, 2023) et les politiques de diffusion (Chi et al.), repris dans des systèmes comme pi-0 de Physical Intelligence ou les architectures OpenVLA. La rigidité de l'horizon fixe est un problème connu, et plusieurs approches ont tenté de l'adresser via du replanning conditionnel ou de la détection d'anomalies. PACE choisit une voie plus simple : exploiter uniquement le bloc d'actions déjà prédit, sans capteur ni signal externe. La prochaine étape logique sera de tester cette approche sur des politiques à plus haute fréquence comme GR00T N2 de NVIDIA ou les architectures hybrides VLA-diffusion qui émergent chez des acteurs comme Enchanted Tools en Europe, où la latence de replanning reste un verrou industriel.

UEEnchanted Tools et les équipes robotiques européennes déployant des politiques VLA ou de diffusion pourraient bénéficier directement de PACE pour améliorer leurs taux de succès en production sans coût de réentraînement ni d'accès aux poids du modèle.

💬 +20 points de taux de succès sur robot réel sans toucher au modèle, c'est le genre de résultat qui fait réfléchir sur où on met vraiment l'effort en robotique. L'idée est belle : plutôt que d'entraîner encore, on optimise le quand on replanifie, en lisant les creux de vitesse dans la trajectoire déjà prédite. Plug-and-play, sans accès aux poids, ça va intéresser sérieusement les équipes qui font de l'intégration prod, Enchanted Tools en tête.

IA physiqueOpinion
1 source
Modèles vision-langage-action : l'apprentissage par renforcement permet un apprentissage continu naturel
31arXiv cs.RO 

Modèles vision-langage-action : l'apprentissage par renforcement permet un apprentissage continu naturel

Une équipe du laboratoire RobIn de l'Université du Texas à Austin publie une étude systématique sur l'apprentissage par renforcement continu (Continual RL, CRL) appliqué aux modèles Vision-Language-Action (VLA), soumise sur arXiv en mars 2026 (2603.11653, v2). Le résultat central contredit un postulat solidement établi dans la littérature : le fine-tuning séquentiel simple (Seq. FT) couplé à LoRA (Low-Rank Adaptation, adaptation paramétrique par matrices de faible rang) suffit à entraîner continuellement de grands VLAs sans oubli catastrophique significatif. Testé sur plusieurs benchmarks lifelong RL dans des environnements ouverts et évolutifs, Seq. FT + LoRA atteint une forte plasticité, conserve une généralisation zero-shot robuste, et surpasse fréquemment des méthodes CRL nettement plus complexes. Ce constat redessine les prérequis techniques pour l'adaptation continue de robots génériques en production. Si l'on n'a pas besoin de replay mémoire, de régularisation élastique de type EWC ni d'architectures modulaires pour éviter l'oubli catastrophique, les équipes embarquant des VLAs dans des cycles de mise à jour continus gagnent une simplicité opérationnelle considérable. L'étude attribue ce comportement à une synergie entre trois facteurs : la large capacité de représentation du modèle pré-entraîné, l'adaptation paramétrique légère de LoRA, et la nature on-policy du renforcement utilisé. Cette combinaison reconfigure le compromis classique stabilité-plasticité, rendant l'adaptation scalable sans infrastructure CRL dédiée. Le résultat invite aussi à reconsidérer l'utilité réelle des méthodes sophistiquées de continual learning dans le régime des grands modèles, où la complexité algorithmique semble parfois être une réponse à un problème que le scaling a déjà partiellement résolu. Les VLAs de grande taille comme RT-2 (Google DeepMind), OpenVLA (Berkeley) ou pi-0 (Physical Intelligence) s'imposent progressivement comme socle de la robotique généraliste, mais leur recyclage continu sur de nouvelles tâches sans régression restait un verrou ouvert. UT Austin RobIn, déjà actif sur les approches RL pour la manipulation robotique, positionne ici le Seq. FT comme baseline solide plutôt que comme anti-pattern à éviter, ce qui tranche avec l'orthodoxie des équipes de CMU, Stanford ou Google DeepMind. Les startups robotiques travaillant avec des architectures VLA (Figure AI, Apptronik, ou Enchanted Tools côté européen) seront attentives à ces résultats si leur généralisation hors benchmarks contrôlés se confirme. Le code est publié sur GitHub (UT-Austin-RobIn/continual-vla-rl), ce qui devrait accélérer la reproduction et l'intégration dans des pipelines de déploiement réels.

UEEnchanted Tools (startup française) est explicitement citée parmi les bénéficiaires potentiels : si ces résultats se généralisent hors benchmarks, les équipes VLA européennes pourraient simplifier significativement leurs pipelines d'entraînement continu en abandonnant les méthodes CRL complexes au profit de Seq. FT + LoRA.

💬 Ce qui me frappe : des années à chercher comment éviter l'oubli catastrophique sur les gros VLAs, et la réponse c'est LoRA + fine-tuning séquentiel bête et méchant, sans EWC ni replay mémoire. Bon, sur le papier ça semble trop propre pour être vrai. Mais le code est public et si ça tient hors benchmarks, Figure AI et les autres vont simplifier leurs pipelines d'un coup.

IA physiqueOpinion
1 source
VLAMotor : amélioration guidée par tests des modèles VLA via la synthèse de données à base d'agents
32arXiv cs.RO 

VLAMotor : amélioration guidée par tests des modèles VLA via la synthèse de données à base d'agents

Des chercheurs ont publié le 31 mai 2026 (arXiv:2606.00053) VLAMotor, un cadre d'analyse et d'amélioration des modèles Vision-Langage-Action (VLA) pour la manipulation robotique. Ces modèles, dont Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA, sont entraînés sur de grandes bases de données de trajectoires et apprennent à relier instructions en langage naturel, perception visuelle et commandes motrices. Le problème documenté par l'équipe : dès le déploiement, les VLA échouent sur des configurations hors distribution, c'est-à-dire des scènes ou orientations d'objets absentes des données d'entraînement. VLAMotor répond à cela en deux phases. Premièrement, il sélectionne des cas de test en mesurant la distance entre chaque entrée candidate et les échantillons d'entraînement, puis applique une élimination de redondance pour construire un jeu de test compact mais diversifié. Résultat : 92,33 % des cas générés déclenchent effectivement un échec du modèle testé, et la couverture de test dépasse de 18,93 % l'outil de l'état de l'art. Deuxièmement, les trajectoires d'échec sont abstraites en représentations sémantiques structurées, planifiées comme séquences de compétences paramétrées, puis converties en trajectoires exécutables via cinématique inverse. Ces trajectoires réussies sont étiquetées automatiquement et servent à affiner le modèle original, améliorant son taux de succès global de 49,25 %. L'impact industriel est direct : le sim-to-real gap, longtemps cité comme obstacle principal au déploiement des VLA en production, est ici réduit de façon mesurable sans collecte de données humaines coûteuses. Sur matériel réel, les modèles affinés en simulation affichent +57,50 % de succès par rapport aux modèles de base, ce qui valide un pipeline entièrement automatisé de découverte de défauts et de correction. Pour un intégrateur industriel ou un OEM robotique, cela signifie qu'un VLA pré-entraîné peut être spécialisé pour une cellule de travail donnée à moindre coût, sans intervention humaine à chaque étape de labellisation. VLAMotor s'inscrit dans un mouvement plus large de test logiciel appliqué aux systèmes d'apprentissage machine : les travaux de mutation testing et de falsification formelle migrent vers la robotique incarnée, où les enjeux de fiabilité sont physiques. Côté concurrence, Physical Intelligence travaille sur l'adaptation rapide de Pi-0, NVIDIA pousse GR00T N2 avec des pipelines sim-to-real propriétaires, et des acteurs européens comme Enchanted Tools ou Wandercraft investissent dans des boucles de finetune ciblées pour leurs marchés verticaux. VLAMotor, issu du monde académique, propose une direction ouverte et low-cost qui pourrait être adoptée comme couche de validation standard avant tout déploiement VLA en cellule réelle. Les prochaines étapes probables incluent l'extension à des tâches de locomotion et à des VLA multimodaux de plus grande taille.

UEEnchanted Tools et Wandercraft pourraient adopter VLAMotor comme couche de validation bas coût pour spécialiser leurs VLA sur des cellules industrielles sans collecte manuelle de données.

IA physiqueOpinion
1 source
NVIDIA dévoile une plateforme complète pour robots humanoïdes, robotaxis et usines intelligentes
33Interesting Engineering 

NVIDIA dévoile une plateforme complète pour robots humanoïdes, robotaxis et usines intelligentes

Lors du GTC Taipei, NVIDIA a dévoilé une plateforme full-stack destinée aux robots humanoïdes, aux véhicules autonomes et à l'automatisation industrielle. Le cœur de l'annonce est Cosmos 3, un omnimodèle fondational open-source construit sur une architecture mixture-of-transformers, capable de traiter simultanément texte, images, vidéo, son et commandes d'action dans un seul système. Il se décline en Cosmos 3 Super, orienté haute précision pour la robotique et les véhicules autonomes, et Cosmos 3 Nano, optimisé pour l'inférence rapide. NVIDIA lance également l'Isaac GR00T Reference Humanoid Robot, un design de référence intégrant le robot Unitree H2 Plus, les mains articulées Sharpa, le calculateur embarqué Jetson Thor et la pile logicielle GR00T, adopté par Ai2, ETH Zurich, Stanford Robotics Center et UC San Diego. La collaboration avec TSMC porte les bibliothèques CUDA-X dans la fab pour la lithographie computationnelle, la simulation de transistors et l'inspection de plaquettes à l'échelle nanométrique. Alpamayo 2 Super, un modèle de raisonnement à 32 milliards de paramètres, cible quant à lui les applications robotaxi. La cohérence verticale de la plateforme est sa principale valeur ajoutée : NVIDIA prétend désormais couvrir l'intégralité de la chaîne de valeur de l'IA physique, de la génération de données synthétiques à la simulation, jusqu'au déploiement en production. Pour les équipes R&D en robotique humanoïde, GR00T Reference Robot réduit potentiellement plusieurs mois d'intégration hardware/software. Cosmos 3 s'attaque par ailleurs au sim-to-real gap en proposant un world model capable de générer des environnements d'entraînement réalistes, l'un des verrous structurels du secteur. Cela dit, les benchmarks avancés ("meilleur modèle ouvert" sur plusieurs évaluations) émanent de NVIDIA lui-même sans validation tierce, ce qui invite à une lecture prudente. L'intégration dans la fab TSMC est plus tangible : des gains d'efficacité mesurables dans la détection de défauts nanométriques signalent une adoption industrielle réelle, pas seulement un proof-of-concept. NVIDIA construit ce positionnement depuis plusieurs années via Isaac Sim, Omniverse et la famille GR00T N2 présentée en 2025. Sur le marché des humanoïdes, les concurrents directs incluent Figure (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (Pi-0), Boston Dynamics (Atlas) et Agility Robotics (Digit). Le choix du robot Unitree H2 Plus, acteur chinois concurrent sur le segment humanoïde, comme base matérielle du design de référence NVIDIA est notable. En Europe, Enchanted Tools (Miroki, France) et Wandercraft pourraient tirer parti de Cosmos 3 pour la génération de données d'entraînement, même si aucun partenariat public n'a été annoncé. Les prochaines étapes incluent l'accès des institutions de recherche à GR00T Reference Robot et la disponibilité de Cosmos 3 via NVIDIA NGC ; aucune tarification ni date de commercialisation n'a été communiquée pour l'ensemble de la plateforme.

UEEnchanted Tools et Wandercraft pourraient exploiter Cosmos 3 pour la génération de données d'entraînement, et ETH Zurich figure parmi les partenaires de recherche du GR00T Reference Robot, mais aucun déploiement commercial en Europe n'est confirmé à ce stade.

💬 NVIDIA ne vend plus du silicium, il vend une plateforme verticale, de la simulation jusqu'au robot en prod. Le détail qui m'a accroché : le choix d'Unitree, concurrent chinois direct, comme base matérielle du robot de référence GR00T. C'est soit du pragmatisme pur, soit une façon de dire que l'avantage NVIDIA est dans le software, pas le hardware.

IA physiqueOpinion
1 source
7 robots inspirés du vivant qui relèvent de vrais défis d'ingénierie
34Interesting Engineering 

7 robots inspirés du vivant qui relèvent de vrais défis d'ingénierie

Six familles de robots à morphologie animale concentrent une part croissante des efforts en robotique appliquée, couvrant des secteurs aussi divers que l'inspection industrielle, le sauvetage en catastrophe, la maintenance offshore et l'aquaculture. Le quadrupède Spot, commercialisé par Boston Dynamics, est déjà opérationnel dans des centrales électriques, des installations pétrolières et des chantiers pour des missions de surveillance en environnement dangereux. Les robots serpents, dotés de corps segmentés articulés, ont été testés par des équipes de recherche et des équipes de secours pour localiser des survivants dans des décombres post-séisme, là où les plateformes conventionnelles ne peuvent pas pénétrer. Des robots grimpeurs reproduisent les micro-structures adhésives des pattes de gecko pour inspecter verticalement ponts et infrastructures. En milieu offshore, le robot Eelume, développé par la spin-off NTNU éponyme soutenue par Equinor et Kongsberg, adopte la locomotion ondulatoire de l'anguille pour inspecter pipelines et plateformes en restant déployé durablement sous l'eau. Des chercheurs du CIRTESU (Centre de recherche en robotique et technologies sous-marines) de l'Universitat Jaume I ont récemment testé à PortCastelló un poisson-robot biomimétique à propulsion par nageoires, sans hélices, équipé de sonar et de systèmes de vision, pour surveiller les filets de fermes aquacoles. Le laboratoire CREATE de l'EPFL a par ailleurs présenté un bras souple reposant sur une structure d'hélicoïde tronqué (trimmed helicoid), inspirée de la trompe d'éléphant et des tentacules de pieuvre, qui module rigidité et flexibilité localement pour permettre une manipulation délicate en contexte co-robotique. Ces plateformes répondent à des problèmes industriels documentés, pas à des curiosités de laboratoire. Eelume modifie structurellement l'économie de la maintenance offshore : là où un ROV traditionnel nécessite un navire de surface et dépend de la météo, un système résident opère en continu, réduisant les coûts d'intervention. La propulsion par nageoires du robot valencien surpasse les hélices en discrétion et efficacité énergétique dans les milieux aquacoles. Spot constitue le cas commercial le plus avancé de la tendance, Boston Dynamics ayant livré plusieurs centaines d'unités à des industriels. Pour les autres familles, notamment les robots serpents, les tests restent majoritairement conduits en environnements contrôlés : le fossé sim-to-real pour des décombres réels n'est pas résolu. L'approche soft robotics de l'EPFL illustre une stratégie alternative : intégrer la compliance mécanique dans la conception plutôt que de la gérer par contrôle actif, ce qui simplifie considérablement l'implémentation en environnement co-robotique. Boston Dynamics développe Spot depuis les travaux fondateurs de Marc Raibert au MIT ; l'entreprise a été rachetée par Hyundai en 2021 pour 1,1 milliard de dollars. Sur le segment quadrupède, la concurrence est vive : ANYbotics (ANYmal), Unitree (Go2, H1) et Ghost Robotics (Vision 60) ciblent les mêmes marchés industriels avec des positionnements prix différenciés. Eelume opère sur le marché oil & gas depuis plusieurs années avec le soutien de majors du secteur. En Europe, Pollen Robotics et Enchanted Tools développent des architectures à inspiration biologique, mais restent peu positionnés sur ces créneaux applicatifs précis. L'aquaculture robotisée bénéficie de financements croissants dans le cadre du Blue Deal européen, ce qui devrait accélérer les déploiements à l'image du projet de l'Universitat Jaume I. L'intégration de modèles VLA (vision-language-action) pour la compréhension contextuelle des tâches et la certification ATEX pour les robots industriels constituent les prochains jalons pour plusieurs de ces familles.

UEPlusieurs acteurs européens figurent parmi les leaders des niches couvertes, Eelume/NTNU (soutenu par Equinor et Kongsberg) sur la maintenance offshore résidente, l'EPFL sur la soft robotics co-robotique, l'Universitat Jaume I sur l'aquaculture, et le financement croissant via le Blue Deal européen devrait accélérer les déploiements dans ce secteur, créant des opportunités pour les startups françaises Pollen Robotics et Enchanted Tools si elles se positionnent sur ces créneaux applicatifs.

IndustrielActu
1 source
Le robot humanoïde de NVIDIA embarque 2 070 téraflops de puissance « cérébrale » pour apprendre dans le monde réel
35Interesting Engineering 

Le robot humanoïde de NVIDIA embarque 2 070 téraflops de puissance « cérébrale » pour apprendre dans le monde réel

NVIDIA a dévoilé le 1er juin 2026, au GTC Taipei, l'Isaac GR00T Reference Humanoid Robot, un design de référence humanoïde open source associant le corps du Unitree H2 (1,80 m, 68 kg, 31 degrés de liberté) aux mains tactiles cinq doigts Sharpa Wave (44 DOF supplémentaires), soit 75 DOF au total. L'intelligence embarquée repose sur le module Jetson AGX Thor T5000, équipé d'un GPU Blackwell délivrant 2 070 téraflops en précision FP4, d'un CPU Arm 14 cœurs et de 128 Go de mémoire unifiée pour le traitement sensoriel en temps réel. Le robot supporte 120 N.m de couple aux bras, 360 N.m aux jambes et une charge utile de 15 kg, avec perception stéréo en tête, caméras montées aux poignets et centrale inertielle. La pile logicielle Isaac GR00T couvre tout le cycle de développement: Isaac Teleop pour la collecte de démonstrations humaines, Isaac Sim et Isaac Lab pour la simulation et l'entraînement, Isaac ROS pour le déploiement sur robot physique. Quatre institutions ont déjà rejoint l'initiative: Ai2, l'ETH Zurich, le Stanford Robotics Center et le laboratoire Advanced Robotics and Controls de l'UC San Diego. La compatibilité avec l'Unitree G1, très répandu en recherche, est également confirmée. La fragmentation du développement humanoïde constitue aujourd'hui l'un des freins majeurs à la recherche: hardware, environnements de simulation, modèles de fondation et middleware proviennent de sources hétérogènes, multipliant les frictions d'intégration. En proposant une pile unifiée et documentée, NVIDIA cherche à compresser le délai entre une nouvelle politique de contrôle et son test sur robot physique. Les 2 070 téraflops FP4 embarqués ne visent pas uniquement l'inférence: la puissance disponible cible l'apprentissage par renforcement en ligne et la collecte de données en situation réelle, deux leviers critiques pour combler le sim-to-real gap qui limite encore la majorité des VLA (Vision-Language-Action models). Steve Cousins, directeur exécutif du Stanford Robotics Center, a résumé la logique: "La robotique avance plus vite quand les chercheurs peuvent construire sur des plateformes ouvertes, partager du code et tester sur de vraies machines." NVIDIA avait posé les premières briques d'Isaac GR00T au GTC 2024 avec des modèles de fondation pour l'imitation et le transfert sim-to-real; l'annonce de Taipei franchit une étape différente avec un design de référence hardware-software complet. NVIDIA ne fabrique pas de robots mais joue explicitement la carte du fournisseur de plateforme, fournissant calcul, modèles et outils à l'ensemble de l'écosystème humanoïde: Figure (02), Tesla (Optimus Gen 3), Physical Intelligence (pi0), Boston Dynamics (Atlas Electric), et les acteurs européens comme Wandercraft ou Enchanted Tools, qui pourraient bénéficier de cette pile ouverte pour accélérer leur R&D. Le risque principal de cette stratégie est que les grands constructeurs, Tesla et Figure en tête, développent des piles entièrement propriétaires, réduisant la surface d'adoption. Les prochaines étapes documentées se limitent aux déploiements dans les quatre institutions partenaires, sans calendrier de commercialisation industrielle annoncé à ce stade.

UEL'ETH Zurich est l'un des quatre partenaires fondateurs de l'initiative, et la plateforme ouverte pourrait permettre à Wandercraft et Enchanted Tools d'accélérer leur R&D humanoïde sans repartir de zéro sur la pile logicielle.

HumanoïdesOpinion
1 source
NIST propose un benchmark de référence pour évaluer les performances des robots humanoïdes
36The Robot Report 

NIST propose un benchmark de référence pour évaluer les performances des robots humanoïdes

Le National Institute of Standards and Technology (NIST) a publié en avril 2026 une proposition de référentiel de performance standardisé pour les robots humanoïdes, décrit comme un ensemble de tâches de locomotion et de manipulation à faible empreinte logistique. C'est le premier cadre d'évaluation de ce type depuis le DARPA Robotics Challenge de 2015, selon Aaron Prather, directeur du programme Robotics & Autonomous Systems chez ASTM International. Le benchmark couvre quatre dimensions : la mobilité de base (agnostic au domaine d'application), la manipulation et la dextérité, les capacités combinées loco-manipulation, le contrôle en espace contraint, et un niveau minimal de raisonnement et de compréhension de scène. Le NIST prévoit de fabriquer un nombre limité d'appareils de test physiques pour les distribuer gratuitement aux fabricants américains d'humanoïdes et aux centres de test régionaux, et de publier les plans et modèles 3D pour usage en environnement physique ou virtuel (simulateurs de training et de développement de contrôle). Les données collectées seront agrégées sous des accords de partage préapprouvés protégeant la propriété intellectuelle. L'absence de standard commun est un problème structurel pour le secteur : Tesla Optimus, Figure, Agility Robotics, Apptronik, Unitree et une douzaine d'autres plateformes humanoïdes ont attiré des milliards de dollars d'investissement ces dix dernières années sans qu'il existe de méthode consensuelle pour mesurer ce qu'elles font réellement. Comme le note Prather, "les vidéos marketing ont comblé le vide". Pour un intégrateur industriel ou un décideur B2B, l'absence de benchmarks opposables rend toute comparaison entre plateformes impossible et ralentit les décisions d'achat. Ce référentiel, s'il est adopté, permettrait d'objectiver le fossé entre démo et déploiement réel, de quantifier les progrès en loco-manipulation et en whole-body control, et d'offrir aux chercheurs une baseline reproductible. Il représente aussi un signal réglementaire potentiel : un benchmark NIST peut devenir une norme de fait pour les appels d'offres gouvernementaux américains. Ce projet s'appuie sur la collaboration antérieure du NIST avec le DARPA pour évaluer les capacités humanoïdes dans l'industrie et la recherche académique. En Europe, le Fraunhofer IPA (Stuttgart) a publié ce mois-ci son propre référentiel de sécurité et de développement pour humanoïdes, structuré autour de six critères, signalant que la course aux standards est désormais transatlantique. Aucun acteur français ou européen n'est directement impliqué dans la proposition NIST à ce stade, bien que des entreprises comme Enchanted Tools ou Wandercraft pourraient être concernées si ce cadre influence les standards ISO ou CEN. Le NIST est en phase de consultation et recherche des participants, fabricants comme labos, pour affiner la liste des tâches et tester leurs robots dans les installations NIST ou partenaires. Aucune date de finalisation n'est annoncée.

UELe Fraunhofer IPA a publié ce même mois son propre référentiel de sécurité pour humanoïdes, signalant une course transatlantique aux standards ; si le benchmark NIST influence les normes ISO/CEN, des acteurs européens comme Enchanted Tools ou Wandercraft devront adapter leur processus de qualification.

InfrastructureOpinion
1 source
La startup qui veut mettre un humanoïde dans chaque usine et peut-être dans chaque maison
37Robot Magazine FR 

La startup qui veut mettre un humanoïde dans chaque usine et peut-être dans chaque maison

Figure AI a bouclé en septembre 2025 une Série C supérieure à un milliard de dollars, portant sa valorisation à 39 milliards de dollars, soit davantage que tout autre fabricant de robots humanoïdes au monde et davantage que plusieurs constructeurs automobiles cotés en bourse. Fondée en 2022 par Brett Adcock, entrepreneur serial issu des secteurs de l'emploi tech (Vettery, cédée à Adecco) et de l'aviation électrique (Archer Aviation), la startup a franchi trois générations de robots en moins de quatre ans. Figure 01, prototype de 1,67 mètre pour 60 kg présenté fin 2022, a servi à lever une Série B de 675 millions de dollars en 2024 (valorisation 2,6 milliards) auprès de Microsoft, NVIDIA, l'OpenAI Startup Fund, Jeff Bezos via Bezos Expeditions, Intel Capital et ARK Invest. Figure 02 a été déployé en conditions réelles à l'usine BMW de Spartanburg, Caroline du Sud, où il a accumulé plus de 1 250 heures de fonctionnement sur des postes de dix heures, cinq jours par semaine, chargeant des pièces en tôle sur des gabarits de soudure, soit plus de 90 000 pièces et une contribution annoncée à la production de quelque 30 000 BMW X3. Figure 03, lancé en octobre 2025, cible simultanément l'industrie et le résidentiel, avec 44 degrés de liberté, un revêtement souple pour la sécurité au contact humain, une recharge sans fil et une interface audio repensée. Une nouvelle levée est anticipée pour 2026-2027. Le chiffre de 30 000 véhicules est l'élément central à retenir, parce qu'il est difficile à fabriquer de toutes pièces. Les démos de laboratoire sont monnaie courante dans la robotique humanoïde ; onze mois de production réelle sur une ligne BMW, avec des métriques de rendement vérifiables par l'OEM, c'est une autre catégorie de preuve. Pour un intégrateur ou un directeur industriel, cela démontre que le fossé simulation-réel est franchissable sur des tâches de manutention répétitive et que le déploiement n'exige pas de réaménager les lignes existantes, argument décisif pour les sites legacy. L'entrée au capital de Brookfield Asset Management et Macquarie Capital, deux gestionnaires d'actifs alternatifs qui traitent l'infrastructure comme une classe d'actifs, signale que Figure AI est désormais lue comme un opérateur d'infrastructure productive, pas comme un pari de recherche, ce qui a une incidence directe sur les conditions de financement de ses clients industriels. Figure AI s'inscrit dans une course à la commercialisation qui oppose désormais au moins cinq acteurs significatifs : Tesla avec Optimus Gen 3, en déploiement annoncé dans ses propres usines ; Agility Robotics, dont le robot Digit est déjà opérationnel dans des entrepôts Amazon ; Apptronik et son Apollo, en pilote chez Mercedes-Benz ; Physical Intelligence avec son modèle de contrôle Pi-0, orienté software-first ; et Boston Dynamics dont l'Atlas électrique commence à apparaître sur des sites industriels réels. En France et en Europe, aucun acteur ne joue encore dans cette catégorie de robots humanoïdes généralistes, bien qu'Enchanted Tools (Miroki, Île-de-France) et Wandercraft (exosquelette) occupent des niches adjacentes. La prochaine étape pour Figure est la montée en volume de Figure 03 sur le marché industriel et, plus spéculativement, l'entrée dans le résidentiel, segment où le chiffre d'affaires unitaire est inférieur mais le marché adressable potentiellement plus large, à condition de résoudre des contraintes de sécurité et de coût que les annonces actuelles n'abordent pas encore frontalement.

UEAucun déploiement européen annoncé, mais la maturité industrielle démontrée par Figure AI chez BMW creuse l'écart compétitif avec les acteurs européens (Enchanted Tools, Wandercraft) qui n'opèrent pas encore dans la catégorie des humanoïdes généralistes en production réelle.

HumanoïdesOpinion
1 source
Déploiement de pipelines VLA en atelier d'emballage industriel : étude de cas, flux de travail, échecs et enseignements
38arXiv cs.RO 

Déploiement de pipelines VLA en atelier d'emballage industriel : étude de cas, flux de travail, échecs et enseignements

Des chercheurs associés à Siemens ont publié le 28 mai 2026 sur arXiv (2605.27461) une étude de déploiement industriel d'une politique VLA (Vision-Language-Action) dans l'usine Siemens GWE d'Erlangen, en Allemagne. La tâche ciblée est précisément définie : un bras robotique doit saisir un sachet d'accessoires transparent au sein d'un tas encombré, l'insérer dans la cavité restante d'un emballage carton, puis vérifier que le sachet et son contenu restent en dessous du plan de fermeture du carton. Le modèle de base utilisé est Pi0.5, la politique VLA de Physical Intelligence, affinée de manière itérative sur données terrain. L'équipe a accumulé 2535 épisodes d'entraînement, soit environ 10 heures de données collectées directement en conditions d'usine, via un pipeline cyclique comprenant collecte, curation, fine-tuning, évaluation et collecte de données de récupération ciblées. Ce qui rend cette publication notable, c'est son positionnement éditorial délibérément empirique : les auteurs ne communiquent pas sur un taux de succès global, mais documentent les modes de défaillances récurrents et les ajustements nécessaires à chaque cycle. C'est précisément ce type de retour d'expérience qui manque dans la littérature robotique, où les démonstrations sélectionnées occultent souvent le coût réel d'adaptation d'un modèle généraliste à une tâche industrielle spécifique. La gestion d'objets transparents, notoire pour tromper les systèmes de vision par profondeur, illustre ici les limites concrètes du sim-to-real et du transfert zero-shot. L'étude confirme que le fine-tuning dirigé par les échecs terrain, plutôt que la montée en données brutes, reste le levier dominant pour atteindre la fiabilité industrielle. Pi0.5 est le successeur de π0, lancé par Physical Intelligence (San Francisco) fin 2024, conçu comme politique généraliste pour la manipulation dextère. Son déploiement chez Siemens marque une étape significative dans la commercialisation B2B des VLA, un segment que se disputent actuellement Figure AI avec sa pile Helix, 1X Technologies avec NEO, et des initiatives internes comme GR00T N2 de NVIDIA ou les travaux de Boston Dynamics sur Atlas. Aucun acteur européen n'est directement impliqué dans ce déploiement, bien que Wandercraft et Enchanted Tools positionnent des produits complémentaires sur le segment français. La prochaine étape logique de ce type d'étude serait une généralisation multi-tâches ou multi-sites, mais les auteurs restent prudents : l'article conclut sur des leçons méthodologiques, non sur un déploiement à l'échelle.

UELe déploiement de Pi0.5 dans l'usine Siemens d'Erlangen fournit le premier retour d'expérience empirique documenté d'un modèle VLA généraliste en conditions industrielles réelles au sein d'un acteur EU majeur, directement exploitable par les intégrateurs et équipementiers robotiques européens.

FR/EU ecosystemeOpinion
1 source
Vers une intelligence incarnée partagée pour les robots humanoïdes : développement et tests du robot ergoCub
39arXiv cs.RO 

Vers une intelligence incarnée partagée pour les robots humanoïdes : développement et tests du robot ergoCub

Des chercheurs de l'Istituto Italiano di Tecnologia (IIT) de Gênes ont publié en mai 2026 sur arXiv une architecture formelle pour humanoïdes collaboratifs, dont ils présentent une implémentation concrète dans le robot ergoCub. L'approche repose sur deux piliers conceptuels empruntés aux neurosciences cognitives : la "shared intelligence" (la capacité à modéliser les intentions et actions d'un partenaire humain) et l'"embodied cognition" (l'idée que corps et cognition co-évoluent en réponse à l'environnement). Concrètement, la morphologie d'ergoCub et ses paramètres de contrôle moteur ont été co-optimisés en prenant comme fonction objectif des métriques ergonomiques humaines, notamment en intégrant des modèles biomécaniques du corps humain directement dans la couche de planification du mouvement. L'abstract ne fournit pas de chiffres de charge utile, de DOF ni de temps de cycle, et aucune ligne de production ni site de déploiement industriel n'est mentionné : il s'agit d'un article de recherche, pas d'une annonce de produit. Le principal apport de ce travail est méthodologique : c'est l'un des rares frameworks à co-optimiser simultanément le hardware et l'intelligence physique d'un humanoïde autour de l'ergonomie humaine, plutôt que de traiter ces deux couches séparément. Pour les intégrateurs industriels et les équipes d'ingénierie, cela ouvre une voie de conception où le robot n'est pas simplement "sécurisé" par des capteurs de force ou des limites de vitesse, mais structurellement conçu pour minimiser la charge musculo-squelettique de l'opérateur lors de tâches de co-manipulation. C'est une réponse directe à l'un des angles morts des humanoïdes commerciaux actuels, qui optimisent surtout la dextérité autonome sans modéliser l'impact biomécanique sur le coéquipier humain. ergoCub est une évolution directe du robot iCub, plateforme de recherche humanoïde phare du programme européen RobotCub lancé par l'IIT dans les années 2000, qui compte aujourd'hui plus de 40 laboratoires utilisateurs dans le monde. Cette filiation place ergoCub dans un écosystème académique robuste, mais loin encore d'une commercialisation. Sur le terrain concurrent, les acteurs en avance sur la collaboration humain-robot incluent Physical Intelligence (pi0), Agility Robotics (Digit, déployé chez Amazon), et Figure (02), mais aucun ne publie de métriques ergonomiques formalisées de ce type. En Europe, Enchanted Tools (Mirokaï) et Wandercraft (Atalante X) restent les acteurs les plus avancés sur les humanoïdes à vocation assistive et médicale. Les prochaines étapes pour ergoCub passeront vraisemblablement par des validations expérimentales de l'architecture en conditions de co-manipulation réelle, avant tout envisagement de transfert industriel.

UEL'IIT de Gênes (EU) positionne l'Europe comme précurseur sur la co-optimisation hardware/intelligence autour de l'ergonomie humaine pour les humanoïdes collaboratifs, un angle différenciateur absent des architectures des constructeurs américains.

FR/EU ecosystemePaper
1 source
AgentGrounder : ancrage visuel 3D en zéro-shot dans des nuages de points via des modèles multimodaux
40arXiv cs.RO 

AgentGrounder : ancrage visuel 3D en zéro-shot dans des nuages de points via des modèles multimodaux

Des chercheurs du laboratoire be2rlab publient sur arXiv (arXiv:2605.25901) AgentGrounder, un système de localisation visuelle 3D zéro-shot opérant directement sur des nuages de points colorés, sans entraînement spécifique à la tâche. L'architecture repose sur deux étapes : une phase hors ligne construit une table de correspondance d'objets (Object Lookup Table, OLT) regroupant identifiants d'instances, labels sémantiques et boîtes englobantes 3D ; une phase en ligne déploie un agent qui décompose chaque requête en langage naturel, récupère les candidats pertinents dans l'OLT, effectue un scoring géométrique, puis déclenche un rendu d'image à la demande lorsque des indices visuels supplémentaires (couleur, texture, angle de vue) sont nécessaires. Évalué sur les benchmarks ScanRefer et Nr3D en configuration zéro-shot, AgentGrounder surpasse SeeGround de +2,5 % en précision Acc@0.5 sur ScanRefer et de +6,3 % sur Nr3D, dont un gain de +6,3 % sur les requêtes indépendantes du point de vue. Le code est publié sur GitHub. Ce résultat est directement pertinent pour les équipes travaillant sur la manipulation robotique et la navigation en environnements intérieurs non structurés. L'absence d'entraînement dédié abaisse la barrière d'intégration : un robot équipé d'un LiDAR ou d'une caméra de profondeur pourrait répondre à des commandes en langage naturel sans fine-tuning sur l'environnement cible, ce qui simplifie les déploiements dans des entrepôts ou des espaces de service variables. Le mécanisme de récupération sélective dans l'OLT réduit les erreurs en cascade typiques des pipelines d'ancrage-cible fixes, qui saturent la fenêtre de contexte des modèles de langage avec des objets non pertinents. L'inspection visuelle adaptative évite par ailleurs de solliciter inutilement les capacités multimodales coûteuses lorsque la géométrie seule suffit à discriminer. La localisation visuelle 3D est un domaine de recherche structuré autour de benchmarks comme ScanRefer (2020) et Nr3D, qui évaluent la capacité à identifier un objet précis dans une scène intérieure 3D à partir d'une description textuelle ambiguë. Les méthodes zéro-shot antérieures supposaient souvent des ensembles d'images multi-vues préexistants et peinaient face aux limites sémantiques des outils de segmentation 3D standards, SeeGround représentant jusqu'ici l'état de l'art sur ces benchmarks. Côté industrie, NVIDIA intègre des capacités de grounding 3D dans son framework GR00T pour la manipulation robotique, tandis qu'Enchanted Tools en France et les équipes embodied AI de Meta FAIR travaillent sur des modules similaires de compréhension spatiale ouverte. AgentGrounder, encore au stade de preprint non évalué par les pairs, devra confirmer ses performances hors contexte académique avant toute adoption en conditions réelles.

UEEnchanted Tools (France), explicitement citée comme travaillant sur des modules similaires de compréhension spatiale ouverte, peut utiliser AgentGrounder comme référence zéro-shot pour réduire les coûts de fine-tuning dans ses déploiements robotiques.

RechercheOpinion
1 source
Les robots humanoïdes de Figure atteignent 200 heures de travail et 250 000 colis traités sans défaillance
41Interesting Engineering 

Les robots humanoïdes de Figure atteignent 200 heures de travail et 250 000 colis traités sans défaillance

Figure AI, startup californienne valorisée 39 milliards de dollars, a mené à son terme un test d'endurance de 200 heures consécutives avec trois de ses robots humanoïdes Figure 03, pilotés par son système d'IA Helix-02. Lancée le 14 mai 2026 depuis le siège de Sunnyvale en Californie, l'opération a permis de trier 249 560 colis sur des tapis roulants, sans défaillance matérielle majeure constatée sur aucune des trois unités, baptisées Bob, Jim et Rose par les spectateurs du livestream. Le test avait été initié en réponse à un défi de 8 heures formulé par le Dr Scott Walter, vétéran de l'automatisation industrielle, avant d'être prolongé sans limite préétablie. Les robots utilisaient des caméras embarquées et un raisonnement IA pour détecter les codes-barres, saisir les colis et les déposer face code-barres vers le bas sur les convoyeurs. La cadence atteinte approche les trois secondes par colis, soit la parité estimée avec un opérateur humain. La rotation de flotte était entièrement autonome : lorsque la batterie d'un robot (autonomie d'environ quatre heures) atteignait un seuil critique, une unité de relève prenait automatiquement sa place pendant que le robot déchargé rejoignait une station de recharge sans fil intégrée à la plante de ses pieds. Des erreurs de manipulation ont néanmoins été observées, colis tombés ou mal orientés, que Figure AI distingue explicitement des pannes système. Ce test de 200 heures constitue un signal concret pour les intégrateurs et les décideurs industriels : une flotte d'humanoïdes peut enchaîner plusieurs jours d'opération continue sans intervention humaine corrective, à condition de disposer d'un système de rotation et de remplacement automatisé. La capacité d'auto-éviction est particulièrement notable : si un robot détecte une anomalie matérielle ou logicielle, il navigue de façon autonome vers une zone de service pendant qu'un autre prend le relais sans interruption du flux. Helix-02 est décrit par Figure AI comme un réseau de neurones unifié intégrant vision, toucher, proprioception et contrôle du corps entier dans un seul modèle, à l'opposé des architectures modulaires classiques qui séparent locomotion et manipulation. Ce choix d'architecture VLA (Vision-Language-Action) montre des résultats à l'échelle des 200 heures, mais le test s'est déroulé dans les locaux contrôlés de Figure AI et non chez un client en production, ce qui atténue la portée des conclusions. Figure AI avait déjà conduit des validations en environnement industriel réel, notamment dans les usines BMW de Caroline du Sud. La société concourt directement face à Tesla (Optimus), Agility Robotics (Digit, déployé chez Amazon) et Apptronik (Apollo, partenaire de NASA et Mercedes-Benz), tous engagés dans la commercialisation d'humanoïdes pour la logistique et la production manufacturière. En Europe, des acteurs comme Enchanted Tools (Mirokaï) et Wandercraft restent positionnés sur des segments différents, retail hospitalier et rééducation médicale, loin des volumes logistiques visés par les acteurs américains. La prochaine étape structurante pour Figure AI sera de reproduire ces métriques hors de ses propres installations, dans des environnements clients réels, seul véritable test du passage de la démonstration au déploiement industriel.

UELa démonstration amplifie l'écart technologique entre les acteurs américains et les acteurs européens sur le segment logistique humanoïde, sans impact opérationnel direct sur la France ou l'UE à court terme.

HumanoïdesOpinion
1 source
Google s'associe à un géant japonais de la robotique pour développer les robots d'usine autonomes de prochaine génération
42Interesting Engineering 

Google s'associe à un géant japonais de la robotique pour développer les robots d'usine autonomes de prochaine génération

Google et FANUC America Corporation ont annoncé un partenariat stratégique visant à intégrer les technologies d'intelligence artificielle de Google dans les systèmes de robotique industrielle du géant japonais, dont les robots équipent déjà des milliers de sites de production dans le monde. L'accord, dont les termes financiers n'ont pas été divulgués, vise à accélérer le déploiement de robots dits à "Physical AI" capables de percevoir leur environnement via des capteurs, de prendre des décisions autonomes et d'exécuter des tâches variables sans reprogrammation manuelle. FANUC a également annoncé une intégration élargie entre sa plateforme de simulation ROBOGUIDE et le framework Isaac Sim de NVIDIA, consolidant ainsi un écosystème de développement robotique centré sur la simulation avant déploiement. La gamme concernée couvre des robots de 3 kg de charge utile jusqu'à 2,3 tonnes, ce qui positionne ce Physical AI sur l'ensemble du spectre industriel. FANUC indique avoir déjà expédié plus de 1 000 robots pour des applications Physical AI depuis la présentation de sa plateforme lors de l'International Robot Exhibition (IREX) de Tokyo en décembre 2025. Ce partenariat est structurellement significatif pour plusieurs raisons. Le groupe Intrinsic de Google est l'un des contributeurs majeurs au Robot Operating System (ROS), plateforme open-source de contrôle robotique que FANUC supporte déjà nativement, aux côtés d'interfaces Python et de communications haute vitesse pour le contrôle externe. L'alignement technique entre les deux acteurs est donc réel, pas seulement commercial. Pour les intégrateurs et décideurs industriels, cela signifie concrètement que des capacités d'adaptation à la variabilité de production, jusqu'ici réservées aux environnements de R&D ou aux démos contrôlées, commencent à migrer vers des lignes de production en conditions réelles. Les 1 000 unités expédiées constituent un premier signal de passage à l'échelle, même si ce chiffre reste modeste au regard du parc robotique mondial, estimé à plusieurs millions d'unités en service. La distinction entre "expédié" et "déployé en production continue" mérite d'être gardée en tête. FANUC, fondée en 1956 et filiale de FANUC Corporation (Japon), est l'un des quatre grands fabricants mondiaux de robots industriels avec ABB, KUKA et Yaskawa Motoman. L'entreprise a historiquement misé sur la fiabilité et la précision répétable plutôt que sur l'adaptabilité, ce virage vers le Physical AI représente donc une évolution de positionnement notable. Sur le terrain concurrentiel, Boston Dynamics (via Hyundai), Figure AI avec son robot 03, et Tesla avec Optimus poursuivent des trajectoires humanoïdes, tandis que des acteurs comme Machina Labs ou Covariant ciblent l'adaptation cognitive en environnement industriel conventionnel. En Europe, Wandercraft et Enchanted Tools restent positionnés sur des niches spécifiques. Les prochaines étapes pour FANUC et Google ne sont pas encore précisées publiquement, mais la montée en cadence des déploiements en Amérique du Nord semble être l'axe prioritaire annoncé par Mike Cicco, président et CEO de FANUC America.

UELes concurrents européens de FANUC (ABB, KUKA) subissent une pression accrue pour intégrer des capacités Physical AI comparables sur leurs plateformes industrielles, sous peine de perdre des parts de marché EU face à cet écosystème Google-FANUC-NVIDIA.

IndustrielOpinion
1 source
Hyundai étend sa stratégie robotique aux États-Unis avec un déploiement de 25 000 robots humanoïdes Atlas
43Interesting Engineering 

Hyundai étend sa stratégie robotique aux États-Unis avec un déploiement de 25 000 robots humanoïdes Atlas

Hyundai Motor Group prévoit de déployer plus de 25 000 robots humanoïdes Atlas, développés par sa filiale Boston Dynamics, dans les usines de Hyundai Motor et Kia aux États-Unis. L'annonce a été faite lors d'une session organisée par JPMorgan Chase. Le groupe vise une capacité de production annuelle de 30 000 unités Atlas d'ici 2028, avec la fabrication locale de plus de 300 000 actionneurs par an, les composants qui font office d'articulations mécaniques. Le PDG de Kia Corporation, Song Ho-sung, a précisé lors de road shows que les premiers Atlas devraient entrer en service au Hyundai Motor Group Metaplant America en Géorgie en 2028, puis à l'usine Kia de Géorgie en 2029. Aucun calendrier détaillé par site ni liste de factories prioritaires n'a été communiqué. En parallèle, Boston Dynamics a publié un billet technique détaillant comment Atlas manipule des objets industriels lourds : le robot pivote son torse à 180 degrés, s'accroupit pour saisir un mini-réfrigérateur et le transporte en compensant dynamiquement les déplacements de masse interne. Cette capacité a été développée en quelques semaines via apprentissage par renforcement sur des millions d'heures de simulation GPU en parallèle. Ces chiffres représentent le déploiement humanoïde annoncé le plus ambitieux dans l'industrie automobile à ce jour. La production d'actionneurs en volume suggère une intégration verticale qui pourrait compresser les coûts unitaires sur le long terme. Sur le plan technique, l'approche de Boston Dynamics repose principalement sur la proprioception, c'est-à-dire la conscience interne du mouvement et des forces corporelles, plutôt que sur des systèmes de vision dominants, ce qui diverge des architectures VLA (Vision-Language-Action) adoptées par des concurrents comme Physical Intelligence avec son modèle pi-0 ou Figure AI. L'entreprise affirme avoir réduit le "sim-to-real gap" via une architecture simplifiée à deux types d'actionneurs seulement et des membres symétriques, améliorant la fidélité entre simulation et comportement physique réel. Si cette réduction se confirme en production, cela constituera un argument technique fort face à des plateformes plus complexes comme Tesla Optimus Gen 3 ou Apptronik Apollo. Boston Dynamics a présenté la version entièrement électrique d'Atlas en avril 2024, mettant fin à la plateforme hydraulique exploitée depuis 2013. Hyundai avait racheté l'entreprise à SoftBank en 2021 pour environ 1,1 milliard de dollars. L'annonce intervient dans une course industrielle intense : Tesla vise une production de masse d'Optimus, Figure AI a levé 675 millions de dollars pour son robot Figure 02, et Agility Robotics, propriété d'Amazon, déploie son Digit dans des entrepôts logistiques. En Europe, les acteurs restent à des stades plus précoces : Enchanted Tools à Paris développe Miroki pour la logistique hospitalière, tandis que Wandercraft se concentre sur les exosquelettes médicaux. Les prochaines étapes pour HMG incluent la confirmation des sites pilotes et le démarrage effectif des lignes de production d'actionneurs aux États-Unis, deux éléments qui permettront de distinguer l'annonce commerciale du déploiement réel.

UEL'annonce renforce la pression concurrentielle sur les acteurs européens comme Enchanted Tools et Wandercraft, qui restent à des stades de développement bien antérieurs à ce déploiement industriel à grande échelle.

HumanoïdesOpinion
1 source
La sécurité des robots domestiques repose avant tout sur la relation humain-machine
44IEEE Spectrum Robotics 

La sécurité des robots domestiques repose avant tout sur la relation humain-machine

L'Organisation internationale de normalisation (ISO) révise ISO 13482, sa norme de sécurité pour les robots de soin personnel, vieille de douze ans. La mise à jour est actuellement en phase d'approbation finale. Elle couvre l'identification des dangers, l'évaluation des risques et différents scénarios d'utilisation, mais n'établit ni seuils contraignants, ni méthodes de test, ni mécanismes d'application pour les risques liés à l'interaction humain-robot. C'est précisément ce manque que dénonce Jae-Seong Lee, chercheur en politique technologique à l'Electronics and Telecommunications Research Institute de Daejeon (Corée du Sud), dans une interview accordée à IEEE Spectrum. La norme entre en phase finale au moment où les fabricants d'humanoïdes domestiques basculent des prototypes de laboratoire vers des produits destinés à de vraies maisons, de vrais aidants et de vraies familles. Le problème central identifié par Lee est autant conceptuel que technique : la sécurité d'un robot domestique n'est pas une propriété fixe de la machine, elle émerge de la relation entre le robot et l'humain. L'interaction est bidirectionnelle, le robot modifie le comportement de l'humain, et l'humain modifie ce que le robot perçoit et décide ensuite. Les normes industrielles classiques peuvent borner la tâche, l'espace de travail et la population concernée. Dans un domicile, le robot doit s'adapter à des personnes âgées, des enfants, des visiteurs, des animaux, du désordre et des espaces confinés. Ce ne sont pas des cas marginaux : c'est le cadre opérationnel de base. Contraindre l'enveloppe d'un humanoïde domestique pour la rapprocher d'un robot industriel reviendrait à annuler son utilité. Par ailleurs, les entreprises qui constituent les jeux de données d'entraînement envoient déjà des travailleurs salariés filmer leurs tâches quotidiennes dans des logements ordinaires à travers le monde, ancrant la variabilité réelle du terrain dans les modèles. Le problème de sécurité se situe donc au niveau du système humain-robot complet, pas d'un composant isolé. ISO 13482 avait été publiée en 2014, dans un contexte où les robots de soin se limitaient à des assistants de mobilité et des plateformes relativement simples. Douze ans plus tard, des acteurs comme Figure AI, Boston Dynamics, 1X ou Agility Robotics positionnent des humanoïdes polyvalents comme prochaine étape du travail domestique et du maintien à domicile. En Europe, des entreprises comme Enchanted Tools avec son Mirokaï ou Wandercraft évoluent dans des environnements réglementaires similaires, ce qui leur confère une exposition directe à ce vide normatif. Le déficit identifié par Lee est avant tout un déficit de gouvernance : la communauté technique comprend le couplage bidirectionnel, le cadre normatif reconnaît les dangers associés, mais aucune norme ne traduit aujourd'hui cette compréhension en règles applicables pour l'autonomie domestique. Une question reste aussi ouverte : qui décide quel comportement humain est "normal" ? Quelle démarche sert de référence, et quel seuil de risque est acceptable pour une personne âgée à mobilité réduite par rapport à un adulte valide ? Sans réponse à ces questions, la prochaine génération de robots domestiques arrivera sur le marché sans cadre de sécurité adapté à sa réalité opérationnelle.

UEEnchanted Tools (Mirokaï) et Wandercraft sont explicitement cités comme directement exposés au vide normatif d'ISO 13482, qui n'impose aucun seuil contraignant ni méthode de test pour l'autonomie domestique.

RegulationReglementation
1 source
Marche, course et récupération unifiées pour robots humanoïdes via des priors de mouvement adversariaux adaptatifs
45arXiv cs.RO 

Marche, course et récupération unifiées pour robots humanoïdes via des priors de mouvement adversariaux adaptatifs

Une équipe de chercheurs a publié fin mai 2026 sur arXiv (arXiv:2605.18611) un framework d'apprentissage par renforcement unifié permettant à un seul contrôleur de faire marcher, courir et se relever après une chute le robot humanoïde Unitree G1, sans commande explicite de changement de mode au déploiement. L'approche étend les Adversarial Motion Priors (AMP) en remplaçant la distribution de référence globale par un mécanisme de routage conditionné à l'état : un seuil fixe sur la gravité projetée (|gz+1| > 0,6, soit environ 37° d'inclinaison du torse par rapport à la verticale) aiguille chaque transition d'entraînement soit vers un discriminateur dédié à la récupération, soit vers un discriminateur de locomotion conditionné par la vitesse commandée, qui couvre à la fois la marche et la course. Seuls trois clips de motion capture extraits du jeu de données LAFAN1 sont nécessaires pour régulariser l'ensemble du comportement. Sur hardware réel, la politique tourne à 50 Hz sous forme d'un fichier ONNX figé, sans aucune logique de mode à l'exécution, et valide des relevés réussis depuis les positions ventrale et dorsale ainsi que des transitions fluides marche-course. Ce résultat s'attaque directement à un problème d'intégration récurrent dans la robotique humanoïde commerciale : la fragmentation en contrôleurs spécialisés par mode, reliés par des automates à états qui génèrent des zones de transition fragiles et coûteuses à maintenir. Démontrer qu'une politique apprise par RL couvre ces régimes de façon continue sur hardware réel, et non uniquement en simulation, affaiblit l'argument du sim-to-real gap rédhibitoire pour les comportements complexes. Le coût d'annotation est lui aussi remarquablement bas : trois clips de reference suffisent là où d'autres travaux en exigent des dizaines, ce qui rend la méthode potentiellement transférable à d'autres plateformes avec un effort de données limité, qu'il s'agisse du PAL Robotics TALOS, du MIROKAÏ d'Enchanted Tools, ou de tout humanoïde léger à faible budget de motion capture. La publication s'inscrit dans une course dense à la locomotion humanoïde robuste, où Boston Dynamics (Atlas), Figure (Figure 03), Agility Robotics (Digit) et Tesla (Optimus Gen 3) investissent massivement, mais publient peu. Sur le plan académique, des approches concurrentes comme les VLA (Vision-Language-Action models) de Physical Intelligence ou les travaux de Berkeley visent des politiques encore plus générales, mais sacrifient souvent la robustesse physique au profit de la flexibilité sémantique. L'utilisation du Unitree G1, disponible à environ 16 000 dollars et largement répandu dans les laboratoires, confère à ces travaux une reproductibilité pratique supérieure aux publications sur plateformes fermées. L'article ne précise pas de timeline de déploiement industriel, mais la compatibilité ONNX et l'absence de logique embarquée à l'exécution réduisent la barrière à l'intégration pour un OEM ou un intégrateur souhaitant évaluer la méthode sur sa propre plateforme.

UELa méthode, compatible ONNX et nécessitant seulement 3 clips de motion capture, est explicitement identifiée comme transférable au MIROKAÏ d'Enchanted Tools (FR) et au TALOS de PAL Robotics (EU), réduisant le coût d'adaptation pour les équipes de recherche et les intégrateurs européens.

RecherchePaper
1 source
Les facteurs de succès en planification physique avec des modèles du monde prédictifs à embedding joint
46arXiv cs.RO 

Les facteurs de succès en planification physique avec des modèles du monde prédictifs à embedding joint

Des chercheurs de Meta AI (FAIR) ont publié une étude systématique des modèles du monde à architecture prédictive par plongement conjoint, désignés sous l'acronyme JEPA-WM (Joint-Embedding Predictive Architecture World Models), appliqués à la planification physique d'agents autonomes. L'équipe a analysé trois dimensions techniques critiques : architecture du modèle, objectif d'entraînement et algorithme de planification, sur des environnements simulés et sur des données robotiques réelles, pour des tâches de navigation et de manipulation. Au terme de cette ablation, ils proposent une configuration qui surpasse deux baselines de référence, DINO-WM et V-JEPA-2-AC. Le code, les checkpoints et les données sont accessibles publiquement sur GitHub (facebookresearch/jepa-wms). L'originalité des JEPA-WM tient à leur mode de planification : plutôt que d'opérer dans l'espace d'entrée brut (pixels, vecteurs d'état), ces modèles planifient dans l'espace de représentation appris, ce qui permet d'abstraire les détails visuels non pertinents et d'accélérer la recherche de trajectoires. La contribution principale de ce travail n'est pas une nouvelle architecture, mais un guide empirique des choix qui font réellement la différence. Pour un intégrateur ou une équipe R&D robotique, cela comble un vide récurrent dans la littérature : savoir quelles décisions d'implémentation ont de l'impact, et lesquelles n'en ont pas. Le fait que les expériences couvrent des données réelles, et pas uniquement de la simulation, renforce la crédibilité des conclusions et réduit partiellement le problème classique du gap sim-to-real qui fragilise beaucoup de travaux sur les world models pour la manipulation. Les JEPA (Joint-Embedding Predictive Architectures) constituent une famille de modèles portée par Yann LeCun et FAIR comme alternative aux architectures génératives classiques (diffusion, autorégressif) pour modéliser le monde physique. V-JEPA-2, sorti début 2025, en représentait une étape clé ; V-JEPA-2-AC, l'une des baselines ici surpassées, en est la variante avec conditionnement par actions. DINO-WM, l'autre référence, combine des features DINO avec une planification par modèle du monde. Cette étude s'inscrit dans un contexte de forte compétition autour des modèles fondationnels pour la robotique, où Physical Intelligence (pi.), Google DeepMind, et des acteurs européens comme Enchanted Tools ou Wandercraft développent leurs propres pipelines de planification et de contrôle. Les prochaines étapes naturelles incluraient une mise à l'échelle des données d'entraînement et une extension à des morphologies robotiques plus variées, notamment humanoïdes.

UELes guidelines empiriques et checkpoints open-source de FAIR pourraient bénéficier directement aux équipes R&D européennes (Enchanted Tools, Wandercraft) développant leurs propres pipelines de planification physique sur world models.

RechercheOpinion
1 source
CLARE : apprentissage continu pour les modèles VLA via routage et expansion autonomes d'adaptateurs
47arXiv cs.RO 

CLARE : apprentissage continu pour les modèles VLA via routage et expansion autonomes d'adaptateurs

Des chercheurs de la Technische Universität München (TUM) ont publié CLARE, un framework d'apprentissage continu pour les modèles vision-langage-action (VLA) en robotique manipulatrice. Présenté sur arXiv (arXiv:2601.09512v2), CLARE repose sur deux mécanismes principaux : des adaptateurs modulaires légers insérés dans des couches sélectionnées du VLA, et un système de routage dynamique basé sur un autoencodeur qui active à l'inférence les adaptateurs les plus pertinents sans que le robot ait besoin de connaître l'identifiant de la tâche en cours. Lors de l'apprentissage d'une nouvelle tâche, le framework évalue la similarité des features couche par couche pour décider d'étendre ou non le modèle, expansion réalisée uniquement là où c'est nécessaire. Validé sur le benchmark LIBERO et cinq tâches réelles en manipulation, CLARE surpasse les méthodes existantes y compris celles qui stockent des données antérieures (méthodes "exemplar-based"). L'enjeu derrière ce travail est structurant pour l'industrie robotique : le fine-tuning classique d'un VLA sur de nouvelles tâches provoque un "catastrophic forgetting", c'est-à-dire l'effacement des compétences précédemment acquises. Pour un robot industriel ou de service devant s'adapter en continu à de nouveaux environnements ou procédures sans interruption de déploiement, cette limitation est rédhibitoire. Clare propose une voie sans stockage de données historiques (contrainte forte en RGPD et en coût mémoire), sans identifiant de tâche imposé à l'opérateur, et avec une empreinte paramétrique réduite grâce aux adaptateurs, une combinaison que les approches par Elastic Weight Consolidation (EWC) ou LoRA seuls n'atteignaient pas sur de longues séquences de tâches. Les VLA sont devenus un axe de recherche central depuis les travaux de Physical Intelligence (Pi-0), NVIDIA (GR00T N2) et Google DeepMind (RT-2). L'apprentissage continu sans oubli catastrophique y reste un problème ouvert : la majorité des démos sont réalisées dans des conditions contrôlées avec re-fine-tuning complet entre environnements. CLARE s'attaque directement à ce gap entre laboratoire et déploiement longue durée. Le code, les données et les vidéos sont disponibles publiquement sur le site du laboratoire LSY de la TUM. Les prochaines étapes probables incluent des tests sur des séquences de tâches plus longues et une intégration dans des plateformes humanoïdes ou collaboratives, domaine où plusieurs acteurs européens comme Enchanted Tools ou Wandercraft pourraient bénéficier de ce type de composant pour l'adaptation terrain.

UELa TUM (Allemagne) publie une solution open-source au catastrophic forgetting dans les VLA, directement exploitable par des acteurs européens comme Enchanted Tools et Wandercraft pour déployer des robots s'adaptant à de nouvelles tâches sans re-fine-tuning complet ni stockage de données historiques.

RechercheOpinion
1 source
Fraunhofer IPA propose un nouveau banc de test pour robots humanoïdes
48Robotics Business Review 

Fraunhofer IPA propose un nouveau banc de test pour robots humanoïdes

Le Fraunhofer IPA, l'un des principaux instituts de recherche en automatisation en Allemagne, a publié un référentiel d'évaluation standardisé pour les robots humanoïdes, avec pour premier cobaye le Unitree G1 EDU-4 équipé des mains trois doigts Dex3-1, livré en mai 2025 sous firmware version 1.04. Ce benchmark se décompose en six catégories applicatives couvrant les capacités de base (capteurs vision, audio, reconnaissance vocale, détection humaine), la manipulation (type de préhenseur, mobilité des doigts, forces de saisie), la sécurité (mesures de forces de collision selon ISO 10218 et ISO TS 15066), la propreté (qualification selon ISO 14644, norme sous laquelle l'IPA a déjà certifié plus de 3 000 composants d'automatisation), ainsi que des indicateurs de mobilité et de fiabilité opérationnelle. Le service est modulaire et disponible pour les fabricants, les utilisateurs finaux et les éditeurs de logiciels, qui peuvent sélectionner les volets pertinents selon leur application. L'initiative répond à un problème structurel qui freine l'adoption industrielle des humanoïdes : l'absence de données comparatives neutres et reproductibles. Les annonces marketing de Figure, Tesla, Boston Dynamics ou Agility Robotics s'appuient sur des vidéos sélectionnées et des démos en conditions contrôlées, rendant quasi impossible toute évaluation objective pour un intégrateur ou un COO cherchant à qualifier un robot pour une ligne de production réelle. "Le marché est trop volatile et opaque pour permettre une évaluation fondée des humanoïdes pour ses propres applications", résume Simon Schmidt, directeur senior de l'unité systèmes automatisés à l'IPA. En ancrant le benchmark sur des normes industrielles reconnues internationalement, l'institut cherche à combler le fossé entre le hype médiatique et les capacités réelles, et à rendre les résultats directement interprétables par des ingénieurs et des décideurs sans expertise robotique préalable. Le Fraunhofer IPA s'inscrit dans un contexte de multiplication des initiatives de standardisation autour des humanoïdes. Aux États-Unis, l'IEEE et l'ASTM travaillent sur des protocoles similaires, tandis que des acteurs comme Apptronik, Fourier Intelligence ou Sanctuary AI réclament des cadres communs pour accélérer la confiance des industriels. Côté français, des entreprises comme Enchanted Tools ou Wandercraft évoluent dans un écosystème encore dépourvu de tels référentiels, ce qui rend le travail de l'IPA potentiellement structurant pour les décideurs européens. Werner Kraus, responsable de la division automatisation et robotique à l'IPA, précise que le benchmark a été conçu pour rester pertinent sur les générations futures de robots, avec des tests reproductibles et standardisables. Les résultats complets de l'évaluation du Unitree G1 devaient être présentés au Robotics Summit & Expo de Boston ce mois-ci, avec des sessions dédiées aux humanoïdes industriels.

UELe Fraunhofer IPA fournit aux industriels européens, dont des acteurs français comme Enchanted Tools et Wandercraft, un premier référentiel neutre basé sur des normes ISO (10218, TS 15066, 14644) pour évaluer objectivement les robots humanoïdes avant déploiement en production.

FR/EU ecosystemeOpinion
1 source
Les robots humanoïdes Figure AI atteignent un jalon de 24h/7 de travail continu en conditions réelles
49Interesting Engineering 

Les robots humanoïdes Figure AI atteignent un jalon de 24h/7 de travail continu en conditions réelles

Trois robots humanoïdes de Figure AI ont dépassé 24 heures de fonctionnement autonome continu le 14 mai 2026, sur une tâche de tri de colis dans un entrepôt dont la localisation exacte n'a pas été précisée. L'opération, initialement prévue comme un test de 8 heures, a été prolongée sans interruption après une première journée sans incident signalé. Brett Adcock, fondateur et PDG de la startup californienne, a diffusé l'opération en direct sur internet, où les internautes ont surnommé les trois machines "Bob", "Frank" et "Gary". Les robots, pilotés par le système embarqué Helix-02, ont trié plus de 28 000 colis pendant l'opération, à raison d'environ 3 secondes par colis, soit la parité annoncée avec un opérateur humain. La tâche consiste à détecter les codes-barres par caméra, saisir les paquets et les déposer face vers le bas sur des tapis roulants, sans aucune télé-opération. Helix-02 est décrit comme un réseau de neurones unifié intégrant vision, toucher, proprioception et contrôle du corps entier, fonctionnant entièrement en embarqué. Figure AI affirme également que si un robot se retrouve hors de sa distribution d'entraînement, Helix-02 déclenche une réinitialisation autonome, et que les machines peuvent quitter la zone de travail d'elles-mêmes en cas de problème matériel, pendant qu'un congénère prend le relais. Ce résultat constitue une réponse directe au reproche chronique du secteur : le "demo-to-reality gap", l'écart entre démonstrations de quelques minutes en conditions maîtrisées et déploiements industriels réels. Une opération de 24 heures sur une tâche répétitive à cadence humaine dépasse ce que la majorité des concurrents a rendu public à ce jour, et change structurellement l'argumentaire commercial : un intégrateur ou un COO logistique peut commencer à modéliser un ROI sur des shifts complets plutôt que sur des pilotes vitrines. L'architecture à modèle unique de Helix-02, qui fusionne déplacement, manipulation et coordination dans un seul réseau, s'inscrit dans la tendance VLA (Vision-Language-Action) et contraste avec les approches modulaires classiques de la robotique industrielle. Il convient néanmoins de noter que les métriques présentées sont autodéclarées par Figure AI, dans un environnement filmé et contrôlé par l'entreprise ; la diversité réelle des colis, les conditions ambiantes et le taux d'échec détaillé restent insuffisamment documentés pour une validation rigoureuse. Figure AI a été fondée en 2022 à Sunnyvale et avait précédemment testé ses humanoïdes sur les lignes de BMW en Caroline du Sud, une référence industrielle qui lui a apporté visibilité et crédibilité. La startup se positionne sur le même segment que Tesla avec Optimus Gen 3, Agility Robotics (filiale d'Amazon) avec Digit, et Apptronik avec Apollo, tous en lice pour les marchés de la logistique entrepôt et de l'assemblage industriel. L'annonce intervient dans un contexte de course à la preuve opérationnelle, avant les premiers déploiements commerciaux à l'échelle, dont Figure AI n'a pas encore communiqué de dates ni de volumes précis. En Europe, des acteurs comme Enchanted Tools avec Mirokaï ou Wandercraft progressent sur des segments adjacents, mais aucun n'a publié de métriques d'endurance comparables à ce stade.

UELe jalon de 24h de Figure AI fixe un nouveau benchmark opérationnel que les acteurs européens comme Enchanted Tools et Wandercraft n'ont pas encore atteint, renforçant la pression concurrentielle sur l'écosystème humanoïde européen.

HumanoïdesOpinion
1 source
MVB-Grasp : filtrage par boîte de volume minimal des saisies par diffusion pour la manipulation frontale
50arXiv cs.RO 

MVB-Grasp : filtrage par boîte de volume minimal des saisies par diffusion pour la manipulation frontale

Une équipe de chercheurs a publié sur arXiv (référence 2505.09672) MVB-Grasp, un système de saisie robotique conçu pour le bras Unitree Z1, un manipulateur à 6 degrés de liberté (DOF) positionné en configuration frontale, c'est-à-dire face à l'objet plutôt qu'en vue surplombante. Le dispositif expérimental associe une caméra Intel RealSense D405, un détecteur d'objets YOLOv8 et le générateur de prises GraspGen basé sur la diffusion. L'innovation centrale est un filtre géométrique fondé sur la boîte englobante de volume minimal orientée (MVBB) : en analysant les normales des faces de cette boîte en temps O(N), le système élimine les candidats de saisie qui traverseraient la table ou s'aligneraient mal avec les faces accessibles de l'objet. Une fonction de re-scoring combine le score du discriminateur appris et l'alignement géométrique avec un coefficient alpha fixé à 0,85. Sur 81 épisodes de simulation MuJoCo (cylindre, boîte asymétrique, bouteille d'eau), MVB-Grasp atteint 59,3 % de succès contre 24,7 % pour GraspGen seul, soit un gain de 2,4x, confirmé ensuite en conditions réelles sans nécessiter de ré-entraînement du modèle. Ce résultat est notable parce qu'il pointe un angle mort structurel de la recherche en manipulation : les benchmarks standards comme GraspNet-1Billion ou YCB-Video sont quasi-exclusivement conçus pour des caméras en vue de dessus sur des manipulateurs haut de gamme à large espace de travail. Or une part croissante des déploiements industriels et de service implique des bras montés sur des piédestaux fixes ou des AMR, en saisie frontale, avec des contraintes cinématiques sévères. Le fait que le gain soit obtenu sans ré-entraînement, uniquement par un filtre géométrique injecté en post-traitement, démontre que le "sim-to-real gap" dans ces configurations n'est pas seulement un problème de données mais aussi de biais dans la sélection des poses candidates. C'est une piste directement exploitable pour les intégrateurs qui déploient des manipulateurs à bas coût dans des cellules contraintes. Le Unitree Z1 est un bras compact vendu autour de 4 000 à 6 000 dollars, souvent utilisé en recherche académique comme alternative économique aux UR5 ou Franka Panda. La diffusion appliquée à la génération de prises est un axe actif depuis 2022-2023 (GraspGen, SE(3)-DiffusionFields, DexGraspNet 2.0), mais la majorité des travaux optimisent pour des postures overhead. Côté concurrents directs sur les manipulateurs frontaux contraints, les approches d'Enchanted Tools et les travaux issus du LAAS-CNRS en France explorent des contraintes similaires, bien que sur des plateformes différentes. La prochaine étape logique pour cette équipe serait d'étendre le protocole à des objets articulés ou transparents, et d'intégrer le filtre MVBB dans une boucle de planification réactive plutôt qu'en sélection statique de candidats.

UELe filtre MVBB est directement exploitable sans ré-entraînement par des intégrateurs européens déployant des manipulateurs en configuration frontale sur AMR ou piédestaux fixes, et s'inscrit dans la continuité de travaux menés au LAAS-CNRS et chez Enchanted Tools en France sur des contraintes cinématiques similaires.

💬 Un filtre géométrique pur, injecté en post-traitement, qui multiplie le taux de succès par 2,4 sans ré-entraîner le modèle : c'est le genre de résultat qui devrait faire rougir pas mal d'équipes qui empilent des couches de deep learning là où une contrainte bien posée suffit. Ce qui est vraiment utile ici, c'est qu'ils pointent un biais structurel évident en retrospective : tous les benchmarks standards supposent une caméra en vue de dessus, alors que la moitié des bras déployés en prod sont en configuration frontale sur des AMR ou des piédestaux fixes. Le filtre MVBB, tu peux le brancher demain sur ton pipeline existant.

IA physiquePaper
1 source