Aller au contenu principal

Dossier 1X Technologies

124 articles

1X Technologies (ex-Halodi) : robot humanoïde NEO, soutiens d'OpenAI, vision d'un humanoïde domestique grand public.

Sommet en robotique : un panel fait le point sur la conception des robots humanoïdes
1Robotics Business Review HumanoïdesActu

Sommet en robotique : un panel fait le point sur la conception des robots humanoïdes

Lors du Robotics Summit & Expo 2026, tenu à Boston au Thomas B. Menino Convention & Exhibition Center devant quelque 3 900 participants, un panel de haut niveau a fait le point sur l'état réel du développement des robots humanoïdes. Alberto Rodriguez, directeur du comportement robot pour Atlas chez Boston Dynamics, y a révélé que l'entreprise a engagé le déploiement de l'ordre de 25 000 humanoïdes Atlas dans des usines, avec un objectif de capacité de production portée à 30 000 unités par an d'ici 2028. Boston Dynamics a conduit une première démonstration en conditions réelles en usine en 2025, architecture entièrement pilotée par les données, puis a présenté Atlas au CES de janvier 2026 pendant une semaine complète. Pour 2026, la société prévoit un retour en usine pour une démonstration plus complète, de bout en bout, connectant le robot au système d'information de l'usine et gérant les exceptions opérationnelles. Du côté d'Agility, dont la marque commerciale s'est récemment stabilisée sous le nom Agility (ex-Agility Robotics), les déploiements du robot Digit avancent avec Amazon, GXO, Schaeffler, Toyota et Mercado Libre, marquant une sortie effective de la phase pilote. Ce que ce panel signale clairement pour les intégrateurs et décideurs industriels, c'est que le vrai verrou n'est plus mécanique ni même algorithmique, mais stratégique. Rodriguez a posé le problème avec précision : sauf pour de rares applications à très grand volume et très stable, presque tous les postes de travail sont des cas uniques. Le défi du passage à l'échelle repose sur trois axes simultanés, hardware, modèles de comportement, et stratégie d'intégration, et l'échec sur l'un suffit à rendre le déploiement économiquement non viable. La décision de Boston Dynamics de commencer par la logistique en manufacturing, un environnement qui exige de la généralité sans imposer encore les contraintes de timing et de sécurité de la ligne d'assemblage, illustre une approche pragmatique et graduée. Ces chiffres de déploiement engagés, 25 000 unités, sont une donnée de marché rare dans un secteur habitué aux annonces sans livraisons. Boston Dynamics, filiale de Hyundai depuis 2021, a traversé une longue période de recherche pure avant de commercialiser Atlas dans sa version électrique présentée en 2024, succédant aux plateformes hydrauliques historiques. Le marché des humanoïdes reste en pleine effervescence : Figure AI avec Figure 03, Tesla avec Optimus Gen 3 sur sa propre ligne de production, Physical Intelligence avec Pi-0, NVIDIA avec GR00T N2, et des acteurs émergents comme 1X Technologies ou Apptronik positionnent tous leurs solutions sur des créneaux différents, de l'assemblage léger à la manutention lourde. Côté Europe, Enchanted Tools (France) et Wandercraft restent focalisés sur des niches spécifiques, assistance et rééducation, sans viser encore le marché industriel général. Les prochaines étapes à surveiller : la publication par ASTM International (représenté dans le panel par Aaron Prather) de standards de sécurité pour la cohabitation humains-humanoïdes, et les résultats concrets des déploiements Agility/Amazon, dont les métriques opérationnelles restent pour l'instant non publiques.

UELes entreprises françaises (Enchanted Tools, Wandercraft) restent cantonnées aux niches assistance/rééducation sans feuille de route vers l'industriel général, creusant un écart stratégique avec les déploiements à grande échelle désormais en cours en Amérique du Nord.

1 source
SCALE : observation et exécution adaptatives guidées par l'auto-incertitude dans les modèles VLA
2arXiv cs.RO 

SCALE : observation et exécution adaptatives guidées par l'auto-incertitude dans les modèles VLA

Une équipe de chercheurs propose SCALE (Self-uncertainty Conditioned Adaptive Looking and Execution), une méthode d'inférence adaptative pour les modèles Vision-Language-Action (VLA) publiée sur arXiv (2602.04208v2). Contrairement aux approches de test-time scaling (TTS) existantes, SCALE ne nécessite ni entraînement supplémentaire, ni vérificateur externe, ni passes multiples : un seul passage forward suffit. Le système repose sur un mécanisme de self-uncertainty (auto-incertitude) qui module simultanément deux dimensions : la représentation visuelle, c'est-à-dire comment le modèle perçoit la scène, et l'action produite. Inspiré de la théorie de l'inférence active (Active Inference), SCALE élargit son exploration perceptuelle et motrice en situation d'incertitude élevée, et se concentre sur l'exploitation lorsque la confiance est forte. Les auteurs valident l'approche sur des benchmarks simulés et réels, avec des gains mesurés sur plusieurs VLA de l'état de l'art. L'intérêt industriel est direct. Les méthodes TTS existantes pour robots empruntent leur logique aux succès des LLM comme o1, mais exigent des ressources difficilement compatibles avec la production : vérificateurs externes, passes multiples, parfois fine-tuning ciblé. SCALE lève ce verrou en maintenant l'efficacité d'un passage unique, compatible avec des contraintes de temps réel sur systèmes embarqués. Plus structurellement, la méthode adresse un angle souvent ignoré par les approches concurrentes : l'ambiguïté perceptuelle. En conditions réelles, un robot confronté à une scène mal éclairée ou partiellement occultée a autant besoin de reconsidérer sa perception que son action. SCALE couple ces deux dimensions, là où les TTS classiques n'interviennent qu'au niveau du décodage d'action -- une distinction qui compte dès que l'on sort des environnements contrôlés de laboratoire. Le test-time scaling appliqué à la robotique reste un champ en construction. Des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA visent à généraliser le contrôle robotique via des architectures VLA, mais leur robustesse hors distribution est un problème ouvert. La plupart des améliorations passent encore par du fine-tuning ; SCALE propose une voie alternative en améliorant le comportement à l'inférence sans toucher aux poids du modèle. L'article ne documente pas encore de déploiements industriels à grande échelle, et les benchmarks utilisés restent des environnements relativement balisés. Si la robustesse se confirme dans des configurations non contrôlées, la méthode pourrait s'intégrer comme composant standard dans les pipelines VLA déployés par des acteurs comme Figure AI, Agility Robotics ou 1X Technologies.

IA physiqueOpinion
1 source
IA incarnée en évolution : Embodied-R1.5 améliore l'intelligence physique grâce aux modèles fondation
3arXiv cs.RO 

IA incarnée en évolution : Embodied-R1.5 améliore l'intelligence physique grâce aux modèles fondation

Une équipe de chercheurs a publié sur arXiv Embodied-R1.5, un modèle de fondation incarné (EFM pour Embodied Foundation Model) de 8 milliards de paramètres intégrant cognition incarnée, planification, auto-correction et pointage d'affordances dans une architecture unifiée, entraîné sur un corpus dépassant 15 milliards de tokens construit via trois pipelines automatisés. Le cadre Planner-Grounder-Corrector (PGC) en boucle fermée permet l'exécution autonome et l'auto-correction sur des tâches longues, soutenu par une recette d'apprentissage par renforcement multi-tâches équilibré pour atténuer les conflits entre sous-domaines hétérogènes. Sur les benchmarks standardisés, Embodied-R1.5 atteint l'état de l'art sur 16 des 24 benchmarks de VLM incarnés, devançant Gemini-Robotics-ER-1.5 de Google DeepMind et GPT-5.4 d'OpenAI. Adapté en VLA (Vision-Language-Action) avec peu de données de fine-tuning, il surpasse pi-0.5 de Physical Intelligence sur quatre suites de benchmarks de manipulation. Des tests zero-shot sur robot réel valident les performances en suivi d'instructions, ancrage d'affordances, manipulation d'objets articulés et tâches longues, les poids, le code d'entraînement et EmbodiedEvalKit, un framework d'évaluation dédié, étant publiés en open source. Qu'un modèle de 8 milliards de paramètres surpasse des systèmes adossés aux ressources de Google et d'OpenAI est un signal notable pour les intégrateurs industriels, car la compacité ouvre la voie à un déploiement embarqué sur plateformes contraintes. L'auto-correction en boucle fermée du PGC répond directement au demo-to-reality gap qui freine la commercialisation des robots polyvalents, tandis que la capacité à fine-tuner en VLA avec peu de données cible le goulot d'étranglement central de la collecte de données de manipulation étiquetées. L'open source complet facilite la comparaison reproductible et devrait accélérer les itérations communautaires, à condition que les performances zero-shot annoncées soient confirmées dans des configurations adversariales que le papier ne documente pas. Embodied-R1.5 s'inscrit dans la vague des modèles de fondation robotiques généraux densifiée depuis RT-2 de Google et OpenVLA, avec pour concurrents directs Physical Intelligence (pi-0, pi-0.5) et Google DeepMind (Gemini Robotics). L'absence d'acteurs européens parmi les concurrents benchmarkés reflète le retard du continent, où des acteurs comme Wandercraft ou Enchanted Tools restent cantonnés à des niches spécialisées. L'approche open source total distingue ce travail des modèles propriétaires de Figure AI (Figure 03) ou de 1X Technologies, positionnant potentiellement Embodied-R1.5 comme base de référence pour les laboratoires et industriels souhaitant spécialiser un EFM sur leurs propres flux de manipulation.

UELes poids et le code d'Embodied-R1.5 publiés en open source constituent une base de référence accessible pour les laboratoires européens (CEA-List, INRIA) souhaitant spécialiser un EFM sur leurs propres flux de manipulation sans dépendre des modèles propriétaires de Google ou OpenAI.

💬 8 milliards de paramètres qui coiffent Gemini Robotics et GPT-5.4 sur leurs propres benchmarks, en open source total, c'est inattendu. L'auto-correction en boucle fermée s'attaque directement au fossé entre la démo en labo et le robot qui tient la route en prod, ce qui est le vrai mur depuis RT-2. Bon, le papier esquive les configurations difficiles, donc on verra ce que ça donne quand la communauté s'en empare.

IA physiqueOpinion
1 source
L'architecture du critique est cruciale : critiques doubles ou unifiés pour la loco-manipulation des humanoïdes
4arXiv cs.RO 

L'architecture du critique est cruciale : critiques doubles ou unifiés pour la loco-manipulation des humanoïdes

Une étude publiée sur arXiv le 11 juin 2026 (réf. 2606.11891) présente une comparaison rigoureuse de deux architectures de critique en apprentissage par renforcement multi-objectifs pour robots humanoïdes : un critique unifié (un seul réseau estimant la valeur combinée de tous les objectifs) contre des critiques duaux (deux réseaux distincts, chacun associé à un signal de récompense séparé, l'un pour la locomotion, l'autre pour la manipulation). Les expériences ont été conduites sur le Unitree G1, un humanoïde à 23 degrés de liberté actifs, dans le simulateur NVIDIA Isaac Lab, via un curriculum séquentiel de 13 niveaux progressant de l'atteinte stationnaire jusqu'à la marche avec des cibles à orientation variable. Résultat : les politiques entraînées avec critiques duaux atteignent leurs cibles 3,5 fois plus vite (6,5 pas de simulation contre 22,6), affichent un débit deux fois supérieur (14,3 contre 7,0 atteintes validées pour 1 000 pas), et un taux de réussite validé de 65,2 % contre 53,8 % pour le critique unifié. Ce que l'étude démontre, c'est que le choix de l'architecture du critique est un levier de conception primaire, souvent négligé, dont l'impact surpasse celui du reward engineering. Fait notable : l'ajout de mécanismes anti-gaming, conçus pour empêcher la politique d'exploiter les failles de la fonction de récompense, ne produit aucun gain au-delà du changement architectural seul (60,9 % contre 65,2 %). L'implication la plus immédiate concerne le fine-tuning RL de politiques pré-entraînées par imitation : lorsqu'on affine un modèle de manipulation déjà appris (style Pi-0 ou GR00T N2), un critique unifié risque de supprimer les comportements acquis par interférence des gradients de locomotion. Pour les équipes qui cherchent à spécialiser des modèles de fondation robotiques par RL, cette mise en garde est directement opérationnelle. Le Unitree G1, vendu autour de 16 000 dollars, est devenu un banc de test standard pour la recherche en humanoïde abordable, face aux plateformes de Figure AI, Agility Robotics ou 1X Technologies qui opèrent sur des gammes de prix bien supérieures. NVIDIA Isaac Lab, successeur d'Isaac Gym, s'est imposé comme l'environnement de référence pour l'entraînement sim-to-real. La question du découplage locomotion/manipulation en RL multi-objectifs est au coeur de plusieurs groupes de recherche (Stanford, CMU, ETH Zurich), et les résultats de cette étude, issus d'un cadre contrôlé et reproductible, offrent une base solide pour orienter les choix d'architecture avant tout entraînement coûteux sur robot réel.

RecherchePaper
1 source
Prise de contrôle adversariale en temps réel des politiques de diffusion robotique
5arXiv cs.RO 

Prise de contrôle adversariale en temps réel des politiques de diffusion robotique

Une équipe de chercheurs a publié le 10 juin 2026 sur arXiv (réf. 2606.10371) une attaque baptisée TAKO (Test-time Adversarial Takeover), qui permet de prendre le contrôle en temps réel d'un robot opérant sous une politique de diffusion visuomotrice, sans modifier le modèle cible. La méthode repose sur un vocabulaire restreint de patches adversariaux universels et réutilisables, appris hors ligne via inférence de diffusion différentiable. À l'exécution, un opérateur humain injecte ces patches dans le flux caméra du robot et les commute dynamiquement pour composer des trajectoires de son choix. Sur quatre tâches évaluées (manipulation 2D, livraison aérienne simulée, navigation sol simulée et navigation sol en environnement physique réel), deux encodeurs visuels (ResNet-18 et EfficientNet-B0 + Transformer) et trois familles d'inférence générative (DDPM, DDIM et flow matching), les opérateurs attaquants ont atteint 100 % de succès de détournement dans l'ensemble des scénarios testés. Ce résultat interpelle directement les intégrateurs robotiques et les équipes de sécurité industrielle qui déploient des systèmes pilotés par des politiques de diffusion ou des VLA (Vision-Language-Action models). Jusqu'ici, la quasi-totalité des attaques adversariales sur robots visaient la dégradation des performances, induire un échec de tâche ou un comportement erratique. TAKO introduit une menace qualitativement différente : le robot ne s'arrête pas, il obéit à un attaquant distant. La perturbation agit sur le chemin de conditionnement visuel de la politique, et le biais introduit se propage à travers le processus de génération itératif propre aux modèles de diffusion, ce qui le rend difficile à détecter par supervision classique. Les auteurs démontrent aussi que la baseline naturelle "target-policy matching" échoue, car la politique victime ne peut pas se superviser fiablement sur des shifts hors distribution, invalidant une hypothèse de défense couramment avancée. Les politiques de diffusion pour la robotique se sont imposées comme paradigme dominant depuis 2023, portées par Diffusion Policy (Chi et al.) et intégrées dans des systèmes tels que pi0 de Physical Intelligence, les pipelines de Figure AI ou les robots de 1X Technologies. Ces architectures conditionnent l'action sur une observation visuelle, ce qui les rend structurellement vulnérables aux perturbations du flux caméra. Les pistes de défense habituelles, détection d'anomalies ou purification adversariale, restent largement expérimentales à cette échelle. L'évaluation demeure dans un cadre académique contrôlé, sans partenaire industriel ni calendrier de déploiement annoncé. Pour les équipes préparant des déploiements en logistique, livraison autonome ou manipulation industrielle, TAKO pose une question de sécurité concrète à laquelle le secteur n'a pas encore de réponse standardisée.

UELes intégrateurs robotiques européens déployant des systèmes à politiques de diffusion en logistique ou industrie doivent intégrer ce vecteur d'attaque dans leur modèle de menace, en l'absence de défense standardisée disponible.

RechercheActu
1 source
Vulnérabilités des modèles vision-langage-action (VLA) face aux défauts physiques d'articulation
6arXiv cs.RO 

Vulnérabilités des modèles vision-langage-action (VLA) face aux défauts physiques d'articulation

Des chercheurs ont publié le 10 juin 2026 (arXiv:2606.10501) une étude identifiant une vulnérabilité critique des modèles Vision-Language-Action (VLA) face aux défauts physiques articulaires. Ces modèles, qui traduisent instructions en langage naturel et observations visuelles en commandes motrices, équipent aujourd'hui les robots humanoïdes et manipulateurs les plus avancés. Les auteurs montrent que des failles réalistes, notamment dégradation d'actionneur, friction excessive due à l'usure, dommages de collision ou limites de sécurité restreintes, cassent la boucle fermée entre action commandée, mouvement réalisé et observation suivante, dégradant les taux de succès même pour des défauts physiquement « faisables ». L'impact varie selon l'articulation affectée, rendant toute mitigation générique difficile. En réponse, les auteurs proposent J-PARC (Joint-level Physical-fault Aware Residual Calibrator), un module léger ajouté au-dessus d'une politique VLA figée, qui infère un régime de défaut latent depuis la dynamique articulaire récente et applique une correction résiduelle adaptative sans modifier le modèle de base. Ce résultat comble un angle mort réel dans la validation des systèmes robotiques à base de VLA. L'effort de robustification s'est jusqu'ici concentré sur les variations perceptuelles et sémantiques : éclairage, occlusion, reformulation d'instructions. Or tout robot industriel accumule friction, chocs et dégradation d'actionneur au fil du temps. Montrer que ces perturbations physiquement réalisables suffisent à faire chuter les performances remet en cause l'hypothèse implicite qu'un VLA entraîné sur hardware neuf reste fiable tout au long de son cycle de vie opérationnel. Pour les intégrateurs et responsables de certification, c'est un signal fort : la robustesse mécanique doit entrer dans les critères de qualification aux côtés de la généralisation sémantique. L'approche J-PARC, sans fine-tuning ni capteur supplémentaire, offre une piste d'adaptation réaliste pour les déploiements existants. Les VLA ont connu une montée en puissance rapide depuis Pi-0 (Physical Intelligence, 2024) et GR00T N2 (NVIDIA, 2025), avec des déploiements annoncés chez Figure (modèle 03), Agility Robotics et 1X Technologies. Malgré leurs performances en laboratoire, leur comportement sur hardware vieillissant reste peu documenté dans la littérature. Ce papier s'inscrit dans une tendance croissante sur la fiabilité opérationnelle à long terme, aux côtés des travaux sur le sim-to-real gap. En Europe, des acteurs comme Enchanted Tools avec Mirokaï ou Wandercraft, où la dégradation articulaire est un enjeu quotidien en milieu médical ou logistique, sont directement concernés par ces résultats. Les prochaines étapes naturelles seront une validation sur hardware en vieillissement accéléré et l'intégration de J-PARC dans des pipelines de déploiement continu.

UELes acteurs français Enchanted Tools et Wandercraft, confrontés à la dégradation articulaire en milieu médical et logistique, peuvent directement intégrer J-PARC pour fiabiliser leurs déploiements VLA sans modifier leurs modèles de base.

💬 On a tous fait cette hypothèse implicite : un VLA entraîné en labo reste fiable sur un robot qui a pris des coups après 18 mois en prod. Ce papier montre que non, et c'est un angle mort réel pour tous les intégrateurs qui déploient en milieu industriel ou médical. J-PARC corrige ça sans toucher au modèle de base, bon, reste à voir si ça tient sur du vrai hardware vieilli.

IA physiqueOpinion
1 source
Contrôle corps entier généraliste et adaptable pour la locomotion de divers humanoïdes
7arXiv cs.RO 

Contrôle corps entier généraliste et adaptable pour la locomotion de divers humanoïdes

Des chercheurs ont publié sur arXiv (référence 2602.05791) un framework baptisé XHugWBC, conçu pour entraîner un contrôleur de locomotion whole-body universel sur une large distribution de morphologies humanoïdes, puis le déployer en zero-shot sur des robots non vus durant l'entraînement. Les expériences couvrent douze humanoïdes simulés et sept robots réels. Le système repose sur trois briques techniques : une randomisation morphologique physiquement cohérente (masse des segments, longueur des membres, inertie), des espaces d'observation et d'action alignés sémantiquement entre châssis hétérogènes, et une architecture de politique qui encode explicitement les propriétés morphologiques et dynamiques de chaque instance. L'entraînement est unique, "one-time training" : aucun fine-tuning par robot n'est requis à l'inférence. L'enjeu industriel est direct. Aujourd'hui, chaque équipe robotique entraîne ses contrôleurs de locomotion depuis zéro pour chaque châssis, ce qui représente des semaines de simulation et d'itérations sim-to-real. XHugWBC déplace ce coût vers une phase d'entraînement généraliste unique, ouvrant la voie à un modèle de déploiement où un intégrateur peut adopter un nouveau châssis humanoïde sans reconstruire l'intégralité de sa stack de contrôle. La validation sur sept robots physiques est plus convaincante que les résultats purement simulés habituels, même si la nature exacte des tâches testées et les taux de succès détaillés ne figurent pas dans le résumé disponible. La capacité de transfert zero-shot sur morphologies inédites renforce l'hypothèse que les biais structuraux appris sur distributions larges surpassent les politiques spécialisées sur certains régimes de locomotion, ce que le secteur débattait encore il y a dix-huit mois. Ce travail s'inscrit dans un mouvement vers les contrôleurs dits "fondation" pour la robotique incarnée. En manipulation, des systèmes comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) ont déjà exploré la généralisation cross-embodiment sur bras et effecteurs; l'extension à la locomotion whole-body humanoïde est plus contrainte par la stabilité dynamique. Les acteurs du secteur, Figure Robotics (Figure 03), Unitree (G1, H1), Agility Robotics (Digit), Fourier Intelligence et 1X Technologies, maintiennent tous des pipelines de contrôle propriétaires et spécialisés. Si XHugWBC tient ses promesses à l'échelle, il réduirait significativement la barrière à l'entrée pour les nouveaux constructeurs, notamment les acteurs européens comme Enchanted Tools (Mirokaï) ou Wandercraft, qui ne disposent pas des ressources d'entraînement des géants américains. Le preprint n'a pas encore fait l'objet d'une évaluation par les pairs.

UELes constructeurs humanoïdes français Wandercraft et Enchanted Tools (Mirokaï) sont explicitement identifiés comme bénéficiaires potentiels, ce framework pouvant réduire significativement leurs coûts d'entraînement de locomotion sans nécessiter les ressources des géants américains.

💬 C'est le genre de papier qui résout un vrai problème industriel : chaque robot humanoïde qui sort oblige aujourd'hui à tout réentraîner depuis zéro. Sept robots physiques en zero-shot, c'est pas du tout la même chose que des résultats simulés, ça valide quelque chose de sérieux. Pour Wandercraft ou Enchanted Tools, bien plus contraints en ressources que Figure ou Unitree, ce type de contrôleur généraliste c'est du concret.

IA physiqueOpinion
1 source
Equanimité dans l'interaction humain-robot : appliquer les principes de la technologie calme
8arXiv cs.RO 

Equanimité dans l'interaction humain-robot : appliquer les principes de la technologie calme

Un article publié en juin 2026 sur arXiv (identifiant 2606.09836) propose un cadre théorique et pratique pour intégrer les principes de la "Calm Technology" dans l'interaction humain-robot (HRI), avec un focus sur l'environnement domestique. Les auteurs formulent des lignes directrices concrètes pour concevoir des robots d'assistance qui privilégient l'équanimité de l'utilisateur, c'est-à-dire des interactions calmes, non intrusives et harmonieuses. L'étude cible spécifiquement les assistants domestiques, identifiés comme opérant dans l'espace le plus intime de la vie quotidienne, ce qui justifie une approche de conception distincte de celle des environnements industriels ou commerciaux. Aucun prototype ni déploiement spécifique n'est présenté : il s'agit d'un article de cadrage conceptuel, pas d'un produit commercialisé. L'enjeu est significatif pour les concepteurs de robots sociaux et domestiques. La "Calm Technology", concept forgé par Mark Weiser et John Seely Brown chez Xerox PARC dans les années 1990, postule que les meilleures interfaces technologiques opèrent à la périphérie de l'attention humaine, n'intervenant au premier plan que lorsque c'est strictement nécessaire. Son application formalisée à la robotique reste encore rare : la majorité des plateformes actuelles sont conçues pour solliciter activement l'utilisateur, créant une charge cognitive continue. L'article argumente que cette posture est incompatible avec les besoins de confort et d'autonomie dans un foyer, et fournit des exemples concrets de fonctionnalités à intégrer pour réduire cette friction attentionnelle. Ce travail s'inscrit dans un courant émergent autour de la robotique responsable et du design comportemental, qui prend de l'ampleur alors que plusieurs acteurs avancent leurs projets de robots domestiques : Enchanted Tools en France avec son robot Miroki, 1X Technologies en Norvège, ou encore Samsung et ses prototypes d'assistants résidentiels. Au-delà des performances mécaniques (payload, degrés de liberté, cycle time), le design de l'interaction devient un différenciateur clé pour l'acceptation sociale de ces systèmes. L'article ouvre des pistes de recherche appliquée sur la modulation de la proactivité robotique, le silence contextuel, et la hiérarchisation des signaux d'alerte, sans citer de calendrier de déploiement ni de partenaires industriels.

UELes lignes directrices proposées pourraient bénéficier aux concepteurs européens de robots domestiques, notamment Enchanted Tools (Miroki, France) et 1X Technologies (Norvège), en fournissant un cadre de design axé sur la réduction de la charge cognitive et l'acceptabilité sociale.

RecherchePaper
1 source
SARM2 : modélisation de récompense multi-tâches par étape pour la manipulation robotique auto-améliorante
9arXiv cs.RO 

SARM2 : modélisation de récompense multi-tâches par étape pour la manipulation robotique auto-améliorante

Des chercheurs publient sur arXiv (2606.10305) SARM2, un modèle de récompense dense multi-tâches pour l'affinement de politiques vision-langage-action (VLA) en manipulation robotique, accompagné du framework SPIRAL (Self-Policy Improvement via Reward-Aligned Learning). L'approche combine un estimateur de stade fondé sur des primitives d'action et une tête de valeur Mixture-of-Experts multi-portes (MMoE) pour produire des récompenses denses à chaque étape sur dix tâches de manipulation distinctes. Sur ce benchmark, SARM2 réduit l'erreur quadratique moyenne d'estimation de valeur de 80 % par rapport aux meilleures méthodes existantes. Via SPIRAL, qui génère des rollouts autonomes et les recycle sans démonstrations humaines supplémentaires, le taux de succès progresse de 58 % à 100 % sur "Folding Shorts" et de 50 % à 90 % sur "Cleaning Whiteboard". Ces résultats pointent un levier concret pour réduire la dépendance au clonage comportemental (behavior cloning), approche encore dominante mais coûteuse : elle exige des démonstrations de haute qualité et bloque les politiques près de la distribution d'entraînement. Un reward model suffisamment dense et précis permet d'alimenter un data flywheel autonome, de réduire les cycles de supervision humaine, et d'adapter les politiques à de nouvelles tâches sans re-collecte de données. Le papier adresse aussi un écueil bien connu du secteur : les reward models VLM généralistes sont trop grossiers pour les tâches longue-horizon, tandis que les modèles spécialisés nécessitent des annotations par tâche. L'architecture MMoE multi-tâches vise précisément cet entre-deux, ce qui intéresse directement les intégrateurs devant déployer un même robot sur des variantes de tâches. Ce travail s'inscrit dans la course intense autour des politiques VLA -- Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA), Helix (Figure AI), OpenVLA (UC Berkeley) -- où la phase de fine-tuning et d'amélioration continue reste un goulot d'étranglement non résolu. SARM2 et SPIRAL se positionnent en briques complémentaires au pré-entraînement, ciblant l'adaptation terrain. À ce stade, il s'agit d'un préprint académique sans déploiement industriel annoncé ni code public disponible, et les benchmarks sélectionnés (pliage de vêtements, nettoyage de tableau blanc) restent des tâches de laboratoire contrôlées. La combinaison reward model dense et self-improvement loop sans démonstrations humaines est néanmoins exactement le type de composant que les acteurs commerciaux comme Agility Robotics, Figure AI ou 1X Technologies cherchent à consolider pour abaisser les coûts d'adaptation en production.

IA physiqueOpinion
1 source
MIND-V : modèle du monde hiérarchique pour la manipulation robotique à long horizon avec alignement physique par RL
10arXiv cs.RO 

MIND-V : modèle du monde hiérarchique pour la manipulation robotique à long horizon avec alignement physique par RL

Des chercheurs ont publié MIND-V, un modèle de monde hiérarchique conçu pour générer automatiquement des vidéos d'entraînement de manipulation robotique à long horizon, problème resté en grande partie non résolu jusqu'ici. L'architecture s'articule autour de trois modules : un Semantic Reasoning Hub (SRH) qui s'appuie sur un vision-language model pré-entraîné pour la planification de tâches, un Behavioral Semantic Bridge (BSB) qui traduit ces instructions abstraites en représentations invariantes au domaine, et un Motor Video Generator (MVG) chargé du rendu vidéo conditionnel. Pour garantir la cohérence physique des séquences générées, les auteurs ont introduit une phase de post-entraînement par reinforcement learning GRPO pilotée par une récompense inédite, la Physical Foresight Coherence (PFC), qui mobilise V-JEPA2 (le modèle de monde de Meta) comme arbitre de physique dans l'espace latent. Les expériences en simulation montrent des résultats état de l'art sur les benchmarks long-horizon, selon les auteurs. Le problème central que MIND-V adresse est la pénurie de données diversifiées pour l'intelligence incarnée : entraîner des politiques de manipulation requiert des milliers d'épisodes réussis sur des tâches enchaînées, données coûteuses à collecter en réel et difficiles à simuler de façon convaincante. L'approche est entièrement autonome, sans trajectoires définies manuellement, ce qui la distingue des générateurs de vidéos robotiques antérieurs limités à des clips courts et des gestes simples. La valeur opérationnelle est directe pour les équipes qui développent des VLA (Vision-Language-Action models) : des pipelines de synthèse de données à grande échelle pourraient réduire significativement la dépendance aux démonstrations téléopérées, principal goulot d'étranglement des robots comme Figure 03, Optimus ou 1X NEO. Ce travail s'inscrit dans une vague de recherche sur les world models pour la robotique, aux côtés de Dreamer, GAIA-1 adapté au robot, et du propre V-JEPA2 de Meta qu'il intègre comme brique de validation physique. L'article, initialement soumis en décembre 2024 (arXiv:2512.06628) et mis à jour en juin 2026, reste à ce stade un résultat en simulation uniquement : aucun déploiement physique ni intégration industrielle n'est mentionné, et le franchissement du sim-to-real gap reste à démontrer sur hardware réel.

IA physiqueOpinion
1 source
Les robots humanoïdes chinois font sensation sur Internet comme influenceurs à l'étranger
11Pandaily 

Les robots humanoïdes chinois font sensation sur Internet comme influenceurs à l'étranger

Le robot humanoïde G1 de Unitree Robotics est devenu en quelques semaines un phénomène viral mondial, déployé dans des contextes radicalement différents selon les pays. En Corée du Sud, un G1 a été ordonné moine bouddhiste au temple Jogyesa de Séoul sous le nom de "Gabi", revêtu d'une robe monastique grise et d'un chapelet, ayant reçu les cinq préceptes dont l'interdiction de "surcharger" -- précepte que les journalistes coréens ont vérifié techniquement, confirmant que le BMS du robot coupe effectivement la charge automatiquement. Au Japon, le temple Seirenji de Kyoto héberge un "Buddharoid" basé sur la même plateforme G1, équipé d'un LLM entraîné sur des sutras et couplé à ChatGPT, capable de mener des séances de conseil individuel avec les visiteurs. En Pologne, un G1 baptisé "Edek" déambule dans Varsovie avec un sac à dos Adidas et une Rolex ornée de diamants, générant du contenu viral en simulant des commandes chez McDonald's, en intervenant à la radio nationale et en prononçant des discours au parlement polonais. Aux États-Unis, "Jake", un G1 customisé en "bro" de l'ère IA avec chapeau de cowboy et chaîne en argent, a déclenché une controverse après une altercation physique avec le streameur IShowSpeed, aboutissant à des accusations d'agression et à une plainte en justice à hauteur d'un million de dollars déposée par sa société de management, RizzBot. Ces déploiements révèlent une dynamique inattendue : le G1 de Unitree, commercialisé autour de 16 000 dollars, s'avère suffisamment accessible pour que des acteurs indépendants -- temples, créateurs de contenu, agences de divertissement -- l'intègrent sans soutien industriel lourd. Le robot humanoïde devient ainsi un vecteur de présence culturelle avant d'être un outil de productivité. Pour les décideurs et intégrateurs, ce phénomène signale que la barrière à l'adoption n'est plus uniquement technique ou financière, mais narrative : le premier humanoïde qui capte l'attention devient une référence de marché, indépendamment de ses capacités réelles en manipulation ou locomotion. Ces usages ne prouvent pas la résolution du sim-to-real gap ni la viabilité industrielle -- les vidéos restent sélectionnées, les environnements contrôlés -- mais ils démontrent que la forme humanoïde génère une adhésion sociale difficile à obtenir avec les AMR classiques. Unitree Robotics, fondée en 2016 à Hangzhou, s'est imposée dans le segment des robots quadrupèdes bon marché avant de lancer le G1 en 2024 comme humanoïde d'entrée de gamme. La société évolue dans un écosystème concurrentiel dense : Figure AI (Figure 03), Boston Dynamics (Atlas), 1X Technologies, et côté chinois Agibot, Fourier Intelligence et UBTECH, tous positionnés sur des segments industriels avec des arguments de payload et de robustesse que le G1 ne revendique pas. La stratégie de Unitree semble délibérément différente -- volume, prix, accessibilité -- et ces déploiements viraux, qu'ils soient spontanés ou orchestrés, construisent une notoriété mondiale qui précède toute annonce de pilote industriel formel.

UEUn acteur indépendant polonais déploie déjà le G1 d'Unitree à Varsovie, signalant que la barrière financière à l'adoption d'humanoïdes en Europe est passée sous 20 000€ et accessible à des non-industriels.

Chine/AsieOpinion
1 source
Évaluation des modèles vision-langage-action (VLA) sur SO-101 : analyse des échecs et de la récupération
12arXiv cs.RO 

Évaluation des modèles vision-langage-action (VLA) sur SO-101 : analyse des échecs et de la récupération

Une équipe de chercheurs a publié le 10 juin 2026 (arXiv:2606.08881) un benchmark standardisé pour évaluer des modèles Vision-Language-Action (VLA) sur le robot SO-101, une plateforme manipulatrice à faible coût issue de la communauté open-source. Quatre politiques ont été comparées sur quatre tâches de manipulation représentatives avec des protocoles d'évaluation unifiés : Pi-0.5 (Physical Intelligence), SmolVLA (HuggingFace), Wall-X et ACT (Action Chunking with Transformers, référence en imitation learning). Toutes ont été fine-tunées directement sur le matériel physique à partir de démonstrations télé-opérées en conditions réelles, sans passer par la simulation. Au-delà du simple taux de succès binaire, l'étude introduit une taxonomie structurée des échecs, une décomposition sémantique et d'exécution, ainsi que des métriques de récupération (recovery-aware metrics) pour qualifier la robustesse de chaque architecture. Les résultats confirment que les VLA pré-entraînés sur de larges corpus surpassent globalement la baseline en imitation learning pure, mais cette supériorité reste fortement dépendante de la tâche. Ce point est crucial pour les intégrateurs : l'instabilité d'exécution, et non les erreurs de compréhension sémantique, constitue la source d'échec dominante. La capacité de récupération varie significativement selon les architectures, ce qui suggère que les benchmarks centrés uniquement sur le taux de succès final masquent des différences opérationnelles importantes. Pour un COO industriel, cela signifie que le choix d'un modèle VLA ne peut pas se faire sur des métriques agrégées sans analyser le comportement en cas d'échec partiel. Le SO-101 s'est imposé comme plateforme de référence communautaire grâce à son coût accessible, là où la plupart des évaluations VLA existantes reposent sur des robots industriels onéreux (Franka, UR, Boston Dynamics Spot) ou restent cantonnées à la simulation. Ce travail s'inscrit dans un effort plus large de démocratisation des benchmarks robotiques, face à des acteurs comme Figure AI, Agility Robotics ou 1X Technologies qui évaluent leurs systèmes en environnements propriétaires non reproductibles. Les auteurs positionnent explicitement le SO-101 comme socle pratique pour l'évaluation de l'IA incarnée dans des conditions de déploiement réalistes à faible coût. La prochaine étape naturelle serait d'étendre ce protocole à des scénarios de manipulation plus complexes et à davantage d'architectures VLA émergentes, notamment celles intégrant des retours haptiques.

UESmolVLA de HuggingFace (entreprise française) est directement comparé à Pi-0.5, Wall-X et ACT dans ce benchmark standardisé, offrant une visibilité internationale sur les forces et faiblesses du modèle français face aux architectures VLA concurrentes.

FR/EU ecosystemeActu
1 source
VAIC : contrôle humanoïde agile d'interaction avec des objets par vision et commandes découplées
13arXiv cs.RO 

VAIC : contrôle humanoïde agile d'interaction avec des objets par vision et commandes découplées

Des chercheurs ont publié en juin 2026 sur arXiv (référence 2606.09286) VAIC, un cadre de contrôle unifié pour robots humanoïdes capable d'interagir avec des objets en milieu non structuré. La contribution principale est l'élimination de deux hypothèses restrictives qui limitent la transposition terrain des contrôleurs existants : les trajectoires de référence denses et l'observabilité complète de l'état. VAIC opère exclusivement à partir d'un flux de profondeur embarqué et de la proprioception historique, via une interface de commandes découplées composée de cibles de vitesse multi-axes et d'un indicateur d'interaction par segment corporel. L'apprentissage suit un paradigme de distillation en deux étapes : une politique "enseignant" privilégiée, entraînée avec accès complet à la cinématique des objets et à l'état environnemental exact, transfère ses compétences à une politique "étudiant" déployable qui reconstruit implicitement la dynamique des objets depuis le flux de profondeur brut via un module d'adaptation récurrent. Sur robot humanoïde (non nommé dans le preprint), cette politique unique exécute en conditions réelles trois familles de tâches dynamiques : transport de carton, interaction avec un chariot, et skateboard, surpassant selon les auteurs les approches baseline comparées. Ce résultat, s'il se confirme à plus grande échelle, adresse directement le "deployment gap" qui freine la commercialisation des humanoïdes : la quasi-totalité des démos publiques repose encore sur des systèmes de capture de mouvement externe ou sur des objets instrumentés avec tracking précis. Proposer une politique unique généraliste, sans trajectoires de référence et fonctionnant sur capteurs embarqués bas coût, réduirait significativement la friction d'intégration pour les opérateurs industriels et les intégrateurs robotiques. La distillation enseignant-étudiant avec module d'adaptation récurrent n'est pas une architecture inédite, mais son application à des tâches aussi hétérogènes sur un humanoïde réel constitue un pas mesurable vers la généralisation. À noter que le preprint ne fournit ni métriques de cycle time par tâche, ni taux de succès quantifiés, ni spécification du robot utilisé, ce qui limite l'évaluation indépendante des performances annoncées. Ce travail s'inscrit dans une course aux contrôleurs généralisés qui oppose des équipes académiques (Berkeley, CMU, ETH Zurich) aux acteurs commerciaux : Figure Robotics avec son pipeline VLA sur Figure 02/03, Physical Intelligence et sa politique Pi-0, 1X Technologies et Unitree, tous actifs simultanément sur le sim-to-real et les architectures polyvalentes. L'approche de VAIC, centrée sur la profondeur et la proprioception plutôt que sur les vision-language models à grande échelle, constitue un positionnement différenciant en termes de coût de calcul embarqué et de simplicité sensorielle. Aucun partenariat industriel ni calendrier de déploiement n'est annoncé dans ce preprint : il s'agit à ce stade d'une démonstration de recherche, dont la validation sur plusieurs plateformes robotiques et environnements variés reste entièrement à mener.

RecherchePaper
1 source
NVIDIA et LG Group bâtissent une usine d'IA pour développer l'IA physique, la mobilité et l'infrastructure IA
14NVIDIA Blog Robotics 

NVIDIA et LG Group bâtissent une usine d'IA pour développer l'IA physique, la mobilité et l'infrastructure IA

NVIDIA et LG Group ont annoncé la construction d'une infrastructure conjointe qualifiée d'"AI factory", destinée à accélérer les activités du conglomérat coréen dans quatre domaines: la robotique, la conduite autonome, les technologies de centres de données et les services cloud GPU. L'infrastructure couvrira l'intégralité du cycle, de l'entraînement à la simulation et au déploiement, en reliant génération de données, simulation robotique et jumeaux numériques dans un workflow unifié. Du côté robotique, LG Electronics intègre les frameworks NVIDIA Isaac Sim et Isaac Lab dans le développement de CLoiD, son robot domestique conçu pour les tâches d'intérieur, et explore l'adoption du modèle de fondation GR00T, un VLA (vision-language-action model) destiné à lui conférer un raisonnement de type humanoïde. LG Electronics développe également une data factory d'IA physique pour fournir des données d'entraînement aux entreprises coréennes et mondiales, en s'appuyant sur NVIDIA Cosmos pour la génération de données synthétiques. LG Innotek prépare des solutions de capteurs optiques optimisées pour les environnements GPU NVIDIA, tandis que LG CNS intègre Isaac, Cosmos et GR00T dans sa plateforme industrielle PhysicalWorks pour accélérer l'automatisation logistique et manufacturière. Sur le volet infrastructure, les deux groupes approfondissent leur collaboration autour du refroidissement des AI factories, incluant des unités de distribution de refroidissement (CDU), des plaques froides et un design modulaire préfabriqué, le tout aligné sur la plateforme NVIDIA DSX. Ce partenariat illustre la verticalisation des stacks d'IA physique, du modèle de fondation jusqu'au déploiement industriel. LG apporte des données de fabrication issues de sites mondiaux, une expertise optique via Innotek et des capacités d'intégration SI via CNS, là où NVIDIA fournit la couche logicielle et les accélérateurs. L'annonce de la data factory mérite une attention particulière: LG se positionne comme fournisseur de données d'entraînement pour l'industrie robotique, une ressource devenue critique face au défi du sim-to-real. Il convient cependant de souligner que CLoiD et l'intégration GR00T restent au stade de l'exploration déclarée, non d'un produit expédié, et qu'aucune métrique de déploiement industriel ni de volumétrie de production n'est communiquée. Ce rapprochement s'inscrit dans la stratégie NVIDIA d'expansion de l'écosystème Isaac et GR00T auprès des industriels asiatiques, après des partenariats similaires avec Foxconn et Hyundai. LG entre ainsi en compétition directe avec Samsung et SK dans la course des conglomérats coréens à intégrer l'IA physique dans leur portefeuille. Dans le segment des robots de service, CLoiD sera en concurrence indirecte avec Figure 03, Tesla Optimus Gen 3, 1X NEO et Sanctuary AI Phoenix, tous en déploiements pilotes chez des industriels. Côté infrastructure AI factory, Dell, HPE et Lenovo sont également partenaires certifiés NVIDIA DSX, ce qui relativise toute exclusivité de l'accord. Aucune date de livraison ni volume de déploiement n'est précisé dans l'annonce: il s'agit pour l'instant d'un cadre de coopération stratégique, pas d'un contrat de déploiement signé.

Chine/AsieOpinion
1 source
Generalist lève 400 millions de dollars pour développer ses modèles d'IA généralistes
15The Robot Report 

Generalist lève 400 millions de dollars pour développer ses modèles d'IA généralistes

Generalist AI Inc. a annoncé une levée de fonds de 400 millions de dollars, portant son financement total à plus de 500 millions depuis sa création en 2024. Le tour a été mené par Radical Ventures, avec de nouveaux entrants incluant 8VC, Union Square Ventures, Hanabi Capital et Norwest, auxquels s'ajoutent les investisseurs historiques NVentures (NVIDIA), Boldstart Ventures, Spark Capital et Bezos Expeditions. Parmi les investisseurs individuels figurent Fei-Fei Li, Eric Yuan (PDG de Zoom), Bin Lin et Naval Ravikant. Basée à San Mateo, en Californie, la startup développe des modèles fondamentaux destinés à des robots généralistes, capables d'opérer sur différentes architectures matérielles. En novembre 2025, elle avait lancé GEN-0, présenté comme le premier modèle à appliquer les lois de mise à l'échelle (scaling laws) à la robotique physique. En avril 2026, elle a publié GEN-1, avec des métriques communiquées par la société elle-même: taux de succès moyen de 99 % sur des tâches où les modèles précédents atteignaient 64 %, vitesse d'exécution environ trois fois supérieure sur des manipulations dextères, et seulement une heure de données robotiques nécessaires par compétence apprise. Ces chiffres, s'ils se confirment en conditions industrielles réelles, représenteraient un changement structurel pour la commercialisation de la robotique généraliste. Le principal verrou du secteur reste logiciel: la plupart des intégrateurs investissent encore des semaines de collecte de données pour chaque nouvelle tâche. Un modèle nécessitant une heure de données par compétence transformerait radicalement l'économie du déploiement. Cela dit, les métriques publiées proviennent exclusivement des communications internes de Generalist AI, sans validation indépendante ni précision sur les conditions de benchmark ou la nature des tâches testées. Le concept de "data flywheel", selon lequel les déploiements chez des clients industriels génèrent les données qui alimentent le modèle suivant, est éprouvé dans le logiciel; sa transposition à la robotique physique, avec ses contraintes de sécurité et de variabilité du monde réel, reste à démontrer à l'échelle. Generalist AI a été fondée en 2024 par Pete Florence (CEO), Andy Zeng (Chief Scientist) et Andrew Barry (CTO), trois chercheurs issus des milieux académiques et industriels de la robotique. La startup s'inscrit dans un marché en forte compétition: Physical Intelligence avec son modèle Pi-0, Figure AI avec le Figure 03, Boston Dynamics, Apptronik et 1X Technologies ciblent tous le même segment des modèles d'IA généralistes pour robots physiques. En Europe, Enchanted Tools et Wandercraft progressent sur des verticales plus ciblées. Avec cette levée, Generalist AI prévoit d'accélérer le développement de modèles de nouvelle génération, d'étendre son infrastructure d'entraînement et de renforcer son moteur de collecte de données physiques. La prochaine étape observable sera la documentation de déploiements industriels concrets chez des clients identifiés, seul critère qui permettra de distinguer les performances en laboratoire de la viabilité commerciale annoncée.

UELa montée en puissance de Generalist AI accentue la pression concurrentielle sur les acteurs européens comme Enchanted Tools et Wandercraft, dont les verticales ciblées et les capacités de financement ne sont pas comparables aux 500 M$ levés par cette startup américaine en moins de deux ans.

💬 500 millions en deux ans, c'est du sérieux. Ce qui m'intéresse vraiment, c'est pas le chèque, c'est cette histoire d'une heure de données par compétence apprise (contre des semaines pour les intégrateurs actuels). Si ça tient en conditions industrielles, tu changes complètement l'économie du déploiement robotique, mais tous les chiffres sortent de chez eux sans validation externe, donc faut voir les premiers clients réels avant de s'emballer.

IA physiqueOpinion
1 source
OSCAR : modèle d'action du monde conditionné par squelette pour robots à morphologies multiples
16arXiv cs.RO 

OSCAR : modèle d'action du monde conditionné par squelette pour robots à morphologies multiples

Des chercheurs ont publié OSCAR (Omni-Embodiment Skeleton-Conditioned World Action Model), un modèle de monde vidéo conditionné par les actions, capable de généraliser à travers différentes morphologies de robots. Décrit dans un preprint arXiv (2606.04463), le système s'appuie sur deux éléments centraux : un pipeline de données à grande échelle qui agrège, filtre et déduplique des jeux de données robotiques et des séquences vidéo égocentrées humaines pour couvrir des tâches, scénarios et morphologies variés ; et un conditionnement par rendu de squelette cinématique 2D, représentation unifiée fonctionnant aussi bien pour des bras robotiques de morphologies différentes que pour des mains humaines. Le modèle de base Cosmos-Predict2.5-2B de NVIDIA a été fine-tuné sur un seul GPU GH200. OSCAR a ensuite été déployé pour évaluer des politiques de contrôle issues de RoboArena, plateforme de benchmark communautaire, et démontre une corrélation significative entre évaluations virtuelles et tests en conditions réelles. L'enjeu central est le sim-to-real gap dans l'évaluation des policies : les environnements de simulation classiques reproduisent mal la physique réelle, rendant les benchmarks peu prédictifs du comportement sur robot physique. OSCAR propose une alternative directe, générer des vidéos conditionnées par les trajectoires d'actions pour simuler l'exécution d'une politique sans déploiement matériel. Si la corrélation annoncée se confirme à plus grande échelle, cela réduirait significativement les coûts et les cycles d'itération pour les équipes développant des VLA (Vision-Language-Action models). La représentation par squelette 2D est également notable : en évitant une spécialisation par embodiment, elle adresse un blocage récurrent de la généralisation multi-robot. Le fine-tuning sur GPU unique, contre des baselines nécessitant des modèles plus grands ou davantage de ressources de calcul, améliore l'accessibilité de l'approche. Les video world models appliqués à la robotique constituent un domaine en forte compétition : UniSim, RoboDreamer et le World Model de 1X Technologies ont chacun tenté d'adresser la simulation vidéo pour l'entraînement ou l'évaluation de robots, avec des résultats limités en diversité de scénarios ou en généralisation inter-embodiment. Le recours au modèle Cosmos de NVIDIA comme base pré-entraînée positionne OSCAR dans l'écosystème robotique croissant de NVIDIA, qui comprend Isaac Lab et GR00T. Les auteurs ouvrent explicitement la perspective d'une évaluation purement virtuelle des politiques robots, une proposition qui intéresse directement les intégrateurs cherchant à réduire les cycles de test hardware. Les étapes naturelles seraient la validation sur des morphologies plus variées, des tâches de manipulation complexes, et un passage à l'échelle vers des configurations multi-GPU.

RechercheOpinion
1 source
GRAIL : génération de loco-manipulation pour humanoïdes à partir d'actifs 3D et de vidéos
17arXiv cs.RO 

GRAIL : génération de loco-manipulation pour humanoïdes à partir d'actifs 3D et de vidéos

Une équipe de chercheurs publie GRAIL (Generating Humanoid Loco-Manipulation from 3D Assets and Video Priors, arXiv:2606.05160), un pipeline entièrement virtuel qui génère des données d'entraînement en loco-manipulation humanoïde sans télé-opération ni capture de mouvement physique. La méthode compose des actifs 3D paramétrés, des scènes simulées et des modèles fondamentaux vidéo (VFM) pour reconstruire des trajectoires d'interaction humain-objet (HOI) en 4D à l'échelle métrique, en conditionnant la génération vidéo sur des configurations entièrement spécifiées : géométrie, paramètres caméra, profondeur de scène et personnage aux proportions humanoïdes, ce qui réduit l'ambiguïté de profondeur et le mismatch morphologique habituels. Le pipeline produit plus de 20 000 séquences couvrant ramassage d'objets, manipulation, assise et traversée de terrains variés. Entraîné uniquement sur ces données synthétiques via un pipeline sim-to-real, le système atteint 84 % de succès en préhension d'objets divers et 90 % en montée d'escaliers sur un Unitree G1 en conditions réelles ; l'article, soumis sur arXiv en juin 2026, est une prépublication non encore évaluée par les pairs. Ce travail s'attaque au principal goulot d'étranglement de la robotique humanoïde : générer des données de démonstration diversifiées à grande échelle sans mobiliser de temps-robot ni d'opérateurs spécialisés. La télé-opération et la mocap exigent des configurations physiques dédiées et un robot disponible à chaque session, ce qui plafonne le débit de production de données ; GRAIL déplace intégralement ce coût vers la simulation, rendant possible la composition de données pour des objets, scènes et mouvements corporels inédits. Les résultats de 84 % et 90 % en conditions réelles constituent un signal positif sur la réduction du gap sim-to-real, du moins pour ces classes de tâches. Une réserve s'impose cependant : le résumé ne détaille ni les objets testés ni le protocole de sélection des séquences d'évaluation, ce qui rend toute comparaison indépendante prématurée avant la publication complète. GRAIL s'inscrit dans une course à la donnée synthétique que se livrent les principaux laboratoires de robotique humanoïde, aux côtés des pipelines World Model de Figure AI et 1X Technologies, de RoboVerse (Microsoft Research) et des environnements Genesis pour la simulation physique générative. La distinction de GRAIL réside dans le conditionnement fort sur des actifs 3D préalables, un choix qui améliore la précision de la reconstruction 4D mais suppose la disponibilité d'assets de qualité pour chaque objet cible. Le robot retenu, l'Unitree G1, est commercialisé autour de 16 000 dollars, rendant la reproduction des résultats accessible à de nombreuses équipes académiques, contrairement aux plateformes propriétaires des acteurs industriels. Les affiliations des auteurs ne figurant pas dans le résumé arXiv disponible, les suites naturelles annoncées comprennent les tâches bimanuelles, les environnements dynamiques et l'intégration dans des pipelines VLA (Vision-Language-Action) pour la généralisation à des objets et contextes non vus lors de l'entraînement.

UELes laboratoires académiques européens spécialisés en robotique humanoïde (INRIA, CEA-List) pourraient adopter ce pipeline de génération de données synthétiques pour réduire leur dépendance à la télé-opération et à la mocap, mais aucun acteur FR/UE n'est directement impliqué dans ces travaux.

RecherchePaper
1 source
Attaques adversariales par patches partiellement observables sur les modèles VLA en robotique
18arXiv cs.RO 

Attaques adversariales par patches partiellement observables sur les modèles VLA en robotique

Des chercheurs ont publié début juin 2026 une étude (arXiv:2606.03556) démontrant la vulnérabilité des modèles Vision-Language-Action (VLA) à des attaques adversariales par patch dans des conditions partiellement observables. Contrairement aux travaux antérieurs qui supposaient un accès complet à l'intégralité de la trajectoire d'exécution du robot, cette équipe formule un modèle de menace plus réaliste : l'adversaire ne dispose que d'un court préfixe de trajectoire pour générer un patch visuel fixe, ensuite appliqué à toutes les trames suivantes. Leur framework en deux phases consiste d'abord à localiser la zone optimale du patch en exploitant les cartes d'attention du modèle pour identifier les régions visuellement critiques liées à l'instruction en cours, puis à optimiser ce patch pour simultanément perturber l'ancrage sémantique des objets cibles et augmenter la courbure des trajectoires d'action planifiées. Les expériences menées en simulation et en environnements robotiques réels montrent une réduction significative des taux de succès sur des tâches longues. Ce résultat est important car les VLA sont de plus en plus intégrés dans des bras manipulateurs et des robots mobiles déployés en environnements industriels et logistiques, précisément parce qu'ils promettent une généralisation robuste à partir d'instructions en langage naturel. Prouver qu'un patch physique imprimable, placé dans le champ de vision du robot, peut dégrader durablement ses performances de contrôle sans accès complet à son état interne remet en question les hypothèses de sécurité des déploiements actuels. Cela soulève un gap réel entre robustesse en démo contrôlée et résilience en production, particulièrement pour des intégrateurs qui s'appuient sur des modèles comme OpenVLA, pi-0 (Physical Intelligence) ou RT-2 (Google DeepMind) sans auditer leur surface d'attaque perceptive. Les VLA connaissent une montée en puissance depuis 2023 avec RT-2 de Google, suivi de pi-0 de Physical Intelligence et des travaux d'Embodied Intelligence. La sécurité adversariale de ces modèles reste un angle quasi-inexploré dans la littérature par rapport à leur homologues LLM ou vision-langage purs. Cette publication s'inscrit dans un effort émergent pour caractériser les vecteurs d'attaque physiques sur les systèmes robotiques autonomes, un enjeu croissant alors que Figure AI, Agility Robotics et 1X Technologies accélèrent leurs déploiements en entrepôt. Les prochaines étapes probables incluent des défenses basées sur l'augmentation adversariale à l'entraînement et des mécanismes de détection d'anomalie sur les cartes d'attention, domaine dans lequel des équipes européennes comme celles du LAAS-CNRS et du DLR commencent également à publier.

UELes équipes du LAAS-CNRS et du DLR commencent à publier sur la défense adversariale des VLA, positionnant l'Europe comme contributrice émergente à la sécurisation des déploiements robotiques industriels.

RechercheOpinion
1 source
OpenEAI-Platform : une plateforme open source unifiée matériel-logiciel pour l'IA incarnée
19arXiv cs.RO 

OpenEAI-Platform : une plateforme open source unifiée matériel-logiciel pour l'IA incarnée

Des chercheurs ont déposé sur arXiv (2606.03392) OpenEAI-Platform, une plateforme open-source couplant un bras robotique à 6+1 degrés de liberté (DDL), OpenEAI-Arm, et un modèle vision-langage-action (VLA), OpenEAI-VLA. OpenEAI-Arm s'appuie sur des plans mécaniques ouverts et une commande conforme (compliant control) destinée à réduire le coût de fabrication tout en maintenant la précision de manipulation. OpenEAI-VLA est construit sur Qwen3-VL-4B d'Alibaba avec une tête d'action Diffusion Transformer, entraîné en deux phases sur des jeux de données exclusivement ouverts. Sur quatre tâches de manipulation réelles, il atteint des taux de réussite comparables à pi0 de Physical Intelligence, un modèle pré-entraîné à bien plus grande échelle. OpenEAI-Arm surpasse par ailleurs deux bras commerciaux 6+1 DDL évalués sous la même politique de contrôle. Plans, codes, modèles et pipelines d'entraînement seront publiés intégralement après acceptation de l'article en revue. L'intérêt de ces résultats est double. Côté hardware, un bras open-source moins coûteux qui surpasse des équipements commerciaux constitue un levier direct pour les laboratoires et intégrateurs à budget contraint. Côté VLA, approcher les performances de pi0 avec nettement moins de données de pré-entraînement conteste l'hypothèse selon laquelle des politiques de manipulation robustes nécessitent impérativement des corpus massifs et propriétaires. L'architecture combinant un modèle vision-langage compact (4 milliards de paramètres) et une tête diffusion semble offrir un rapport performance-données plus favorable que prévu, ce qui intéresse directement les équipes cherchant à déployer des robots polyvalents sans infrastructure de collecte industrielle. OpenEAI-VLA s'appuie sur Qwen3-VL-4B (Alibaba, 2025) et l'architecture Diffusion Transformer popularisée par pi0 (Physical Intelligence, 2024) pour générer des actions robotiques continues. La plateforme s'inscrit dans un segment croissant de projets ouverts pour la manipulation, aux côtés de LeRobot (Hugging Face) et ALOHA (Stanford), face à des acteurs commerciaux comme Figure AI, Boston Dynamics ou 1X Technologies. Son positionnement vise explicitement la reproductibilité et la collecte de données à l'échelle, deux goulots d'étranglement identifiés par la communauté robotique. Aucun déploiement industriel ni partenariat n'est annoncé : OpenEAI-Platform est un prétirage, et l'accès aux ressources complètes reste conditionnel à l'acceptation de l'article.

UELes équipes de recherche et laboratoires européens à budget contraint pourraient exploiter cette plateforme matériel-logiciel open source pour accélérer leurs travaux en manipulation robotique sans infrastructure de collecte de données industrielle.

💬 Un bras robot open-source qui surpasse du hardware commercial, c'est déjà solide. Ce qui m'intéresse encore plus, c'est que leur VLA s'approche des perfs de pi0 avec des datasets entièrement ouverts et un modèle à 4B paramètres, ce qui fracasse l'idée qu'il faut absolument un corpus propriétaire massif pour faire de la manipulation sérieuse. Bon, c'est un prétirage pour l'instant, les ressources complètes sortent après acceptation de l'article.

IA physiqueOpinion
1 source
Nvidia dévoile son robot humanoïde Isaac GR00T… et il déchire grave
20Le Big Data 

Nvidia dévoile son robot humanoïde Isaac GR00T… et il déchire grave

Nvidia a présenté le 1er juin 2026, lors du Computex à Taipei, son robot humanoïde de référence baptisé Isaac GR00T Reference Humanoid Robot. Développé en partenariat avec Unitree, spécialiste chinois de la robotique, et Sharpa, entreprise singapourienne experte en mains robotiques, ce système repose sur le corps humanoïde H2 Plus d'Unitree, 1,80 mètre, 68 kilogrammes, 31 degrés de liberté. Les mains tactiles à cinq doigts de Sharpa ajoutent 22 degrés de liberté chacune, portant le total à 75 points d'articulation sur l'ensemble du corps. Chaque bras peut soulever 7 kilogrammes en continu, avec des pics à 15 kilogrammes. Le cerveau du système est le calculateur Jetson Thor, basé sur l'architecture Blackwell de Nvidia, capable de dépasser 2 000 téraflops dédiés à l'IA. Le robot embarque le modèle GR00T 1.7 dès sa sortie de boîte, et une batterie de 0,972 kWh offrirait environ trois heures d'autonomie, selon des sources non confirmées officiellement par Nvidia. L'enjeu de cette annonce dépasse largement le robot lui-même. Nvidia ne vend pas un produit commercial destiné aux entreprises ou aux particuliers, mais une plateforme de référence pour la recherche. L'idée est de fournir aux laboratoires un socle matériel et logiciel unifié, comparable à ce qu'un PC de référence représente pour l'informatique grand public : éviter que chaque équipe perde des mois à assembler et intégrer ses propres composants, pour se concentrer sur ce qui compte, à savoir développer des algorithmes, des comportements et des capacités cognitives. Stanford Robotics Center, ETH Zurich, Ai2 de Seattle et le laboratoire de robotique de l'UC San Diego figurent parmi les premiers partenaires confirmés. La disponibilité pour les développeurs et laboratoires intéressés est prévue d'ici fin 2026. Cette initiative s'inscrit dans une bataille industrielle et géopolitique de grande ampleur autour de la robotique humanoïde. Des acteurs comme Boston Dynamics, Figure, Tesla avec Optimus, ou encore 1X Technologies investissent massivement dans ce domaine, perçu comme le prochain grand marché de l'IA physique. Nvidia, jusqu'ici positionné comme fournisseur de puissance de calcul, tente avec Isaac GR00T de devenir la couche d'infrastructure incontournable de toute la filière robotique mondiale. L'absence notable d'institutions chinoises parmi les premiers partenaires, alors même qu'Unitree est un acteur chinois central du projet, révèle la tension géopolitique qui traverse ce secteur. En standardisant la plateforme de recherche, Nvidia espère non seulement accélérer les progrès scientifiques, mais aussi s'imposer comme le standard de référence avant que ses concurrents ne définissent les leurs.

UEETH Zurich figure parmi les premiers laboratoires partenaires confirmés, ouvrant aux chercheurs européens un accès potentiel à cette plateforme de référence en robotique humanoïde d'ici fin 2026.

💬 Ce qui m'intéresse, c'est pas le robot, c'est le coup qu'essaie de rejouer Nvidia. Imposer une plateforme de référence à la recherche avant que le marché se structure, c'est exactement comme ça que CUDA est devenu incontournable il y a vingt ans. L'absence des labos chinois dans les premiers partenaires alors qu'Unitree est au coeur du hardware, ça dit tout sur où se joue vraiment la bataille.

HumanoïdesOpinion
1 source
Les 10 actualités robotique incontournables de mai 2026
21Robotics Business Review 

Les 10 actualités robotique incontournables de mai 2026

Mai 2026 a concentré plusieurs avancées concrètes dans la robotique, mises en lumière lors du Robotics Summit & Expo de Boston qui a réuni des milliers de professionnels du secteur. Genesis AI a dévoilé GENE-26.5, un modèle d'IA qu'elle présente comme atteignant des "capacités de manipulation physique au niveau humain", une affirmation à relativiser en l'absence de benchmarks indépendants publiés. Dans le domaine des humanoïdes, 1X Technologies a lancé la production en série de son robot NEO dans une nouvelle usine à Hayward, en Californie, conçu pour fonctionner en dessous du niveau sonore d'un réfrigérateur moderne dans des espaces domestiques. La startup londonienne Humanoid a formalisé un partenariat avec Bosch et Schaeffler pour industrialiser sa production, après un proof of concept conjoint validé en mars 2026. Du côté des capteurs, Ouster a annoncé la famille REV8, basée sur sa puce L4 Ouster Silicon, avec une portée et une résolution doublées par rapport à la génération précédente, et un lidar couleur natif breveté. Automated Tire est sortie de la discrétion avec SmartBay, une plateforme robotique autonome pour le changement de pneus et l'inspection de véhicules, promettant de réduire le temps de service de moitié, soit environ 30 minutes par intervention. Ces actualités illustrent une bifurcation nette dans le secteur: d'un côté, des acteurs humanoïdes comme 1X passent de la démonstration à la production réelle, signal que le "reality gap" se réduit pour certains challengers; de l'autre, des verticaux industriels précis comme la maintenance automobile ou la manipulation dextère cherchent à démontrer un ROI mesurable à court terme. Le partenariat Humanoid-Bosch-Schaeffler est particulièrement notable car il intègre deux équipementiers automobiles de premier plan dans la chaîne d'approvisionnement des humanoïdes, anticipant un marché commercial proche. Hugging Face a également lancé une boîte à outils agentique pour son robot desktop open-source Reachy Mini, permettant de créer des applications fonctionnelles en moins d'une heure sans écrire de code, ce qui signale une démocratisation de la programmation robotique au-delà des équipes d'ingénieurs spécialisés. Le contexte est celui d'une course à la commercialisation qui s'accélère, avec Figure (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (pi0), Boston Dynamics et NVIDIA (GR00T N2) en embuscade sur le même marché des humanoïdes polyvalents. Pour structurer les comparaisons, le Fraunhofer IPA a publié un benchmark standardisé pour évaluer objectivement ces plateformes, une initiative qui faisait défaut jusqu'ici. Les RBR50 Innovation Awards 2026, qui fêtent leur 15e édition, ont dressé un panorama des leaders actuels, reflétant la diversité des approches: AMR, cobots, architectures VLA (Vision-Language-Action). Les prochains trimestres seront déterminants: les premiers bilans chiffrés des déploiements chez 1X et Humanoid constitueront des tests de réalité cruciaux avant d'éventuels nouveaux tours de financement.

UEHugging Face (française) démocratise la programmation robotique avec sa boîte à outils low-code pour Reachy Mini, tandis que le partenariat Humanoid-Bosch-Schaeffler ancre deux équipementiers automobiles allemands dans la chaîne d'approvisionnement des humanoïdes, posant les bases d'une filière européenne commerciale, et le benchmark Fraunhofer IPA offre enfin un cadre d'évaluation standardisé aux acteurs du marché EU.

FR/EU ecosystemeActu
1 source
Nvidia mise sur l'IA physique au GTC Taipei : nouveau modèle de monde, cerveau de conduite et robot humanoïde open source
22The Decoder 

Nvidia mise sur l'IA physique au GTC Taipei : nouveau modèle de monde, cerveau de conduite et robot humanoïde open source

Lors du GTC Taipei, Nvidia a dévoilé plusieurs modèles destinés à accélérer son offensive dans l'IA physique. La conférence a été marquée par trois annonces majeures : Cosmos 3, un nouveau modèle de monde (world model) de dernière génération, Alpamayo 2 Super, une version considérablement élargie du modèle de conduite autonome, et une plateforme de référence ouverte pour robots humanoïdes. Ces annonces s'inscrivent dans la stratégie de Jensen Huang de faire de Nvidia le fournisseur incontournable de l'infrastructure pour les systèmes physiques intelligents. Ces outils visent des marchés en pleine explosion : la robotique industrielle, les véhicules autonomes et les systèmes de surveillance vidéo intelligents. Un world model comme Cosmos 3 permet à des robots ou des voitures autonomes de simuler leur environnement et d'anticiper les conséquences de leurs actions, une brique fondamentale pour passer de la démonstration laboratoire au déploiement à grande échelle. La plateforme humanoïde ouverte, quant à elle, vise à standardiser le développement matériel et logiciel pour les constructeurs de robots à deux jambes, réduisant les coûts d'entrée pour les startups du secteur. Nvidia capitalise ici sur sa domination dans les GPU d'entraînement pour étendre son empreinte vers l'inférence embarquée et les systèmes temps-réel. La concurrence s'intensifie avec des acteurs comme Qualcomm et Intel sur les puces pour véhicules autonomes, tandis que des entreprises comme Figure, Boston Dynamics ou 1X Technologies attendent des plateformes logicielles communes pour accélérer leurs développements. GTC Taipei confirme que Nvidia ne veut pas seulement alimenter les data centers de l'IA, il veut aussi être le cerveau des machines qui bougent.

UELes constructeurs automobiles européens (Renault, Stellantis, BMW, Volkswagen) et les startups robotiques européennes pourraient bénéficier de la plateforme humanoïde ouverte pour réduire leurs coûts d'entrée et accélérer leurs développements en robotique industrielle et véhicules autonomes.

HumanoïdesOpinion
1 source
La Chine déploie des robots humanoïdes capables de trier 1 200 colis par heure dans un grand centre postal
23Interesting Engineering 

La Chine déploie des robots humanoïdes capables de trier 1 200 colis par heure dans un grand centre postal

La Chine a déployé des robots humanoïdes dans le centre logistique de Jianggao, rattaché au hub postal de Guangzhou (province du Guangdong), pour trier les colis à une cadence annoncée de 1 200 unités par heure. Des images diffusées cette semaine par l'agence Xinhua montrent ces systèmes humanoïdes travaillant en parallèle avec des bras robotiques et des chariots élévateurs autonomes dans un entrepôt fortement automatisé opéré par China Post Group. Le site traite en moyenne 6,5 millions de pièces de courrier par jour, avec des pics dépassant 10 millions. Les robots filmés saisissent des colis depuis des conteneurs et les déposent sur des lignes de tri, tandis que des véhicules autonomes assurent les flux au sol. À noter : les chiffres de cadence (1 200 colis/heure) émanent des médias d'État et n'ont pas été vérifiés de manière indépendante, et les vidéos publiées ne montrent que des séquences sélectionnées dans des conditions optimales. Ce déploiement marque une inflexion notable dans la stratégie d'automatisation logistique. Les robots humanoïdes présentent un avantage structurel par rapport à l'automatisation industrielle fixe : ils peuvent théoriquement opérer dans des infrastructures conçues pour les humains, sans nécessiter de refonte complète de l'entrepôt. Pour les intégrateurs et les décideurs B2B, cela réduit la barrière à l'entrée par rapport aux systèmes dédiés qui exigent une architecture entrepôt repensée de zéro. La logistique devient ainsi le premier secteur à tester à grande échelle la promesse de la robotique humanoïde en conditions réelles, au-delà des démos en laboratoire, dans un environnement à forte pression opérationnelle (24h/24, volumes croissants portés par l'e-commerce, pénuries de main-d'oeuvre régionales). C'est précisément ce contexte de charge élevée et continue qui permet d'évaluer si le gap sim-to-real est réellement comblé. China Post Group s'inscrit dans une dynamique nationale soutenue par des investissements publics massifs dans la robotique humanoïde, avec des acteurs comme Unitree, Fourier Intelligence et UBTECH qui cherchent à commercialiser leurs systèmes dans l'industrie, les services à la personne et la logistique. À l'international, les concurrents directs incluent Figure (avec son robot 02 déployé chez BMW), Agility Robotics (Digit chez Amazon) et 1X Technologies. La différence est que la Chine déploie à une échelle de volumes postaux nationaux, là où les déploiements occidentaux restent pour l'instant des pilotes industriels circonscrits. Des interrogations légitimes subsistent sur la fiabilité à long terme, les coûts de maintenance et la pertinence économique face à des alternatives plus simples comme les AMR (robots mobiles autonomes). Mais la décision de China Post de franchir le seuil du déploiement opérationnel à grande échelle, plutôt que de rester en mode pilote, constitue en soi un signal industriel significatif.

UELe déploiement à grande échelle de robots humanoïdes par China Post accentue le retard compétitif des intégrateurs et constructeurs européens, qui restent cantonnés à des pilotes industriels circonscrits face à une automatisation logistique humanoïde déjà opérationnelle à l'échelle nationale en Chine.

Chine/AsieOpinion
1 source
Déploiement de pipelines VLA en atelier d'emballage industriel : étude de cas, flux de travail, échecs et enseignements
24arXiv cs.RO 

Déploiement de pipelines VLA en atelier d'emballage industriel : étude de cas, flux de travail, échecs et enseignements

Des chercheurs associés à Siemens ont publié le 28 mai 2026 sur arXiv (2605.27461) une étude de déploiement industriel d'une politique VLA (Vision-Language-Action) dans l'usine Siemens GWE d'Erlangen, en Allemagne. La tâche ciblée est précisément définie : un bras robotique doit saisir un sachet d'accessoires transparent au sein d'un tas encombré, l'insérer dans la cavité restante d'un emballage carton, puis vérifier que le sachet et son contenu restent en dessous du plan de fermeture du carton. Le modèle de base utilisé est Pi0.5, la politique VLA de Physical Intelligence, affinée de manière itérative sur données terrain. L'équipe a accumulé 2535 épisodes d'entraînement, soit environ 10 heures de données collectées directement en conditions d'usine, via un pipeline cyclique comprenant collecte, curation, fine-tuning, évaluation et collecte de données de récupération ciblées. Ce qui rend cette publication notable, c'est son positionnement éditorial délibérément empirique : les auteurs ne communiquent pas sur un taux de succès global, mais documentent les modes de défaillances récurrents et les ajustements nécessaires à chaque cycle. C'est précisément ce type de retour d'expérience qui manque dans la littérature robotique, où les démonstrations sélectionnées occultent souvent le coût réel d'adaptation d'un modèle généraliste à une tâche industrielle spécifique. La gestion d'objets transparents, notoire pour tromper les systèmes de vision par profondeur, illustre ici les limites concrètes du sim-to-real et du transfert zero-shot. L'étude confirme que le fine-tuning dirigé par les échecs terrain, plutôt que la montée en données brutes, reste le levier dominant pour atteindre la fiabilité industrielle. Pi0.5 est le successeur de π0, lancé par Physical Intelligence (San Francisco) fin 2024, conçu comme politique généraliste pour la manipulation dextère. Son déploiement chez Siemens marque une étape significative dans la commercialisation B2B des VLA, un segment que se disputent actuellement Figure AI avec sa pile Helix, 1X Technologies avec NEO, et des initiatives internes comme GR00T N2 de NVIDIA ou les travaux de Boston Dynamics sur Atlas. Aucun acteur européen n'est directement impliqué dans ce déploiement, bien que Wandercraft et Enchanted Tools positionnent des produits complémentaires sur le segment français. La prochaine étape logique de ce type d'étude serait une généralisation multi-tâches ou multi-sites, mais les auteurs restent prudents : l'article conclut sur des leçons méthodologiques, non sur un déploiement à l'échelle.

UELe déploiement de Pi0.5 dans l'usine Siemens d'Erlangen fournit le premier retour d'expérience empirique documenté d'un modèle VLA généraliste en conditions industrielles réelles au sein d'un acteur EU majeur, directement exploitable par les intégrateurs et équipementiers robotiques européens.

FR/EU ecosystemeOpinion
1 source
BYD confirme son offensive robotique humanoïde avec le projet de septième génération Yao-Shun-Yu, ciblant particulièrement les concessionnaires et les foyers
25Pandaily 

BYD confirme son offensive robotique humanoïde avec le projet de septième génération Yao-Shun-Yu, ciblant particulièrement les concessionnaires et les foyers

Li Ke, vice-président exécutif de BYD, a détaillé dans une interview récente la stratégie robotique humanoïde du constructeur, développée en interne sous le nom de code "Yao-Shun-Yu". Le projet en est à sa septième génération d'itération, signe d'un cycle de développement soutenu. Les premiers déploiements visent les concessions automobiles 4S à l'international, les réseaux européens étant cités parmi les sites prioritaires. Les robots y assureront accueil client, démonstrations produits et support commercial standardisé en plusieurs langues simultanément, répondant à un problème opérationnel concret : recrutement difficile et coûts élevés dans les marchés étrangers. À plus long terme, BYD envisage un second débouché, le domicile, avec des fonctions de ménage, préparation des repas et compagnie sociale. Aucun chiffre de production, de spécifications techniques ou de calendrier de livraison précis n'a été communiqué ; il s'agit d'une annonce de stratégie, pas d'un produit expédié. L'entrée de BYD dans la robotique humanoïde est structurellement significative pour deux raisons. D'abord, le groupe dispose d'une chaîne d'approvisionnement verticalement intégrée : l'expertise en systèmes logiciels embarqués et en fabrication de précision acquise dans l'automobile électrique se transpose directement à la robotique, où la maîtrise mécanique et le contrôle temps réel sont aussi critiques que l'intelligence artificielle. Ensuite, Li Ke a formulé un diagnostic précis sur l'état du secteur : les humanoïdes chinois présentent généralement un hardware solide mais un "cerveau" IA insuffisant, tandis que les concurrents américains affichent l'inverse. BYD se positionne explicitement comme intégrateur des deux capacités dans une plateforme unique. Si cette convergence se concrétise à l'échelle, elle modifierait les rapports de force dans la commercialisation des humanoïdes industriels, où aucun acteur n'a encore démontré de production de masse rentable. BYD est devenu en 2023 le premier constructeur mondial de véhicules électriques par le volume, précisément sur la base de cette intégration verticale, supplantant Tesla dans plusieurs segments. Le groupe s'inscrit dans une vague plus large de groupes industriels chinois investissant la robotique humanoïde : UBTECH, Unitree et Fourier Intelligence sont déjà actifs sur ce terrain. Côté américain, les références restent Figure Robotics (Figure 02 en déploiement chez Amazon), Boston Dynamics (Atlas), Tesla (Optimus Gen 2) et 1X Technologies. BYD se distingue en se déclarant lui-même acheteur initial à grande échelle dans ses propres usines chinoises, un levier de dérisquage commercial que très peu de roboticiens peuvent activer de façon crédible. Les prochaines étapes annoncées portent sur des pilotes en concessions européennes, sans calendrier précis confirmé à ce jour.

UEBYD cible explicitement les réseaux de concessions automobiles européens comme sites de déploiement prioritaires, ce qui pourrait introduire un acteur chinois à intégration verticale sur le marché européen de la robotique de service B2B.

Chine/AsieActu
1 source
Des jambes humanoïdes imprimables en 3D pour libérer l'expérimentation en robotique
26Ars Technica AI 

Des jambes humanoïdes imprimables en 3D pour libérer l'expérimentation en robotique

Hugging Face a publié le projet LeRobot Humanoid, une paire de jambes robotiques humanoïdes conçue pour être accessible aux chercheurs et aux développeurs. L'ensemble coûte environ 2 500 dollars et repose sur des pièces imprimées en 3D ainsi que des composants disponibles dans le commerce. La publication est complète : elle comprend une liste de matériaux, les fichiers nécessaires à l'impression des pièces, la documentation de câblage, les instructions d'assemblage physique, ainsi que des outils logiciels pour calibrer et contrôler le robot, que ce soit dans un corps physique ou en simulation. Le projet a été présenté dans un billet de blog cosigné par Virgile Batto, ingénieur en robotique chez Hugging Face. Cette initiative pourrait significativement abaisser la barrière d'entrée dans la recherche en robotique humanoïde. Jusqu'ici, développer un robot physique capable de servir de plateforme d'expérimentation représentait un investissement prohibitif, souvent réservé aux grands laboratoires académiques ou aux entreprises bien financées. Disposer d'un corps physique à moins de 3 000 dollars permet aux équipes de taille modeste de tester et d'entraîner des logiciels d'IA robotique en conditions réelles, là où la simulation seule montre ses limites. L'accès au code source, aux schémas et aux fichiers de fabrication facilite aussi la modification, la réparation et l'instrumentation du robot selon les besoins spécifiques de chaque expérience. Hugging Face s'est imposé comme une infrastructure centrale de l'écosystème IA open source, notamment autour des modèles de langage et de vision. Son incursion dans la robotique physique s'inscrit dans une dynamique plus large où plusieurs acteurs tentent de démocratiser le développement de robots intelligents, face à des projets commerciaux comme ceux de Figure AI, 1X Technologies ou Boston Dynamics, qui restent hors de portée pour la plupart des chercheurs indépendants. LeRobot Humanoid ne prétend pas concurrencer ces plateformes avancées, mais vise explicitement un public qui veut comprendre, modifier et apprendre, ouvrant potentiellement la voie à une communauté de robotique ouverte comparable à ce qu'a été Hugging Face pour les modèles de langage.

UEHugging Face, entreprise aux origines françaises cofondée à Paris, démocratise la recherche en robotique humanoïde avec un kit open source à 2 500 $, ouvrant la voie aux laboratoires académiques européens aux budgets limités.

💬 2 500 dollars pour rentrer dans la recherche en robotique humanoïde, c'est une vraie rupture. Hugging Face fait exactement ce qu'ils ont fait pour les LLMs : mettre les fichiers, la doc et les outils sur la table et laisser la communauté faire le reste. Une paire de jambes imprimées chez soi c'est encore loin de Figure AI, mais c'est pas le but.

HumanoïdesOpinion
1 source
EXPO-FT : affinage par apprentissage par renforcement économe en données pour les modèles vision-langage-action (VLA)
27arXiv cs.RO 

EXPO-FT : affinage par apprentissage par renforcement économe en données pour les modèles vision-langage-action (VLA)

EXPO-FT est un système de fine-tuning par apprentissage par renforcement (RL) destiné à améliorer la fiabilité des politiques robotiques issues de modèles Vision-Langage-Action (VLA) pré-entraînés. Présenté dans un preprint arXiv (2605.25477, mai 2026), le système atteint un taux de réussite parfait : 30 succès sur 30 tentatives sur trois tâches de manipulation exigeantes. Ces tâches incluent guider une guirlande lumineuse dans son connecteur pour la faire s'allumer, frapper une balle de billard dans une poche, et insérer une fleur dans un goulot de bouteille à vin. Les résultats sont obtenus avec seulement 19,1 minutes en moyenne de données collectées sur robot réel, sans recours à la simulation. Le code source est publié en open source. Ce résultat attaque directement le "reliability gap" : l'écart persistant entre les capacités de généralisation des VLA pré-entraînés et leur fiabilité effective en conditions opérationnelles. Les modèles comme pi-0 (Physical Intelligence), OpenVLA (UC Berkeley) ou RT-2 (Google DeepMind) montrent une bonne généralisation entre tâches, mais peinent à dépasser les seuils de succès nécessaires en production industrielle. EXPO-FT propose une voie médiane : ni repartir de zéro avec du RL pur, coûteux en données et instable, ni se limiter au fine-tuning supervisé qui plafonne rapidement. En moins de 20 minutes de données réelles, le système atteint la perfection sur des exercices combinant précision millimétrique, dynamique de mouvement et robustesse aux variations d'état initial. Pour un intégrateur ou un COO déployant des bras robotiques sur ligne, c'est un signal que le commissioning par RL pourrait se mesurer en minutes plutôt qu'en jours, si ces résultats se confirment hors conditions de laboratoire. Ce travail s'inscrit dans la convergence accélérée entre LLM fondationnels et contrôle robotique amorcée depuis 2023. Google DeepMind avec Gemini Robotics, Physical Intelligence avec pi-0 et Covariant ont démontré que des politiques pré-entraînées à grande échelle offrent une base solide, mais la question du "last mile" restait ouverte. EXPO-FT y répond en publiant une infrastructure de RL finetuning stable et accessible. Les concurrents directs sur ce créneau sont les approches de reinforcement finetuning développées chez 1X Technologies et dans plusieurs labos académiques américains. Côté européen, des acteurs comme Enchanted Tools ou Wandercraft n'ont pas encore publié de travaux équivalents sur le RL finetuning de VLA, soulignant un écart notable avec la recherche américaine sur ce segment précis.

UEL'absence de travaux équivalents côté européen (Enchanted Tools, Wandercraft) souligne un retard compétitif de l'écosystème EU sur le RL finetuning de VLA, segment clé pour industrialiser les politiques robotiques.

💬 30 sur 30, moins de 20 minutes de données réelles, code open source. C'est exactement le type de résultat qu'on attendait pour débloquer le commissioning robotique, parce que le vrai blocage n'a jamais été la généralisation (pi-0 et RT-2 l'ont prouvé) mais la fiabilité en conditions opérationnelles, ce fameux écart qui rend les démos impressionnantes et les déploiements industriels galères. Bon, sur le papier c'est parfait, mais je veux voir ça tenir sur une ligne d'assemblage qui ne ressemble pas à un setup de labo.

IA physiqueOpinion
1 source
Les robots humanoïdes entrent dans l'industrie manufacturière : vers de nouvelles forces productives
2836Kr 

Les robots humanoïdes entrent dans l'industrie manufacturière : vers de nouvelles forces productives

UBTECH (优必选), fabricant chinois de robots humanoïdes fondé il y a 14 ans, a franchi en 2025 un jalon industriel concret : l'entreprise affirme avoir été la première au monde à atteindre la production en série et la livraison de plus de 1 000 unités de robots humanoïdes pleine taille, avec sa gamme Walker S. L'objectif annoncé pour 2026 est de 10 000 unités produites, ce qui, selon Tan Min, Chief Brand Officer de l'entreprise, représenterait encore une fraction infime du besoin réel. Le ministère chinois des Ressources humaines, celui de l'Education et celui de l'Industrie ont publié en 2025 un chiffre commun : le déficit de main-d'oeuvre dans le secteur de la fabrication intelligente dépasse 30 millions de postes en Chine. Le Walker S2, troisième génération de la plateforme, intègre une technologie de remplacement de batterie en 3 minutes sans arrêt de production, présentée par l'entreprise comme une première mondiale, sans comparatif tiers disponible pour l'instant. UBTECH travaille avec des partenaires industriels incluant Texas Instruments (États-Unis), Airbus (Europe), Honda Trading (Japon) et BYD (Chine), avec plus de 24 mois de POC (proof of concept) accumulés sur ces sites. L'argument central d'UBTECH n'est pas la performance technique brute mais l'adéquation au besoin opérationnel : des tâches répétitives, à faible complexité sensorimotrice, dans des espaces restreints, sans opération de précision. Le segment ciblé correspond exactement aux postes les plus difficiles à pourvoir dans les usines chinoises, ce qui rend l'argument commercial plus solide que celui de la substitution généralisée. Le fait qu'une entreprise atteigne le seuil de 1 000 unités livrées en conditions industrielles réelles, et non en démo contrôlée, est significatif dans un secteur où la plupart des concurrents en sont encore aux phases pilotes ou aux vidéos de laboratoire. Cela ne résout pas la question du "sim-to-real gap" à grande échelle, mais c'est un point de référence mesurable que le marché attendait. UBTECH existe depuis 2012 et a longtemps dû justifier l'existence même de la catégorie "robot humanoïde industriel". La compétition sur ce segment s'est considérablement intensifiée : Figure (Figure 02/03), Boston Dynamics (Atlas électrique), Tesla (Optimus Gen 2/3), Agility Robotics (Digit, déployé chez Amazon), 1X Technologies, ainsi qu'une centaine d'autres entreprises chinoises. La Chine a inscrit les robots humanoïdes dans son 15e plan quinquennal (2026-2030) comme priorité nationale, et plusieurs villes dont Pékin et Shanghai y consacrent des budgets dédiés. UBTECH se positionne aujourd'hui à la quatrième année d'un plan quinquennal interne, avec pour objectif d'atteindre une vraie industrialisation à grande échelle d'ici 2027-2028 et une présence en environnements commerciaux puis domestiques dans un second temps.

UEAirbus est cité comme partenaire actif d'UBTECH avec plus de 24 mois de POC, indiquant que des humanoïdes industriels chinois sont déjà testés dans l'écosystème aéronautique franco-européen.

Humanoid s'associe à Bosch et Schaeffler pour industrialiser la production de robots
29Robotics Business Review 

Humanoid s'associe à Bosch et Schaeffler pour industrialiser la production de robots

La startup londonienne Humanoid, fondée en 2024 sous le nom SKL Robotics Ltd., a annoncé en mai 2026 deux partenariats industriels majeurs pour industrialiser son robot HMND 01 sur le marché européen. Le premier accord, conclu avec Robert Bosch GmbH (siège à Gerlingen, Allemagne), fait suite à un proof of concept réalisé en mars 2026 dans un entrepôt intralogistique Bosch à Bühl, en Allemagne : le HMND 01, un manipulateur mobile à roues doté d'un torse humanoïde, d'une tête et de deux bras, a transféré de manière autonome des cartons depuis un convoyeur vers des chariots, en gérant cinq formats de boîtes différents sur plusieurs hauteurs, empreintes au sol et masses. Le second accord, signé la semaine précédente avec Schaeffler Technologies AG, est décrit comme un contrat "contraignant et phasé" visant à intégrer les robots HMND dans des lignes de production réelles en Allemagne d'ici fin 2026. Humanoid qualifie ce déploiement de "l'un des plus importants rollouts de robots humanoïdes annoncés à ce jour", ce qui reste difficile à vérifier indépendamment faute de chiffres de volumes publiés. Ces deux partenariats signalent un changement de phase pour Humanoid : de la validation POC vers la fabrication en série et le déploiement industriel. Bosch endosse le rôle de sous-traitant industriel (contract manufacturer) et apportera son infrastructure de production mondiale, sa chaîne d'approvisionnement et son expertise en DfX (design for excellence), un cadre méthodologique couvrant la fabricabilité, la fiabilité, la maintenabilité et l'optimisation des coûts. L'orchestration des tâches repose sur KinetIQ, le framework IA propriétaire d'Humanoid. Pour un COO ou un directeur industriel, l'intérêt concret est double : un robot conçu pour les espaces humano-centriques (convoyeurs, chariots, manipulation multi-format) testé en conditions réelles, et un partenaire de fabrication capable de passer rapidement du prototype au volume. La mention d'une future intégration de composants Bosch (actionneurs, variateurs, capteurs) dans les prochaines versions du HMND ouvre aussi une trajectoire de co-développement hardware. Humanoid s'est constitué rapidement un réseau de partenaires industriels de premier rang : outre Bosch et Schaeffler, la société avait annoncé le mois précédent un accord avec Siemens. Ce positionnement agressif intervient dans un contexte de consolidation du marché humanoïde industriel, où Figure AI (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (pi0), NVIDIA (GR00T N2) et 1X Technologies se disputent les premiers déploiements à l'échelle. Humanoid mise sur une stratégie de distribution européenne différenciée, en s'appuyant sur l'écosystème industriel allemand plutôt que sur une intégration verticale américaine. La prochaine étape visible sera la mise en service effective des premiers systèmes chez Schaeffler avant la fin de l'année 2026, date qui permettra de valider si le saut du POC au déploiement réel est aussi rapide que le suggèrent les annonces.

UELes partenariats avec Bosch (contract manufacturer mondial) et Schaeffler (déploiement en ligne de production d'ici fin 2026 en Allemagne) constituent le premier ancrage industriel sérieux d'un robot humanoïde dans l'écosystème manufacturier européen, avec une trajectoire de co-développement hardware qui pourrait servir de modèle différencié face à l'intégration verticale américaine.

FR/EU ecosystemeOpinion
1 source
IA à l'échelle urbaine : du pilote à la généralisation, robots en conditions réelles et passage à l'échelle
3036Kr 

IA à l'échelle urbaine : du pilote à la généralisation, robots en conditions réelles et passage à l'échelle

Coowa Technology, fondée en 2015 à Shanghai et dont le siège social est à Pékin, a présenté lors de la conférence AI+ Industry de Yizhuang en mai 2026 un bilan opérationnel chiffré: 55 millions de kilomètres réels parcourus, déploiement dans plus de 50 villes chinoises, et 10 millions de clips vidéo-sémantique-action alignés collectés. La gamme commercialisée comprend des robots d'assainissement urbain de 1 et 3 tonnes, le minibus autonome Coobus (déployé dans une dizaine de villes à l'échelle mondiale, dont prochainement Yizhuang), le robot de gestion immobilière Wall-E R0, et des robots-chiens quadrupèdes pour la livraison du dernier kilomètre, capables d'assurer des livraisons en moins de 30 minutes dans un rayon de 3 km sans modification des ascenseurs ni de l'infrastructure existante. Li Kehong, COO et co-fondateur, a indiqué une rentabilité annuelle de "plusieurs centaines de millions de yuans". L'argument central de la présentation porte sur la donnée comme avantage concurrentiel structurel: dans l'IA incarnée (embodied AI), le goulot d'étranglement n'est pas algorithmique mais datalogique. Coowa y répond avec une stratégie où les revenus d'exploitation financent directement l'itération du modèle CooWAIM (World-Action Interactive Model), une architecture duale combinant inférence temps réel en bordure de réseau pour la sécurité immédiate et planification sémantique longue portée pour la navigation globale. L'approche "Drive+Work", qui fusionne mobilité et manipulation dans un espace d'action indissociable, s'écarte du paradigme modulaire dominant dans la robotique de service. Les chiffres d'exploitation donnent une mesure concrète: aux heures de pointe, les robots traitent en temps réel plus de 100 caractéristiques dynamiques par intersection (piétons, véhicules non motorisés); un gain de 20% sur le temps de traversée équivaut selon Coowa à une hausse de 20% de la marge brute, argument directement actionnable pour un décideur B2B ou un intégrateur. Fondée sur la base académique de l'Université Jiaotong de Shanghai, Coowa opère depuis dix ans dans les environnements urbains ouverts chinois, accumulant une antériorité opérationnelle que peu de concurrents peuvent revendiquer à cette échelle commerciale. Waymo, issu du laboratoire Google X après plus d'une décennie de développement, et Tesla, qui s'appuie sur sa flotte de plusieurs millions de véhicules pour constituer ses données d'entraînement, progressent en robotaxi sur un périmètre distinct; les acteurs de la robotique humanoïde comme Figure, Agility Robotics ou 1X Technologies demeurent majoritairement en phase de pilote industriel. Coowa anticipe l'ouverture réglementaire de marchés étrangers en positionnant en priorité ses produits dans les pays de l'initiative "Ceinture et Route". Les prochaines étapes concernent la montée en puissance de la livraison instantanée à court terme et, à horizon plus long, l'entrée dans les environnements domestiques fermés, segment le plus complexe techniquement mais potentiellement le plus générateur de données d'entraînement inédites.

Chine/AsieActu
1 source
CEER : contrôle unifié de l'effecteur final souple et de la base pour la loco-manipulation hiérarchique des humanoïdes
31arXiv cs.RO 

CEER : contrôle unifié de l'effecteur final souple et de la base pour la loco-manipulation hiérarchique des humanoïdes

CEER (Compliant End-Effector and Root Control) est une abstraction de contrôle pour robots humanoïdes présentée sur arXiv en mai 2026 (arXiv:2605.19981). L'approche résout un problème d'interfaçage central: connecter des planificateurs hétérogènes (téleopération, modèles de langage, VLA) à un contrôleur corps entier sans réentraînement à chaque nouvelle tâche. La solution repose sur deux types de commandes unifiées: les poses cibles de l'effecteur terminal (end-effector) et les commandes de déplacement de la racine (root, soit le torse de l'humanoïde). Un framework enseignant-étudiant distille un contrôleur générique en une politique bas niveau consommant uniquement ces commandes EE-root. Les résultats expérimentaux, conduits en simulation et sur matériel réel, affichent une précision de suivi à 3,3 cm, une réduction substantielle du jerk mécanique par rapport aux baselines, et un taux de succès jusqu'à 70% sur des tâches de loco-manipulation d'objet unique dans un environnement à l'échelle d'une pièce. La manipulation au contact riche (contact-rich manipulation) reste le principal goulot d'étranglement des humanoïdes: saisir des objets en positions variées, pousser des pièces dans des logements, interagir avec des surfaces non structurées. CEER apporte une réponse architecturale plutôt qu'algorithmique: une couche de contrôle compliant (souple au contact, à l'inverse du contrôle rigide en position) que n'importe quel planificateur peut piloter en plug-and-play. Pour un intégrateur industriel ou un OEM, l'argument est concret: la politique bas niveau ne nécessite pas de réentraînement à chaque nouvelle application. C'est précisément la modularité qui manque aux approches bout-en-bout dominantes. La compliance réduit également les risques de dommages en cas de contact imprévu, prérequis pour tout déploiement en environnement humain. La manipulation reste le défi non résolu des humanoïdes commerciaux. Figure Robotics, Tesla (Optimus), Agility Robotics (Digit) et 1X Technologies avancent avec des pipelines souvent propriétaires, dominés par l'imitation learning et la téleopération. Physical Intelligence (Pi-0) et NVIDIA (GR00T N2) misent sur les VLA pour généraliser la manipulation depuis des données multimodales. CEER se positionne comme une couche orthogonale: non pas un nouveau planificateur, mais un socle de contrôle interopérable avec les approches existantes. La validation sur hardware distingue ce travail des publications purement simulées, même si les 70% de succès sur tâche unique en simulation demeurent une métrique circonscrite. Les prochaines étapes naturelles incluent l'intégration avec des planificateurs LLM ou VLA et la validation sur des tâches bi-manuelles et à horizon long.

IA physiquePaper
1 source
Les robots ont-ils vraiment besoin de mains anthropomorphiques ? Comparaison entre mains humaines et robotiques
32arXiv cs.RO 

Les robots ont-ils vraiment besoin de mains anthropomorphiques ? Comparaison entre mains humaines et robotiques

Une revue systématique publiée sur arXiv (2508.05415) pose une question directe : les robots ont-ils vraiment besoin de mains anthropomorphes ? Après analyse de 125 articles scientifiques couvrant 2019 à 2025, les auteurs concluent que les mains à cinq doigts, souvent présentées comme l'objectif ultime de la manipulation robotique, ne sont pas nécessaires pour la majorité des tâches. En comparant les propriétés biomécaniques de la main humaine (degrés de liberté, capteurs cutanés, contrôle moteur) avec les mains robotiques commerciales disponibles aujourd'hui, ils montrent que la complexité mécanique ne se traduit pas systématiquement par une meilleure dextérité pour la manipulation en main (in-hand manipulation). Des mécanismes à deux ou trois doigts se révèlent souvent aussi efficaces pour des applications industrielles ciblées. Pour les intégrateurs et les décideurs industriels, ce résultat remet en cause une hypothèse répandue : reproduire la morphologie humaine ne garantit pas des performances humaines. La revue établit qu'une main à cinq doigts augmente l'étendue des tâches réalisables, mais apporte peu d'avantage pour la manipulation fine d'objets déjà saisis. Plus significatif encore, l'intégration de capteurs et les stratégies de manipulation intelligentes restent sous-exploitées dans la littérature, car la recherche se concentre sur la réplication du nombre de doigts et des DOF plutôt que sur la robustesse mécanique et la compliance. Les auteurs soulignent que des mains plus souples et robustes permettraient un meilleur apprentissage par contact environnemental et une intégration plus dense de capteurs, deux leviers actuellement sacrifiés au profit de l'esthétique biomimétique. Cette remise en question survient dans un contexte de course au design anthropomorphe, portée par les humanoïdes de Figure (Figure 03), Tesla (Optimus Gen 3), 1X Technologies et Agility Robotics, dont les mains à cinq doigts sont systématiquement mises en avant dans les communications marketing. La question n'est pourtant pas nouvelle : les grippers industriels bi-digitaux de Robotiq, OnRobot et Schunk dominent les lignes d'assemblage depuis des années. L'accumulation de preuves empiriques sur 125 publications donne à cet argument une base scientifique que les annonces de lancement ne pouvaient pas offrir. Les auteurs plaident pour des critères d'évaluation standardisés, un manque criant alors que chaque laboratoire définit ses propres benchmarks, condition nécessaire pour que le secteur sorte du cycle annonce/démo et entre dans une phase d'industrialisation mesurable.

UELes conclusions valident empiriquement l'approche des fabricants de grippers industriels européens comme Schunk (DE) et OnRobot (DK), dont les solutions bi/tri-digitales dominent les lignes d'assemblage face à la tendance anthropomorphe des humanoïdes américains.

RecherchePaper
1 source
Clé-Gram : des connaissances mondiales extensibles pour la manipulation par IA incarnée
33arXiv cs.RO 

Clé-Gram : des connaissances mondiales extensibles pour la manipulation par IA incarnée

Key-Gram (arXiv:2605.18556, mai 2026) est un preprint qui propose un cadre de mémoire conditionnelle séparant explicitement la connaissance linguistique du raisonnement visuel dans les politiques de manipulation robotique. Là où les architectures VLA (Vision-Language-Action) actuelles fusionnent langage et vision dans un backbone partagé, Key-Gram décompose une instruction en "key-grams" (unités sémantiques propres à la tâche), récupère des priors linguistiques via un lookup déterministe O(1) dans une table externe, puis injecte ces entrées dans des couches cachées sélectionnées via gating contextuel et fusion convolutive légère. Appliqué aux modèles π₀ et π₀.₅ de Physical Intelligence, le système enregistre des gains relatifs de 29,5 %/9,9 % sur le benchmark de simulation RoboTwin2.0, de 35,8 %/4,5 % sur LIBERO-Plus en transfert sans fine-tuning sur le domaine cible, et de 15,4 %/8,1 % sur des tâches longues en manipulation bimanuelle réelle. Ces résultats quantifient un problème structurel rarement isolé dans la littérature VLA : la compétition de modalités dans le backbone partagé, où raisonnement visuel et compréhension linguistique se disputent la capacité de calcul. Le gain de 35,8 % sur LIBERO-Plus sans réentraînement cible est la donnée la plus exploitable pour les intégrateurs industriels : il suggère qu'une mémoire externe améliore la généralisation entre tâches sans fine-tuning complet, réduisant directement le coût de déploiement sur des lignes de production variées. La table de mémoire, extensible sans mise à jour du backbone et chargeable en mémoire hôte à l'inférence, permet d'ajouter de nouveaux vocabulaires de tâches sans redéploiement de l'ensemble du modèle. Physical Intelligence (Pi), fondée en 2023 par d'anciens chercheurs de Google et de l'UC Berkeley, a développé π₀ en 2024 comme VLA généraliste pour la manipulation bimanuelle. Key-Gram s'appuie sur ce backbone sans le modifier, ce qui constitue son atout principal : la séparation de la composante linguistique est architecturalement propre et non-destructive. Sur ce créneau de la généralisation compositionnelle, Google DeepMind, Figure AI (architecture Helix) et 1X Technologies proposent des approches concurrentes à base de transformers multi-modaux. La principale limite du papier est l'absence de validation sur des backbones autres que π, ce qui laisse ouverte la question de la généricité de la méthode.

💬 35% de gain sur LIBERO-Plus sans réentraînement, c'est le chiffre à retenir. L'idée de sortir le vocabulaire de tâche dans une table externe (plutôt que de tout enfouir dans le backbone partagé), c'est architecturalement propre et ça permet d'ajouter de nouvelles tâches sans redéployer l'ensemble du modèle. Reste que pour l'instant ça n'a été validé que sur π₀, donc faut voir si ça tient sur d'autres architectures avant de crier victoire.

IA physiqueOpinion
1 source
FlashSAC : un apprentissage par renforcement hors-politique rapide et stable pour le contrôle robotique haute dimension
34arXiv cs.RO 

FlashSAC : un apprentissage par renforcement hors-politique rapide et stable pour le contrôle robotique haute dimension

Des chercheurs ont publié FlashSAC, un algorithme d'apprentissage par renforcement (RL) hors-politique conçu pour le contrôle robotique en haute dimension. Basé sur Soft Actor-Critic (SAC), FlashSAC réduit drastiquement le nombre de mises à jour de gradient tout en compensant par des modèles plus grands et un débit de données plus élevé. Pour stabiliser l'entraînement à cette échelle, l'algorithme impose des bornes explicites sur les normes de poids, de features et de gradients, limitant ainsi l'accumulation d'erreurs du critique par bootstrapping. Testé sur plus de 60 tâches dans 10 simulateurs différents, il surpasse systématiquement PPO et les baselines hors-politique standards, aussi bien en performance finale qu'en efficacité d'entraînement. Le gain le plus marqué est observé sur des tâches à haute dimensionnalité comme la manipulation dextre. En locomotion humanoïde avec transfert sim-to-real, FlashSAC réduit le temps d'entraînement de plusieurs heures à quelques minutes. Ce résultat est significatif parce qu'il attaque directement le principal frein des méthodes hors-politique en robotique : leur instabilité sur des espaces d'états et d'actions complexes. Les méthodes sur-politique comme PPO dominent aujourd'hui les benchmarks robotiques précisément parce qu'elles sont stables, malgré leur inefficacité en données. FlashSAC propose un chemin pour inverser ce compromis sans sacrifier la convergence, ce qui est particulièrement pertinent pour la manipulation dextre et la locomotion humanoïde, où l'espace d'action peut dépasser plusieurs dizaines de degrés de liberté. La réduction du temps d'entraînement sim-to-real de quelques heures à quelques minutes change l'équation économique des cycles de développement pour les équipes robotique. L'algorithme s'inscrit dans une tendance plus large d'application des lois de scaling, jusqu'ici observées en apprentissage supervisé, aux algorithmes RL, une hypothèse activement explorée par des laboratoires comme Google DeepMind, Meta AI et des startups humanoïdes telles que Figure, Apptronik ou 1X Technologies. Ces acteurs cherchent tous à accélérer le sim-to-real pour leurs plateformes humanoïdes, où le coût d'entraînement en conditions réelles reste prohibitif. FlashSAC n'est pas encore associé à un déploiement industriel annoncé, mais la démonstration de locomotion humanoïde en simulation suggère une applicabilité directe aux robots à deux jambes actuellement en phase de pilote chez plusieurs intégrateurs. La prochaine étape naturelle serait une validation sur hardware réel à grande échelle.

RecherchePaper
1 source
Ai2 publie un modèle de robotique ouvert conçu pour l'automatisation réelle par IA
35Robotics & Automation News 

Ai2 publie un modèle de robotique ouvert conçu pour l'automatisation réelle par IA

L'Allen Institute for AI (Ai2), centre de recherche indépendant basé à Seattle et fondé par Paul Allen en 2014, a publié cette semaine MolmoAct 2, un modèle de fondation robotique open source conçu pour améliorer l'exécution de tâches physiques en environnement réel. Contrairement aux approches précédentes centrées sur des scénarios de laboratoire hautement contrôlés, MolmoAct 2 cible la généralisation à des environnements non structurés, en s'appuyant sur l'architecture multimodale de Molmo, le modèle vision-langage qu'Ai2 avait rendu public en 2024. Le modèle est diffusé sous licence ouverte, avec poids et code disponibles publiquement. L'enjeu pour l'industrie est direct : les modèles de fondation robotiques à diffusion ouverte réduisent la barrière d'entrée pour les intégrateurs et les équipes R&D qui ne disposent pas des ressources pour entraîner des politiques de zéro. MolmoAct 2 s'inscrit dans la lignée des travaux sur les VLA (Vision-Language-Action models), une architecture qui couple perception visuelle, compréhension du langage naturel et génération de commandes motrices. L'ouverture du modèle permet des audits indépendants et une adaptation à des morphologies robotiques variées, ce qui est difficile avec des modèles propriétaires comme GR00T N2 de NVIDIA ou π0 de Physical Intelligence. Ai2 est surtout connu pour ses contributions au NLP (AllenNLP, Semantic Scholar) avant de pivoter vers la robotique incarnée. MolmoAct 2 le place directement en concurrence avec les initiatives open source existantes comme OpenVLA (Berkeley) et les modèles RT-X de Google DeepMind, dans un secteur où Physical Intelligence, Figure AI et 1X Technologies se disputent le leadership sur les déploiements industriels. L'article source étant partiellement tronqué, les métriques de performance (taux de succès, benchmarks sur manipulation) et les éventuels partenariats de déploiement n'ont pas pu être vérifiés.

UELes équipes R&D et intégrateurs européens peuvent accéder librement aux poids et au code de MolmoAct 2, réduisant la dépendance aux modèles propriétaires américains pour le développement de politiques robotiques.

💬 C'est le genre de modèle qu'on attend depuis que tout le monde se bat pour faire des démos en labo. L'ouverture des poids, c'est pas juste un geste de générosité, c'est ce qui permet aux équipes R&D d'adapter le truc à leur propre morphologie robotique sans repartir de zéro. Reste à voir si ça tient face à des environnements vraiment non structurés, parce que "généralisation" c'est un mot qu'on lit souvent dans les papiers, moins souvent dans les entrepôts.

IA physiqueOpinion
1 source
Les robots humanoïdes plient, ramassent et manipulent des objets fragiles avec plus de précision grâce à une nouvelle technologie
36Interesting Engineering 

Les robots humanoïdes plient, ramassent et manipulent des objets fragiles avec plus de précision grâce à une nouvelle technologie

Des chercheurs de Carnegie Mellon University (CMU) et du Bosch Center for AI ont publié un nouveau système d'IA baptisé HTD (Humanoid Transformer with Touch Dreaming), conçu pour améliorer la manipulation d'objets par des robots humanoïdes dans des environnements à contact complexe. Le framework combine l'apprentissage par imitation avec un module de prédiction tactile, permettant au robot d'anticiper l'évolution des forces de contact et du retour haptique avant et pendant la saisie. Testé sur cinq tâches réelles, insertion d'objet en T, rangement de livres, pliage de serviette, ramassage de litière et service du thé, HTD affiche une amélioration relative de 90,9 % du taux de réussite moyen par rapport à la baseline ACT, un modèle d'imitation de référence dans le domaine. Le système repose sur une architecture dissociée : un contrôleur bas-corps entraîné par renforcement en simulation via une méthode teacher-student stabilise l'orientation du torse, la vitesse et l'équilibre, tandis que la cinématique inverse et le retargeting de main gèrent les mouvements du haut du corps et la dextérité digitale. Les représentations tactiles ne sont pas reconstruites brutes mais encodées dans un espace latent compact via un réseau cible mis à jour lentement, ce qui filtre le bruit sensoriel et améliore la stabilité de la manipulation. Ce résultat est notable parce qu'il adresse directement l'un des verrous persistants de la robotique humanoïde : la cohabitation entre locomotion et manipulation fine sans dégradation mutuelle. La séparation architecturale bas/haut corps n'est pas nouvelle en soi, mais son intégration avec un modèle prédictif tactile dans une politique unifiée évite le recours à un pré-entraînement tactile séparé ou à un world model externe, ce qui simplifie le pipeline de déploiement. Les études d'ablation sont particulièrement instructives : incorporer le toucher comme entrée brute supplémentaire ne suffit pas, la prédiction dans l'espace latent apporte 30 % de gain relatif supplémentaire sur le raw tactile. Pour les intégrateurs qui envisagent des humanoïdes dans des cellules de manutention délicate, c'est un signal clair que la qualité de la représentation sensorielle prime sur la quantité de capteurs. HTD s'inscrit dans une vague de travaux cherchant à combler le sim-to-real gap pour la manipulation contact-riche. Le controller bas-corps a été entraîné sur le dataset AMASS, qui fournit des mouvements humains réalistes pour perturber le torse pendant l'apprentissage, une approche de robustification déjà utilisée dans des projets comme Isaac Lab de NVIDIA ou les travaux de Stanford sur whole-body control. Dans le paysage concurrentiel, Figure (Figure 03), Physical Intelligence (Pi-0), Boston Dynamics et 1X Technologies travaillent tous sur des architectures VLA (Vision-Language-Action) pour la manipulation généraliste, mais peu publient des résultats quantitatifs sur des tâches aussi précises que l'insertion de connecteurs ou la manipulation de textiles. CMU n'a pas encore annoncé de partenariat industriel ni de calendrier de transfert vers un produit commercial, mais le Bosch Center for AI comme co-auteur suggère un intérêt applicatif concret dans l'automatisation industrielle à manipulation variable.

UELe Bosch Center for AI (Allemagne) co-auteur du papier signale un intérêt applicatif concret pour l'automatisation industrielle européenne à manipulation variable, sans calendrier de transfert industriel annoncé.

RechercheOpinion
1 source
Surmonter l'aveuglement aux dynamiques : correction de vitesse et de trajectoire sans entraînement pour les modèles VLA
37arXiv cs.RO 

Surmonter l'aveuglement aux dynamiques : correction de vitesse et de trajectoire sans entraînement pour les modèles VLA

Des chercheurs ont publié mi-mai 2026 sur arXiv (référence 2605.11459) une méthode baptisée "Pace-and-Path Correction" pour corriger un angle mort structurel des modèles VLA (Vision-Language-Action). Ces modèles, socle technique des bras manipulateurs de nouvelle génération, sont entraînés sur des observations à image unique (single-frame), ce qui les rend incapables de percevoir les dynamiques temporelles lors de l'exécution d'une séquence planifiée. En pratique, dès qu'un objet bouge pendant que le robot exécute un "action chunk", les performances chutent sévèrement, même après fine-tuning sur des datasets dynamiques. L'opérateur proposé s'applique à l'inférence sans ré-entraînement, comme une couche wrapper autour de tout VLA à action chunking, et se décompose en deux canaux orthogonaux issus d'une minimisation de coût quadratique unique : un canal "pace" compressant l'exécution le long de la trajectoire prévue, et un canal "path" appliquant un décalage spatial orthogonal pour absorber les perturbations dynamiques dans la fenêtre temporelle du chunk. Évalué sur MoveBench, un benchmark conçu pour isoler le mouvement comme seule variable contrôlée, la méthode améliore le taux de succès de 28,8 points de pourcentage en environnement purement dynamique et de 25,9 points en contexte mixte statique-dynamique, surpassant les VLAs de base ainsi que les approches dynamiques-adaptatives existantes. L'enjeu est directement opérationnel : les VLAs actuels comme pi-0 de Physical Intelligence, OpenVLA ou GR00T N2 de Nvidia peinent dès qu'un convoyeur avance ou qu'un opérateur interfère avec la scène, soit le cas standard en environnement industriel réel. Corriger ce "dynamics gap" exigeait jusqu'ici un ré-entraînement coûteux, souvent rédhibitoire pour un intégrateur sans infrastructure ML dédiée. Le caractère training-free de Pace-and-Path Correction signifie qu'elle peut s'intégrer sur un modèle déjà déployé sans modifier les poids ni la pipeline d'apprentissage, abaissant drastiquement la barrière d'adoption pour des déploiements en conditions réelles. La "dynamics-blindness" des VLAs est une critique récurrente depuis l'émergence de pi-0 et OpenVLA en 2024-2025, la majorité des démonstrations publiques ayant lieu sur scènes statiques et laissant ouvert le demo-to-reality gap dès que les conditions industrielles se compliquent. Ce travail s'inscrit dans la course à la manipulation robuste que se livrent Nvidia, Figure (Figure 03), Boston Dynamics et 1X Technologies. Aucun acteur français n'est directement cité, mais les conclusions intéressent des intégrateurs comme Exotec et des équipes de recherche comme le LAAS-CNRS travaillant sur la manipulation en environnement non-structuré. La prochaine étape logique est une validation sur hardware réel - le papier reste à ce stade un benchmark simulé - et une intégration dans des stacks open-source comme LeRobot de Hugging Face.

UELes équipes LAAS-CNRS travaillant sur la manipulation non-structurée et des intégrateurs comme Exotec pourraient adopter cette correction sans ré-entraînement pour améliorer la robustesse de déploiements VLA en environnement industriel dynamique, sans infrastructure ML dédiée.

💬 Le dynamics gap des VLAs, on le connaissait depuis l'émergence de pi-0 : dès qu'un objet bouge pendant l'exécution d'un chunk, c'est la déroute. Ce qui change ici, c'est que la correction s'applique à l'inférence sans toucher aux poids, comme une couche qu'on pose par-dessus n'importe quel modèle déjà déployé. +28 points sur MoveBench, training-free : si ça tient sur hardware réel, les intégrateurs n'ont plus d'excuse pour rester sur des scènes statiques.

IA physiqueOpinion
1 source
Théorie non asymptotique de la dynamique d'erreur dépendante du gain en clonage comportemental
38arXiv cs.RO 

Théorie non asymptotique de la dynamique d'erreur dépendante du gain en clonage comportemental

Une équipe de chercheurs a publié sur arXiv (référence 2604.14484) une analyse théorique des politiques de clonage comportemental (behavior cloning, BC) sur robots à commande en position. L'étude démontre que les erreurs d'action, modélisées comme variables sous-gaussiennes indépendantes, se propagent via la dynamique en boucle fermée d'un contrôleur PD pour produire des erreurs de position gouvernées par une matrice proxy X∞(K). La probabilité d'échec sur l'horizon T se factorise en un indice d'amplification Γ_T(K) dépendant des gains et en la perte de validation augmentée d'un terme de généralisation. Pour le système PD scalaire du second ordre, la variance stationnaire admet la forme fermée X∞(α,β) = σ²α/(2β), strictement monotone en rigidité (α) et en amortissement (β) sur l'ensemble de l'orthant stable. Quatre régimes canoniques sont classés : le mode conforme-suramorti (CO) minimise les erreurs ; le mode rigide-sous-amorti (SU) les maximise ; les deux cas intermédiaires restent dépendants de la dynamique propre du système. L'implication opérationnelle est directe : la perte d'entraînement ou de validation ne prédit pas la fiabilité en boucle fermée. Un modèle bien calibré peut échouer en déploiement si les gains du contrôleur PD amplifient les erreurs résiduelles de la politique apprise. Ce cadre analytique fournit aux intégrateurs robotiques un outil de dimensionnement concret : choisir des gains conformes-suramortis réduit statistiquement le risque d'échec de tâche, indépendamment de la qualité des démonstrations. Ce résultat remet en question une hypothèse largement répandue dans la communauté du robot learning, selon laquelle améliorer les données ou l'architecture du modèle suffit à améliorer les performances en conditions réelles. Ce travail prolonge les recherches de Bronars et al. sur l'atténuation d'erreurs dépendante des gains en offrant une extension non-asymptotique à horizon fini, qui manquait dans la littérature. Si les propriétés asymptotiques de stabilité des contrôleurs PD sont bien établies, leur traduction en bornes probabilistes finies sur l'échec de tâche restait ouverte. La contribution est directement applicable aux architectures BC modernes, notamment les VLA (Vision-Language-Action models) déployés sur des manipulateurs et des humanoïdes chez des acteurs comme 1X Technologies, Figure AI, Boston Dynamics ou Sanctuary AI. La discrétisation ZOH (Zero-Order Hold) est traitée explicitement, ancrant les résultats dans les implémentations numériques réelles plutôt que dans la seule analyse en temps continu.

UELes laboratoires et équipes R&D européens (INRIA, CEA-List, start-ups BC/VLA) déployant des politiques apprises sur manipulateurs ou humanoïdes peuvent appliquer directement ce cadre analytique pour calibrer leurs gains PD et réduire statistiquement les échecs en déploiement réel.

RecherchePaper
1 source
Vidéo : les robots humanoïdes de Figure rangent une pièce, accrochent des vêtements et font le lit seuls
39Interesting Engineering 

Vidéo : les robots humanoïdes de Figure rangent une pièce, accrochent des vêtements et font le lit seuls

Figure AI a publié en mai 2026 une vidéo montrant deux robots humanoïdes Helix-02 réinitialiser une chambre à coucher de façon autonome en moins de deux minutes. Les robots ouvrent une porte, accrochent un manteau, ferment un ordinateur portable, rangent un casque, repositionnent des meubles, gèrent une poubelle, et confectionnent ensemble le lit en lissant la couette. L'ensemble de la séquence repose sur un unique modèle Vision-Language-Action (VLA) partagé, le système Helix développé en interne. Aucun planificateur central, aucun contrôleur partagé, aucune communication directe entre les deux unités : chaque robot n'utilise que ses caméras embarquées et sa politique apprise pour inférer les intentions de son partenaire via le mouvement observé. En parallèle, Figure a annoncé que son usine BotQ en Californie produit désormais un robot Figure 03 par heure, contre un par jour quatre mois plus tôt, une cadence de production qui change la discussion sur la scalabilité industrielle des humanoïdes. Ce que cette démonstration prouve, avec les réserves habituelles sur les vidéos sélectionnées, c'est que la coordination multi-robot sans communication explicite devient opérationnelle dans des environnements non structurés. Le défi de la couette est illustratif : un objet déformable sans géométrie stable ni point de préhension prédéfini, tenu simultanément par deux agents qui doivent anticiper les mouvements l'un de l'autre en temps réel. C'est précisément le type de tâche que les approches par script ou par planification centralisée échouent à généraliser. L'intégration du whole-body control, locomotion dynamique sur un seul appui, utilisation de pédales, manipulation d'objets articulés, dans le même modèle VLA suggère que le gap sim-to-real se réduit concrètement : Figure affirme que les comportements entraînés en simulation par reinforcement learning se transfèrent sans calibration supplémentaire sur le robot physique, une affirmation qui mérite confirmation sur des volumes de déploiement plus larges. Figure AI, fondée en 2022 et ayant levé plus d'un milliard de dollars auprès d'investisseurs dont OpenAI, Microsoft et NVIDIA, positionne Helix comme une alternative aux approches modulaires de Boston Dynamics (Atlas), Tesla (Optimus Gen 3) et Physical Intelligence (Pi-0). Agility Robotics (Digit) et Apptronik (Apollo) ciblent davantage la logistique en entrepôt, tandis que Figure et 1X Technologies visent explicitement le domicile et les environnements non structurés. La mise à jour récente de Helix ajoute des caméras stéréo RGB pour une compréhension 3D temps réel via le modèle S0, combinant perception visuelle et proprioception là où les versions précédentes ne s'appuyaient que sur cette dernière. Aucun déploiement commercial en milieu résidentiel n'a encore été annoncé, mais le rythme de production de BotQ et les jalons techniques publiés positionnent un pilote industriel en environnement semi-contrôlé comme horizon réaliste à 12-18 mois.

UELa montée en cadence industrielle de Figure AI (1 robot/heure chez BotQ) et la coordination multi-robot sans communication explicite fixent un étalon technique que les acteurs européens de l'humanoïde comme Enchanted Tools devront intégrer dans leurs feuilles de route concurrentielles.

HumanoïdesOpinion
1 source
Les événements à ne pas rater pour comprendre la montée en puissance de la robotique en 2026
40FrenchWeb 

Les événements à ne pas rater pour comprendre la montée en puissance de la robotique en 2026

En 2026, la robotique franchit un cap décisif après des années de promesses non tenues. L'accélération est portée par plusieurs dynamiques convergentes : une pénurie structurelle de main-d'œuvre dans les pays industrialisés, des chaînes logistiques sous pression depuis la pandémie, et une maturité technologique atteinte notamment grâce aux avancées en vision par ordinateur et en apprentissage par renforcement. Des acteurs comme Figure AI, Agility Robotics ou 1X Technologies multiplient les annonces de déploiements industriels à grande échelle, tandis que Boston Dynamics poursuit sa commercialisation avec Spot et Atlas. L'enjeu dépasse désormais le simple gadget d'exposition. Les robots humanoïdes et collaboratifs entrent en production réelle dans des entrepôts Amazon, des usines BMW ou des chaînes d'assemblage Tesla, remplaçant des tâches répétitives à fort risque d'accident. Pour les PME industrielles, l'abaissement du coût d'entrée, certains bras robotisés passent sous les 20 000 euros, ouvre un marché jusqu'ici réservé aux grands groupes. Les syndicats et régulateurs commencent également à s'organiser face à l'impact sur l'emploi. Ce basculement s'explique par une décennie d'investissements massifs : le marché mondial de la robotique devrait dépasser 260 milliards de dollars d'ici 2030 selon la fédération internationale IFR. La Chine, premier marché mondial, y installe chaque année plus de robots que l'ensemble de l'Europe. Les conférences sectorielles de 2026, AUTOMATICA à Munich, IREX à Tokyo, ProMat à Chicago, s'annoncent comme des rendez-vous charnières pour observer quels standards techniques et quels modèles économiques s'imposeront dans cette nouvelle phase industrielle.

UEL'Europe est directement impliquée dans cette transition industrielle, avec des déploiements chez BMW, la conférence AUTOMATICA à Munich comme rendez-vous sectoriel clé en 2026, et des syndicats et régulateurs européens qui commencent à s'organiser face à l'impact sur l'emploi.

💬 Les humanoïdes chez Amazon et Tesla, c'est le show. Ce qui va vraiment tout changer, c'est qu'un bras robotisé passe sous les 20 000 euros, parce que là, les PME industrielles entrent enfin dans la partie. Reste à voir si les intégrateurs suivent.

HumanoïdesOpinion
1 source
1X lance la production de ses humanoïdes NEO dans son usine californienne
41Robotics Business Review 

1X lance la production de ses humanoïdes NEO dans son usine californienne

1X Technologies AS a lancé cette semaine la production en série de son robot humanoïde NEO dans une nouvelle usine de 5 388 m² (58 000 pieds carrés) à Hayward, en Californie. Conçu pour évoluer dans des espaces domestiques à un niveau sonore inférieur à celui d'un réfrigérateur moderne, NEO est animé par le processeur NVIDIA Jetson Thor via une architecture baptisée NEO Cortex. La chaîne de production s'articule autour de plusieurs zones spécialisées : enroulement automatisé de bobines de cuivre pour les moteurs personnalisés, assemblage des actionneurs à tendons et des membres amortis par une structure en treillis 3D, et un laboratoire de fiabilité chargé de faire passer chaque composant sous plus de 20 millions de cycles de contrainte avant expédition. Les robots sont livrés en combinaison en nylon lavable en machine, disponible en trois coloris. Les premières unités NEO sont déjà déployées sur le plancher de l'usine elle-même, assurant la logistique interne et la gestion des pièces, tout en collectant des données réelles pour affiner les modèles d'inférence embarqués. Les livraisons grand public sont annoncées pour 2026, après que le quota de production de la première année a été vendu en cinq jours lors du lancement commercial d'octobre 2025. Ce démarrage de production constitue un signal concret dans un secteur encore dominé par les démonstrations contrôlées : 1X passe du prototype au flux industriel, avec une intégration verticale complète gérée par un système propriétaire baptisé "factory OS". Cette approche, fabrication des moteurs, assemblage mécanique et tests de fiabilité sous un même toit, tranche avec le modèle standard qui sous-traite les composants à des fournisseurs internationaux. Pour les décideurs B2B et les intégrateurs, l'enjeu n'est pas seulement technique : c'est la démonstration qu'un acteur non-asiatique peut atteindre un volume de production crédible sur un humanoïde à vocation résidentielle. Le partenariat avec NVIDIA, via la plateforme Isaac pour l'entraînement en simulation et Jetson Thor pour l'inférence embarquée, suggère une architecture sim-to-real dont la robustesse sera éprouvée par les données terrain collectées par les unités en service interne. 1X Technologies, fondée par Bernt Børnich et dont le siège est à Palo Alto, a levé des fonds significatifs ces dernières années avec un positionnement orienté vers le marché résidentiel, là où la plupart des concurrents ciblent l'industrie lourde. Face à Figure AI et son robot 02 déployé chez BMW, à Tesla Optimus Gen 3 encore en phase de test interne, et à Boston Dynamics qui consolide son Atlas sur des applications industrielles, 1X occupe une niche distincte : l'assistance à domicile. L'usine de Hayward sert pour l'instant principalement aux programmes de R&D et de test en conditions réelles, et les chiffres de production effective restent non communiqués. La prochaine étape sera de valider si le comportement en environnement domestique non contrôlé tient les promesses affichées lors des démonstrations en laboratoire.

UE1X Technologies AS est une entreprise norvégienne (EEE) qui entre en production série avec NEO, confirmant qu'un acteur de l'écosystème européen peut atteindre un volume industriel crédible face aux concurrents américains et asiatiques dans la course aux humanoïdes résidentiels.

HumanoïdesOpinion
1 source
Sécurité de l'IA incarnée : panorama des risques, attaques et défenses
42arXiv cs.RO 

Sécurité de l'IA incarnée : panorama des risques, attaques et défenses

Une équipe de chercheurs a publié fin avril 2026 sur arXiv (identifiant 2605.02900) une revue systématique de la sécurité dans l'IA incarnée (embodied AI), couvrant plus de 400 articles académiques. Le périmètre s'étend à l'ensemble du pipeline d'un agent physique : perception sensorielle, cognition, planification, exécution d'actions et interactions humain-robot. La taxonomie proposée organise les menaces en quatre grandes familles d'attaques (adversariales, backdoor, jailbreak, matérielles) et trois axes de défense (détection d'attaques, entraînement robuste, inférence sûre). Les domaines d'application ciblés incluent la conduite autonome, la robotique industrielle et d'assistance, ainsi que les applications médicales, tous caractérisés par des conséquences physiques directes en cas de défaillance. Ce travail pointe trois angles morts particulièrement préoccupants pour les intégrateurs et les équipes produit. D'abord, la fragilité de la fusion multimodale : combiner vision, LiDAR et langage amplifie les surfaces d'attaque plutôt que de les réduire, contrairement à l'hypothèse dominante de redondance. Ensuite, l'instabilité de la planification sous attaque jailbreak : les modèles vision-langage-action (VLA) comme Pi-0 ou GR00T N2, de plus en plus déployés dans des systèmes humanoïdes, restent vulnérables à des injections de prompt qui court-circuitent les contraintes de sécurité définies au niveau applicatif. Enfin, la confiance dans les interactions en monde ouvert demeure non résolue dès que le scénario sort des conditions de laboratoire, ce qui est précisément le cas des déploiements industriels réels. Le contexte est celui d'une accélération brutale du déploiement d'agents physiques autonomes depuis 2024, portée par des acteurs comme Figure AI, Boston Dynamics, 1X Technologies, Apptronik et des labos publics (Stanford, CMU, ETH Zurich). L'absence d'un cadre de sécurité unifié est jusqu'ici restée dans l'angle mort de la course aux performances : les benchmarks sectoriels mesurent la dextérité et le sim-to-real transfer, rarement la robustesse face à un adversaire actif. Ce survey constitue un premier référentiel structuré ; il ne propose pas de solution clé en main mais identifie les briques manquantes, notamment les protocoles d'évaluation standardisés pour les attaques sur hardware embarqué et les mécanismes de contrôle d'intégrité des VLA en production.

UELes acteurs européens déployant des VLA (dont ETH Zurich, contributeur cité) et soumis à l'AI Act, qui classe les applications médicales et industrielles en systèmes à haut risque, devront intégrer les protocoles d'évaluation de robustesse adversariale identifiés comme manquants par ce survey.

RechercheOpinion
1 source
Sentinel-VLA : modèle VLA métacognitif à surveillance active pour le raisonnement dynamique et la récupération d'erreurs
43arXiv cs.RO 

Sentinel-VLA : modèle VLA métacognitif à surveillance active pour le raisonnement dynamique et la récupération d'erreurs

Une équipe de recherche publie sur arXiv (arXiv:2605.01191, mai 2026) Sentinel-VLA, un modèle de type vision-language-action (VLA) doté d'un module de surveillance active baptisé "sentinel". Contrairement aux VLA classiques qui exécutent des plans fixes, Sentinel-VLA déclenche un raisonnement approfondi uniquement lorsque c'est nécessaire : lors de la planification initiale d'une tâche, ou lorsque le module sentinel détecte une erreur d'exécution en temps réel. L'ensemble des données d'entraînement, couvrant 44 tâches et plus de 2,6 millions de transitions, a été généré et annoté automatiquement via un pipeline dédié. Le modèle intègre également l'algorithme SECL (Self-Evolving Continual Learning), qui lui permet d'identifier ses propres limites de compétence et de collecter automatiquement de nouvelles données pour les repousser, combiné à un adaptateur OC-Adapter (Orthogonal Continual Adapter) qui contraint les mises à jour de paramètres dans un espace orthogonal pour éviter l'oubli catastrophique. En conditions réelles (les détails des configurations expérimentales ne sont pas encore disponibles dans cette prépublication), les auteurs rapportent un gain de plus de 30 % de taux de succès par rapport à PI0, le modèle de Physical Intelligence actuellement considéré comme état de l'art. Le code, les poids et le pipeline de génération de données seront publiés en open source. Ces résultats, si confirmés par la communauté, adressent un blocage majeur dans le déploiement industriel des robots manipulateurs : l'incapacité à se corriger face à une perturbation imprévue. Les VLA existants, qu'il s'agisse de PI0, d'OpenVLA ou des dérivés de RT-2, produisent des plans d'action relativement rigides et échouent dès lors qu'une pièce est mal positionnée ou qu'un objet glisse. Le mécanisme "sentinel" propose une réponse architecturale à ce problème en dissociant l'exécution routinière (peu coûteuse en calcul) du raisonnement correctif (déclenché à la demande), ce qui est pertinent pour un déploiement sur du matériel embarqué à puissance de calcul limitée. L'approche SECL, qui combine auto-évaluation des capacités et apprentissage continu sans oubli, représente également une piste sérieuse pour les intégrateurs qui cherchent à étendre progressivement le répertoire de tâches d'un robot sans retraining complet. Il convient néanmoins de noter que le +30 % annoncé est issu d'expériences en laboratoire dont le protocole exact reste à préciser, et que les vidéos de démonstration n'ont pas encore été rendues publiques au moment de cette prépublication. Sentinel-VLA s'inscrit dans une vague de travaux cherchant à rendre les VLA robustes hors environnement contrôlé, une problématique que Physical Intelligence avait mise en lumière avec PI0 (lancé fin 2024) et que des acteurs comme Figure AI (Figure 03), Boston Dynamics ou 1X Technologies tentent également d'adresser côté hardware. Du côté recherche, les laboratoires de Carnegie Mellon, Stanford et Berkeley publient régulièrement des variantes de VLA avec des stratégies de correction différentes (chain-of-thought embarqué, boucles de feedback visuelles). La particularité de Sentinel-VLA est de traiter la correction non comme un post-processing, mais comme une composante native de l'architecture. L'open-source annoncé, code, poids et pipeline de données, pourrait accélérer l'adoption de cette approche dans la communauté académique et chez les constructeurs de robots à budget R&D contraint. Aucune date de release ni partenariat industriel n'est mentionné dans cette version préliminaire.

UELa publication open-source prévue (code, poids, pipeline de données) pourrait bénéficier aux laboratoires de robotique européens travaillant sur les VLA manipulateurs, mais aucun acteur français ou européen n'est directement impliqué dans cette prépublication.

💬 Ce qui m'intéresse ici, c'est pas le +30% (les configs restent floues, faut attendre les vidéos), c'est que la correction d'erreur est dans l'archi, pas greffée dessus après coup. Sur du matériel embarqué avec peu de calcul disponible, c'est le genre de truc qu'on attendait depuis un moment. Reste à voir si ça tient hors labo, mais l'open source annoncé va vite mettre ça à l'épreuve.

IA physiqueOpinion
1 source
Figure et 1X accélèrent la production de robots humanoïdes
44IEEE Spectrum Robotics 

Figure et 1X accélèrent la production de robots humanoïdes

Figure atteint désormais une cadence de production de 55 robots humanoïdes par semaine, selon une annonce publiée fin avril 2026. Ces unités sont, selon la startup américaine, destinées aux équipes internes de R&D, à la collecte de données, au développement de tâches domestiques de bout en bout et à des "cas d'usage commerciaux en développement", une formulation qui interroge sur la destination réelle de cette production alors que les déploiements commerciaux restent à maturité. En parallèle, 1X Technologies a officiellement ouvert la NEO Factory à Hayward, en Californie : une usine de 58 000 pieds carrés (environ 5 400 m²) employant plus de 200 personnes, avec une chaîne entièrement intégrée couvrant moteurs, batteries, transmissions, capteurs, structures et assemblage final. Les premières unités NEO sortent déjà des lignes de production, avec des livraisons grand public annoncées pour 2026. Sur le plan technique, Agility Robotics a publié des tests d'équilibre dynamique sur une seule jambe pour son robot Digit, et une équipe de recherche a présenté HTD (Humanoid Transformer with Touch Dreaming), un système de manipulation humanoïde combinant téleopération VR, apprentissage par renforcement pour le bas du corps et capteurs tactiles distribués. La montée en cadence simultanée de Figure et 1X marque un glissement du secteur humanoïde vers la production industrielle, mais chaque annonce appelle une lecture critique. Produire 55 unités par semaine sans contrats commerciaux confirmés suggère soit une stratégie de collecte de données à grande échelle, ressource clé pour l'entraînement des politiques VLA (Vision-Language-Action), soit une anticipation agressive de la demande avant une prochaine levée de fonds. L'intégration verticale revendiquée par 1X, inspirée du modèle Tesla, offre une flexibilité d'itération et réduit la dépendance aux fournisseurs, mais mobilise des capitaux considérables. Les travaux d'Agility sur l'équilibre dynamique illustrent par ailleurs que le gap sim-to-real reste un verrou technique central : la moindre divergence entre modèle simulé et robot réel peut provoquer une instabilité en conditions réelles, limitant directement la fiabilité en milieu industriel. Figure, fondée en 2022 par Brett Adcock, a levé plus de 750 millions de dollars avec BMW, Microsoft et Amazon comme partenaires, et opère un pilote chez BMW Manufacturing en Caroline du Sud depuis 2024, bien que les vidéos publiées restent en conditions contrôlées. 1X, société norvégienne soutenue par OpenAI et Tiger Global, se positionne sur le marché résidentiel face à Tesla Optimus (déployé progressivement dans les usines Tesla), aux robots Agility Digit (opérés chez Amazon) et aux fabricants chinois comme Unitree (G1, H1) qui exercent une pression tarifaire croissante. Aucun acteur européen, ni Wandercraft, ni Enchanted Tools, ni Pollen Robotics, n'annonce de production à ce volume pour l'instant. Les prochains trimestres détermineront si ces cadences correspondent à des commandes fermes ou à une stratégie de positionnement avant financement.

UELa montée en cadence de Figure et 1X exerce une pression concurrentielle sur les acteurs européens (Wandercraft, Enchanted Tools, Pollen Robotics), qui n'annoncent pas de volumes de production comparables à ce stade.

HumanoïdesActu
1 source
De la requête à l'actuation physique : modélisation holistique des menaces dans les systèmes robotiques pilotés par LLM
45arXiv cs.RO 

De la requête à l'actuation physique : modélisation holistique des menaces dans les systèmes robotiques pilotés par LLM

Une étude publiée sur arXiv (référence 2604.27267) propose la première modélisation unifiée des menaces de sécurité pour les systèmes robotiques autonomes pilotés par des grands modèles de langage (LLM). Les auteurs ont modélisé un robot autonome déployé en architecture edge-cloud sous la forme d'un Data Flow Diagram (DFD) hiérarchique, puis appliqué la méthode STRIDE-per-interaction sur six points de franchissement de frontières de confiance. Cette analyse identifie trois familles de menaces distinctes : les menaces cyber conventionnelles (injections réseau, falsification de données), les menaces adversariales (attaques sur la perception visuelle ou sensorielle) et les menaces conversationnelles (prompt injection, manipulation des sorties du LLM). Trois chaînes d'attaque cross-boundary sont tracées de l'entrée externe jusqu'à l'actionnement physique non sécurisé du robot. Ce travail est significatif parce qu'il démontre que ces trois catégories de menaces convergent aux mêmes points d'interface architecturale, ce qui invalide l'hypothèse implicite de nombreux intégrateurs selon laquelle les couches perception, planification et actuation peuvent être sécurisées indépendamment. L'étude expose trois failles structurelles distinctes : l'absence de validation sémantique indépendante entre l'entrée utilisateur et la commande d'actionneur, la translation cross-modale de la perception visuelle vers l'instruction LLM, et le franchissement non médié des frontières via les outils côté fournisseur (tool use). Pour un COO industriel ou un intégrateur déployant des robots LLM-enabled en production, ces résultats impliquent que le pipeline perception-planification-actuation constitue une surface d'attaque continue, et non un empilement de composants isolables. Le contexte est celui d'une intégration accélérée des LLM dans la robotique autonome, portée par des acteurs comme Figure AI, 1X Technologies, Boston Dynamics ou Physical Intelligence (pi0), qui utilisent des architectures VLA (Vision-Language-Action) pour le contrôle haut niveau. Les travaux antérieurs traitaient séparément la cybersécurité robotique, les attaques adversariales sur la perception et la sécurité des LLM, sans modèle architectural unifié. Cette étude, encore au stade preprint et non évaluée par les pairs, comble ce vide méthodologique et devrait alimenter les discussions dans les groupes de standardisation (ISO TC 299, IEC) sur la certification des systèmes robotiques cognitifs. Les auteurs ne précisent pas d'affiliations institutionnelles spécifiques ni de financements dans l'abstract.

UECette étude devrait alimenter les groupes de standardisation européens (IEC, ISO TC 299) travaillant sur la certification des systèmes robotiques cognitifs dans le cadre de l'AI Act, en fournissant une méthodologie unifiée manquante.

RechercheOpinion
1 source
La première usine intégrée de robots humanoïdes aux États-Unis vise 100 000 NEO d'ici 2027
46Interesting Engineering 

La première usine intégrée de robots humanoïdes aux États-Unis vise 100 000 NEO d'ici 2027

1X, entreprise de robotique dont le siège est à Hayward en Californie, a lancé la production en série de son robot humanoïde NEO dans une usine de 5 400 m² ouverte dans la même ville. La structure emploie actuellement plus de 200 personnes et affiche une capacité de production de 10 000 unités par an, avec l'ambition de dépasser 100 000 robots annuels d'ici 2027. Conçu pour un usage résidentiel (assistance à la mobilité, tâches ménagères légères, interaction quotidienne), le NEO sera proposé à 20 000 dollars à l'achat ou 499 dollars par mois en abonnement. Les premières livraisons aux clients sont prévues pour 2026, via un programme d'accès anticipé. Selon l'entreprise, la totalité de la première année de production, soit plus de 10 000 unités, aurait été réservée en cinq jours lors de l'ouverture des commandes en octobre dernier, un chiffre non corroboré par une source tierce. La démarche de 1X se distingue par une intégration verticale quasi complète : moteurs, batteries, capteurs, structures mécaniques et systèmes de transmission sont conçus et fabriqués en interne, y compris des lignes automatisées de bobinage de cuivre pour les actionneurs. Cette stratégie vise à réduire la dépendance aux fournisseurs externes, accélérer les cycles d'itération matérielle et améliorer la fiabilité, un enjeu critique pour des robots destinés à évoluer dans des environnements domestiques imprévisibles. Chaque NEO embarque la plateforme de calcul NVIDIA Jetson Thor, qui assure l'inférence IA en temps réel à bord (perception, raisonnement, navigation) sans dépendre de l'infrastructure cloud, réduisant ainsi la latence opérationnelle. L'entraînement des comportements passe par les outils de simulation NVIDIA Isaac, permettant un apprentissage par renforcement à grande échelle avant tout déploiement physique, une approche sim-to-real dont la robustesse dans des foyers réels reste à valider. 1X Technologies, anciennement connue sous le nom de Halodi Robotics et d'origine norvégienne, s'est implantée aux États-Unis pour accélérer sa commercialisation. Elle se positionne sur un segment très disputé : Boston Dynamics (Atlas électrique), Figure AI (Figure 03, en partenariat avec BMW), Apptronik (Apollo), Agility Robotics (Digit, déployé chez Amazon) et Tesla (Optimus) se disputent tous une place dans les environnements logistiques et résidentiels. La particularité de 1X est de cibler explicitement le marché grand public plutôt que l'industrie lourde, un positionnement plus risqué à court terme mais potentiellement adressable à bien plus grand volume. Les prochaines étapes déclarées incluent la montée en cadence de l'usine de Hayward, le début des livraisons clients en 2026 et la validation des comportements IA dans des foyers réels, étape déterminante pour savoir si l'humanoïde domestique peut tenir ses promesses face à la complexité du quotidien.

UE1X est issue de Halodi Robotics (Norvège), ce qui confère à son montée en puissance industrielle aux États-Unis une pression concurrentielle indirecte sur les acteurs européens de l'humanoïde ; aucun déploiement ni partenariat EU annoncé à ce stade.

HumanoïdesActu
1 source
Hexagon et Schaeffler vont déployer 1 000 humanoïdes Aeon dans leur réseau d'usines mondial
47Robotics & Automation News 

Hexagon et Schaeffler vont déployer 1 000 humanoïdes Aeon dans leur réseau d'usines mondial

Hexagon Robotics et Schaeffler, fabricant allemand de composants de précision et de technologie de mouvement (roulements, actionneurs, systèmes d'entraînement), ont annoncé en 2026 l'élargissement de leur partenariat stratégique avec un objectif chiffré : déployer 1 000 robots humanoïdes Aeon dans les usines du réseau mondial de Schaeffler. L'accord fait suite à un programme pilote conjoint mené en 2025, décrit comme concluant par les deux parties. Les spécifications techniques de l'Aeon, payload, degrés de liberté, cadence de cycle, n'ont pas été communiquées dans cette annonce, ce qui limite l'évaluation indépendante des performances réelles. Un engagement à 1 000 unités représente l'un des ordres de déploiement les plus élevés annoncés publiquement dans le segment humanoïde industriel, où la plupart des acteurs en sont encore aux phases de pilote à moins de 50 robots. Si le chiffre est tenu, il constituerait une preuve d'échelle manufacturière que ni Figure (Figure 03), ni Agility Robotics (Digit), ni 1X Technologies n'ont encore atteinte. Pour les intégrateurs et les COO industriels, le signal est que la phase "demo-to-reality gap" peut être franchie dans un environnement de production réel, à condition de disposer d'un partenaire industriel ancré dans la supply chain mécanique. Hexagon est principalement connu comme éditeur de logiciels de métrologie et de fabrication numérique (ex-Hexagon AB), ce qui rend son bras robotique Hexagon Robotics moins visible que ses concurrents purement hardware. Schaeffler, lui, apporte un réseau d'usines dense en Europe, Asie et Amériques, ainsi qu'une expertise en actionneurs pertinente pour la co-conception des bras et des articulations de l'Aeon. Dans la course humanoïde, les concurrents directs sur le segment industriel incluent Tesla Optimus, GR00T N2 de Nvidia/partenaires, et Apollo de Apptronik. Aucune date de livraison ferme ni calendrier de déploiement par site n'a été précisé.

UESchaeffler, fabricant allemand de composants de précision avec un réseau d'usines dense en Europe, est le déployeur central de l'accord ; si le cap des 1 000 unités est atteint, cela établirait une référence d'échelle industrielle directement pertinente pour les constructeurs et intégrateurs robotiques européens.

Robotera lève près de 350 M$ en deux mois et revendique le premier PMF en IA incarnée
48Pandaily 

Robotera lève près de 350 M$ en deux mois et revendique le premier PMF en IA incarnée

Robotera, startup chinoise de robotique humanoïde, a finalisé un tour de financement supérieur à 2 milliards de RMB (environ 280 millions de dollars), mené par SF Group avec la participation de Sequoia China, IDG Capital, CICC Capital, Dongfeng Investment, ICBC Capital et des fonds affiliés à China Unicom. Ce nouveau round porte le total levé à près de 2,5 milliards de RMB (environ 350 millions de dollars) en deux mois, la demande ayant selon la société largement dépassé sa cible initiale. Le portefeuille d'investisseurs comprend désormais Alibaba, Geely, BAIC, Dongfeng, Samsung, Lenovo, Haier, Singtel et Woori Financial Group. Sur le plan opérationnel, Robotera annonce avoir commencé au deuxième trimestre 2026 des livraisons à l'échelle de plusieurs milliers d'unités, avec un taux de croissance revendiqué de 300% (sans base de comparaison publiée). La société déploie ses robots dans plus de dix centres logistiques en Chine du Nord, de l'Est et du Sud, en partenariat avec China Post et SF Group, atteignant dans certains contextes jusqu'à 85% de l'efficacité humaine, en cycle continu 24h/24. Ce financement, bouclé en deux mois, traduit un basculement dans la robotique industrielle chinoise : les grands opérateurs ne regardent plus, ils déploient. Pour les intégrateurs et décideurs B2B, le signal fort vient de la logistique, secteur à pénurie de main-d'oeuvre documentée et cycles de rentabilisation courts. Si les métriques annoncées restent difficiles à vérifier hors conditions contrôlées, la présence de SF Group simultanément comme investisseur et client opérationnel suggère un ancrage plus substantiel qu'une démonstration. L'affirmation d'un PMF ("product-market fit") qualifié de "premier de l'industrie" dans l'IA incarnée mérite d'être lue prudemment, mais la combinaison livraisons effectives et partenariats industriels diversifiés, couvrant la logistique, l'automobile avec Geely et Renault, et l'électronique grand public avec Haier, Lenovo et Samsung, distingue ce dossier des annonces purement technologiques. Positionnée sur une architecture full-stack intégrant cerveau IA, contrôle de mouvement, systèmes de données, mains dextres et hardware humanoïde, Robotera entre en compétition directe avec Figure AI (déployé chez BMW), Agility Robotics (Digit chez Amazon) et 1X Technologies côté occidental, ainsi qu'avec Unitree et Fourier Intelligence sur le marché chinois. Sa distinction principale réside dans un ancrage logistique plutôt qu'un focus sur l'assemblage de précision, marché structurellement plus vaste en volume d'unités. La présence de Samsung et Singtel au capital ouvre des scénarios de déploiement au-delà de la Chine, encore non confirmés calendairement. Les indicateurs à surveiller dans les prochains trimestres seront la réduction du coût unitaire à mesure que les volumes augmentent, et la capacité de la société à répliquer ses performances logistiques dans les secteurs automobile et électronique, où les exigences de précision sont sensiblement plus élevées.

UERenault est cité parmi les partenaires automobiles de Robotera, signal indirect pour l'industrie automobile française si ces déploiements s'étendent hors de Chine.

💬 350 millions en deux mois, c'est le chiffre qui accroche. Ce qui compte vraiment, c'est que SF Group est à la fois au capital et client opérationnel : ils déploient ces robots dans leurs propres entrepôts. Difficile d'appeler ça une démo quand c'est le même groupe qui signe le chèque et réceptionne les livraisons.

Chine/AsieOpinion
1 source
Alfie : nouveau robot humanoïde autonome pour les tâches industrielles complexes
49Interesting Engineering 

Alfie : nouveau robot humanoïde autonome pour les tâches industrielles complexes

RobCo, startup allemande fondée à Munich, a dévoilé à la Hannover Messe 2026 un robot humanoïde industriel baptisé Autonomous Alfie, conçu pour des tâches de fabrication complexes impliquant une forte variabilité : kitting, palettisation, assemblage de précision et manipulation de matériaux sensibles. L'annonce intervient dans la foulée d'une levée de fonds Serie C de 100 millions de dollars, orientée vers le développement de ce que RobCo appelle la "Physical AI". Le robot embarque une manipulation bimanuels, c'est-à-dire une coordination à deux bras imitant la gestuelle humaine, couplée à un système de vision et de perception haptique permettant de gérer des pièces mal orientées ou des flux de travail changeants. Les premiers déploiements clients sont annoncés pour la fin 2026, sans précision sur les sites ou les secteurs ciblés. RobCo dispose déjà d'opérations à San Francisco et Austin, et l'essentiel de ce financement est clairement orienté vers le marché américain. Ce que RobCo met en avant, c'est le passage à ce qu'il nomme le "niveau 4 d'autonomie" en contexte industriel : un système capable d'apprendre par observation plutôt que par programmation explicite, et d'exécuter des tâches avec une intervention humaine minimale, même dans des environnements non structurés. C'est précisément le segment qui résiste encore à l'automatisation classique, dominée par les bras articulés répétitifs qui exigent des environnements stables et des fixtures précises. Si les performances annoncées se confirment en production réelle, Alfie s'attaquerait au "messy middle" de la chaîne industrielle, ce gisement de tâches manuelles à haute variabilité que ni les AMR ni les cobots traditionnels n'ont su automatiser à l'échelle. Le modèle Robotics-as-a-Service (RaaS) proposé en parallèle vise à supprimer le frein du capex initial, facilitant une adoption rapide sans engagement d'achat lourd. Il faut néanmoins noter qu'Alfie est décrit comme étant encore en "phase finale de développement" : les affirmations sur l'autonomie de niveau 4 restent à valider sur des lignes de production en conditions réelles, les vidéos de démo présentées à Hannover Messe ne constituant pas une preuve de déploiement industriel à l'échelle. RobCo n'est pas un nouvel entrant : la société était jusqu'ici positionnée sur les bras robotiques modulaires pour PME, avant de pivoter vers l'humanoïde et la Physical AI. Elle rejoint un champ concurrentiel désormais dense, où Figure (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (Pi-0), Boston Dynamics et 1X Technologies se disputent la même promesse d'un robot généraliste pour l'industrie. En Europe, des acteurs comme Enchanted Tools (Mirokaï) ou Wandercraft développent des approches parallèles, sans avoir encore atteint la phase de déploiement commercial annoncé. La prochaine étape décisive pour RobCo sera la publication de métriques de production vérifiables, notamment les temps de cycle en conditions non contrôlées et les taux d'erreur sur tâches à haute variabilité, seuls indicateurs capables de distinguer une démonstration convaincante d'un produit réellement opérationnel.

UERobCo, startup allemande basée à Munich, annonce un humanoïde industriel et lève 100M$ mais oriente son financement prioritairement vers le marché américain, limitant l'impact concret à court terme pour l'industrie européenne malgré la vitrine de Hannover Messe.

π0.7 : un modèle fondation robotique généraliste et pilotable aux capacités émergentes
50arXiv cs.RO 

π0.7 : un modèle fondation robotique généraliste et pilotable aux capacités émergentes

Physical Intelligence, le laboratoire californien fondé en 2023 par d'anciens chercheurs de Google DeepMind et Stanford, publie π0.7 (pi-zéro-point-sept), un nouveau modèle de fondation robotique généraliste présenté dans un preprint arXiv (2604.15483) daté d'avril 2026. Le modèle démontre des capacités zero-shot sur des tâches multi-étapes en environnements inconnus : manipulation d'appareils de cuisine variés, pliage de linge sans avoir vu la tâche en entraînement, et opération d'une machine à expresso à un niveau de performance comparable à des modèles spécialisés entraînés par reinforcement learning. La généralisation cross-embodiment, c'est-à-dire la capacité à transférer des comportements entre plateformes robotiques différentes sans réentraînement dédié, est présentée comme une propriété émergente du système. L'innovation centrale de π0.7 est un mécanisme de conditionnement contextuel multimodal étendu. Là où la plupart des VLA (Vision-Language-Action models) se contentent d'une instruction textuelle, π0.7 reçoit en entrée de prompt des métadonnées sur la qualité de l'exécution, des images de sous-objectifs intermédiaires, et des informations sur la stratégie à adopter. Ce conditionnement riche permet d'intégrer à l'entraînement des données hétérogènes : démonstrations humaines, données autonomes potentiellement sous-optimales incluant des échecs, et données issues de sources non-robotiques. C'est un levier direct sur le problème du sim-to-real gap et sur le coût de collecte de données de qualité, deux freins majeurs au déploiement industriel. Pour un intégrateur ou un COO industriel, la promesse est concrète : un modèle qui fonctionne correctement sans fine-tuning coûteux sur chaque nouvelle tâche. Physical Intelligence avait introduit π0 fin 2024 comme premier modèle de fondation robotique à architecture flow matching, capable de piloter des bras manipulateurs avec haute dextérité. π0.7 constitue une évolution orientée généralité et pilotabilité plutôt que spécialisation. Dans le paysage concurrentiel, ce positionnement affronte directement Google DeepMind avec RT-2 et ses successeurs, Figure AI avec son modèle Helix, ainsi qu'1X Technologies. Aucun déploiement commercial n'est annoncé à ce stade : il s'agit d'un preprint académique sans validation industrielle publiée. Les évaluations portent sur plusieurs plateformes robotiques en laboratoire, et les prochaines étapes probables incluent des collaborations avec des fabricants de robots pour valider le passage à l'échelle en conditions réelles.

IA physiqueOpinion
1 source