Aller au contenu principal

Dossier Unitree — page 3

434 articles · page 3 sur 9

Unitree, l'humanoïde et quadrupède chinois low-cost : G1, H1, R1, prix grand public sur AliExpress, démonstrations agressives en vidéo et impact sur les concurrents premium.

MAPL : apprentissage des préférences multi-objectifs pour la locomotion robotique
101arXiv cs.RO RecherchePaper

MAPL : apprentissage des préférences multi-objectifs pour la locomotion robotique

Des chercheurs présentent MAPL (Multi-Objective AI-Informed Preference Learning), un cadre d'apprentissage par renforcement pour la locomotion quadrupède qui remplace les fonctions de récompense manuelles par des préférences générées par LLM. Publié sur arXiv (réf. 2606.25398) en juin 2025, le système soumet des paires de trajectoires à un grand modèle de langage, qui les évalue selon plusieurs critères sémantiques distincts, formulés en langage naturel générique et invariants selon le terrain. Ces préférences par objectif alimentent un modèle de scoring à plusieurs têtes, dont les sorties sont agrégées en récompense scalaire pour l'optimisation de politique. Sur quatre environnements de simulation quadrupède, les auteurs rapportent des performances comparables ou supérieures à des récompenses conçues par des experts du domaine. L'intérêt de MAPL tient à sa décomposition structurée des objectifs, là où les méthodes LLM existantes se limitent à un jugement global entre comportements. En robotique industrielle, la conception de fonctions de récompense reste un goulot d'étranglement reconnu, exigeant de longues itérations entre ingénieurs RL et spécialistes métier. Substituer ce travail par des descriptions en langage naturel, réutilisables sans réécriture d'équations, réduirait le coût d'adaptation à de nouvelles tâches. La décomposition en critères distincts offre aussi une meilleure interprétabilité : il devient possible d'identifier quels objectifs sont en tension, ce qui facilite le débogage comportemental. MAPL s'inscrit dans la vague d'automatisation de la conception de récompenses via LLM, initiée notamment par EUREKA (NVIDIA, 2023), qui générait directement du code de récompense via GPT-4, et par RL-VLM-F, qui exploite des modèles vision-langage pour évaluer les comportements. La locomotion quadrupède est un benchmark standard utilisé par des projets comme ANYmal (ETH Zurich) et les plateformes Unitree. Plusieurs limites méritent d'être signalées : l'article reste un preprint non relu par les pairs, les expériences sont menées uniquement en simulation sans validation physique, et le LLM utilisé pour générer les préférences n'est pas spécifié, ce qui complique la reproductibilité. Les extensions naturelles concernent la validation sur robot réel et l'application à des morphologies plus complexes, comme les humanoïdes, où l'ingénierie de récompense est particulièrement coûteuse.

1 source
PDS Joint : une articulation à double spirale paramétrique pour mains dextériques
102arXiv cs.RO 

PDS Joint : une articulation à double spirale paramétrique pour mains dextériques

Des chercheurs ont publié sur arXiv (référence 2606.24377) la conception d'une articulation souple dite PDS (Parametric Double-Spiral), destinée aux mains robotiques dextères. L'articulation repose sur deux gabarits de spirales imbriquées, Archimédienne et logarithmique, qui permettent de façonner de manière indépendante la rigidité directionnelle selon trois modes de déformation : flexion/extension, abduction/adduction et pronation/supination. Un paramètre d'asymétrie ajustable contrôle la distribution de rigidité pour équilibrer stabilité de préhension et résistance à l'hyperextension. Le joint embarque également une proprioception inductive et un pipeline de calibration par apprentissage : un réseau MLP, entraîné à partir du suivi de marqueurs ArUco, réduit l'erreur d'estimation angulaire de 41,6 % par rapport aux méthodes classiques d'interpolation de courbes, en particulier sur le mouvement d'abduction/adduction, le plus difficile à instrumenter. La main open-source intégrant ces articulations a été validée sur neuf objets du quotidien et des interactions en contact direct avec des humains. Cette contribution s'attaque à un verrou bien identifié de la robotique de manipulation : la rigidité de la main doit être à la fois adaptable selon la direction pour saisir sans casser, et mesurable en temps réel pour fermer la boucle de commande. Les articulations rigides classiques ne permettent pas cette compliance directionnelle ; les solutions souples existantes peinent à combiner grande amplitude de mouvement, rigidité anisotrope calibrée et proprioception fiable. La réduction de 41,6 % de l'erreur via MLP est un résultat concret qui valide l'approche apprentissage pour la calibration de capteurs inductifs non linéaires sous grande déformation, un problème récurrent dans les mains à câbles ou tendons. La recherche sur les mains dextères a connu une accélération notable depuis 2023, tirée par la demande en manipulation fine pour les robots humanoïdes (Unitree, Figure, Agility) et les manipulateurs fixes. Des mains de référence comme la Shadow Dexterous Hand (Shadow Robot) ou la LEAP Hand (Carnegie Mellon) imposent la barre sur le nombre de degrés de liberté, mais leur proprioception reste souvent externe ou peu précise sous déformation. L'approche PDS, paramétrique et open-source, se positionne comme brique de recherche reproductible plutôt que produit commercial. Les prochaines étapes probables sont l'intégration dans un pipeline de contrôle par imitation ou par VLA (Vision-Language-Action), où la qualité de la proprioception articulaire conditionne directement les performances en manipulation contact-riche.

RecherchePaper
1 source
SlipSense : détection du glissement en temps réel pour robots à pattes par capteurs multimodaux
103arXiv cs.RO 

SlipSense : détection du glissement en temps réel pour robots à pattes par capteurs multimodaux

Des chercheurs ont publié SlipSense, un système de détection de glissement en ligne pour robots à pattes, présenté le 24 juin 2026 sur arXiv (2606.24350). Le cadre repose sur un pied sensorisé léger et personnalisé monté sur un quadrupède Unitree Go1, couplé à un modèle LSTM qui infère les forces de réaction au sol en temps réel. Le système détecte les glissements en phase initiale -- avant toute instabilité irréversible -- avec un déplacement moyen de 24,1 ± 6,4 mm, pour une précision globale de 85,9 %. Comparé à la baseline cinématique standard (vitesse du pied estimée par odométrie d'état), SlipSense offre une résolution de détection 3,3 fois plus fine et une amélioration relative de 24 % en précision. Les tests ont été réalisés sur terrains glissants en mode aveugle, c'est-à-dire sans caméra ni information extéroceptive. L'intérêt opérationnel est clair : les méthodes proprioceptives classiques ratent les micro-glissements précoces parce qu'elles mesurent des effets cinématiques qui n'apparaissent qu'une fois le glissement déjà engagé. SlipSense anticipe ce seuil en exploitant directement les forces d'interaction sol-pied, ce qui ouvre la voie à une adaptation de démarche en temps réel -- ajustement des contraintes du contrôleur, estimation du coefficient de friction local, modification de la posture avant la chute. Pour les intégrateurs qui déploient des quadrupèdes sur sols industriels humides ou extérieurs enneigés, c'est un signal précurseur exploitable là où les encodeurs seuls échouent. Le Unitree Go1 est l'un des quadrupèdes les plus accessibles du marché, ce qui confère à cette publication une portée pratique au-delà du laboratoire. Les approches concurrentes en détection de glissement s'appuient majoritairement sur des IMU, des modèles de contact analytiques ou des réseaux entraînés sur simulation -- le sim-to-real restant un obstacle connu. SlipSense fait le pari opposé : capteur physique dédié et entraînement sur données réelles. Les auteurs positionnent explicitement ces travaux comme fondation pour des contrôleurs adaptatifs force-aware à venir, avec comme prochaine étape naturelle l'estimation en ligne de la friction et l'intégration dans une boucle de commande locomotion complète.

RecherchePaper
1 source
Kunlun Xing, startup d'IA incarnée, lève plusieurs milliards de yuans et devient licorne en 90 jours
10436Kr 

Kunlun Xing, startup d'IA incarnée, lève plusieurs milliards de yuans et devient licorne en 90 jours

Moins de quatre-vingt-dix jours après son enregistrement officiel, la startup de robotique humanoïde chinoise Kunlun Xing (昆仑行) a bouclé trois tours de financement successifs pour un total de plusieurs milliards de yuans, franchissant le seuil du milliard de dollars de valorisation avant même d'avoir sorti un produit. C'est le 36Kr qui révèle ces informations en exclusivité. La société est fondée par Ren Geng, ancien vice-président du groupe Alibaba et ex-président d'Alibaba Cloud Chine, accompagné de Lang Xianpeng, premier ingénieur ADAS de Li Auto, l'équivalent chinois de Mobileye au sein du constructeur. Les investisseurs présents dès le premier tour, dont Hillhouse Capital, Gaorong Ventures, CASSTAR et Huaye Capital, ont participé aux trois rounds consécutifs, un signal fort de conviction. Le tour de table réunit également Zhongding Capital, Innovation Works (le fonds de Kai-Fu Lee), Xin Capital, et le bras industriel du conglomérat Jianfa Group. La stratégie affichée par Kunlun Xing est le développement en intégration totale (full-stack) d'un robot humanoïde généraliste, explicitement positionné comme concurrent de l'Optimus de Tesla, avec une architecture duale baptisée Kunlun World Model (KWM) censée améliorer la généralisation et réduire l'opacité décisionnelle des modèles de type VLA. Ce financement record illustre la tension qui structure le marché chinois de la robotique humanoïde en 2026 : les capitaux sont abondants, mais les cibles crédibles rares. Plusieurs fonds de premier rang interrogés par 36Kr reconnaissent se retrouver en position de "demandeurs" face aux meilleurs dossiers, non l'inverse. Ce qui différencie Kunlun Xing aux yeux des investisseurs, c'est la combinaison inhabituelle de compétences de go-to-market à grande échelle (Ren Geng a piloté Alibaba Cloud à 42,1 % de part de marché public cloud en 2020) et de capacités de livraison hardware à volume (Lang Xianpeng a délivré l'ADAS Li Auto sur 1,5 million de véhicules avec un budget annuel de recherche de 10 millions de yuans). Dans un secteur où la plupart des acteurs sont soit purement techniques, soit purement commerciaux, cette dualité est jugée décisive. La stratégie "corps + cerveau" en développement propriétaire vise à éviter le découplage logiciel-matériel qui pénalise nombre de concurrents. Le contexte sectoriel qui nourrit cette levée tient à plusieurs catalyseurs simultanés : l'annonce par Tesla d'une production en petite série de l'Optimus Gen3 à l'usine de Fremont entre juillet et août 2026, l'introduction en bourse accélérée de Unitree Robotics, et les prévisions de Morgan Stanley évaluant le marché mondial des robots humanoïdes à 5 000 milliards de dollars d'ici 2050. Kunlun Xing n'est toutefois pas seul sur ce segment : Figure AI, 1X, Agility Robotics et Fourier Intelligence occupent le terrain international, tandis que Unitree, Agibot (智元) et Zhiyuan Robot (智元) disputent le marché domestique. Les défis techniques restent concrets : la durée de vie des mains dextres dépasse rarement deux mois, et la supply chain composants n'est pas encore industrialisée. Kunlun Xing n'a pour l'heure annoncé ni prototype public, ni calendrier de livraison client, ni déploiement pilote, sa valorisation repose intégralement sur la crédibilité de l'équipe fondatrice, pas sur des métriques produit vérifiables.

Chine/AsieActu
1 source
Vidéo : une entreprise chinoise montre un modèle unique pilotant à la fois un humanoïde et un bras robotique
105Interesting Engineering 

Vidéo : une entreprise chinoise montre un modèle unique pilotant à la fois un humanoïde et un bras robotique

MindOne Robotics, startup chinoise fondée à Shenzhen en 2025, a présenté une démonstration de son framework robotique Mind-0, capable de piloter simultanément des robots humanoïdes Unitree G1 et des systèmes bras-double fixes à partir d'un unique modèle d'IA. Le scénario illustré couvre un workflow logistique complet: récupération d'objets, transport, emballage et fermeture de caisses, avec une flotte mixte opérant sous la même intelligence centralisée. L'entreprise revendique une précision de manipulation inférieure au centimètre sur la plateforme Unitree G1 en conditions réelles. L'architecture Mind-0 sépare le raisonnement de haut niveau (perception, planification, décision) du contrôle moteur bas niveau, ce qui permet de déployer le même cerveau logiciel sur des morphologies différentes sans pipeline d'entraînement séparé par plateforme. Particularité notable: le modèle est entraîné exclusivement sur des données humaines capturées par motion capture corps entier, caméras égocentrées et dispositifs manuels, et non sur de la téléopération robot directe, ce que MindOn présente comme un moyen de préserver les comportements naturels de résolution de problèmes. L'enjeu industriel est double. D'abord, l'agnosticisme matériel: si un seul modèle orchestre humanoïdes et bras fixes sur une même tâche, les intégrateurs n'ont plus à développer des pipelines d'IA distincts par plateforme, ce qui réduit le coût d'entrée dans les déploiements multi-robots. Ensuite, MindOn s'attaque frontalement au sim-to-real, l'un des verrous les plus persistants de la robotique moderne: son Real-World Execution Compensation Model utilise un volume réduit de données réelles pour corriger les dérives dues aux différences de dynamique entre simulation et environnement physique. Les métriques annoncées (précision sub-centimétrique sur une démonstration sélectionnée) restent toutefois à valider dans des conditions de déploiement industriel répétable, avec cadences et taux d'erreur documentés. Le système de raisonnement hiérarchique compensant les délais d'actuation répond par ailleurs à un problème souvent sous-estimé: contrairement aux démonstrations humaines, les robots subissent des latences de capteur, de calcul et d'actionneur que le modèle doit continuellement corriger en temps réel. MindOne Robotics évolue dans un espace concurrentiel très chargé. Sur l'agnosticisme matériel et les modèles unifiés cross-embodiment, elle fait face à GR00T N2 de NVIDIA (conçu pour humanoïdes multiples), à pi0 de Physical Intelligence (modèle généraliste pour la manipulation), ainsi qu'aux stacks maison de Fourier Intelligence et d'Unitree. En Europe, Enchanted Tools avec son robot Miroka et Wandercraft positionnent des approches verticales différentes. MindOne reste une très jeune société, et cette démonstration constitue à ce stade un teaser technologique, non un produit commercialement déployé: aucun client pilote ni délai de mise en production n'ont été annoncés publiquement. L'entreprise indique vouloir étendre ses datasets humains et industrialiser son pipeline cross-embodiment, sans préciser de calendrier.

UELa montée en puissance de l'approche cross-embodiment chinoise (Mind-0) crée une pression concurrentielle indirecte sur les acteurs français Enchanted Tools et Wandercraft, qui développent des approches verticales différentes sans modèle unifié cross-morphologie.

Chine/AsieOpinion
1 source
Données et standards pour la robotique humanoïde : l'infrastructure manquante de l'IA physique
106arXiv cs.RO 

Données et standards pour la robotique humanoïde : l'infrastructure manquante de l'IA physique

Un groupe de chercheurs impliqués dans l'élaboration de la norme ISO/WD 26264-1 au sein du comité technique ISO/TC 299/WG 16 publie un préprint arXiv (2606.19769, juin 2026) posant que la standardisation des données constitue le prochain verrou critique pour les robots humanoïdes. Leur thèse centrale: le goulot d'étranglement n'est pas seulement la rareté des données, mais leur caractère non cumulatif, causé par des coûts de collecte élevés, des silos organisationnels et des protocoles d'évaluation incompatibles. Les auteurs identifient trois conditions pour qu'un jeu de données soit réutilisable: l'expérience physique doit rester liée au corps du robot, à la tâche et au contexte d'exécution; les flux multimodaux doivent partager synchronisation temporelle, repères de coordonnées, calibration et unités documentées; les données doivent enfin être versionnées et traçables pour s'accumuler entre projets et organisations. L'enjeu est direct pour les équipes qui entraînent des modèles VLA (Vision-Language-Action) comme pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou Helix de Figure AI. Sans grammaire commune (métadonnées, provenance, versioning), chaque acteur repart de zéro à chaque nouveau déploiement. Pour un intégrateur industriel, cela signifie concrètement que des données collectées sur un site ne peuvent pas réentraîner un modèle sur un autre, même avec du matériel identique. L'article recadre le "sim-to-real gap" non pas comme un problème de simulation, mais comme un déficit d'alignement des référentiels physiques entre jeux de données: les hypothèses de synchronisation et de cinématique, si elles ne sont pas documentées, rendent les flux non interopérables dès le départ. La norme proposée s'articule en deux couches: une infrastructure horizontale couvrant le cycle de vie, les métadonnées, la qualité, le versioning et la traçabilité, et des parties spécifiques par capacité (manipulation, locomotion, interaction humain-robot, cognition). Le contexte est celui d'un secteur ou Figure AI, Boston Dynamics, Tesla (Optimus Gen 3), Unitree et 1X accumulent des données de manière cloisonnée, tandis que des initiatives ouvertes comme Open X-Embodiment (Google DeepMind) ou LeRobot (HuggingFace) posent des bases communes sans force normative. Le préprint est en phase WD (Working Draft) sans date de ratification annoncée: c'est une prise de position académique, pas une norme publiée ni un déploiement industriel.

UESi ratifiée, la norme ISO/WD 26264-1 structurera les pratiques de données des acteurs européens de la robotique humanoïde ; HuggingFace (Paris) est déjà cité comme contributeur aux bases ouvertes communes (LeRobot), sans force normative à ce stade.

InfrastructureOpinion
1 source
Soutien politique et production de masse propulsent les ETF de robots humanoïdes à l'aube d'une phase critique
107Pandaily 

Soutien politique et production de masse propulsent les ETF de robots humanoïdes à l'aube d'une phase critique

La Chine accélère sa stratégie dans la robotique humanoïde : le ministère de l'Industrie et des Technologies de l'Information (MIIT), en coordination avec la SASAC (Commission de supervision des actifs d'État), a fixé un objectif contraignant de plus de 10 000 unités humanoïdes déployées d'ici fin 2026, signalant un passage de l'incitation à la R&D vers une obligation de déploiement industriel. Sur le plan production, le Centre d'innovation en robotique humanoïde de Pékin a confirmé que le Tiangong 3.0 entrera en fabrication en série au second semestre 2026, avec des réductions de coûts attendues supérieures à 50 %. UBTECH a formalisé une coentreprise pour développer des puces d'intelligence incarnée, avec un capital enregistré de 100 millions de yuans. Côté chaîne d'approvisionnement, Wanma et Langxin Electric ont commencé des livraisons en volume de composants critiques. À l'international, GenesisAI, soutenu par l'ex-PDG de Google Eric Schmidt, a lancé son robot industriel Eno, tandis que Faraday Future affirme avoir livré 157 unités réparties sur quatre modèles. Dans ce contexte, l'ETF Robot d'Invesco Great Wall (code 159559), indexé sur le Guozheng Robot Industry Index (980022), affiche une exposition de plus de 73 % aux valeurs du secteur humanoïde, avec une allocation sectorielle dominée par les équipements mécaniques à 47,23 % (réducteurs, vis à billes, moteurs) et les équipements électriques à 14,68 %. Ce moment marque une inflexion structurelle : la Chine ne pilote plus la filière par subventions symboliques mais par objectifs de déploiement chiffrés et datés, ce qui force les intégrateurs et les acheteurs industriels à anticiper des volumes réels dès 2026. La maturité affichée de la chaîne d'approvisionnement, notamment autour des composants à haute valeur (actionneurs, chips embarqués), réduit un des principaux goulets d'étranglement identifiés lors des phases pilotes. Toutefois, il convient de rester prudent : l'article source est en grande partie un texte promotionnel pour le fonds 159559 lui-même, dont la performance de 60,81 % sur deux ans est mise en avant face aux 34,02 % du CSI 300. Les chiffres de déploiement restent des objectifs politiques, pas des confirmations de livraisons effectives, et les vidéos de démonstration des robots ne constituent pas une preuve de passage à l'échelle industrielle. La trajectoire de la robotique humanoïde chinoise s'inscrit dans un effort stratégique accéléré depuis 2023, avec des acteurs comme Unitree, AgiBot et UBTECH qui avancent en parallèle. À l'international, Tesla (Optimus Gen 3), Figure (Figure 03), Physical Intelligence (pi0), Agility Robotics et Boston Dynamics maintiennent une pression concurrentielle forte, principalement sur les cas d'usage logistique et manufacture. Le second semestre 2026 et l'année 2027 sont désignés comme la première fenêtre de réalisation de revenus réels pour le secteur, sous réserve que les objectifs de déploiement se confirment en commandes fermes plutôt qu'en annonces de pilotes.

UELa montée en puissance industrielle chinoise dans les humanoïdes (objectif 10 000 unités d'ici fin 2026, passage aux mandats de déploiement) crée une pression concurrentielle indirecte sur les fabricants et intégrateurs européens de composants robotiques critiques (actionneurs, réducteurs, chips embarqués).

Chine/AsieActu
1 source
ZiMPedance : modélisation et contrôle ZMP intégrant l'impédance pour robots quadrupèdes transportant des charges
108arXiv cs.RO 

ZiMPedance : modélisation et contrôle ZMP intégrant l'impédance pour robots quadrupèdes transportant des charges

Des chercheurs ont publié une nouvelle méthode de contrôle pour quadrupèdes transportant des charges via des bras passifs à ressort, baptisée ZiMPedance. Le problème central : lorsqu'un quadrupède porte une charge suspendue à un bras passif (ressort et amortisseur, sans actionnement propre), la dynamique de cette interface génère des forces oscillatoires susceptibles de déstabiliser la locomotion. Les auteurs dérivent une formulation étendue du Zero Moment Point (ZMP), critère classique de stabilité en robotique de marche, intégrant explicitement les paramètres de raideur, d'amortissement et de masse de la charge. Cette formulation est ensuite incorporée dans un contrôleur prédictif (MPC) basé sur un modèle Single Rigid Body Dynamics augmenté des sous-systèmes passifs. En simulation, la méthode réduit les violations de stabilité par un facteur 10, de 7,0 % à 0,7 %, et abaisse l'effort en force de réaction au sol horizontale de 15 % par rapport à un contrôleur de référence. Les tests matériels ont utilisé une charge de 2 kg : le robot maintient une locomotion stable sous perturbations de type traction-relâchement là où le contrôleur nominal échoue. L'enjeu industriel est direct. Les bras passifs à ressort constituent une solution attractive pour équiper les quadrupèdes de capacités de transport sans alourdir la plateforme ni multiplier les actionneurs, contrairement aux manipulateurs actifs, plus lourds et plus coûteux. Le phénomène identifié ici, la résonance entre les configurations sous-amorties et les harmoniques de locomotion, représente un obstacle réel au déploiement en environnements non contrôlés. ZiMPedance démontre qu'il est possible de compenser ces effets par la modélisation plutôt que par le sur-actionnement, une approche directement transposable pour des cas d'usage logistiques, d'inspection industrielle ou de livraison de colis. Le même modèle permet en outre un suivi de position de l'effecteur via la dynamique passive, sans actionner le bras, ce qui ouvre des possibilités de contrôle indirect à faible coût énergétique. Ce travail s'inscrit dans la continuité des avancées MPC pour robots à pattes, un axe de recherche structurant depuis les développements autour de MIT Cheetah et ANYmal (ANYbotics). Dans le segment commercial, Boston Dynamics équipe Spot d'un bras actif à six degrés de liberté, Unitree propose des configurations payload sur ses quadrupèdes B1 et B2, et des acteurs européens comme Wandercraft ou Enchanted Tools explorent des architectures complémentaires pour la manipulation embarquée. Publié en preprint sur arXiv sous l'identifiant 2606.18883, ce travail n'a pas encore été soumis à révision par les pairs : les gains annoncés restent à valider en conditions de charge variable et sur terrain non structuré, hors cadre simulé.

UEMéthode potentiellement transposable pour des acteurs européens comme Wandercraft ou Enchanted Tools explorant la manipulation embarquée, mais aucun lien direct avec la France ou l'UE n'est documenté dans ce travail.

RecherchePaper
1 source
DREAM-Chunk : regroupement d'actions réactif avec modèle du monde latent
109arXiv cs.RO 

DREAM-Chunk : regroupement d'actions réactif avec modèle du monde latent

DREAM-Chunk (arXiv:2606.18589, juin 2026) est une méthode d'inférence conçue pour corriger une fragilité structurelle des modèles vision-language-action (VLA) : l'exécution en boucle ouverte lors de l'action chunking. Ce paradigme, devenu standard dans les VLA actuels, consiste à inférer à basse fréquence un bloc d'actions (un "chunk") que le robot exécute séquentiellement à haute fréquence, sans rétroaction intermédiaire. Dès qu'un chunk est lancé, le robot le suit à l'aveugle, vulnérable aux perturbations dynamiques, aux erreurs matérielles et à l'observabilité partielle. DREAM-Chunk adresse ce problème sans modifier ni réentraîner la politique sous-jacente : à l'inférence, il génère plusieurs chunks candidats, simule leurs trajectoires dans un espace latent via un world model léger, et sélectionne celui dont l'état prédit correspond le mieux à l'observation réelle. La méthode est validée sur le benchmark Kinetix et sur quatre tâches de manipulation couvrant deux plateformes robotiques et deux architectures VLA distinctes. L'intérêt pratique est direct pour les intégrateurs industriels qui déploient des VLA pré-entraînés sans accès au pipeline d'entraînement : DREAM-Chunk s'insère comme une couche plug-and-play, sans fine-tuning requis. La méthode s'inscrit dans la tendance du test-time compute scaling, bien établie côté LLM mais encore naissante en robotique physique, où dépenser davantage de calcul à l'inférence peut compenser les limites d'un modèle sans passer par un nouveau cycle d'entraînement coûteux. Les résultats montrent que les gains augmentent avec le nombre de chunks candidats échantillonnés, et que l'avantage est particulièrement marqué lorsque les démonstrations contiennent des comportements correctifs, ce qui soulève une question pratique sur la composition des datasets de démo. Les world models latents en robotique ont une longue tradition (DREAMER, TD-MPC2, DreamerV3), mais leur couplage avec des VLA basés sur le chunking reste récent. Physical Intelligence avec pi-0, Figure AI et des équipes de Stanford, CMU et Berkeley explorent simultanément comment améliorer la robustesse en déploiement sans réentraînement complet. DREAM-Chunk se distingue par son caractère agnostique au modèle sous-jacent, ce qui facilite son adoption sur des architectures hétérogènes. La prochaine étape logique serait une validation sur des plateformes commerciales à manipulation dextre (Fourier GR1, Unitree G1) et des tâches à dynamiques hautement stochastiques comme l'assemblage de précision. Le papier ne mentionne ni partenaires industriels ni pilotes commerciaux annoncés.

💬 Le test-time compute scaling arrive enfin en robotique physique, et DREAM-Chunk en est un premier signal propre : générer des trajectoires candidates, simuler dans un espace latent, choisir la meilleure, sans toucher au modèle sous-jacent. Le chunking en boucle ouverte, c'est le point faible silencieux de tous les VLA actuels (ça marche dans 80% des cas, alors on n'en parle pas trop). Pour les intégrateurs qui déploient sans accès au pipeline d'entraînement, une couche qui corrige à l'inférence sans réentraîner, c'est la pièce manquante.

IA physiqueOpinion
1 source
Le prochain robot humanoïde pourrait ne pas ressembler à un humain
110The Verge 

Le prochain robot humanoïde pourrait ne pas ressembler à un humain

La startup française Genesis AI a présenté Eno, un robot se réclamant du "général purpose" sans reproduire la silhouette humaine. Soutenue par Eric Schmidt, ancien PDG de Google, la société fait le choix radical d'une morphologie repensée : pas de tête au sens classique, une base potentiellement sur roues, une structure compacte et pliable. Seul élément fidèle à l'anatomie : les mains, conçues pour reproduire "exactement la forme et les fonctions" de la main humaine. Genesis AI positionne Eno comme un robot polyvalent capable d'une large gamme de tâches, à l'opposé des machines spécialisées. Les métriques techniques précises (charge utile, degrés de liberté, prix) n'ont pas été communiquées. Ce parti pris interroge une hypothèse dominante du secteur : pourquoi l'humanoïde doit-il ressembler à un humain ? La réponse de Genesis est fonctionnelle. Ce qui compte, c'est la compatibilité avec des environnements et des outils conçus pour des mains humaines, pas la forme du torse ou l'existence d'un visage. Pour les intégrateurs industriels, cela ouvre une piste concrète : des robots ergonomiquement compatibles avec l'espace de travail humain, potentiellement moins coûteux si les composants non fonctionnels sont supprimés. Genesis AI s'inscrit dans une vague de startups françaises de robotique avancée, aux côtés de Wandercraft (exosquelettes) et Enchanted Tools (robots hospitaliers). Le soutien d'Eric Schmidt lui donne une visibilité internationale dans un secteur dominé par Figure AI, Agility Robotics, Boston Dynamics côté américain et Unitree ou Fourier Intelligence côté asiatique. Eno reste à ce stade un teaser : aucun déploiement ni pilote industriel n'a été annoncé, et les performances réelles du système restent entièrement à démontrer.

UEGenesis AI est une startup française dont le projet Eno, soutenu par Eric Schmidt, renforce la visibilité internationale de l'écosystème robotique français, bien que le produit reste à un stade de teaser sans métriques ni déploiement validés.

FR/EU ecosystemeOpinion
1 source
DexLink Hand : une main compacte et abordable à 16 degrés de liberté dotée d'une dextérité humaine
111arXiv cs.RO 

DexLink Hand : une main compacte et abordable à 16 degrés de liberté dotée d'une dextérité humaine

Une équipe de chercheurs a publié fin juin 2026 sur arXiv (arXiv:2606.17418) les spécifications techniques de la DexLink Hand, une main robotique anthropomorphe à 16 degrés de liberté intégrant 20 articulations commandées par 16 actionneurs indépendants. Le prototype, de la taille d'une main humaine, pèse 320 grammes et affiche un coût total inférieur à 400 dollars, un seuil rarissime pour ce niveau de polyvalence. L'architecture mécanique repose sur un système hybride de mécanismes à liaisons planes et spatiales, permettant des mouvements multidirectionnels découplés, des synergies articulaires biomimétiques et une forte capacité de charge passive sans actionnement. Le pouce intègre des caractéristiques biomimétiques supportant les mouvements de reconfiguration et d'opposition propres à la main humaine. Lors des évaluations expérimentales, la main a atteint le score de Kapandji maximal (référence standard en chirurgie et robotique pour évaluer l'amplitude de mouvement du pouce) et a reproduit les 33 types de préhension du catalogue Feix, couvrant l'intégralité des prises répertoriées sur des sujets humains. L'intérêt industriel du travail réside principalement dans le ratio coût/dextérité : les mains robotiques commerciales atteignant un niveau comparable (Shadow Dexterous Hand, Allegro Hand) se situent entre 5 000 et 70 000 dollars, rendant leur déploiement en série peu viable. Un module à moins de 400 dollars change les calculs pour les intégrateurs de robots humanoïdes ou de cellules de téléopération. La masse de 320 g est également compatible avec les bras des humanoïdes de nouvelle génération, dont les payloads distaux sont souvent contraints à moins de 500 g. La reproduction de l'intégralité des types Feix constitue une donnée concrète pour le robot learning : les datasets entraînés sur des démonstrations humaines deviennent directement exploitables sans remapping cinématique, ce qui réduit le gap sim-to-real pour les approches VLA (vision-language-action). Le défi de la main dextère est structurel dans le secteur : la majorité des plateformes humanoïdes commerciales (Figure 03, Tesla Optimus Gen 3, Agility Digit, Unitree H1) utilisent encore des mains simplifiées à 2 à 6 DOF pour des raisons de robustesse et de coût. Ce prototype reste pour l'heure un démonstrateur académique sans annonce de commercialisation ni partenariat industriel déclaré. Les chercheurs le positionnent explicitement pour la manipulation dextère, la téléopération et le robot learning en environnements centrés sur l'humain, des cas d'usage directement alignés avec les feuilles de route de Boston Dynamics, de 1X Technologies ou des équipes travaillant sur Pi-0 (Physical Intelligence). Aucune timeline d'intégration sur un bras complet ni d'évaluation en conditions industrielles n'est communiquée.

HumanoïdesPaper
1 source
OmniRetarget : génération de données préservant les interactions pour la loco-manipulation corps entier des humanoïdes
112arXiv cs.RO 

OmniRetarget : génération de données préservant les interactions pour la loco-manipulation corps entier des humanoïdes

OmniRetarget est un pipeline de génération de données pour l'apprentissage par renforcement (RL) sur robots humanoïdes, présenté dans un préprint arXiv (2509.26633, v3). Face au problème du retargeting, qui consiste à convertir des captures de mouvement humain en références cinématiques exploitables par un robot, les méthodes existantes produisent des artefacts physiquement incohérents comme le glissement des pieds (foot-skating) ou la pénétration de surfaces, et ignorent les interactions humain-objet et humain-environnement. OmniRetarget introduit un "interaction mesh", un maillage intermédiaire qui modélise et préserve explicitement les relations spatiales et de contact entre l'agent, le terrain et les objets manipulés, via une minimisation par déformation laplacienne sous contraintes cinématiques. Évalué sur les datasets OMOMO, LAFAN1 et des données MoCap propriétaires, il génère plus de 8 heures de trajectoires de meilleure qualité que les baselines de référence. Appliqué au robot humanoïde Unitree G1, il permet d'exécuter des tâches de parkour et de loco-manipulation sur des horizons allant jusqu'à 30 secondes, entraîné avec seulement 5 termes de récompense et sans curriculum d'apprentissage. L'intérêt pour les chercheurs et intégrateurs réside dans deux apports combinés : la qualité cinématique améliorée réduit le sim-to-real gap, tandis que la préservation des interactions permet d'augmenter une démonstration unique vers différentes morphologies de robots, terrains et configurations d'objets, multipliant l'efficacité de la donnée. Plus significatif encore, l'obtention de comportements de loco-manipulation longs et complexes avec seulement 5 termes de récompense partagés entre toutes les tâches contredit l'hypothèse sectorielle selon laquelle ce type de compétences exige un reward engineering élaboré ou un curriculum progressif. Le paradigme dominant pour l'apprentissage humanoïde repose sur le retargeting MoCap vers des références RL, aux côtés de la télé-opération et de l'imitation directe. Le Unitree G1, produit par le fabricant chinois Unitree Robotics, s'est imposé comme plateforme académique de facto dans ce domaine, face à l'Atlas de Boston Dynamics, aux humanoïdes de Figure AI et d'Agility Robotics. OmniRetarget reste à ce stade une contribution de recherche sans annonce de déploiement industriel ; sa robustesse dans des environnements non structurés, où la géométrie de contact est imprévisible, reste à démontrer hors laboratoire.

RecherchePaper
1 source
Alibaba dévoile Qwen-Robot : trois modèles fondation pour l'IA incarnée
113TechNode 

Alibaba dévoile Qwen-Robot : trois modèles fondation pour l'IA incarnée

Alibaba a publié mardi une suite robotique composée de trois modèles fondamentaux : Qwen-RobotNav, Qwen-RobotManip et Qwen-RobotWorld. Qwen-RobotNav étend les capacités vision-langage à la robotique mobile en unifiant quatre tâches au sein d'un même framework : suivi d'instructions, navigation orientée objectif, tracking de cible et conduite autonome. Qwen-RobotManip standardise l'espace état-action et représente le mouvement de l'effecteur terminal sous forme de poses incrémentielles dans le référentiel caméra, une approche conçue pour faciliter la généralisation multi-plateforme. Ce modèle a été entraîné sur plus de 38 100 heures de données entièrement open source. Qwen-RobotWorld, le troisième composant, fonctionne comme un world model généraliste : il prédit des états futurs physiquement cohérents via une interface en langage naturel, couvrant simultanément la navigation, la conduite et la manipulation depuis un seul modèle. L'approche modulaire mais unifiée est la proposition de valeur centrale de cette suite. Un world model unique opérant sur trois domaines d'action représente une architecture qui, si elle tient ses promesses en conditions réelles, réduirait significativement les coûts d'intégration pour les équipes robotiques industrielles. L'utilisation de données entièrement open source pour Qwen-RobotManip est un signal notable dans un secteur où les datasets propriétaires constituent souvent un avantage concurrentiel défensif : Alibaba positionne ainsi Qwen-Robot davantage comme une infrastructure partagée que comme un produit fermé. Réserve importante cependant : l'annonce ne s'accompagne d'aucun benchmark public (RLBench, LIBERO, CARLA) ni de déploiement physique documenté. Il s'agit d'une publication de modèles, pas d'un produit shipé. L'équipe Qwen d'Alibaba est reconnue pour ses modèles multimodaux (Qwen2.5-VL, QwQ), mais ce lancement marque son entrée explicite dans l'embodied AI. Le terrain est disputé : Google DeepMind pousse ses dérivés de RT-2, Physical Intelligence a publié Pi-0 et Pi-0.5, Hugging Face soutient l'initiative LeRobot, et NVIDIA propose GR00T N2 comme backbone pour les robots humanoïdes partenaires. Côté chinois, Unitree, Agibot et Zhiyuan Robot accélèrent eux aussi leurs pipelines VLA (vision-language-action). La prochaine étape pour Alibaba sera de démontrer des résultats sur des plateformes matérielles réelles ; faute de quoi, Qwen-Robot restera un framework académique parmi d'autres dans une course déjà très chargée.

UEImpact indirect sur l'écosystème européen : la suite open-source d'Alibaba accentue la pression concurrentielle sur les initiatives VLA portées par des acteurs à ancrage européen comme Hugging Face (LeRobot), sans déploiement physique documenté en Europe à ce stade.

IA physiqueOpinion
1 source
Suivi binaire pour la QA spatiale et la navigation avec des modèles vision-langage ouverts
114arXiv cs.RO 

Suivi binaire pour la QA spatiale et la navigation avec des modèles vision-langage ouverts

Une équipe de chercheurs publie sur arXiv (référence 2606.16902) un agent de localisation spatiale open-source baptisé BinTrack, conçu pour permettre à des robots de service de répondre à des questions du type « où puis-je trouver un pressing sur le chemin du retour ? » et de retourner une coordonnée métrique exploitable directement par les modules de navigation. Le système s'appuie sur un robot quadrupède réel déployé dans des rues publiques de Séoul pour constituer GangnamLoop, un nouveau benchmark multi-trajets en extérieur. BinTrack atteint une amélioration de précision allant jusqu'à 22,8 % par rapport aux autres implémentations open-source sur SpaceLocQA, le benchmark de référence du domaine, et égale les résultats des agents basés sur GPT-4o sur la catégorie « global », la plus difficile. Il offre par ailleurs un gain de vitesse d'inférence supérieur à 1,5x par rapport aux approches précédentes. L'intérêt principal de BinTrack pour les intégrateurs et les décideurs industriels tient à son architecture entièrement embarquée et déconnectée. Les approches existantes de Spatial Question Answering s'appuyaient sur des modèles fermés comme GPT-4o via des agents RAG (retrieval-augmented generation), ce qui implique une dépendance réseau, une latence de communication et des coûts d'API prohibitifs pour une flotte de robots en production. BinTrack remplace cela par une recherche binaire sur les segments de trajectoire entre deux repères spatiaux extraits de la requête, en exploitant l'ordre temporel du trajet. Ce faisant, le travail démontre qu'un modèle de vision-langage open-source peut rivaliser avec GPT-4o sur un benchmark spatial de référence, sans connexion cloud, une hypothèse que beaucoup dans le secteur considéraient non résolue à ce stade. GangnamLoop se distingue des benchmarks indoor habituels : il capture les mêmes lieux sous différentes conditions extérieures et croise le point de vue bas du robot quadrupède avec celui de son propriétaire humain, ce qui en fait un jeu de données plus réaliste pour la navigation piétonne en ville. La recherche spatiale embarquée reste un domaine peu exploré par rapport aux approches cloud-first ; des acteurs comme Boston Dynamics, Unitree ou les équipes robotique de Google DeepMind travaillent sur des problèmes connexes, mais rarement avec une contrainte d'inférence locale aussi explicite. Le code et les données de GangnamLoop sont disponibles publiquement sur GitHub, ce qui ouvre la voie à des évaluations indépendantes et à des intégrations dans des pipelines de navigation autonome en contexte réel.

RechercheOpinion
1 source
LoComposition : locomotion quadrupède économe en énergie et adaptée au terrain, sans a priori de démarche
115arXiv cs.RO 

LoComposition : locomotion quadrupède économe en énergie et adaptée au terrain, sans a priori de démarche

Une équipe de chercheurs publie LoComposition (arXiv:2606.15896, juin 2026), une méthode d'apprentissage par renforcement pour la locomotion quadrupède qui décompose les objectifs en mécanismes distincts plutôt que de les fusionner dans une fonction de récompense monolithique. Le système confie à des composants séparés ce que les approches classiques entremêlent : les récompenses gèrent la spécification de tâche, des contraintes encadrent les limites opérationnelles, la minimisation d'énergie pilote les préférences de démarche, et la perception extéroceptive (cartographie d'élévation LiDAR) adapte la consommation énergétique à la difficulté du terrain. Par rapport à une baseline conventionnelle à récompense complexe, LoComposition atteint des performances comparables de franchissement de terrain tout en réduisant le coût de transport de 56 % et les violations de limites opérationnelles de 96 %. La politique entraînée en simulation se transfère ensuite en zero-shot sur un robot quadrupède Unitree Go2 physique sans recalibration manuelle. L'apport central est la suppression des gait priors explicites, c'est-à-dire les cibles de temps de vol, de nombre de contacts au sol et de clairance des pieds, au profit de comportements de démarche émergents. Pour les équipes d'intégration, cela signifie moins d'ingénierie manuelle des récompenses et une meilleure généralisation à des terrains non vus en entraînement. La réduction de 56 % du coût de transport est directement pertinente pour les déploiements sur batteries à autonomie prolongée, scénario typique de l'inspection industrielle ou de la surveillance de site. L'analyse par ablation des chercheurs, montrant que retirer chaque composant expose un mode d'échec distinct, valide la cohérence de l'architecture et confirme que les gains ne sont pas le résultat d'un ajustement opportuniste des hyperparamètres. Cette contribution s'inscrit dans la dynamique de locomotion quadrupède par renforcement dominée depuis 2020 par le Robotics Systems Lab de l'ETH Zurich (ANYmal, séries RMA et Parkour) et Carnegie Mellon University. Le Unitree Go2, plateforme commerciale accessible, est devenu un banc d'essai standard pour la recherche académique, ce qui facilite la reproductibilité des résultats. Du côté industriel, ANYbotics et Boston Dynamics (Spot) développent des solutions propriétaires sur des trajectoires similaires mais ne publient pas leurs méthodes. LoComposition reste à ce stade une contribution de recherche fondamentale : aucun pilote industriel ni timeline de commercialisation n'est annoncé dans le preprint.

RecherchePaper
1 source
THEKER lève 85 millions de dollars : l’Europe produit enfin ses candidats à la robotique généraliste
116FrenchWeb 

THEKER lève 85 millions de dollars : l’Europe produit enfin ses candidats à la robotique généraliste

La startup barcelonaise THEKER a annoncé une levée de fonds de 85 millions de dollars, s'imposant comme l'un des paris les plus ambitieux de l'écosystème européen sur la robotique généraliste. Ce financement, dont les détails du tour et des investisseurs n'ont pas été précisés dans l'annonce publique, intervient alors que le secteur de l'intelligence physique connaît une accélération notable des investissements à l'échelle mondiale. THEKER développe des robots capables d'accomplir une grande variété de tâches dans des environnements non structurés, une approche dite "généraliste" qui contraste avec les robots industriels traditionnels, conçus pour des tâches répétitives et prédéfinies. Ce financement marque un tournant pour la scène technologique européenne, longtemps absente de la course à la robotique avancée dominée par des acteurs américains comme Figure AI ou Physical Intelligence, et asiatiques comme Unitree. Pour l'industrie, l'enjeu est considérable : des robots capables de s'adapter à des contextes variés pourraient transformer la logistique, les soins, la construction et l'agriculture sans nécessiter de reprogrammation coûteuse. THEKER représente ainsi un signal que l'Europe peut produire des challengers crédibles dans ce segment stratégique. Après trois années dominées par les modèles de langage, les data centers et les agents logiciels, les capitaux se redirigent désormais vers l'intelligence physique, c'est-à-dire la capacité des machines à agir dans le monde réel. Plusieurs facteurs alimentent cette tendance : la maturité des modèles de fondation multimodaux, la baisse des coûts des composants mécaniques et la pression des industriels cherchant à automatiser dans un contexte de pénurie de main-d'oeuvre. THEKER devra démontrer que ses robots tiennent leurs promesses hors des laboratoires, face à une compétition mondiale qui se densifie rapidement.

UETHEKER, startup barcelonaise, s'impose comme l'un des premiers challengers européens crédibles dans la robotique généraliste, un secteur stratégique jusqu'ici dominé par des acteurs américains et asiatiques.

HumanoïdesOpinion
1 source
Vidéo : des robots humanoïdes volent la vedette dans America's Got Talent
117Interesting Engineering 

Vidéo : des robots humanoïdes volent la vedette dans America's Got Talent

Huit robots humanoïdes G1 du fabricant chinois Unitree ont performé en direct sur NBC lors du premier épisode de la saison en cours d'America's Got Talent, diffusé mardi soir aux États-Unis. Aux côtés du danseur Wu Yufei, originaire du Sichuan et connu sous le pseudonyme "Flying Bug", les machines ont exécuté une chorégraphie synchronisée combinant mouvements rythmés et coordination précise avec l'interprète humain. Le numéro a reçu une ovation debout du public en studio et l'approbation unanime des quatre juges, propulsant le duo vers la prochaine étape d'une compétition dotée d'un grand prix d'un million de dollars. Yufei a présenté l'un des robots sous le surnom "Jackie", en référence au kung-fu. Le mode de pilotage des machines pendant la performance (téléopération partielle, séquences préenregistrées ou autonomie hybride) n'a pas été divulgué par l'équipe, un point que les commentateurs spécialisés n'ont pas manqué de relever. La prestation illustre un paradoxe croissant aux États-Unis: l'enthousiasme du grand public pour les humanoïdes chinois se heurte à une pression législative grandissante. Le lendemain même de la diffusion, une proposition de loi bipartisane, le Guard Act, a été déposée au Congrès pour interdire les robots d'origine chinoise jugés risques pour la sécurité nationale. En parallèle, l'American Security Robotics Act avance avec pour objectif d'empêcher les agences fédérales d'acquérir des robots produits par des entreprises chinoises, humanoïdes inclus. Pour les décideurs B2B et les intégrateurs industriels, cette double dynamique crée une incertitude réelle: adopter une technologie qui capte l'adhésion populaire tout en naviguant un risque réglementaire croissant. La visibilité télévisée d'Unitree renforce la crédibilité commerciale de ses machines auprès des acheteurs non spécialisés, un levier marketing qu'aucun salon professionnel ne peut reproduire à cette échelle. Fondée à Hangzhou, Unitree commercialise ses robots à l'international via la plateforme AliExpress d'Alibaba, ciblant les marchés d'Amérique du Nord, d'Europe et du Japon. La société a récemment annoncé un partenariat avec Nvidia pour concevoir un design de référence humanoïde baptisé H2+, dont la disponibilité est prévue pour la fin de l'année. Sur le terrain, les observateurs notent que le déploiement opérationnel des robots chinois à l'étranger se heurte à des obstacles concrets: identification des cas d'usage industriels, collecte de données opérationnelles, et construction de réseaux locaux de maintenance, d'intégration et de calibration. Face à Unitree, le marché des humanoïdes voit s'affronter Figure AI (Figure 02), Tesla (Optimus Gen 2), Boston Dynamics (Atlas électrique), Physical Intelligence (pi0) et Agility Robotics (Digit), tous positionnés sur des verticales industrielles précises. L'apparition télévisée ne règle aucun de ces défis opérationnels, mais marque une étape dans la bataille pour la normalisation culturelle des humanoïdes auprès du grand public américain.

UEUnitree ciblant explicitement les marchés européens via AliExpress, la pression réglementaire américaine sur les robots chinois (Guard Act, American Security Robotics Act) pourrait inspirer des mesures similaires en Europe sur l'acquisition de robotique d'origine chinoise par les entités publiques et industrielles.

Chine/AsieOpinion
1 source
IA incarnée sûre pour les tâches à long horizon : une analyse multi-couches de la manipulation robotique
118arXiv cs.RO 

IA incarnée sûre pour les tâches à long horizon : une analyse multi-couches de la manipulation robotique

Une équipe de chercheurs publie sur arXiv (identifiant 2606.05660, juin 2026) une revue systématique de la sécurité dans les systèmes d'IA incarnée (embodied AI) appliqués à la manipulation robotique à long horizon. Ce survey structure la littérature selon trois niveaux d'intervention : la sécurité au stade de la planification (planning-time), au niveau de la politique de contrôle (policy-time) et pendant l'exécution (execution-time). Les auteurs identifient quatre vecteurs de risque pouvant s'accumuler dans un même système en boucle fermée : le misgrounding sémantique (l'agent interprète mal l'instruction de haut niveau), la propagation d'erreur entre sous-tâches, la dérive d'exécution (execution drift) et les risques physiques liés aux contacts. Ils distinguent par ailleurs trois catégories de garanties dans la littérature existante : formelles, statistiques et heuristiques empiriques, et concluent que les preuves formelles font défaut à chaque couche. L'enjeu est direct pour les intégrateurs et les décideurs industriels. Un bras robotique déployé en entrepôt ou en ligne de production enchaîne des dizaines d'actions sur des horizons temporels étendus, et chaque sous-tâche peut propager silencieusement une erreur vers les suivantes. Or le survey révèle que la sécurité au niveau de la politique de contrôle, au coeur même des modèles VLA (Vision-Language-Action) comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, est la couche la moins documentée empiriquement. Les mécanismes d'intervention déclenchés par l'incertitude (uncertainty-triggered intervention) restent immatures, et les benchmarks spécifiques à la sécurité en manipulation longue durée sont quasi-inexistants, ce qui rend toute validation rigoureuse avant déploiement aujourd'hui difficile. Ce travail paraît dans un contexte d'accélération industrielle : Figure AI, Boston Dynamics, Unitree et Physical Intelligence multiplient les démonstrations de manipulation dextère, souvent en conditions semi-contrôlées, alimentant un écart potentiel entre annonces marketing et réalité opérationnelle. Il convient de souligner que ce papier est une analyse critique de l'existant, pas un nouveau système ou algorithme. Ses recommandations prioritaires portent sur trois axes : des assurances cross-couche cohérentes de la planification jusqu'à l'exécution physique, des benchmarks dédiés à la sécurité en manipulation longue durée, et des protocoles de déploiement progressifs pour les agents robotiques en environnements réels. En creux, le constat est que les capacités du secteur progressent plus vite que les outils pour en évaluer la sécurité.

UEL'absence de benchmarks formels de sécurité pour la manipulation longue durée concerne directement les industriels européens déployant des bras robotisés, et pourrait alimenter les exigences de validation dans le cadre de l'AI Act pour les systèmes robotiques à haut risque.

RecherchePaper
1 source
M3imic : apprentissage d'un contrôleur corps entier polyvalent pour l'imitation multimodale de mouvements
119arXiv cs.RO 

M3imic : apprentissage d'un contrôleur corps entier polyvalent pour l'imitation multimodale de mouvements

Des chercheurs de Renforce Dynamics ont publié le 5 juin 2026 sur arXiv un article présentant M3imic (Multi-Modal Mimic), un contrôleur corps entier destiné aux robots humanoïdes. L'objectif : unifier dans une seule politique d'apprentissage par renforcement trois types de références de mouvement jusqu'ici traités séparément, les trajectoires articulaires du robot (angles de joints), les trajectoires de pose humaine capturées par motion capture, et les poses d'effecteurs terminaux (end-effector poses). Le système exploite des encodeurs spécialisés par modalité pour projeter ces données hétérogènes dans un espace latent commun, puis entraîne une politique unique à grande échelle en simulation. Les expériences sont conduites sur le robot humanoïde Unitree G1 : en simulation, la politique atteint un taux de succès maximal de 98,42 % sur un jeu de test non vu, et un transfert sim-to-réel est démontré sans réentraînement spécifique à chaque modalité. Le code source est disponible publiquement sur GitHub. Le problème que M3imic cherche à résoudre est structurel : les contrôleurs corps entier existants traitent la locomotion et la manipulation comme deux domaines distincts, avec des formats de données incompatibles, des vecteurs denses d'angles articulaires d'un côté, des poses 6-DOF d'effecteurs creuses de l'autre. Forcer une seule politique à ingérer ces deux représentations sans architecture dédiée dégrade les performances. M3imic propose une solution architecturale rather than une solution de données : un espace latent partagé avec encodeurs par modalité, ce qui permet à une même politique de piloter aussi bien la marche que la manipulation sans compromis de performance. Pour les intégrateurs et équipes robotiques, cela réduit potentiellement le coût de développement en éliminant le besoin de pipelines parallèles par type de tâche. Le robot cible, le Unitree G1, est un humanoïde commercialisé depuis 2024 à environ 16 000 dollars, devenu une plateforme de référence pour la recherche en locomotion et loco-manipulation grâce à son accessibilité. Renforce Dynamics est un laboratoire ou startup dont M3imic constitue l'une des premières publications publiques. Dans le paysage concurrent, les approches comparables incluent les travaux de Berkeley Humanoid (Pi-0 de Physical Intelligence), les contrôleurs corps entier de CMU et ETH Zurich, et les politiques VLA de Figure AI, tous confrontés au même défi du sim-to-real gap sur tâches mixtes locomotion-manipulation. M3imic se positionne explicitement sur l'unification multimodale plutôt que sur la performance brute d'une seule tâche. Les prochaines étapes naturelles seraient des déploiements en environnement non structuré et une évaluation sur des humanoïdes à plus haute cinématique (plus de DOF, payload supérieur).

IA physiqueOpinion
1 source
Transfert de style de mouvement humain pour le contrôle physique de robots humanoïdes
120arXiv cs.RO 

Transfert de style de mouvement humain pour le contrôle physique de robots humanoïdes

Un groupe de chercheurs présente dans un preprint arXiv (2606.03536, soumis le 3 juin 2026) un framework de transfert de style de mouvement pour robots humanoïdes. Le système prend en entrée un court clip humain illustrant un style moteur désiré (rythme de marche, balancement des bras, posture) et un mouvement cible distinct, puis génère un mouvement corps entier stylisé adapté au robot. Le modèle central est un modèle de diffusion latente multi-condition, sensible à la physique, fusionnant conditions de style, de contenu et de trajectoire. La guidance classifier-free permet d'ajuster l'intensité du style sans réentraîner le modèle. Les références générées sont ensuite converties pour le robot Unitree G1 et exécutées par une politique de suivi corps entier entraînée via une stratégie "cluster-and-distill". Sur 125 essais sur robot réel, la méthode atteint un taux de réussite de 96,0 %, avec moins d'artefacts de contact et de jitter que les baselines orientées animation. Ce résultat remet en question le paradigme dominant où chaque comportement expressif d'un humanoïde est soit capturé en démonstration directe, soit scripté manuellement, deux approches coûteuses et non réutilisables entre contenus de mouvement différents. En permettant à un court clip humain de servir de source de style transférable sur des contenus arbitraires, le framework ouvre la voie à une personnalisation motrice procédurale. L'écart simulation-hardware est adressé directement par des régularisations de cohérence de contact et de lissage temporel imposées lors de l'entraînement, un point de friction récurrent dans la chaîne génération-contrôle. Un taux de 96 % sur 125 essais réels représente un résultat solide pour de la recherche académique dans ce domaine, où beaucoup de travaux restent confinés à la simulation. Le Unitree G1 (environ 16 000 dollars) s'est imposé ces 18 derniers mois comme la plateforme de référence pour la recherche humanoïde académique. Ces travaux s'inscrivent dans la tendance des modèles de diffusion appliqués à la génération de mouvement (MDM, MotionDiffuse), prolongée ici jusqu'au contrôle physique sur hardware réel. Dans la course à l'expression motrice des humanoïdes, Boston Dynamics (Atlas), Figure et 1X investissent massivement côté imitation learning et VLA end-to-end, tandis que ce preprint se positionne sur la génération procédurale contrôlée, approche complémentaire. Du côté européen, Wandercraft et Enchanted Tools (France, robot Mirokaï) travaillent sur des problématiques d'expression motrice proches, sur des architectures distinctes. La suite logique serait l'intégration de ce framework dans des pipelines de téléopération ou d'interfaces humain-robot en conditions industrielles réelles.

UEWandercraft et Enchanted Tools (France) travaillent sur des problématiques d'expression motrice similaires et pourraient s'inspirer de cette approche de transfert de style procédural sur hardware réel.

HumanoïdesPaper
1 source
LEGS : affinage de VLA sans téléopération pour la loco-manipulation humanoïde dans un monde Gaussian Splatting incarné
121arXiv cs.RO 

LEGS : affinage de VLA sans téléopération pour la loco-manipulation humanoïde dans un monde Gaussian Splatting incarné

Des chercheurs présentent LEGS (Loco-manipulation via Embodied Gaussian Splatting), un simulateur hybride qui combine un avant-plan en maillage 3D avec un arrière-plan photoréaliste en Gaussian Splatting 3D (3DGS) pour entraîner des politiques vision-langage-action (VLA) sur humanoïdes sans téleopération humaine. Un générateur procédural de primitives de mouvement produit automatiquement des démonstrations annotées à grande échelle, tandis qu'une calibration colorimétrique à deux étapes aligne le rendu simulé avec la caméra réelle du robot. Sur un Unitree G1, sur trois tâches de saisie-dépose de difficulté croissante et avec trois architectures VLA (ψ₀, π₀.5 et GR00T N1.6), une politique entraînée exclusivement sur données LEGS égale ou dépasse, selon les auteurs, une politique entraînée sur démonstrations téleopérées. La couverture d'une nouvelle scène coûterait plus de quinze fois moins qu'une collecte par téleopération, une affirmation à vérifier hors du cadre expérimental : les résultats restent au stade de préprint arXiv (2606.01458) non soumis à revue par les pairs. Le résultat le plus structurant est la réduction effective du fossé simulation-réalité pour la loco-manipulation humanoïde corps entier, un problème que les simulateurs à maillage seul n'avaient pas résolu jusqu'ici. L'ablation le confirme : supprimer le fond 3DGS au profit d'un environnement mesh-only dégrade significativement les transferts, établissant le rendu photoréaliste comme facteur déterminant et non accessoire. Sous variations combinées d'apparence d'objet et de scène (scénario LEGS-AUG), la politique LEGS maintient son taux de succès tandis que la politique téleopérée échoue entièrement, ce qui valide empiriquement que les VLA nécessitent une diversité visuelle synthétique pour généraliser. Pour les intégrateurs et équipes robotiques, cela ouvre une voie scalable vers de nouveaux environnements industriels sans mobiliser d'opérateurs dédiés. LEGS s'appuie sur la technique 3DGS, popularisée en 2023 pour la reconstruction photoréaliste de scènes à partir d'images, et l'adapte en fond simulé pour l'entraînement de politiques. Les architectures testées incluent π₀.5 de Physical Intelligence et GR00T N1.6 de NVIDIA, deux acteurs centraux de l'espace VLA humanoïde, aux côtés desquels Boston Dynamics, Figure AI, Agility Robotics et Tesla Optimus avancent sur leurs propres pipelines de données synthétiques. Le Unitree G1, l'un des humanoïdes commerciaux les plus accessibles du marché, ancre les expériences dans un contexte potentiellement déployable. Les suites logiques incluent l'extension au-delà du pick-and-place, la publication du code et des données, et des tests en environnements industriels réels pour valider la robustesse hors laboratoire.

UELes équipes européennes en robotique humanoïde (CEA-List, INRIA, startups FR) pourraient adopter cette approche pour réduire drastiquement les coûts de collecte de données VLA sans téleopération, mais aucun acteur européen n'est impliqué dans l'étude.

IA physiqueOpinion
1 source
Suivi corporel intégral contraint pour robots humanoïdes
122arXiv cs.RO 

Suivi corporel intégral contraint pour robots humanoïdes

Des chercheurs ont publié sur arXiv (2606.00374) un framework de contrôle baptisé ConstrainedMimic, conçu pour imposer des contraintes de sécurité en temps réel sur des robots humanoïdes pilotés par apprentissage par renforcement. La démonstration s'appuie sur un Unitree G1 simulé : le système fait tourner la politique de suivi de mouvement whole-body à 300-500 Hz, indifféremment sur CPU, GPU ou TPU, tout en garantissant simultanément l'évitement de collisions (auto-collisions et obstacles externes), le respect des butées articulaires et la stabilité du centre de masse. Les expériences couvrent le suivi de mouvements cinématiques référencés et la téléopération. Le code sera libéré à la publication. L'enjeu sous-jacent est structurant pour l'industrialisation des humanoïdes : les politiques RL apprennent des comportements agiles mais ne savent pas, par défaut, respecter des contraintes ajoutées après entraînement, ce qui bloque le déploiement dans des environnements où les exigences de sécurité évoluent (cellule de travail reconfigurée, proximité opérateur, certification CE). ConstrainedMimic répond à ce problème en combinant deux outils de contrôle classiques, le contrôle en espace opérationnel (OSC) et les control barrier functions (CBF), pour projeter la commande du réseau de neurones dans un espace faisable respectant les contraintes actives. La méthode est entièrement différentiable et n'altère la politique que le strict minimum lorsqu'une contrainte entre en jeu, ce qui la distingue des approches d'override brutales. C'est un pas vers la séparation propre entre performance et sécurité dans les pipelines RL pour humanoïdes. Le sujet s'inscrit dans une course active à la robustesse des politiques whole-body : Figure (Figure 02/03), Boston Dynamics (Atlas), Agility Robotics (Digit) et Unitree investissent massivement en RL locomotion, mais la question des garanties formelles reste un angle mort industriel. Les CBF sont bien établies en robotique mobile (AMR, véhicules autonomes) mais leur intégration dans des politiques RL pour humanoïdes à haute dimension cinématique est encore exploratoire. À noter : l'évaluation reste entièrement en simulation, ce qui laisse ouverte la question du sim-to-real gap sur les contraintes dynamiques, un point que les auteurs n'adressent pas dans cet abstract. La publication du code facilitera la reproductibilité et pourrait accélérer l'adoption dans des labos comme le DLR, l'INRIA ou des intégrateurs industriels européens travaillant sur la certification de robots collaboratifs.

UELa publication du code pourrait permettre à des laboratoires européens comme l'INRIA ou le DLR d'intégrer des garanties formelles de sécurité dans leurs pipelines RL pour humanoïdes, facilitant la certification CE de robots collaboratifs en environnement industriel partagé.

HumanoïdesPaper
1 source
Apprentissage du contrôle corps entier adapté au terrain pour la loco-manipulation perceptive de robots à pattes
123arXiv cs.RO 

Apprentissage du contrôle corps entier adapté au terrain pour la loco-manipulation perceptive de robots à pattes

Une équipe de chercheurs a publié sur arXiv (référence 2605.31343, mai 2026) un framework baptisé TA-WBC (Terrain-Aware Whole-Body Control) destiné aux manipulateurs à pattes, c'est-à-dire des robots combinant membres locomoteurs (quadrupèdes ou bipèdes) et bras articulés. Le coeur du système est une politique unifiée entraînée par apprentissage par renforcement (RL) qui pilote simultanément les jambes et le bras lors de tâches de loco-manipulation, terme désignant la capacité à se déplacer et manipuler des objets en même temps. L'architecture repose sur trois briques techniques : un encodeur d'extéroception hybride qui extrait en temps réel les caractéristiques du terrain, une méthode d'échantillonnage de l'effecteur final ancrée sur le plan de contact des pieds pour découpler la cible de manipulation des oscillations du torse, et un module de distillation à double politique pour intégrer motricité étendue et adaptabilité sans effacement catastrophique des compétences acquises. Les expériences en simulation et en environnement réel montrent une zone atteignable agrandie, une erreur de tracking réduite et moins de trébuchements imprévus. Ce travail s'attaque à une limitation structurelle des contrôleurs corps entier existants : leur dépendance quasi exclusive à la proprioception (capteurs internes, IMU, encodeurs) au détriment de l'extéroception (perception externe du terrain). En milieux industriels complexes comme les chantiers, les entrepôts en hauteur variable ou les sites nucléaires, cette lacune rend les plateformes mobiles-manipulatrices peu fiables dès que le sol n'est plus plan. Le découplage effecteur/torse est particulièrement notable pour les intégrateurs : il signifie que le bras peut maintenir une trajectoire stable même quand le corps compense une marche irrégulière, ce qui est un prérequis non négociable pour tout assemblage ou saisie de précision en terrain dégradé. La validation sim-to-real, même partielle, renforce la crédibilité d'une approche qui reste à ce stade un preprint non commercialisé. Les manipulateurs à pattes constituent une catégorie en pleine structuration. Boston Dynamics commercialise Spot avec bras depuis 2021, Unitree propose le B2W équipé d'un bras, et plusieurs laboratoires académiques majeurs (ETH Zurich, CMU, Berkeley) publient régulièrement sur la loco-manipulation. Le verrou que TA-WBC cherche à lever, la perception de topologie de terrain couplée au contrôle corps entier, est précisément ce qui freine le déploiement de ces plateformes au-delà des environnements structurés. Ce preprint n'annonce pas de produit ni de partenaire industriel ; il pose néanmoins une brique algorithmique que des acteurs comme Agility Robotics, Apptronik ou les équipes robotique de Google DeepMind pourraient intégrer dans leurs chaînes d'entraînement.

UETravail de recherche applicable aux déploiements industriels en environnements dégradés (sites nucléaires, entrepôts à topologie variable) présents en Europe, mais sans implication directe d'acteurs français ou européens.

RecherchePaper
1 source
ORBBEC s'étend au-delà de la vision robotique vers l'IA physique et l'impression 3D
124Pandaily 

ORBBEC s'étend au-delà de la vision robotique vers l'IA physique et l'impression 3D

ORBBEC (688322.SH), fabricant chinois de capteurs de vision 3D, annonce un élargissement stratégique vers quatre segments: Physical AI, vision IA généraliste, impression 3D et acquisition de données volumétriques. La société revendique plus de 70% de part de marché en Chine et en Corée du Sud sur le créneau vision robotique de service, s'appuyant sur une décennie de R&D qui lui a permis de taper une douzaine de puces propriétaires couvrant lumière structurée, iToF (temps de vol indirect), dToF et LiDAR. Ces capteurs sont d'ores et déjà intégrés dans les chaînes d'approvisionnement des fabricants d'humanoïdes AgiBot, UBTech et Unitree. Le 29 mai 2026, ORBBEC a élargi son partenariat avec Creality 3D, récemment introduite en bourse à Hong Kong, pour co-créer un centre d'innovation en scanners 3D et lancer une plateforme commune baptisée "3D Printing AI Vision Intelligent Platform". Financièrement, le premier trimestre 2026 affiche 203 millions de RMB de chiffre d'affaires, avec un bénéfice net retraité en hausse de 531% sur un an -- chiffre spectaculaire qui s'explique probablement par un faible niveau de base et qui reste à confirmer dans la durée. La portée industrielle de ce repositionnement tient à trois leviers combinés. En Physical AI, les capteurs ORBBEC alimentent les world models de simulation via une intégration confirmée dans NVIDIA Isaac Sim, ce qui positionne la société comme fournisseur de données réelles pour le cycle sim-to-real -- un noeud critique que peu d'acteurs hardware maîtrisent de bout en bout. Sur l'impression 3D, le contexte est porteur: les exports chinois du secteur ont progressé de 119% en glissement annuel sur les quatre premiers mois de 2026, rendant le partenariat Creality stratégiquement opportuniste. Enfin, la transition de "fournisseur de composants" vers "perception-as-a-service" signifie une montée vers les couches logicielles (reconnaissance, décision), ce qui modifie structurellement le profil de marges -- les analystes anticipent une amélioration du mix produit et une expansion des marges brutes tout au long de 2026. ORBBEC prend pied dans un marché longtemps dominé par des acteurs occidentaux aujourd'hui en retrait: Intel a arrêté sa gamme RealSense en 2023, Microsoft a mis fin à l'Azure Kinect la même année, laissant un vide que Stereolabs (ZED Camera), Photoneo ou Zivid cherchent à combler sur le segment industriel haut de gamme. ORBBEC se présente comme une alternative chinoise à coût compétitif, avec un ancrage fort sur le marché asiatique des robots de service et une ambition d'intégration verticale puce-algorithme-optique. Les prochaines étapes déclarées incluent le déploiement effectif du centre d'innovation commun avec Creality et le lancement commercial de la plateforme impression 3D. Les projections sectorielles évoquent un marché combiné scan-impression-modélisation 3D approchant les mille milliards de dollars sur la décennie -- une estimation à prendre avec précaution, mais qui illustre l'amplitude de la thèse de croissance que la société cherche à incarner.

UELe repositionnement d'ORBBEC intensifie la pression concurrentielle sur Stereolabs (France/ZED Camera) et Photoneo dans le segment capteurs 3D pour robotique industrielle, alors qu'Intel et Microsoft ont abandonné ce marché en 2023.

Chine/AsieOpinion
1 source
La Chine déploie des robots humanoïdes capables de trier 1 200 colis par heure dans un grand centre postal
125Interesting Engineering 

La Chine déploie des robots humanoïdes capables de trier 1 200 colis par heure dans un grand centre postal

La Chine a déployé des robots humanoïdes dans le centre logistique de Jianggao, rattaché au hub postal de Guangzhou (province du Guangdong), pour trier les colis à une cadence annoncée de 1 200 unités par heure. Des images diffusées cette semaine par l'agence Xinhua montrent ces systèmes humanoïdes travaillant en parallèle avec des bras robotiques et des chariots élévateurs autonomes dans un entrepôt fortement automatisé opéré par China Post Group. Le site traite en moyenne 6,5 millions de pièces de courrier par jour, avec des pics dépassant 10 millions. Les robots filmés saisissent des colis depuis des conteneurs et les déposent sur des lignes de tri, tandis que des véhicules autonomes assurent les flux au sol. À noter : les chiffres de cadence (1 200 colis/heure) émanent des médias d'État et n'ont pas été vérifiés de manière indépendante, et les vidéos publiées ne montrent que des séquences sélectionnées dans des conditions optimales. Ce déploiement marque une inflexion notable dans la stratégie d'automatisation logistique. Les robots humanoïdes présentent un avantage structurel par rapport à l'automatisation industrielle fixe : ils peuvent théoriquement opérer dans des infrastructures conçues pour les humains, sans nécessiter de refonte complète de l'entrepôt. Pour les intégrateurs et les décideurs B2B, cela réduit la barrière à l'entrée par rapport aux systèmes dédiés qui exigent une architecture entrepôt repensée de zéro. La logistique devient ainsi le premier secteur à tester à grande échelle la promesse de la robotique humanoïde en conditions réelles, au-delà des démos en laboratoire, dans un environnement à forte pression opérationnelle (24h/24, volumes croissants portés par l'e-commerce, pénuries de main-d'oeuvre régionales). C'est précisément ce contexte de charge élevée et continue qui permet d'évaluer si le gap sim-to-real est réellement comblé. China Post Group s'inscrit dans une dynamique nationale soutenue par des investissements publics massifs dans la robotique humanoïde, avec des acteurs comme Unitree, Fourier Intelligence et UBTECH qui cherchent à commercialiser leurs systèmes dans l'industrie, les services à la personne et la logistique. À l'international, les concurrents directs incluent Figure (avec son robot 02 déployé chez BMW), Agility Robotics (Digit chez Amazon) et 1X Technologies. La différence est que la Chine déploie à une échelle de volumes postaux nationaux, là où les déploiements occidentaux restent pour l'instant des pilotes industriels circonscrits. Des interrogations légitimes subsistent sur la fiabilité à long terme, les coûts de maintenance et la pertinence économique face à des alternatives plus simples comme les AMR (robots mobiles autonomes). Mais la décision de China Post de franchir le seuil du déploiement opérationnel à grande échelle, plutôt que de rester en mode pilote, constitue en soi un signal industriel significatif.

UELe déploiement à grande échelle de robots humanoïdes par China Post accentue le retard compétitif des intégrateurs et constructeurs européens, qui restent cantonnés à des pilotes industriels circonscrits face à une automatisation logistique humanoïde déjà opérationnelle à l'échelle nationale en Chine.

Chine/AsieOpinion
1 source
MonoDuo : apprendre des politiques bimanuelles avec un seul bras robotique
126arXiv cs.RO 

MonoDuo : apprendre des politiques bimanuelles avec un seul bras robotique

Des chercheurs proposent avec MonoDuo (arXiv:2505.29298) une méthode pour entraîner des politiques de manipulation bimanuelles sans disposer de robots à deux bras. La collecte de données est hybride: un opérateur téléopère un bras unique pour exécuter un côté d'une tâche bimanuelles, un humain réalisant l'autre côté, puis les rôles sont inversés pour couvrir les deux membres. Les séquences RGB-D, capturées par une caméra de poignet et une caméra fixe, sont transformées en démonstrations synthétiques calibrées sur la cinématique du robot bimanuel cible, via estimation de pose des mains, segmentation de nuage de points et inpainting. Testé sur cinq tâches (soulèvement d'une boîte, remplissage d'un sac à dos, pliage d'un vêtement, fermeture d'une veste à glissière, passage d'une assiette), MonoDuo atteint jusqu'à 70% de taux de réussite en déploiement zero-shot sur des configurations bimanuelles non vues à l'entraînement. Avec seulement 25 démonstrations supplémentaires sur le robot cible, un fine-tuning few-shot améliore ces résultats de 65 à 70% par rapport à un entraînement depuis zéro. Le verrou adressé est structurel: les robots à deux bras coordonnés restent rares et onéreux dans les laboratoires de recherche, alors que les bras uniques sont omniprésents. Cette asymétrie crée un goulot d'étranglement dans la constitution de datasets pour les tâches bimanuelles, freinant le développement de politiques viables aussi bien pour les humanoïdes commerciaux que pour les cellules industrielles bimanuelles. MonoDuo montre qu'il est possible de bootstrapper ces politiques sans matériel dédié, réduisant considérablement le coût d'entrée. La réussite du déploiement zero-shot sur des configurations non vues est notable dans un domaine où le sim-to-real gap reste un obstacle structurel, et le gain de 65 à 70% obtenu avec seulement 25 démonstrations de fine-tuning constitue un signal positif pour les intégrateurs ne pouvant se permettre des milliers de cycles de collecte. Ce travail s'inscrit dans la lignée d'ALOHA, de UMI (Universal Manipulation Interface) et de Diffusion Policy, qui cherchent à décorréler la plateforme de collecte de la plateforme cible. L'essor des humanoïdes commerciaux (Figure 03, Tesla Optimus Gen 3, Unitree G1, 1X Eve) relance l'intérêt pour la manipulation bimanuelles à grande échelle. En Europe, Pollen Robotics avec son robot open-source Reachy et Enchanted Tools avec Miroki travaillent sur des problématiques similaires d'efficacité des démonstrations. MonoDuo reste à ce stade un preprint académique sans déploiement industriel annoncé; ses résultats devront être confirmés hors conditions de laboratoire pour valider leur transposabilité opérationnelle.

UEPollen Robotics et Enchanted Tools, qui développent des robots bimanuels en Europe, pourraient exploiter cette méthode pour constituer des datasets bimanuels à moindre coût sans dupliquer leur parc matériel.

RecherchePaper
1 source
BYD confirme son offensive robotique humanoïde avec le projet de septième génération Yao-Shun-Yu, ciblant particulièrement les concessionnaires et les foyers
127Pandaily 

BYD confirme son offensive robotique humanoïde avec le projet de septième génération Yao-Shun-Yu, ciblant particulièrement les concessionnaires et les foyers

Li Ke, vice-président exécutif de BYD, a détaillé dans une interview récente la stratégie robotique humanoïde du constructeur, développée en interne sous le nom de code "Yao-Shun-Yu". Le projet en est à sa septième génération d'itération, signe d'un cycle de développement soutenu. Les premiers déploiements visent les concessions automobiles 4S à l'international, les réseaux européens étant cités parmi les sites prioritaires. Les robots y assureront accueil client, démonstrations produits et support commercial standardisé en plusieurs langues simultanément, répondant à un problème opérationnel concret : recrutement difficile et coûts élevés dans les marchés étrangers. À plus long terme, BYD envisage un second débouché, le domicile, avec des fonctions de ménage, préparation des repas et compagnie sociale. Aucun chiffre de production, de spécifications techniques ou de calendrier de livraison précis n'a été communiqué ; il s'agit d'une annonce de stratégie, pas d'un produit expédié. L'entrée de BYD dans la robotique humanoïde est structurellement significative pour deux raisons. D'abord, le groupe dispose d'une chaîne d'approvisionnement verticalement intégrée : l'expertise en systèmes logiciels embarqués et en fabrication de précision acquise dans l'automobile électrique se transpose directement à la robotique, où la maîtrise mécanique et le contrôle temps réel sont aussi critiques que l'intelligence artificielle. Ensuite, Li Ke a formulé un diagnostic précis sur l'état du secteur : les humanoïdes chinois présentent généralement un hardware solide mais un "cerveau" IA insuffisant, tandis que les concurrents américains affichent l'inverse. BYD se positionne explicitement comme intégrateur des deux capacités dans une plateforme unique. Si cette convergence se concrétise à l'échelle, elle modifierait les rapports de force dans la commercialisation des humanoïdes industriels, où aucun acteur n'a encore démontré de production de masse rentable. BYD est devenu en 2023 le premier constructeur mondial de véhicules électriques par le volume, précisément sur la base de cette intégration verticale, supplantant Tesla dans plusieurs segments. Le groupe s'inscrit dans une vague plus large de groupes industriels chinois investissant la robotique humanoïde : UBTECH, Unitree et Fourier Intelligence sont déjà actifs sur ce terrain. Côté américain, les références restent Figure Robotics (Figure 02 en déploiement chez Amazon), Boston Dynamics (Atlas), Tesla (Optimus Gen 2) et 1X Technologies. BYD se distingue en se déclarant lui-même acheteur initial à grande échelle dans ses propres usines chinoises, un levier de dérisquage commercial que très peu de roboticiens peuvent activer de façon crédible. Les prochaines étapes annoncées portent sur des pilotes en concessions européennes, sans calendrier précis confirmé à ce jour.

UEBYD cible explicitement les réseaux de concessions automobiles européens comme sites de déploiement prioritaires, ce qui pourrait introduire un acteur chinois à intégration verticale sur le marché européen de la robotique de service B2B.

Chine/AsieActu
1 source
SOLE-R1 : le raisonnement vidéo-langage comme unique récompense pour l'apprentissage par renforcement sur robot
128arXiv cs.RO 

SOLE-R1 : le raisonnement vidéo-langage comme unique récompense pour l'apprentissage par renforcement sur robot

Des chercheurs du MIT ont publié SOLE-R1 (Self-Observing LEarner), un modèle de raisonnement vidéo-langage conçu pour fonctionner comme signal de récompense exclusif dans l'apprentissage par renforcement (RL) en robotique, sans aucun accès à des récompenses terrain, indicateurs de succès, démonstrations ou réglages spécifiques à la tâche. Soumis sur arXiv (2503.28730v2), le système prend en entrée uniquement des observations vidéo brutes et un objectif en langage naturel, puis génère à chaque pas de temps un raisonnement spatiotemporel de type chain-of-thought (CoT) pour estimer de façon dense la progression de la tâche. Entraîné sur un pipeline de synthèse massif de trajectoires vidéo annotées temporellement, SOLE-R1 combine fine-tuning supervisé et RL depuis des récompenses vérifiables. Évalué sur quatre environnements de simulation distincts et en setting réel, il réussit 24 tâches de manipulation inédites en apprentissage zéro-shot depuis une initialisation aléatoire. L'enjeu central que résout SOLE-R1 est celui du reward hacking : aujourd'hui, utiliser un VLM généraliste comme évaluateur RL expose le système à des erreurs perceptuelles sous observabilité partielle ou changement de distribution, que la politique apprenante exploite rapidement au lieu de résoudre réellement la tâche. SOLE-R1 surpasse nettement des comparatifs forts - Robometer, RoboReward, ReWiND, mais aussi GPT-5 et Gemini-3-Pro - sur la robustesse à ce phénomène. Pour les intégrateurs et ingénieurs robotique, c'est un signal concret que le goulot d'étranglement du RL sur robot réel (définir une fonction de récompense dense et fiable) peut être délégué à un modèle de raisonnement vidéo entraîné spécifiquement, sans instrumentation matérielle supplémentaire. SOLE-R1 s'inscrit dans un courant actif qui cherche à remplacer les récompenses codées à la main par des superviseurs fondationnels (EUREKA d'NVIDIA, VLM-RM, SuSIE). La différence revendiquée ici est le raisonnement CoT temporel explicite par pas de temps, contre des évaluations épisodiques ou des scores scalaires instantanés. Le projet est encore au stade preprint sans déploiement industriel annoncé, mais les modèles, données et code sont publiés en open access sur la page anonyme du MIT. Les prochaines étapes naturelles seraient la validation sur des plateformes commerciales (Figure, Unitree, Boston Dynamics Spot) et l'extension à des tâches longue-horizon en environnement non structuré, deux gaps que l'article ne comble pas encore.

RechercheOpinion
1 source
Étude de l'effet d'un retrofit à actionnement élastique en série sur des actionneurs boîte noire
129arXiv cs.RO 

Étude de l'effet d'un retrofit à actionnement élastique en série sur des actionneurs boîte noire

Des chercheurs ont publié sur arXiv (référence 2605.24127, mai 2026) les résultats d'une étude portant sur le retrofit d'un élément élastique en série (SEA, Series Elastic Actuation) sur un actionneur dit "boîte noire", c'est-à-dire un actionneur commercial dont les paramètres internes sont inaccessibles. L'élément élastique torsionnel a été dimensionné par analyse en éléments finis (FE analysis), aboutissant à une raideur de 2 155,4 Nm/rad. Le résultat principal est une amélioration de la bande passante en contrôle d'effort en boucle ouverte, passant de 10,32 Hz pour le moteur seul à 30,32 Hz avec le module SEA intégré, soit un gain de 2,93x. En boucle fermée, le module surpasse un capteur d'effort commercial de 7,63%, pour un coût matière de seulement 25 GBP. Ce résultat a une portée directe pour les intégrateurs robotiques confrontés à des actionneurs industriels standard dont ils ne maîtrisent pas la couche logicielle basse. Les actionneurs rigides à faible jeu mécanique sont omniprésents en robotique industrielle précisément parce qu'ils garantissent répétabilité et précision, mais ils sont inadaptés dès que la tâche exige du contrôle d'effort ou une compliance face à des contacts incertains. Le principe SEA, qui insère un ressort entre le moteur et la charge pour mesurer les efforts via la loi de Hooke, est connu depuis les travaux de Gill Pratt au MIT dans les années 1990, mais son application reste généralement cantonnée aux plateformes conçues pour l'accepter dès l'origine. Ce travail démontre qu'un retrofit peu coûteux peut débloquer la mesure d'effort haute fidélité sans remplacer l'actionneur existant. L'approche s'inscrit dans un courant de recherche actif autour de la compliance en actionnement, qui irrigue aussi bien les robots humanoïdes (Boston Dynamics Atlas, Agility Digit, Figure 02) que les exosquelettes et cobots collaboratifs. Les concurrents directs de cette approche incluent le quasi-direct drive (QDD), popularisé par MIT Cheetah et repris chez nombre de fabricants chinois (Unitree, Fourier Intelligence), ainsi que les capteurs d'effort six axes montés en poignet. La limite principale du SEA reste la réduction de bande passante, que ce travail atténue mais ne supprime pas entièrement. Les prochaines étapes logiques concerneraient des validations sur tâches manipulatoires réelles et une caractérisation de la durée de vie mécanique de l'élément élastique retrofit dans des cycles répétitifs.

RecherchePaper
1 source
La Chine donne une carte d’identité aux robots humanoïdes : Bientôt le droit de vote ?
130Le Big Data 

La Chine donne une carte d’identité aux robots humanoïdes : Bientôt le droit de vote ?

La Chine a officiellement lancé vendredi une plateforme nationale d'identification des robots humanoïdes, baptisée « Plateforme de services de gestion du cycle de vie complet des humanoïdes ». Pilotée par le Comité de normalisation de la robotique humanoïde et de l'intelligence incarnée, rattaché au ministère chinois de l'Industrie et des Technologies de l'information, cette initiative attribue à chaque robot fabriqué en Chine un identifiant numérique unique, structuré en quatre blocs : un code pays à deux chiffres, un code fabricant à quatre chiffres, un code modèle à six chiffres, et un numéro de série à 17 chiffres pour distinguer chaque unité individuellement. Ce code accompagne la machine de sa fabrication jusqu'à son recyclage et s'applique à l'ensemble de la chaîne, industriels, distributeurs, prestataires, utilisateurs, centres de recyclage. Avant même le lancement officiel, environ 28 000 robots répartis sur 200 modèles disposaient déjà d'une identité numérique, signe que le déploiement était déjà largement anticipé par l'industrie. L'objectif déclaré est de répondre à des enjeux de sécurité, de contrôle et de gouvernance dans un secteur qui évolue plus vite que les réglementations censées l'encadrer. Yu Xiuming, directeur adjoint de l'Institut chinois de normalisation électronique, présente le système moins comme un outil de surveillance que comme une infrastructure industrielle indispensable avant tout déploiement international à grande échelle. Concrètement, la traçabilité complète de chaque unité doit renforcer la responsabilité des fabricants en cas d'incident, faciliter les rappels, et permettre aux autorités de surveiller l'utilisation des machines dans des environnements sensibles. Pour les entreprises, c'est aussi une forme de certification qui facilite l'export et la confiance des clients. Cette initiative s'inscrit dans un contexte de croissance explosive du secteur. Selon une étude IDC citée en janvier 2026, le marché mondial des robots humanoïdes a progressé de 508 % sur un an, avec environ 18 000 unités expédiées à l'échelle mondiale. La Chine est au cœur de cette dynamique, avec plus d'une centaine de fabricants actifs sur son territoire, des entreprises comme Unitree ou Fourier Intelligence ayant déjà attiré l'attention internationale. Pékin mise sur les humanoïdes comme levier stratégique dans sa course technologique face aux États-Unis, et ce système d'identification constitue une étape de normalisation classique dans tout secteur industriel arrivant à maturité. Il pose les bases d'un écosystème plus structuré, condition sine qua non pour que les robots humanoïdes quittent les laboratoires et les usines pilotes pour s'intégrer durablement dans l'économie réelle.

UELes entreprises européennes qui importent ou distribuent des robots humanoïdes fabriqués en Chine devront intégrer ce système d'identification dans leurs processus logistiques et de conformité.

💬 Le titre fait sourire, mais la vraie information c'est que la Chine vient de poser la première brique d'une infrastructure industrielle sérieuse pour les humanoïdes. 508% de croissance sur un an, ça ne se régule pas à la louche. Les boîtes européennes qui importent du chinois vont devoir intégrer ce standard dans leur chaîne, bon gré mal gré.

HumanoïdesReglementation
1 source
OCELOT : odométrie et estimation du contact pour robots à pattes
131arXiv cs.RO 

OCELOT : odométrie et estimation du contact pour robots à pattes

Une équipe de chercheurs a publié OCELOT (Odometry and Contact Estimation for Legged rObots), un pipeline complet d'odométrie pour robots à pattes reposant exclusivement sur des capteurs proprioceptifs embarqués : une centrale inertielle (IMU) solidaire du corps, des encodeurs articulaires et des capteurs de force. Le système s'appuie sur un filtre de Kalman à état d'erreur (ESEKF) dont l'état est corrigé par les pieds détectés en appui stationnaire. Sa contribution centrale est un module de détection de contact fusionnée et de quantification d'incertitude : deux détecteurs tournent en parallèle pour chaque pied, le premier combinant un modèle de mélange gaussien (GMM) avec une machine à états finis (FSM) à déclenchement anti-rebond sur les données de force, le second appliquant un test de rapport de vraisemblance généralisé (GLRT) sur la vélocité cinématique estimée du pied. Les scores continus issus des deux détecteurs sont fusionnés pour identifier les glissements. Pour valider l'approche, les auteurs ont constitué un dataset de 29 séquences couvrant 2,4 km sur des terrains variés (béton, herbe, graviers, rochers) et ont comparé OCELOT à des méthodes proprioceptives et extéroceptives. Le code et un package ROS2 temps réel sont publiés en open source. L'intérêt principal de OCELOT réside dans sa robustesse aux terrains glissants sans recourir à des capteurs extéroceptifs (caméra, lidar), qui restent coûteux, fragiles et sensibles aux conditions d'éclairage ou de poussière. Pour un intégrateur déployant un robot quadrupède en environnement industriel ou outdoor, disposer d'une odométrie fiable avec uniquement l'équipement embarqué de série réduit significativement la complexité système. La disponibilité d'un package ROS2 prêt à l'emploi abaisse la barrière d'adoption. Le benchmark face à des méthodes extéroceptives constitue un signal fort : il suggère que l'estimation de contact bien conçue peut rivaliser avec des approches visuelles sur des trajectoires courtes à moyennes. Les robots à pattes de type Spot (Boston Dynamics), ANYmal (ANYbotics) ou Unitree B2 sont les cibles naturelles de tels pipelines. L'odométrie proprioceptive pour quadrupèdes est un problème ouvert depuis des années, avec des travaux antérieurs comme Pronto (IIT) ou les pipelines d'ETH Zurich sur ANYmal. OCELOT se distingue par la combinaison explicite GMM+GLRT pour la détection de glissement, un point sensible dans les déploiements extérieurs. Les prochaines étapes probables incluent la validation sur des trajectoires longue distance et l'intégration dans des architectures SLAM proprioceptif complet.

UELa publication en open source d'un package ROS2 directement intégrable peut bénéficier aux intégrateurs et labos européens (ANYbotics/Suisse, IIT/Italie) déployant des quadrupèdes en environnements industriels ou extérieurs difficiles.

RecherchePaper
1 source
Apprendre à évoluer : champs interactifs multimodaux pour la navigation humanoïde robuste en environnements dynamiques
132arXiv cs.RO 

Apprendre à évoluer : champs interactifs multimodaux pour la navigation humanoïde robuste en environnements dynamiques

Des chercheurs ont publié sur arXiv (2605.21935, mai 2026) un système de cartographie dynamique baptisé MIF (Multi-modal Interactive Field), conçu pour permettre aux robots humanoïdes de naviguer et de manipuler des objets dans des environnements réels en constante évolution. Testé sur un Unitree G1, le système améliore le taux de relocalisation dans un bureau non-statique de 12 % à 94 %, tout en réduisant l'empreinte mémoire sémantique de 91,4 % grâce à la distillation de features. MIF repose sur trois composantes couplées : un champ d'apparence basé sur le 3D Gaussian Splatting (3DGS) conscient de l'incertitude pour atténuer le flou induit par la marche bipède, un champ spatial maintenant une mémoire topologique de la scène, et un champ géométrique qui calcule une pose d'interaction sûre (Interaction Pose Safety, IPS) avant chaque manipulation. Un score de détection de discordance distingue les fausses alarmes dues aux oscillations du robot des changements persistants réels, et ne met à jour que les zones localement incohérentes. L'enjeu pratique est direct : les systèmes de cartographie sémantique existants (semantic maps, scene graphs) supposent généralement des trajectoires caméra stables et des environnements statiques, deux hypothèses qu'un humanoïde en mouvement viole en permanence. Passer de 12 % à 94 % de succès en relocalisation sur un robot réel dans un bureau avec personnes en mouvement constitue un résultat concret, pas une démo en laboratoire contrôlé. Pour un intégrateur ou un COO industriel évaluant des humanoïdes pour des tâches de pick-and-place, la capacité à maintenir une carte cohérente sous perturbation locomotrice est un prérequis opérationnel non négociable que la plupart des démos actuelles ne valident pas. Le contexte de ce travail s'inscrit dans l'essor du 3DGS comme alternative aux NeRF pour la représentation de scènes en temps réel, une technique popularisée en 2023 et dont l'adaptation à la robotique mobile reste un sujet de recherche actif. L'Unitree G1 est l'une des plateformes humanoïdes commerciales les plus accessibles du marché (autour de 16 000 dollars), ce qui rend ce type de validation plus reproductible que sur des robots propriétaires comme l'Atlas de Boston Dynamics ou le Figure 02. Le code et la page projet sont publiés (ziya-jiang.github.io/MIF-homepage), signal d'une recherche ouverte à la reproduction. Les prochaines étapes naturelles seraient une validation à plus grande échelle et une intégration dans des pipelines de manipulation end-to-end, terrain sur lequel Physical Intelligence (Pi-0) et les équipes GR00T de NVIDIA travaillent en parallèle.

HumanoïdesPaper
1 source
WestWorld : un modèle du monde de trajectoires évolutif intégrant des connaissances pour systèmes robotiques variés
133arXiv cs.RO 

WestWorld : un modèle du monde de trajectoires évolutif intégrant des connaissances pour systèmes robotiques variés

Une équipe de chercheurs a publié WestWorld (arXiv:2603.14392), un modèle de monde trajectoire conçu pour opérer sur des systèmes robotiques hétérogènes. Préentraîné sur 89 environnements complexes couvrant une large variété de morphologies en simulation et en conditions réelles, le modèle cible deux lacunes récurrentes dans la littérature : la difficulté de passer à l'échelle face à un grand nombre de dynamiques système distinctes, et l'absence d'intégration des connaissances sur les structures physiques des robots. La validation réelle a été conduite sur un quadrupède Unitree Go1, où WestWorld a démontré des performances stables en locomotion. Le code source est disponible sur GitHub. L'architecture repose sur un mécanisme baptisé Sys-MoE (system-aware Mixture-of-Experts), qui route dynamiquement des experts spécialisés selon le système robotique fourni en entrée, via un embedding système appris. Un embedding structurel complémentaire aligne les représentations de trajectoires avec les informations morphologiques du robot, permettant au modèle de tenir compte du fait qu'un bras articulé, un quadrupède et une plateforme mobile n'obéissent pas aux mêmes contraintes physiques. Les résultats affichent des gains significatifs en prédiction de trajectoire zero-shot et few-shot face aux baselines compétitives, ainsi qu'une amélioration des performances sur le contrôle model-based downstream pour différentes plateformes robotiques. La scalabilité tient sur un spectre large d'environnements, ce qui constitue l'argument central de la contribution. La publication s'inscrit dans une tendance forte : appliquer aux robots les world models issus du monde des agents RL et des LLMs multimodaux, à l'image de Dreamer, UniSim, ou des frameworks VLA (Vision-Language-Action) orientés manipulation. WestWorld se distingue par son ambition généraliste multi-morphologie, là où la majorité des approches concurrentes restent spécialisées sur une famille de robots. L'usage du Unitree Go1 comme banc de test réel est pertinent mais reste un cas relativement balisé dans la littérature, ce qui nuance la portée de la démonstration sim-to-real. Les prochaines étapes logiques seront d'évaluer le transfert sur des morphologies plus complexes, humanoïdes notamment, là où les défis de généralisation sont encore ouverts.

RecherchePaper
1 source
Tests adversariaux des filtres de sécurité du robot humanoïde SPARK
134arXiv cs.RO 

Tests adversariaux des filtres de sécurité du robot humanoïde SPARK

Une équipe de chercheurs a publié en mai 2026 sur arXiv (arXiv:2605.19009) une étude de robustesse portant sur les filtres de sécurité SPARK pour robots humanoïdes. Le travail consiste en une réplication du cas de référence G1SportMode\D1\WG\SO\v1 dans le simulateur MuJoCo, puis en une batterie de tests adversariaux sur six méthodes de filtrage : RSSA, RSSS, SSA, CBF (Control Barrier Function), PFM et SMA. Les auteurs ont également construit un pipeline de post-traitement pour convertir les logs bruts SPARK en trois métriques exploitables, suivi d'objectif, distance minimale aux obstacles, et nombre de pas en collision. Résultat principal : certaines méthodes optimisent le suivi de trajectoire au détriment de l'évitement, tandis que d'autres réduisent les collisions sans maintenir l'efficacité de déplacement. L'importance de ce travail tient à un angle souvent négligé dans l'évaluation des humanoïdes : les benchmarks nominaux, ceux qui servent à comparer les méthodes en conditions idéales, ne capturent pas les modes d'échec qui émergent dans des environnements contraints. Trois types de perturbations ont été testés : densification des obstacles ("obstacle crowding"), estimation bruitée des distances, et information obstacle avec délai. Dans ces conditions, le comportement de sécurité de plusieurs filtres se dégrade significativement, un résultat qui contredit implicitement l'hypothèse que les scores de référence suffisent à valider une méthode avant déploiement terrain. Pour un intégrateur ou un responsable de sécurité industrielle, c'est un signal clair : la qualification d'un filtre de sécurité humanoïde doit inclure des scénarios de stress, pas seulement les cas nominaux. Le SPARK framework s'est imposé ces dernières années comme cadre de référence pour évaluer la sécurité des humanoïdes à corps complet, face à la complexité inhérente de ces systèmes : haute dimensionnalité, contraintes de collision multiples, proximité avec des opérateurs humains. Le cas répliqué ici est lié au robot Unitree G1, l'une des plateformes humanoïdes accessibles les plus répandues en recherche. Les concurrents directs dans cet espace incluent des travaux sur MPC avec CBF (MIT, CMU), les approches RoboSafe d'ETH Zurich, et les filtres embarqués dans Boston Dynamics Atlas. La suite logique de cette recherche serait un protocole de stress testing standardisé, intégrable dans les pipelines de CI/CD robotique avant déploiement en environnement semi-contrôlé.

RechercheOpinion
1 source
PRIME : estimation inertielle et de mouvement physiquement cohérente pour robots à pattes et humanoïdes
135arXiv cs.RO 

PRIME : estimation inertielle et de mouvement physiquement cohérente pour robots à pattes et humanoïdes

Une équipe de chercheurs a présenté PRIME (Physically-consistent Robotic Inertial and Motion Estimation), une méthode d'estimation de mouvement pour robots à pattes et humanoïdes publiée sur arXiv en mai 2026 (arXiv:2605.17681). Là où les pipelines conventionnels basés sur des filtres de Kalman étendus (EKF) ou la capture de mouvement externe ne reconstruisent que la cinématique, PRIME formule le problème comme une estimation MAP (Maximum A Posteriori) qui raffine simultanément les données proprioceptives brutes et les commandes des actionneurs pour produire une trajectoire dynamiquement cohérente. L'algorithme estime conjointement les forces de contact frictionnelles et les paramètres inertiels du robot (masses, centres de masse, moments d'inertie), via une modélisation différentiable de la dynamique de contact avec contraintes de complémentarité lissées et un modèle de friction d'Anitescu. Les validations ont été conduites sur des robots quadrupèdes et sur l'humanoïde Unitree G1, lors de séquences de locomotion à contacts multiples en déploiement réel. Le problème abordé est structurel : les pipelines de perception robotique actuels ignorent les forces de contact et les paramètres inertiels effectifs du système, ce qui entraîne des reconstructions qui violent régulièrement la dynamique des corps rigides, en particulier lors des phases de contact. Cette incohérence dégrade la qualité des données d'entraînement et limite la robustesse des contrôleurs en boucle fermée. PRIME produit des reconstructions de mouvement annotées en forces et contacts directement depuis des robots en déploiement terrain, sans infrastructure de laboratoire. Pour les équipes qui développent des modèles de fondation robotiques ou des architectures Visual-Language-Action (VLA), cette capacité représente une source de données haute qualité exploitable à grande échelle, là où la rareté d'annotations dynamiques fiables reste un goulot d'étranglement reconnu. L'estimation d'état pour robots à pattes est un problème ancien, historiquement traité par EKF couplés à la proprioception, la capture de mouvement restant cantonnée aux laboratoires. PRIME se distingue en proposant une solution embarquée et déployable en conditions réelles, sans dépendance à une infrastructure externe. L'humanoïde Unitree G1, commercialisé autour de 16 000 dollars et très présent dans la recherche académique mondiale, sert de banc de validation représentatif. Dans un contexte où Boston Dynamics, Figure AI, Agility Robotics, 1X et Unitree accumulent des données de déploiement pour alimenter leurs pipelines d'apprentissage, PRIME propose une brique méthodologique transversale pour enrichir ces corpus avec des annotations dynamiques fiables. Les applications naturelles incluent l'imitation learning, le transfert sim-to-real et l'entraînement de modèles de fondation à partir de données terrain.

UELes équipes de recherche européennes en locomotion robotique (INRIA, LAAS-CNRS) pourraient exploiter PRIME pour enrichir leurs pipelines d'entraînement sans infrastructure de laboratoire, mais aucun acteur ou institution européen n'est directement impliqué.

RecherchePaper
1 source
frax : cinématique et dynamique robotique rapide en JAX
136arXiv cs.RO 

frax : cinématique et dynamique robotique rapide en JAX

Une équipe de chercheurs a publié frax, une bibliothèque open-source de cinématique et dynamique de corps rigides pour la robotique, construite sur JAX, le framework d'autodifférenciation de Google. Documentée dans l'article arXiv:2604.04310, la librairie cible une lacune précise : la plupart des bibliothèques existantes excellent soit en exécution CPU à faible latence, soit en débit GPU massif, mais rarement les deux à la fois. frax propose une interface unifiée en Python pur, opérationnelle sur CPU, GPU et TPU sans modification de code. Sur CPU, les temps de calcul descendent à quelques microsecondes, compatibles avec des boucles de contrôle à l'échelle du kilohertz, à parité avec des implémentations C++ optimisées. Sur GPU, la même implémentation vectorisée atteint plus de 100 millions d'évaluations de dynamique par seconde en parallélisant des milliers d'instances simultanément. Les performances ont été validées sur deux plateformes de référence : le bras manipulateur Franka Panda et l'humanoïde Unitree G1. L'impact pour les équipes de robotique est double. Le support natif de l'autodifférenciation via JAX ouvre la voie à des méthodes d'optimisation basées sur les gradients directement dans la boucle de simulation, ce qui accélère le model-based reinforcement learning et le trajectory optimization sans nécessiter d'implémentations séparées. Le fait d'atteindre des temps de cycle CPU comparables au C++ depuis un code Python pur représente également un gain de friction considérable pour les intégrateurs, entre le stade prototype et le déploiement. La scalabilité GPU à 100 millions d'évaluations par seconde est particulièrement pertinente pour le sim-to-real, où l'entraînement massif en simulation parallèle est devenu la norme dans les pipelines de robot learning modernes. frax s'inscrit dans un écosystème JAX en expansion pour la robotique, aux côtés de Brax (Google DeepMind) et MuJoCo XLA (mjx). Les auteurs ne prétendent pas remplacer ces outils, mais proposer une alternative axée sur la polyvalence multi-matériel et la simplicité d'usage. La bibliothèque C++ Pinocchio, développée par le Gepetto team du LAAS-CNRS à Toulouse en partenariat avec l'INRIA, reste une référence pour les systèmes embarqués temps réel, mais frax vise explicitement le segment recherche et apprentissage. La bibliothèque est disponible en open-source, et les prochaines étapes attendues incluent l'intégration avec des pipelines RL existants et l'extension à la dynamique de contact.

UEfrax s'inscrit dans l'écosystème des outils de simulation robotique aux côtés de Pinocchio (LAAS-CNRS/INRIA, Toulouse), et pourrait accélérer les pipelines de robot learning dans les laboratoires français et européens travaillant sur le sim-to-real.

RecherchePaper
1 source
Asimov : un robot humanoïde open source accessible à tous
137Hackaday Robots Hacks 

Asimov : un robot humanoïde open source accessible à tous

Le projet Asimov v1 est un robot humanoïde open source en kit, proposé à un prix cible de 15 000 dollars, avec la nomenclature complète publiée sur GitHub pour permettre aux équipes de sourcer leurs propres composants. Doté de 25 degrés de liberté au total, il embarque un calculateur basé sur un Raspberry Pi 5 et un module Radxa CM5, deux références grand public faciles à approvisionner. Les performances physiques déclarées restent modestes : 5 kg en squat et 18 kg en tirage unilatéral à un bras, ce qui le positionne clairement dans la catégorie expérimentale. Tout le code est libre, laissant aux développeurs la latitude d'implémenter leurs propres couches de contrôle. À 15 000 dollars avec du matériel sur étagère, Asimov v1 représente une rupture de prix notable dans un secteur longtemps réservé aux géants industriels. Les démonstrations emblématiques de Honda (Asimo, programme lancé dans les années 1980) et les investissements massifs de Tesla pour Optimus ont durablement ancré l'image d'un marché inaccessible aux laboratoires ou aux startups. L'open source change la donne : une équipe universitaire ou un intégrateur peut désormais disposer d'une base matérielle documentée pour tester des modèles de contrôle visuomoteur ou des politiques d'apprentissage par renforcement sans dépendre d'un fournisseur propriétaire. Il convient toutefois de rester prudent sur les métriques publiées, présentées sans protocole de test standardisé et sans vidéo en conditions réelles. Asimov v1 s'inscrit dans une tendance de démocratisation du hardware robotique comparable à ce que l'open source a réalisé dans les drones avec ArduPilot ou PX4 dans les années 2010. Sur le segment accessible, il se distingue du Unitree G1 (environ 16 000 dollars, non open source) par sa transparence architecturale complète. Il reste très éloigné des plateformes industrielles comme Figure 03, Agility Robotics Digit ou Apptronik Apollo, qui ciblent la logistique avec des financements de plusieurs centaines de millions de dollars et des déploiements confirmés chez des partenaires industriels. Fédérer une communauté active de contributeurs sera la prochaine étape critique pour faire progresser les performances mécaniques et logicielles du projet.

UELes laboratoires universitaires et startups robotique français et européens disposent d'une base matérielle open source documentée à 15 000 $ pour prototyper des algorithmes de contrôle visuomoteur sans dépendre d'un fournisseur propriétaire.

HumanoïdesOpinion
1 source
DeepMotor : une startup de Pékin mise sur les données en première personne pour une IA incarnée générale
138Pandaily 

DeepMotor : une startup de Pékin mise sur les données en première personne pour une IA incarnée générale

DeepMotor, une startup pékinoise fondée par Chen Kai au début 2025, développe une approche d'intelligence artificielle incarnée (embodied AGI) basée sur l'entraînement à partir de vidéos en première personne capturées par des humains. Au lancement, la thèse de l'entreprise n'a convaincu ni les investisseurs domestiques ni la majorité du secteur : pourquoi parier sur une méthode que même les géants américains n'avaient pas encore validée ? La startup a levé plusieurs centaines de millions de RMB et poursuit aujourd'hui un déploiement accéléré. La chronologie des validations industrielles donne la mesure de son avance : en mai 2025, Tesla a annoncé réorienter l'entraînement d'Optimus vers des données vidéo humaines. En juin 2025, GeneralistAI a présenté une démo d'apprentissage imitatif robotique, puis a confirmé les lois de mise à l'échelle avec 270 000 heures de données humaines réelles collectées sur le terrain. FigureAI a de son côté annoncé des partenariats avec des opérateurs immobiliers commerciaux pour collecter des flux en première personne. En février 2026, NVIDIA a publié EgoScale, un modèle pré-entraîné sur 20 000 heures de vidéo première personne destiné à la manipulation dextre. L'importance de cette séquence dépasse le simple calendrier. Elle valide l'hypothèse centrale de DeepMotor : la vidéo en vue égocentrique est le signal d'apprentissage le plus dense pour combler le sim-to-real gap en robotique généraliste. Chaque acteur majeur converge vers cette approche non par choix idéologique, mais parce que les benchmarks internes le forcent. Pour les intégrateurs industriels et les décideurs B2B, cela signifie que la prochaine génération de robots manipulateurs ne sera pas entraînée dans des simulateurs mais sur des flux de travail humains réels, ce qui redéfinit les exigences en matière de collecte de données et de gouvernance des contenus vidéo. DeepMotor s'inscrit dans un écosystème robotique chinois en forte accélération, concurrent direct d'Unitree, d'Agibot et des branches robotique de Baidu et Tencent, mais avec une orientation plus fondamentale sur la couche de données brutes plutôt que sur le hardware. La startup a devancé d'environ un an le consensus industriel mondial sur l'approche egocentric data, ce qui lui confère une position de référence potentielle si elle parvient à publier ses propres scaling laws ou à ouvrir un dataset. Les prochaines étapes probables incluent la publication de résultats comparatifs et des partenariats avec des fabricants de robots humanoides pour valider le transfert de politique sur des plateformes tiers. La source originale (Waves/暗涌) reste un media chinois spécialisé, et les chiffres de levée ne sont pas précisément détaillés.

UELe basculement de l'industrie vers les données vidéo égocentristes comme signal d'entraînement de référence redéfinira les exigences de collecte de données et de gouvernance vidéo pour les intégrateurs et fabricants de robots européens, sans acteur français ou européen directement impliqué à ce stade.

Chine/AsieOpinion
1 source
Derrière le marathon robotique d'Honor : 7 fournisseurs chinois au service du robot Lightning
139Pandaily 

Derrière le marathon robotique d'Honor : 7 fournisseurs chinois au service du robot Lightning

Le 19 avril, sur le parcours semi-marathon de 21,0975 kilomètres du district de Yizhuang à Pékin, le robot humanoïde "Lightning" d'Honor, engagé sous l'étiquette de l'équipe Qitian Daxiansen, a franchi la ligne d'arrivée en 50 minutes et 26 secondes nets. Ce temps réduit de près des deux tiers le record de la compétition établi l'année précédente à 2 heures 40 minutes, et passe sous la barre du record du monde du semi-marathon masculin humain, fixé à 57 minutes et 20 secondes. Ce qui retient davantage l'attention que la performance brute, c'est la chaîne d'approvisionnement entièrement domestique qui sous-tend le robot : GigaDevice (兆易创新) fournit les puces NOR Flash et MCU pour le calcul et le stockage embarqués ; Lingyi iTech (领益智造) livre les composants structuraux de précision et les boîtiers assurant la gestion thermique ; Lens Technology (蓝思科技) produit les optiques de perception visuelle ; AAC Technologies (瑞声科技) contribue aux capteurs haute précision et aux composants acoustiques. Plusieurs autres fournisseurs non nommés couvrent les systèmes de motorisation, de gestion d'énergie et de capteurs de précision. Pour les intégrateurs et décideurs industriels, ce résultat constitue un signal plus structurel que conjoncturel. Il invalide en partie l'hypothèse du "demo gap" : "Lightning" a performé sous les contraintes d'un événement chronométré public, pas en environnement lab. Plus significatif encore, l'ensemble de la chaîne de valeur critique (semi-conducteurs, optique, acoustique, mécanique de précision) provient d'acteurs cotés en Chine, indiquant une autonomie croissante vis-à-vis des fournisseurs occidentaux ou japonais pour les composants humanoides. Ce n'est pas anecdotique dans un contexte de restrictions export sur puces avancées. Honor, connu comme fabricant de smartphones et ex-marque de Huawei, s'est positionné dans la robotique humanoïde depuis 2024, période de montée en puissance massive du secteur en Chine. La compétition de Yizhuang s'inscrit dans une série de benchmarks outdoor visant à différencier les constructeurs capables d'endurance réelle des acteurs encore en phase de démonstration vidéo. Les concurrents directs dans la course humanoïde incluent Unitree, Agibot et Fourier Intelligence côté chinois, ainsi que Figure (Figure 03), Tesla (Optimus Gen 3) et Physical Intelligence (pi0) côté américain. L'article source ne précise ni roadmap de déploiement commercial pour "Lightning" ni pilotes industriels annoncés, ce qui invite à traiter ce résultat comme un jalon technique plutôt qu'un produit shipé.

UELe découplage de la chaîne d'approvisionnement humanoïde chinoise vis-à-vis des fournisseurs occidentaux (semi-conducteurs, optique, mécanique de précision) fragilise à terme la compétitivité des équipementiers européens et renforce le débat autour des contrôles à l'export sur composants avancés.

Chine/AsieOpinion
1 source
Muninn : un modèle de diffusion de trajectoires, désormais plus rapide
140arXiv cs.RO 

Muninn : un modèle de diffusion de trajectoires, désormais plus rapide

Une équipe de chercheurs a publié Muninn (arXiv:2605.09999), un module d'accélération sans réentraînement pour les planificateurs de trajectoires basés sur la diffusion. Le système atteint jusqu'à 4,6x de gain en vitesse d'exécution sur plusieurs architectures de diffusion en espace d'état, sans dégradation mesurée des performances ni des métriques de sécurité. Muninn fonctionne comme un wrapper de cache : à chaque étape du débruitage itératif, il choisit en temps réel de recalculer la sortie du denoiser ou de réutiliser le résultat mis en cache. Cette décision repose sur deux signaux analytiques calibrés hors-ligne, une sonde légère de l'évolution de la représentation interne de la trajectoire et des coefficients de propagation d'erreur du denoiser, qui produisent ensemble un budget d'incertitude par étape. Ce budget borne formellement l'écart maximal entre la trajectoire mise en cache et celle qui aurait été calculée à pleine puissance de calcul. Les gains ont été validés sur matériel réel, en navigation en boucle fermée et en manipulation. La lenteur des modèles de diffusion en planification de trajectoires est un verrou bien identifié pour la robotique temps-réel. Les accélérations existantes imposaient jusqu'ici un compromis inévitable : modifier le sampler dégradait la qualité de trajectoire, tandis que la compression du réseau nécessitait un réentraînement coûteux. Muninn contourne ce dilemme en opérant strictement sans modifier les poids du modèle, ce qui le rend applicable immédiatement à n'importe quel planificateur diffusion déjà entraîné. Pour un intégrateur ou une équipe robotique industrielle, cela rend concrètement viables des architectures comme Diffusion Policy dans des boucles de contrôle haute fréquence. La certification analytique des bornes de déviation constitue un argument de poids pour les déploiements où la sécurité est une contrainte réglementaire. Les politiques par diffusion appliquées à la robotique ont émergé vers 2022-2023, portées notamment par Diffusion Policy (Chi et al., Columbia University), et se sont depuis déployées dans des architectures VLA et des planificateurs en espace d'état. Les méthodes d'accélération antérieures, DDIM et distillation par connaissance en tête, ne proposaient pas de cache adaptatif avec bornes certifiées, ce qui positionne Muninn comme une surcouche orthogonale et rétrocompatible avec l'existant. En tant que preprint arXiv, les résultats n'ont pas encore été soumis à revue par les pairs. Les prochaines étapes logiques concernent les stacks robotiques humanoïdes et industriels (Figure, Unitree, Boston Dynamics) qui expérimentent des politiques diffusion et cherchent à réduire la latence de planification en production. Le code est publié publiquement sur GitHub (gokulp01/Muninn).

RecherchePaper
1 source
VEGA : alignement par ancrage de l'encodeur visuel pour les modèles VLA à conscience spatiale
141arXiv cs.RO 

VEGA : alignement par ancrage de l'encodeur visuel pour les modèles VLA à conscience spatiale

Des chercheurs proposent VEGA (Visual Encoder Grounding Alignment), publié sur arXiv (2605.10485) en mai 2026, un cadre d'alignement destiné à corriger un défaut structurel des modèles vision-langage-action (VLA) : leurs encodeurs visuels, préentraînés sur des images 2D, manquent de perception géométrique 3D. VEGA aligne la sortie de l'encodeur visuel du VLA directement avec les features spatiales de DINOv2-FiT3D, une variante de DINOv2 (Meta) affinée via supervision par 3D Gaussian Splatting multi-vues. L'alignement repose sur un projecteur léger entraîné par perte cosinus en parallèle de la prédiction d'action standard, puis éliminé à l'inférence pour ne pas alourdir le runtime. Sur benchmarks de simulation et tâches réelles de manipulation, VEGA établit un nouvel état de l'art parmi les méthodes d'ancrage spatial implicite. L'enjeu opérationnel est direct : la manipulation fine exige une compréhension géométrique de la scène, pas uniquement sémantique. Les approches existantes alignaient déjà les VLA avec des modèles 3D-aware, mais au niveau des tokens LLM, là où spatial et linguistique sont déjà mélangés, limitant la généralisation. En remontant l'alignement à l'encodeur visuel, VEGA évite cette contamination sémantique et produit un ancrage plus interprétable. Pour un intégrateur ou un fabricant de bras manipulateurs, le ratio est favorable : gain de précision spatiale sans surcoût à l'inférence, et compatibilité avec des architectures VLA existantes sans refonte. Cette contribution s'inscrit dans la course aux VLA comme couche de contrôle universelle : Physical Intelligence (π0, π0.5), Google DeepMind et NVIDIA (GR00T N2), Figure AI (Helix) ou Unitree reposent tous sur des architectures de ce type. La faiblesse du raisonnement 3D dans les VLA reste un frein documenté au passage démo-vers-déploiement, et plusieurs équipes y travaillent via sim-to-real et foundation models 3D. VEGA choisit une voie minimaliste : pas de pipeline 3D à l'inférence, juste un alignement ciblé à l'entraînement. Aucun déploiement industriel ni partenariat commercial n'est mentionné, c'est une contribution académique, mais sa légèreté architecturale la rend directement intégrable dans des projets en cours.

IA physiqueOpinion
1 source
IA incarnée : conditionnement géométrique explicite des escaliers pour une locomotion humanoïde robuste
142arXiv cs.RO 

IA incarnée : conditionnement géométrique explicite des escaliers pour une locomotion humanoïde robuste

Des chercheurs ont publié sur arXiv (2605.09944) un cadre de conditionnement géométrique explicite pour la montée d'escaliers par robot humanoïde. Le système extrait trois paramètres compacts depuis la perception : la hauteur de marche, la profondeur de marche, et l'angle de lacet courant par rapport au cap du robot. Ces paramètres conditionnent directement une politique de locomotion entraînée par Proximal Policy Optimization (PPO), permettant une modulation proactive de la hauteur d'enjambée et des caractéristiques de foulée selon la géométrie de l'escalier. Validé sur le Unitree G1, humanoïde à 23 degrés de liberté de Unitree Robotics, le système a enchaîné 33 marches consécutives en extérieur sans défaillance lors des expériences en conditions réelles. Des tests en simulation confirment par ailleurs une généralisation à des hauteurs de marches hors de la distribution d'entraînement. L'intérêt de l'approche tient au choix de représentations explicites et interprétables plutôt que des encodages latents haute dimension. Les politiques de locomotion actuelles s'appuient généralement sur du feedback proprioceptif aveugle ou des représentations implicites du terrain, ce qui limite leur capacité à anticiper les ajustements de gait face à des géométries non vues, problème central du sim-to-real gap. En conditionnant la politique sur des paramètres lisibles par un ingénieur, le système peut moduler proactivement la hauteur d'enjambée avant le contact, là où une représentation opaque réagirait après coup. Pour un intégrateur ou un COO logistique, cela se traduit par une robustesse prédictive accrue dans des environnements réels non maîtrisés, sans instrumentation supplémentaire des escaliers. Le Unitree G1, commercialisé depuis 2024 à partir de 16 000 USD, s'est imposé comme plateforme de référence pour la recherche en locomotion humanoïde grâce à sa disponibilité et son prix d'accès. Unitree concurrence directement Agility Robotics (Digit), Boston Dynamics (Atlas) et des startups comme Figure ou 1X sur la capacité à opérer dans des espaces tertiaires et industriels non modifiés. La traversée d'escaliers reste un verrou opérationnel clé pour les déploiements logistiques et de services, segment où des acteurs européens comme Wandercraft et Enchanted Tools opèrent sur des créneaux voisins mais distincts. L'article, soumis en preprint sans revue par les pairs à ce stade, ne fournit pas de comparaison quantitative avec d'autres politiques sur le même matériel, ce qui limite l'évaluation rigoureuse des gains réels.

UELa traversée d'escaliers étant un verrou opérationnel clé pour les déploiements en espaces non modifiés, cette avancée fixe un niveau de référence que des acteurs européens comme Wandercraft et Enchanted Tools devront intégrer dans leur feuille de route locomotion.

RecherchePaper
1 source
Figure et 1X accélèrent la production de robots humanoïdes
143IEEE Spectrum Robotics 

Figure et 1X accélèrent la production de robots humanoïdes

Figure atteint désormais une cadence de production de 55 robots humanoïdes par semaine, selon une annonce publiée fin avril 2026. Ces unités sont, selon la startup américaine, destinées aux équipes internes de R&D, à la collecte de données, au développement de tâches domestiques de bout en bout et à des "cas d'usage commerciaux en développement", une formulation qui interroge sur la destination réelle de cette production alors que les déploiements commerciaux restent à maturité. En parallèle, 1X Technologies a officiellement ouvert la NEO Factory à Hayward, en Californie : une usine de 58 000 pieds carrés (environ 5 400 m²) employant plus de 200 personnes, avec une chaîne entièrement intégrée couvrant moteurs, batteries, transmissions, capteurs, structures et assemblage final. Les premières unités NEO sortent déjà des lignes de production, avec des livraisons grand public annoncées pour 2026. Sur le plan technique, Agility Robotics a publié des tests d'équilibre dynamique sur une seule jambe pour son robot Digit, et une équipe de recherche a présenté HTD (Humanoid Transformer with Touch Dreaming), un système de manipulation humanoïde combinant téleopération VR, apprentissage par renforcement pour le bas du corps et capteurs tactiles distribués. La montée en cadence simultanée de Figure et 1X marque un glissement du secteur humanoïde vers la production industrielle, mais chaque annonce appelle une lecture critique. Produire 55 unités par semaine sans contrats commerciaux confirmés suggère soit une stratégie de collecte de données à grande échelle, ressource clé pour l'entraînement des politiques VLA (Vision-Language-Action), soit une anticipation agressive de la demande avant une prochaine levée de fonds. L'intégration verticale revendiquée par 1X, inspirée du modèle Tesla, offre une flexibilité d'itération et réduit la dépendance aux fournisseurs, mais mobilise des capitaux considérables. Les travaux d'Agility sur l'équilibre dynamique illustrent par ailleurs que le gap sim-to-real reste un verrou technique central : la moindre divergence entre modèle simulé et robot réel peut provoquer une instabilité en conditions réelles, limitant directement la fiabilité en milieu industriel. Figure, fondée en 2022 par Brett Adcock, a levé plus de 750 millions de dollars avec BMW, Microsoft et Amazon comme partenaires, et opère un pilote chez BMW Manufacturing en Caroline du Sud depuis 2024, bien que les vidéos publiées restent en conditions contrôlées. 1X, société norvégienne soutenue par OpenAI et Tiger Global, se positionne sur le marché résidentiel face à Tesla Optimus (déployé progressivement dans les usines Tesla), aux robots Agility Digit (opérés chez Amazon) et aux fabricants chinois comme Unitree (G1, H1) qui exercent une pression tarifaire croissante. Aucun acteur européen, ni Wandercraft, ni Enchanted Tools, ni Pollen Robotics, n'annonce de production à ce volume pour l'instant. Les prochains trimestres détermineront si ces cadences correspondent à des commandes fermes ou à une stratégie de positionnement avant financement.

UELa montée en cadence de Figure et 1X exerce une pression concurrentielle sur les acteurs européens (Wandercraft, Enchanted Tools, Pollen Robotics), qui n'annoncent pas de volumes de production comparables à ce stade.

HumanoïdesActu
1 source
Tien Kung 3.0 remporte le Robot Warrior Challenge en Chine sans intervention humaine
144Interesting Engineering 

Tien Kung 3.0 remporte le Robot Warrior Challenge en Chine sans intervention humaine

Le 18 avril 2026, le robot humanoïde Tien Kung 3.0, développé par le Beijing Innovation Center of Humanoid Robotics (X-Humanoid), a remporté l'inaugural Beijing Yizhuang Robot Warrior Challenge en accomplissant l'intégralité du parcours sans aucune intervention humaine. Ce défi, conçu pour simuler des opérations de sauvetage en milieu hostile, comprenait des épreuves à haut risque : traversée de pendules, franchissement d'obstacles, et breaching de barrières dans des environnements imitant des décombres sismiques, des zones chimiques dangereuses et des structures effondrées. Le lendemain, le 19 avril, Pékin accueillait aussi son deuxième semi-marathon de robots humanoïdes, remporté par le robot "Lightning" de la Team Honor en 50 minutes et 26 secondes, en mode entièrement autonome. Une version plus rapide du même robot avait bouclé le parcours en 48 minutes et 19 secondes, mais en télécommandée, ce qui l'a disqualifiée selon les règles favorisant l'autonomie complète. La victoire de Tien Kung 3.0 représente un saut qualitatif dans l'autonomie des robots humanoïdes. Contrairement aux systèmes précédents qui exécutaient des scripts préprogrammés ou dépendaient de commandes à distance, le robot a démontré une prise de décision active en temps réel dans des environnements non structurés. Sa plateforme d'intelligence incarnée "Wise KaiWu" assure une intégration en boucle fermée entre perception, planification, contrôle et récupération en cas de défaillance. Un système de perception multimodal traite les données de capteurs hétérogènes via un modèle de bout en bout, permettant de traduire directement les observations brutes en stratégies de mouvement. La mobilité est elle aussi frappante : le temps de référence du semi-marathon est passé de 2 heures 40 minutes en 2025 à moins de 50 minutes cette année, signe d'avancées massives en équilibre, endurance et navigation autonome. Ces performances s'inscrivent dans une dynamique d'accélération que la Chine pilote de manière très structurée. Le semi-marathon 2026 a réuni 100 équipes pour 300 robots issus de 26 marques, dont des participants venus de France, d'Allemagne et du Brésil, soit près de cinq fois plus que lors de la première édition. Des acteurs majeurs comme Unitree, Tiangong ou Noetix Robotics y ont présenté des conceptions variées, des plateformes haute tension aux moteurs refroidis à l'eau. X-Humanoid a mobilisé quatre équipes internes et des laboratoires conjoints de l'Université du Hunan et de l'Université Renmin de Chine. Les experts soulignent que ces progrès en contrôle temps réel, adaptation au terrain et décision autonome ouvrent des perspectives concrètes pour la recherche et le sauvetage, les opérations industrielles, la logistique et la défense, des secteurs où la Chine cherche à s'imposer comme puissance robotique mondiale.

UELa participation de teams françaises et allemandes au semi-marathon de Beijing illustre un écart de compétitivité croissant : la Chine pilote une accélération structurée en robotique autonome qui pourrait distancer les acteurs européens sur les marchés industriels et de la défense.

HumanoïdesActu
1 source
Un pipeline de déploiement rapide pour la préhension autonome de robots humanoïdes basé sur des modèles fondation
145arXiv cs.RO 

Un pipeline de déploiement rapide pour la préhension autonome de robots humanoïdes basé sur des modèles fondation

Des chercheurs ont publié sur arXiv (arXiv:2604.17258, avril 2026) un pipeline de déploiement rapide permettant de préparer un robot humanoïde à manipuler un nouvel objet en environ 30 minutes, contre un à deux jours dans les approches classiques. Le système s'appuie sur trois composants à base de modèles de fondation : l'annotation automatique via Roboflow pour entraîner un détecteur YOLOv8, la reconstruction 3D par Meta SAM 3D à partir d'images standard (smartphone suffisant, pas de scanner laser), et le suivi de pose 6-DoF en zero-shot par FoundationPose, qui utilise directement le maillage généré par SAM 3D comme gabarit. Les commandes de pose alimentent un planificateur de cinématique inverse sous Unity, transmises en UDP au robot Unitree G1 via le SDK propriétaire. Les métriques annoncées : mAP@0.5 = 0,995 en détection, précision de suivi σ inférieure à 1,05 mm, et saisie réussie sur cinq positions dans l'espace de travail. Le pipeline a également été validé sur une tâche d'application de mastic sur vitre d'automobile, ce qui constitue un environnement industriel concret. L'enjeu principal est la réduction du "time-to-deployment" pour la manipulation humanoïde, un goulot d'étranglement majeur qui freine l'intégration en environnement industriel réel. Passer de deux jours à 30 minutes sans équipement spécialisé change la donne pour les intégrateurs et les PME industrielles qui ne disposent pas d'équipes robotique dédiées. Le recours au zero-shot pour FoundationPose signifie qu'aucun réentraînement n'est nécessaire pour chaque nouvel objet, ce qui valide partiellement l'hypothèse que les modèles de fondation peuvent absorber la variabilité d'objets sans collecte de données lourde. Cela dit, les résultats sont présentés sur cinq positions fixes et deux tâches seulement ; la robustesse en conditions de production non contrôlées reste à démontrer. Le robot support, le Unitree G1, est un humanoïde commercial chinois à 16 degrés de liberté vendu autour de 16 000 dollars, positionné comme plateforme de recherche accessible. Les composants logiciels mobilisés (Roboflow, Meta SAM 3D, FoundationPose de NVidia) sont tous open-source ou accessibles via API, ce qui renforce la reproductibilité. Dans le paysage actuel où Figure (Figure 03), Tesla (Optimus), Physical Intelligence (pi0) et Boston Dynamics investissent massivement dans les pipelines de manipulation apprise, cette approche modulaire et frugale en données offre une alternative pragmatique, notamment pour les déploiements pilotes dans des cellules de production à faible volume ou à variété élevée d'objets.

UELes intégrateurs robotiques et PME industrielles européens peuvent évaluer et reproduire ce pipeline open-source (Roboflow, Meta SAM 3D, FoundationPose) pour réduire drastiquement le time-to-deployment sur des cellules de production à haute variété d'objets, sans équipement spécialisé ni équipe robotique dédiée.

IA physiquePaper
1 source
Vidéo : ce robot chinois a battu le record du semi-marathon détenu par un humain
146Le Big Data 

Vidéo : ce robot chinois a battu le record du semi-marathon détenu par un humain

Un robot humanoïde du fabricant chinois Honor a bouclé un semi-marathon à Pékin en 50 minutes et 26 secondes, surpassant le record humain de la discipline détenu par l'athlète ougandais Jacob Kiplimo. Surnommé "Lightning", ce robot aux jambes de 95 centimètres a reproduit une foulée longue et efficace, proche de celle des athlètes professionnels. Honor n'a pas engagé un seul robot dans cette course, mais trois, signalant une stratégie industrielle assumée plutôt qu'un simple coup de communication. Parmi les plus de 100 robots humanoïdes présents sur la ligne de départ, près de la moitié ont franchi l'arrivée sans aucune assistance humaine directe, analysant leur environnement en temps réel et ajustant leur trajectoire de manière autonome. Ce résultat marque un saut qualitatif net par rapport à l'édition précédente, où beaucoup de robots abandonnaient en chemin, perdaient l'équilibre ou s'immobilisaient en plein effort. En 2026, les machines tiennent la distance, accélèrent, et certaines dépassent des coureurs professionnels sur plusieurs segments. Le chiffre le plus révélateur n'est pas le chrono, mais la croissance du nombre de participants : d'une vingtaine de robots l'an dernier à plus de 100 cette année. Ce que démontre Honor, c'est la capacité à faire sortir des technologies grand public, développées à l'origine pour les smartphones, vers des machines capables de performances physiques comparables à celles d'un humain entraîné. Pour l'industrie robotique mondiale, c'est la preuve que l'endurance et l'autonomie de déplacement en milieu réel ne sont plus des obstacles théoriques. La Chine investit massivement dans la robotique humanoïde depuis plusieurs années, portée par une volonté politique de dominer ce secteur jugé stratégique, au même titre que les semi-conducteurs ou l'intelligence artificielle. Des entreprises comme Unitree, Fourier Intelligence ou désormais Honor s'imposent dans un marché mondial où Boston Dynamics et Tesla (avec Optimus) font figure de références. Le semi-marathon de Pékin fonctionne comme un banc d'essai public : les robots y affrontent des conditions réelles, imprévisibles, face à des milliers de coureurs humains. Chaque édition sert à mesurer les progrès effectifs, loin des démonstrations contrôlées en laboratoire. La prochaine étape logique sera de voir ces systèmes opérer dans des environnements industriels ou de service, où la robustesse et l'autonomie comptent autant que la vitesse. La course au semi-marathon n'est qu'un indicateur parmi d'autres d'une compétition technologique beaucoup plus large qui ne fait que commencer.

UELa montée en puissance de la Chine dans la robotique humanoïde, illustrée par Honor, Unitree et Fourier, représente un défi stratégique direct pour l'industrie européenne, qui accuse un retard croissant face à des acteurs soutenus par une volonté politique nationale forte.

Modèles fondation en robotique : revue complète des méthodes, modèles, jeux de données, défis et perspectives
147arXiv cs.RO 

Modèles fondation en robotique : revue complète des méthodes, modèles, jeux de données, défis et perspectives

Une revue systématique publiée sur arXiv (2604.15395) recense l'état de l'art des modèles de fondation appliqués à la robotique, couvrant l'ensemble du spectre allant des grands modèles de langage (LLM) aux architectures vision-langage-action (VLA). Les auteurs structurent leur analyse en cinq phases historiques distinctes, depuis les premières intégrations de modèles NLP et vision par ordinateur jusqu'aux déploiements multi-sensoriels en environnement réel. La taxonomie proposée examine six axes : les types de modèles employés (LLM, VFM, VLM, VLA), les architectures de réseaux de neurones sous-jacentes, les paradigmes d'apprentissage, les stades d'incorporation des connaissances, les tâches robotiques ciblées, et les domaines applicatifs industriels. L'étude recense également les datasets publics utilisés pour l'entraînement et l'évaluation sur ces différentes tâches. L'intérêt de ce travail pour les intégrateurs et les décideurs industriels réside dans sa cartographie des capacités réelles versus annoncées des VLA en déploiement. Le passage d'agents mono-tâche et spécialisés vers des agents adaptatifs multi-fonctions à usage général constitue le fil directeur de l'analyse. Les auteurs traitent explicitement du gap simulation-réalité (sim-to-real), de la généralisation inter-embodiment (cross-embodiment), et de la planification à horizon long, trois verrous techniques qui conditionnent la commercialisation à grande échelle. La revue identifie aussi les défis ouverts et les directions de recherche prometteuses, utiles pour orienter des feuilles de route R&D. Ce survey s'inscrit dans une accélération documentée depuis 2022, portée par des laboratoires comme Google DeepMind (RT-2, π0), Physical Intelligence, Figure AI, et Unitree, qui ont tous misé sur les VLA comme colonne vertébrale de leurs systèmes. Côté européen, des acteurs comme Enchanted Tools ou Wandercraft n'apparaissent pas dans ce corpus, ce qui reflète un déséquilibre de publication favorable aux équipes nord-américaines et asiatiques. La revue ne constitue pas un benchmark expérimental indépendant mais une synthèse bibliographique, ce qui en fait un point d'entrée solide pour un ingénieur robotique cherchant à situer une technologie ou comparer des approches, sans remplacer une évaluation terrain des solutions commerciales disponibles.

UELe déséquilibre de publication constaté, acteurs FR/EU (Enchanted Tools, Wandercraft) absents du corpus, souligne un déficit de visibilité des équipes européennes dans la recherche VLA, ce qui peut biaiser les benchmarks de référence utilisés par les industriels pour orienter leurs feuilles de route R&D.

RecherchePaper
1 source
CLAW : génération de mouvements corps entier composables et annotés en langage naturel
148arXiv cs.RO 

CLAW : génération de mouvements corps entier composables et annotés en langage naturel

Une équipe de chercheurs a publié CLAW (Composable Language-Annotated Whole-body Motion Generation), un pipeline open source conçu pour générer à grande échelle des données de mouvement annoté en langage naturel pour robots humanoïdes, appliqué ici au Unitree G1. Le système compose des primitives de mouvement paramétrées par six variables, type de déplacement, cap, vitesse, hauteur du bassin (pelvis height) et durée, et les exécute dans le simulateur MuJoCo pour produire des trajectoires physiquement cohérentes. Deux interfaces navigateur sont proposées : un mode clavier en temps réel pour l'exploration, et un éditeur de séquences en timeline pour la collecte de données en batch. En parallèle, un moteur de génération d'annotations basé sur des templates produit des descriptions en langage naturel à deux niveaux de granularité : segment individuel et trajectoire complète. Le code est disponible publiquement sur GitHub sous la référence arXiv:2604.11251. L'enjeu central est le goulot d'étranglement des données pour entraîner des contrôleurs whole-body conditionnés au langage (VLA, Vision-Language-Action). La capture de mouvement réelle est coûteuse, peu scalable et limitée en diversité ; les modèles génératifs text-to-motion existants produisent des sorties purement cinématiques, sans garantie de faisabilité physique, un écueil critique pour le déploiement réel. CLAW apporte une réponse intermédiaire : la simulation MuJoCo ancre les trajectoires dans la physique, tandis que la composition modulaire de primitives permet une diversité combinatoire élevée. C'est une approche sim-to-real pragmatique qui vise à réduire le fossé entre données d'entraînement et comportement robot en conditions réelles, sans le coût d'un studio de mocap. Le Unitree G1, robot humanoïde chinois positionné sur le segment accessible (prix catalogue autour de 16 000 USD), est une plateforme de recherche de plus en plus utilisée dans la communauté académique, notamment face aux plateformes fermées comme Figure 02 ou Apptronik Apollo. CLAW s'inscrit dans une dynamique plus large de démocratisation des pipelines de données pour la robotique humanoïde, aux côtés de travaux comme le dataset HumanoidBench ou les approches de Physical Animation de Berkeley. La mise à disposition publique du système est son principal atout différenciant : elle permet aux laboratoires sans ressources de mocap de constituer des jeux de données whole-body annotés pour leurs propres expériences de contrôle en langage. Les prochaines étapes attendues, non annoncées dans ce papier, concernent le transfert réel sur G1 et la validation des politiques entraînées sur ces données synthétiques.

UELes laboratoires européens de recherche en robotique humanoïde peuvent exploiter ce pipeline open source pour constituer des jeux de données whole-body annotés sans infrastructure de mocap coûteuse.

IA physiqueOpinion
1 source
L'usine Tesla de Shanghai capable de produire des robots humanoïdes, selon son président en Chine
149SCMP Tech 

L'usine Tesla de Shanghai capable de produire des robots humanoïdes, selon son président en Chine

Allan Wang Hao, président de Tesla Chine, a déclaré lors d'un briefing médias ce mardi que la Gigafactory de Shanghai, la plus grande base de production du constructeur américain, pourrait constituer une "clé en or" pour la fabrication en masse de robots humanoïdes. Wang n'a pas annoncé de calendrier précis ni de volume de déploiement, mais il a explicitement lié la capacité manufacturière exceptionnelle du site, qui produit actuellement plus de 450 000 véhicules par an, à l'ambition d'Elon Musk de commercialiser l'Optimus à grande échelle. Aucun chiffre de production cible pour le robot n'a été communiqué lors de cet événement. Cette déclaration signale une évolution stratégique notable : Tesla envisage de faire de sa chaîne automobile existante un vecteur d'industrialisation robotique, ce qui réduirait structurellement les coûts de montée en cadence. Pour les décideurs industriels, cela suggère que le vrai différenciateur dans la course humanoïde ne sera pas uniquement la performance du modèle d'IA, mais la maîtrise du scale-up manufacturier, un domaine où Tesla dispose d'un avantage reconnu. Il reste cependant à distinguer cette déclaration d'intention d'un engagement de production ferme. Tesla teste actuellement des unités Optimus Gen 2 en interne dans plusieurs de ses usines, sans déploiement commercial confirmé à ce jour. Sur le marché, les concurrents directs incluent Figure AI (Figure 02), Agility Robotics (Digit, déployé chez Amazon), et le chinois Unitree. La Gigafactory de Shanghai, implantée en Chine, donnerait également à Tesla un accès privilégié à la chaîne d'approvisionnement en composants robotiques, dominée par des fournisseurs asiatiques, ce qui constitue un levier logistique non négligeable pour atteindre les objectifs de coût évoqués par Musk.

Agibot livre son 10 000e robot humanoïde produit en série
150The Information AI 

Agibot livre son 10 000e robot humanoïde produit en série

Agibot, startup chinoise spécialisée dans les robots humanoïdes et basée à Shanghai, a annoncé ce lundi avoir produit sa 10 000e unité en série. Cette étape symbolique intervient seulement trois mois après que l'entreprise avait annoncé la sortie de son 5 000e robot — ce qui signifie qu'Agibot a doublé son volume de production en moins d'un trimestre, un rythme industriel sans précédent dans ce secteur. Cette cadence illustre la montée en puissance de la robotique humanoïde à grande échelle, jusqu'ici considérée comme un horizon lointain. Atteindre 10 000 unités en production de masse positionne Agibot comme un acteur capable de livrer des robots à des clients industriels à des volumes réellement opérationnels — ce que ni Boston Dynamics ni Figure n'ont encore atteint publiquement. Cela crée une pression directe sur les concurrents occidentaux. Cette accélération s'inscrit dans une course technologique et industrielle que Pékin soutient activement, avec des subventions ciblées sur la robotique humanoïde identifiée comme secteur stratégique. Agibot, fondée en 2023, bénéficie de cette dynamique aux côtés d'autres acteurs chinois comme Unitree ou Fourier Intelligence. La question qui se pose désormais est celle du déploiement réel : dans quelles usines, à quels coûts, et avec quelle fiabilité ces 10 000 robots seront-ils mis au travail.

UELa montée en puissance industrielle de la robotique humanoïde chinoise, soutenue par Pékin, accentue le retard des industriels européens et crée une pression concurrentielle directe sur les filières d'automatisation en France et en UE.

HumanoïdesActu
1 source