Aller au contenu principal

Dossier Agility Robotics — Digit — page 3

340 articles · page 3 sur 7

Agility Robotics et Digit : déploiement entrepôts (Amazon, GXO, Spanx), focus pick-and-place, levée de fonds et batailles juridiques.

WOLF-VLA : framework de locomotion optimale corps entier pour humanoïdes avec apprentissage vision-langage-action
101arXiv cs.RO RechercheOpinion

WOLF-VLA : framework de locomotion optimale corps entier pour humanoïdes avec apprentissage vision-langage-action

Des chercheurs ont publié le 25 juin 2026 sur arXiv (arXiv:2606.25591) WOLF-VLA, un cadre unifié qui combine la synthèse de trajectoires par contrôle optimal (OC) en corps entier avec un dataset multimodal à grande échelle, dans le but d'entraîner des modèles VLA (Vision-Language-Action) capables de piloter la locomotion d'humanoïdes directement depuis des instructions en langage naturel. Le dataset couvre six familles de tâches de locomotion, paramétrées par des variations d'environnement, de couleurs d'objets, de placements et de distracteurs visuels. L'entrainement utilise des trajectoires articulaires dynamiquement cohérentes, des observations visuelles ego-centriques et des instructions textuelles. Les résultats annoncés font état d'une robustesse notable aux variations de conditions initiales et de performances compétitives sur plusieurs tâches et configurations d'environnement. Le dataset complet, les checkpoints de modèle et la suite de benchmarks en simulation seront publiés en open source. Ce travail comble un angle mort important : si les VLA ont prouvé leur efficacité en manipulation (voir Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA), leur extension à la locomotion en corps entier, contact-riche et dynamiquement contrainte, restait quasi inexploitée. Les trois verrous identifiés par les auteurs sont précis -- pénurie de données, absence de démonstrations dynamiquement consistantes, et difficulté à encoder optimalité et sécurité dans un pipeline d'apprentissage -- ce sont exactement les obstacles qui ont maintenu la locomotion hors du champ VLA. La génération de trajectoires via contrôle optimal comme source de données supervisées est une approche méthodologiquement solide pour contourner la dépendance aux démonstrations humaines ou téléopérées. Ce papier s'inscrit dans un mouvement plus large vers des politiques de locomotion instruction-guidées, concurrent de travaux comme ANYmal (ETH Zurich / ANYbotics), Digit (Agility Robotics) ou les approches reinforcement learning de Boston Dynamics. La release open source du benchmark constitue la contribution potentiellement la plus durable : établir un référentiel reproductible pour la locomotion humanoïde VLA permettrait de structurer les comparaisons dans un domaine où les métriques sont encore disparates. Aucun déploiement physique n'est mentionné dans cet article, qui reste une contribution de recherche en simulation -- le transfert sim-to-real sur des plateformes comme Unitree H1 ou Figure 03 constitue la prochaine étape non résolue.

UELe benchmark open source pourrait servir de référence aux laboratoires européens travaillant sur la locomotion humanoïde (ETH Zurich/ANYbotics notamment), mais aucun acteur français ni institution de l'UE n'est directement impliqué dans cette publication.

1 source
Kunlun Xing, startup d'IA incarnée, lève plusieurs milliards de yuans et devient licorne en 90 jours
10236Kr 

Kunlun Xing, startup d'IA incarnée, lève plusieurs milliards de yuans et devient licorne en 90 jours

Moins de quatre-vingt-dix jours après son enregistrement officiel, la startup de robotique humanoïde chinoise Kunlun Xing (昆仑行) a bouclé trois tours de financement successifs pour un total de plusieurs milliards de yuans, franchissant le seuil du milliard de dollars de valorisation avant même d'avoir sorti un produit. C'est le 36Kr qui révèle ces informations en exclusivité. La société est fondée par Ren Geng, ancien vice-président du groupe Alibaba et ex-président d'Alibaba Cloud Chine, accompagné de Lang Xianpeng, premier ingénieur ADAS de Li Auto, l'équivalent chinois de Mobileye au sein du constructeur. Les investisseurs présents dès le premier tour, dont Hillhouse Capital, Gaorong Ventures, CASSTAR et Huaye Capital, ont participé aux trois rounds consécutifs, un signal fort de conviction. Le tour de table réunit également Zhongding Capital, Innovation Works (le fonds de Kai-Fu Lee), Xin Capital, et le bras industriel du conglomérat Jianfa Group. La stratégie affichée par Kunlun Xing est le développement en intégration totale (full-stack) d'un robot humanoïde généraliste, explicitement positionné comme concurrent de l'Optimus de Tesla, avec une architecture duale baptisée Kunlun World Model (KWM) censée améliorer la généralisation et réduire l'opacité décisionnelle des modèles de type VLA. Ce financement record illustre la tension qui structure le marché chinois de la robotique humanoïde en 2026 : les capitaux sont abondants, mais les cibles crédibles rares. Plusieurs fonds de premier rang interrogés par 36Kr reconnaissent se retrouver en position de "demandeurs" face aux meilleurs dossiers, non l'inverse. Ce qui différencie Kunlun Xing aux yeux des investisseurs, c'est la combinaison inhabituelle de compétences de go-to-market à grande échelle (Ren Geng a piloté Alibaba Cloud à 42,1 % de part de marché public cloud en 2020) et de capacités de livraison hardware à volume (Lang Xianpeng a délivré l'ADAS Li Auto sur 1,5 million de véhicules avec un budget annuel de recherche de 10 millions de yuans). Dans un secteur où la plupart des acteurs sont soit purement techniques, soit purement commerciaux, cette dualité est jugée décisive. La stratégie "corps + cerveau" en développement propriétaire vise à éviter le découplage logiciel-matériel qui pénalise nombre de concurrents. Le contexte sectoriel qui nourrit cette levée tient à plusieurs catalyseurs simultanés : l'annonce par Tesla d'une production en petite série de l'Optimus Gen3 à l'usine de Fremont entre juillet et août 2026, l'introduction en bourse accélérée de Unitree Robotics, et les prévisions de Morgan Stanley évaluant le marché mondial des robots humanoïdes à 5 000 milliards de dollars d'ici 2050. Kunlun Xing n'est toutefois pas seul sur ce segment : Figure AI, 1X, Agility Robotics et Fourier Intelligence occupent le terrain international, tandis que Unitree, Agibot (智元) et Zhiyuan Robot (智元) disputent le marché domestique. Les défis techniques restent concrets : la durée de vie des mains dextres dépasse rarement deux mois, et la supply chain composants n'est pas encore industrialisée. Kunlun Xing n'a pour l'heure annoncé ni prototype public, ni calendrier de livraison client, ni déploiement pilote, sa valorisation repose intégralement sur la crédibilité de l'équipe fondatrice, pas sur des métriques produit vérifiables.

Chine/AsieActu
1 source
Bear Robotics acquiert Kinisi Robotics pour renforcer ses capacités d'IA physique
103Robotics Business Review 

Bear Robotics acquiert Kinisi Robotics pour renforcer ses capacités d'IA physique

Bear Robotics a annoncé la signature d'un accord définitif pour acquérir Kinisi Robotics, une startup basée à Bristol, au Royaume-Uni. La clôture est attendue dans les prochains jours. L'opération transfère à Bear l'équipe d'ingénierie britannique de Kinisi, son robot humanoïde à roues KR1, ainsi que ses modèles d'IA propriétaires : un modèle vision-langage-action (VLA) et un modèle fondation pour la robotique (RFM). Ces systèmes combinent apprentissage par imitation, renforcement, contrôle agentique de tâches et vision par ordinateur pour la détection, la localisation et la segmentation d'objets. Le KR1 est un humanoïde sur base roulante, conçu pour la préhension, le tri et le déplacement d'objets dans des environnements industriels, logistiques et hôteliers. Fondée en 2017 par John Ha, Bear a déployé plus de 16 000 robots de service dans le monde, opérant déjà comme une flotte coordonnée via une orchestration multi-robots agentique sur une plateforme cloud unifiée. L'acquisition répond à un verrou technique persistant dans la robotique de service : les robots mobiles autonomes (AMR) naviguent efficacement, mais peinent dès qu'il s'agit de saisir, trier ou manipuler des objets physiques. En intégrant Kinisi, Bear franchit cette frontière entre navigation pure et manipulation physique, que la majorité des acteurs du secteur tentent encore de résoudre séparément. Ce qui donne du crédit à l'opération plutôt que d'en faire une annonce spéculative, c'est que Kinisi utilisait déjà le stack de navigation de production de Bear depuis ses débuts : les équipes se connaissent, le code tourne en conditions réelles, et Bear dispose d'une visibilité concrète sur la maturité de l'ingénierie de Kinisi. La synergie sur les données d'entraînement est également tangible : la flotte de 16 000 robots génère en continu des données issues de milliers de sites, tandis que les outils de capture de Kinisi permettent d'ajouter des exemples de manipulation à faible coût. C'est un avantage que des pure-players de l'humanoïde comme Figure AI (Figure 03), Physical Intelligence (pi-0), Agility Robotics (Digit) ou encore Boston Dynamics (Atlas) n'ont pas encore à cette échelle de déploiement commercial réel. Bear Robotics s'est fait connaître à partir de 2017 avec ses robots de livraison pour la restauration (Servi, Laboni), avant de s'étendre au nettoyage industriel, en construisant une chaîne de fabrication et une base de clients enterprise. Kinisi a été co-fondée par Brennand Pierce, lui-même co-fondateur originel de Bear, ce qui explique la proximité technique et culturelle des deux entités : Pierce rejoindra Bear à la clôture de la transaction. Aucun calendrier public de déploiement commercial du KR1 n'est encore annoncé, ni de prix ni de volume cible. La prochaine étape logique est l'intégration du KR1 dans la flotte existante pour des tâches de picking en environnement hospitality ou logistique, les données d'entraînement étant alimentées directement par la flotte en production. Côté Europe, aucun acteur comparable en termes de flotte déployée n'est positionné sur ce segment : Wandercraft (exosquelette médical) et Enchanted Tools (Miroka, hospitality) opèrent sur des verticales plus étroites.

UEL'acquisition de Kinisi (Bristol, UK) par Bear Robotics intensifie la pression concurrentielle sur les acteurs européens de robotique de service en hospitality et logistique, notamment Enchanted Tools, sans déploiement commercial annoncé en Europe à ce stade.

BusinessOpinion
1 source
Le robot humanoïde gravit un sommet de 6 000 mètres pour la première fois, cap ensuite sur l'Everest
104Pandaily 

Le robot humanoïde gravit un sommet de 6 000 mètres pour la première fois, cap ensuite sur l'Everest

En juin 2026, un robot humanoïde Unitree G1 modifié, baptisé Pemba José Lani, a atteint le sommet du volcan Chimborazo en Équateur (6 310 mètres), devenant le premier humanoïde à franchir le seuil des 6 000 mètres. L'expédition a été organisée par Geologic Dome, une startup américaine fondée par Pablo Berlanga Boemare, 23 ans. L'ascension totale a duré 16 heures, dont 5,5 heures pour le push final, un rythme comparable à celui d'un alpiniste humain entraîné. Pour résister aux conditions extrêmes, le robot a été équipé d'une veste de montagnard professionnelle, de guêtres, de chaussures à microcrampons et d'un système de ventilation abdominale pour maintenir les batteries à température optimale. Avant le départ, 72 heures d'entraînement par imitation de mouvement ont été réalisées, le chef d'équipe portant un casque VR et des traqueurs de chevilles pour transmettre des patterns d'équilibre au robot. L'autonomie restait partielle : Pemba marchait seul sur les pentes inférieures à 30 degrés ; au-delà, quatre guides le portaient. Ce n'est pas l'exploit sportif lui-même qui compte, mais les données opérationnelles collectées sur la résilience thermique et mécanique du G1 en milieu non structuré. Unitree avait certes testé la plateforme à près de -50°C dans la région de l'Altaï du Xinjiang, mais une traversée de 16 heures en haute altitude constitue un benchmark différent des cycles courts en laboratoire ou des démos en entrepôt contrôlé. Pour les acteurs du monitoring environnemental en terrain difficile, les robots à pattes commencent à apparaître comme une alternative crédible aux caméras fixes et aux drones, notamment dans les canopées forestières denses où ces derniers ne peuvent opérer. Les plateformes humanoïdes compactes comme le G1 (environ 35 kg) pourraient ouvrir un segment que les AMR à roues ne peuvent adresser, à condition toutefois que les preuves d'endurance multi-heures en conditions réelles se confirment au-delà d'expéditions isolées. Le projet s'enracine dans le parcours de Berlanga, ancien chargé de surveillance à distance pour le WWF au Parc National de la Salonga au Congo, dont l'intuition fondatrice est de "donner des jambes aux caméras" pour le suivi de biodiversité en terrain inaccessible. Le financement provient d'Eastworlds Labs, l'initiative robotique du protocole crypto Virtuals Protocol, un modèle inhabituel dans le secteur robotique. Le nom Pemba José Lani renvoie à un plan dit "triple couronne" : Chimborazo, puis Mauna Kea à Hawaï, et enfin l'Everest. Une demande d'expédition de 52 jours a été soumise au département du tourisme du Népal, avec pour objectif la collecte de données de mobilité et d'autonomie batterie entre le camp de base et le camp 4. Sur le créneau de l'exploration extrême en extérieur, les grands acteurs humanoïdes, Boston Dynamics, Figure, Agility Robotics et Unitree eux-mêmes, concentrent leurs efforts sur les environnements industriels contrôlés, laissant ce segment largement non disputé pour l'instant.

HumanoïdesPaper
1 source
Soutien politique et production de masse propulsent les ETF de robots humanoïdes à l'aube d'une phase critique
105Pandaily 

Soutien politique et production de masse propulsent les ETF de robots humanoïdes à l'aube d'une phase critique

La Chine accélère sa stratégie dans la robotique humanoïde : le ministère de l'Industrie et des Technologies de l'Information (MIIT), en coordination avec la SASAC (Commission de supervision des actifs d'État), a fixé un objectif contraignant de plus de 10 000 unités humanoïdes déployées d'ici fin 2026, signalant un passage de l'incitation à la R&D vers une obligation de déploiement industriel. Sur le plan production, le Centre d'innovation en robotique humanoïde de Pékin a confirmé que le Tiangong 3.0 entrera en fabrication en série au second semestre 2026, avec des réductions de coûts attendues supérieures à 50 %. UBTECH a formalisé une coentreprise pour développer des puces d'intelligence incarnée, avec un capital enregistré de 100 millions de yuans. Côté chaîne d'approvisionnement, Wanma et Langxin Electric ont commencé des livraisons en volume de composants critiques. À l'international, GenesisAI, soutenu par l'ex-PDG de Google Eric Schmidt, a lancé son robot industriel Eno, tandis que Faraday Future affirme avoir livré 157 unités réparties sur quatre modèles. Dans ce contexte, l'ETF Robot d'Invesco Great Wall (code 159559), indexé sur le Guozheng Robot Industry Index (980022), affiche une exposition de plus de 73 % aux valeurs du secteur humanoïde, avec une allocation sectorielle dominée par les équipements mécaniques à 47,23 % (réducteurs, vis à billes, moteurs) et les équipements électriques à 14,68 %. Ce moment marque une inflexion structurelle : la Chine ne pilote plus la filière par subventions symboliques mais par objectifs de déploiement chiffrés et datés, ce qui force les intégrateurs et les acheteurs industriels à anticiper des volumes réels dès 2026. La maturité affichée de la chaîne d'approvisionnement, notamment autour des composants à haute valeur (actionneurs, chips embarqués), réduit un des principaux goulets d'étranglement identifiés lors des phases pilotes. Toutefois, il convient de rester prudent : l'article source est en grande partie un texte promotionnel pour le fonds 159559 lui-même, dont la performance de 60,81 % sur deux ans est mise en avant face aux 34,02 % du CSI 300. Les chiffres de déploiement restent des objectifs politiques, pas des confirmations de livraisons effectives, et les vidéos de démonstration des robots ne constituent pas une preuve de passage à l'échelle industrielle. La trajectoire de la robotique humanoïde chinoise s'inscrit dans un effort stratégique accéléré depuis 2023, avec des acteurs comme Unitree, AgiBot et UBTECH qui avancent en parallèle. À l'international, Tesla (Optimus Gen 3), Figure (Figure 03), Physical Intelligence (pi0), Agility Robotics et Boston Dynamics maintiennent une pression concurrentielle forte, principalement sur les cas d'usage logistique et manufacture. Le second semestre 2026 et l'année 2027 sont désignés comme la première fenêtre de réalisation de revenus réels pour le secteur, sous réserve que les objectifs de déploiement se confirment en commandes fermes plutôt qu'en annonces de pilotes.

UELa montée en puissance industrielle chinoise dans les humanoïdes (objectif 10 000 unités d'ici fin 2026, passage aux mandats de déploiement) crée une pression concurrentielle indirecte sur les fabricants et intégrateurs européens de composants robotiques critiques (actionneurs, réducteurs, chips embarqués).

Chine/AsieActu
1 source
Le secret des robots humanoïdes victorieux en marathon
106IEEE Spectrum Robotics 

Le secret des robots humanoïdes victorieux en marathon

Le 19 avril 2026, le robot humanoïde Honor Lightning a complété un semi-marathon en 50 minutes et 26 secondes, battant le record mondial humain de 7 minutes et le meilleur temps robotique enregistré en 2025 de près de deux heures. Cette performance a été réalisée à une vitesse moyenne de 7 m/s, avec une consommation énergétique totale estimée à environ 400 W pour les membres inférieurs. L'élément distinctif du Lightning n'est ni une architecture de contrôle radicalement nouvelle ni une puissance moteur exceptionnelle : c'est un système de refroidissement liquide intégré directement dans chacun des quatre moteurs d'entraînement des membres inférieurs. Selon Honor, ces circuits liquides pénètrent les moteurs comme des capillaires, avec un débit d'échange thermique supérieur à 4 litres par minute et un circuit indépendant par moteur. Les actionneurs de hanche et de genou affichent un diamètre extérieur d'environ 110 à 150 mm, avec un rapport de réduction estimé à 45:1, optimisé pour la vitesse de course cible. La contrainte que cette architecture résout est strictement thermique. Faire courir un humanoïde de gabarit humain à 7 m/s génère inévitablement environ 150 W de chaleur dissipée au niveau du genou, quelle que soit l'efficacité du reste du système, et ce flux ne peut pas être évacué par convection naturelle de manière continue sur la durée d'un semi-marathon. C'est précisément ce verrou qu'illustre la performance d'Unitree lors de la même épreuve : le constructeur chinois, plus établi commercialement, a dû recourir à un sac à dos de glace pour tenter de terminer la course sans surchauffe. Apptronik avait exploré le refroidissement liquide sur plusieurs prototypes, mais ne l'intègre pas à son humanoïde principal Apollo. Pour les intégrateurs industriels et les décideurs B2B, ce résultat signale que l'endurance à haute cadence sera conditionnée moins par la puissance de calcul ou l'IA embarquée que par la gestion thermique des actionneurs, un critère rarement mis en avant dans les fiches produit des fabricants. Honor, fabricant de smartphones reconverti à la robotique humanoïde, reste discret sur la feuille de route commerciale du Lightning : aucun pilote industriel ni calendrier de mise sur le marché n'a été communiqué, et les spécifications moteur détaillées ne sont pas publiées. Cette course du 19 avril positionne néanmoins le Lightning directement face aux acteurs chinois Unitree et Agibot, ainsi qu'aux plateformes occidentales comme Figure (Figure 03), Boston Dynamics (Atlas) et Agility Robotics (Digit). Dans un secteur où l'écart entre démonstration contrôlée et déploiement réel reste souvent considérable, la nature ouverte et chronométrée de l'épreuve -- un vrai semi-marathon public, pas un parcours en laboratoire -- donne à ce résultat un caractère de benchmark difficile à relativiser. La prochaine étape logique pour Honor serait de publier les données thermiques détaillées et d'annoncer des collaborations industrielles pour valider le Lightning en conditions de production réelle, seul terrain qui transforme un record sportif en argument commercial.

HumanoïdesOpinion
1 source
Le prochain robot humanoïde pourrait ne pas ressembler à un humain
107The Verge 

Le prochain robot humanoïde pourrait ne pas ressembler à un humain

La startup française Genesis AI a présenté Eno, un robot se réclamant du "général purpose" sans reproduire la silhouette humaine. Soutenue par Eric Schmidt, ancien PDG de Google, la société fait le choix radical d'une morphologie repensée : pas de tête au sens classique, une base potentiellement sur roues, une structure compacte et pliable. Seul élément fidèle à l'anatomie : les mains, conçues pour reproduire "exactement la forme et les fonctions" de la main humaine. Genesis AI positionne Eno comme un robot polyvalent capable d'une large gamme de tâches, à l'opposé des machines spécialisées. Les métriques techniques précises (charge utile, degrés de liberté, prix) n'ont pas été communiquées. Ce parti pris interroge une hypothèse dominante du secteur : pourquoi l'humanoïde doit-il ressembler à un humain ? La réponse de Genesis est fonctionnelle. Ce qui compte, c'est la compatibilité avec des environnements et des outils conçus pour des mains humaines, pas la forme du torse ou l'existence d'un visage. Pour les intégrateurs industriels, cela ouvre une piste concrète : des robots ergonomiquement compatibles avec l'espace de travail humain, potentiellement moins coûteux si les composants non fonctionnels sont supprimés. Genesis AI s'inscrit dans une vague de startups françaises de robotique avancée, aux côtés de Wandercraft (exosquelettes) et Enchanted Tools (robots hospitaliers). Le soutien d'Eric Schmidt lui donne une visibilité internationale dans un secteur dominé par Figure AI, Agility Robotics, Boston Dynamics côté américain et Unitree ou Fourier Intelligence côté asiatique. Eno reste à ce stade un teaser : aucun déploiement ni pilote industriel n'a été annoncé, et les performances réelles du système restent entièrement à démontrer.

UEGenesis AI est une startup française dont le projet Eno, soutenu par Eric Schmidt, renforce la visibilité internationale de l'écosystème robotique français, bien que le produit reste à un stade de teaser sans métriques ni déploiement validés.

FR/EU ecosystemeOpinion
1 source
Quel point de départ pour générer des actions ? Un prior source apprenable pour les politiques robotiques génératives
108arXiv cs.RO 

Quel point de départ pour générer des actions ? Un prior source apprenable pour les politiques robotiques génératives

Une équipe de chercheurs publie sur arXiv (2606.17408) LeaP, un Learnable source Prior qui modifie le point de départ de la génération d'actions dans les politiques robotiques génératives. Là où les approches classiques comme les diffusion policies ou le flow-matching initialisent la génération depuis un bruit gaussien standard indépendant de l'état du robot, LeaP le remplace par une gaussienne diagonale conditionnée sur la proprioception, paramétrée par un MLP léger qui prédit conjointement moyenne et variance adaptative sur des action chunks. Évalué sur 15 tâches de manipulation du benchmark RoboTwin, LeaP atteint 81,6 % de taux de succès moyen, surpassant quatre baselines de référence de 6,5 à 25,5 points de pourcentage. La méthode s'applique indifféremment aux générateurs flow-matching et diffusion-bridge, avec moins de paramètres, une convergence plus rapide, et des gains confirmés en déploiement réel. L'intérêt industriel de LeaP tient à sa nature modulaire : il s'agit d'un composant drop-in qui améliore toute politique générative existante sans modifier l'architecture du générateur ni le solveur d'inférence. Pour les équipes R&D travaillant sur la manipulation robotique en contexte industriel, qu'il s'agisse d'assemblage, de tri ou de logistique, cela signifie qu'un prior appris sur l'état interne du robot réduit la charge computationnelle à l'inférence tout en améliorant la précision des gestes. La publication valide une hypothèse jusque-là sous-explorée : la distribution source est un axe de conception indépendant, au même titre que le choix du type de générateur. Initialiser la génération depuis un bruit "informé" réduit la distance que le modèle doit parcourir dans l'espace des actions, ce qui se traduit directement en précision sur des tâches millimétriques. Les politiques génératives pour la manipulation ont émergé avec les diffusion policies (Chi et al., 2023) et le flow-matching appliqué à la robotique, popularisé notamment par Pi-0 de Physical Intelligence et les architectures VLA (Vision-Language-Action). Ces approches héritent toutes du même point aveugle : une initialisation gaussienne standard issue des modèles génératifs d'image, sans justification propre à la robotique. Dans l'espace des politiques génératives pour la manipulation, les concurrents directs incluent Diffusion Policy de Columbia et MIT, les variantes flow-matching de Physical Intelligence, ainsi que les architectures embarquées dans les humanoïdes de Figure AI et Agility Robotics. Les suites attendues portent sur l'intégration de ce prior dans des architectures VLA multimodales et son évaluation sur des benchmarks industriels de plus grande diversité.

RechercheOpinion
1 source
OmniRetarget : génération de données préservant les interactions pour la loco-manipulation corps entier des humanoïdes
109arXiv cs.RO 

OmniRetarget : génération de données préservant les interactions pour la loco-manipulation corps entier des humanoïdes

OmniRetarget est un pipeline de génération de données pour l'apprentissage par renforcement (RL) sur robots humanoïdes, présenté dans un préprint arXiv (2509.26633, v3). Face au problème du retargeting, qui consiste à convertir des captures de mouvement humain en références cinématiques exploitables par un robot, les méthodes existantes produisent des artefacts physiquement incohérents comme le glissement des pieds (foot-skating) ou la pénétration de surfaces, et ignorent les interactions humain-objet et humain-environnement. OmniRetarget introduit un "interaction mesh", un maillage intermédiaire qui modélise et préserve explicitement les relations spatiales et de contact entre l'agent, le terrain et les objets manipulés, via une minimisation par déformation laplacienne sous contraintes cinématiques. Évalué sur les datasets OMOMO, LAFAN1 et des données MoCap propriétaires, il génère plus de 8 heures de trajectoires de meilleure qualité que les baselines de référence. Appliqué au robot humanoïde Unitree G1, il permet d'exécuter des tâches de parkour et de loco-manipulation sur des horizons allant jusqu'à 30 secondes, entraîné avec seulement 5 termes de récompense et sans curriculum d'apprentissage. L'intérêt pour les chercheurs et intégrateurs réside dans deux apports combinés : la qualité cinématique améliorée réduit le sim-to-real gap, tandis que la préservation des interactions permet d'augmenter une démonstration unique vers différentes morphologies de robots, terrains et configurations d'objets, multipliant l'efficacité de la donnée. Plus significatif encore, l'obtention de comportements de loco-manipulation longs et complexes avec seulement 5 termes de récompense partagés entre toutes les tâches contredit l'hypothèse sectorielle selon laquelle ce type de compétences exige un reward engineering élaboré ou un curriculum progressif. Le paradigme dominant pour l'apprentissage humanoïde repose sur le retargeting MoCap vers des références RL, aux côtés de la télé-opération et de l'imitation directe. Le Unitree G1, produit par le fabricant chinois Unitree Robotics, s'est imposé comme plateforme académique de facto dans ce domaine, face à l'Atlas de Boston Dynamics, aux humanoïdes de Figure AI et d'Agility Robotics. OmniRetarget reste à ce stade une contribution de recherche sans annonce de déploiement industriel ; sa robustesse dans des environnements non structurés, où la géométrie de contact est imprévisible, reste à démontrer hors laboratoire.

RecherchePaper
1 source
λ-Atteignabilité : équations de Bellman de sécurité à horizon géométrique pour les humanoïdes
110arXiv cs.RO 

λ-Atteignabilité : équations de Bellman de sécurité à horizon géométrique pour les humanoïdes

Une équipe de chercheurs publie sur arXiv (arXiv:2606.16022, juin 2026) une nouvelle méthode d'analyse de sécurité pour robots humanoïdes à haute dimension, baptisée λ-Reachability. L'approche reformule les équations de Bellman Hamilton-Jacobi, qui permettent de délimiter le "safe set" d'un système dynamique, en remplaçant les mises à jour TD à un seul pas par un estimateur stochastique multi-pas à horizon géométrique. Un paramètre λ contrôle l'interpolation entre cohérence locale et objectifs sur horizon long, par analogie avec TD(λ) en apprentissage par renforcement. Un second paramètre δ < 1 garantit formellement que la mise à jour est une contraction, permettant l'apprentissage par différence temporelle avec convergence prouvée. Les auteurs appliquent la méthode à des humanoïdes en simulation et en conditions réelles, sur des tâches d'équilibre et d'évitement de collision, avec une amélioration significative de la classification des frontières du safe set et de l'estimation des marges de sécurité par rapport aux baselines TD à un seul pas. Le verrou que cherche à lever ce travail est central pour la commercialisation des humanoïdes : garantir formellement la sécurité d'un système à plusieurs dizaines de degrés de liberté opérant près d'humains. L'analyse Hamilton-Jacobi est mathématiquement rigoureuse mais ne passait pas à l'échelle au-delà de six ou sept dimensions. L'estimateur multi-pas à horizon géométrique améliore l'estimation de valeur de sécurité sans exploser la variance, un compromis que les méthodes à un seul pas gèrent mal sur des espaces d'état élevés. L'inclusion d'expériences sur vrai robot renforce la crédibilité des résultats, même si la nature précise du robot et les conditions expérimentales exactes ne sont pas détaillées dans le résumé du preprint. L'analyse de reachability Hamilton-Jacobi est un domaine actif depuis les années 1990, mais les toolboxes classiques (helperOC, BEACLS) butaient sur la malédiction de la dimensionnalité. Les méthodes concurrentes incluent les Control Barrier Functions (CBF), très utilisées dans les laboratoires de CMU, MIT et Berkeley, et le safe RL à contraintes Lagrangiennes. La connexion avec TD(λ) positionne ce travail à l'intersection du contrôle optimal et du deep RL, un territoire que convoitent Figure, 1X, Agility Robotics et Unitree pour obtenir des garanties de sécurité certifiables en déploiement industriel. Il s'agit d'un preprint académique sans partenariat industriel annoncé : les équipes robotique qui évaluent des approches de safety pour homologation auront intérêt à surveiller la suite de ces travaux.

UELes laboratoires européens comme le CEA-List et l'INRIA, actifs sur la vérification formelle des systèmes robotiques, pourraient intégrer cette approche à horizon géométrique dans leurs travaux de certification sécurité pour humanoïdes.

RecherchePaper
1 source
HATS : système de téléopération humain-agent pour la collecte de données multi-bras
111arXiv cs.RO 

HATS : système de téléopération humain-agent pour la collecte de données multi-bras

Des chercheurs ont publié sur arXiv (référence 2606.16491) un système de télé-opération baptisé HATS (Human-Agent Teleoperation System), conçu pour collecter des données d'entraînement dans des configurations à quatre bras robotiques. Le principe repose sur un découplage du contrôle : un seul opérateur humain télé-opère deux bras principaux directement, tandis qu'un agent basé sur un MLLM (modèle de langage multimodal à grande échelle, non spécifié dans le papier) gère deux bras assistants de façon autonome, sans phase d'entraînement préalable. L'opérateur peut en temps réel corriger le comportement des bras assistants et prévenir des collisions via commandes vocales. Selon les auteurs, l'efficacité de collecte et les taux de réussite obtenus avec HATS sont comparables à ceux d'équipes de deux opérateurs experts humains. Le problème que HATS tente de résoudre est structurant pour le secteur : les scénarios de manipulation industrielle complexes nécessitent souvent plus de deux bras, mais les systèmes de télé-opération existants imposent un arbitrage difficile entre charge cognitive (un seul opérateur gérant tout) et coût de coordination (plusieurs opérateurs synchronisés). En déléguant les sous-tâches à un agent MLLM, HATS réduit la charge sur l'humain sans multiplier les intervenants. Les évaluations en aval (downstream policy evaluations) suggèrent que les données collectées produisent des politiques de manipulation efficaces, mais ces résultats restent auto-rapportés et n'ont pas encore été validés de façon indépendante. La robustesse sur des tâches longues ou à haute précision, là où des corrections vocales pourraient s'avérer insuffisantes, n'est pas encore documentée. La collecte de démonstrations téléopérées est aujourd'hui le principal goulot d'étranglement pour entraîner des politiques de manipulation polyvalentes, notamment dans les approches VLA (Vision-Language-Action, architectures combinant perception visuelle, compréhension du langage et génération d'actions). Des systèmes comme ALOHA de Stanford ou les configurations bimanuelless d'Agility Robotics reposent sur des datasets construits par télé-opération humaine à deux bras. HATS étend cette approche à quatre bras en s'appuyant sur les capacités de raisonnement spatial des MLLM récents pour automatiser les bras secondaires. Cette direction est à suivre de près : si elle se généralisait, elle réduirait significativement le coût humain de construction des datasets d'imitation, un verrou majeur pour le passage à l'échelle des robots manipulateurs.

RecherchePaper
1 source
VENOM : réseau polyvalent de suivi de mouvement pour toutes morphologies corporelles
112arXiv cs.RO 

VENOM : réseau polyvalent de suivi de mouvement pour toutes morphologies corporelles

Des chercheurs ont publié sur arXiv (référence 2606.16696) VENOM, un modèle de suivi de mouvement corps entier conçu pour fonctionner sur plusieurs plateformes humanoïdes distinctes sans adaptation spécifique à chaque châssis. L'architecture repose sur un transformeur de type GPT entraîné sur le VENOM dataset, un jeu de données multi-humanoïdes constitué par l'équipe, qui rassemble états, actions et récompenses issus de plusieurs morphologies robotiques. L'originalité principale réside dans l'abandon du découplage classique haut/bas du corps : VENOM produit une politique unifiée qui contrôle simultanément l'ensemble des degrés de liberté. Les évaluations, conduites en simulation, montrent que le modèle surpasse un perceptron multicouche (MLP) entraîné par apprentissage supervisé sur les mêmes données et qu'il égale les performances d'experts formés par renforcement asymétrique acteur-critique, sans jamais avoir eu accès aux signaux de récompense pendant l'entraînement. L'enjeu est structurant pour la filière humanoïde : la majorité des politiques de suivi de mouvement publiées à ce jour segmentent le corps en sous-problèmes distincts, ce qui complique le transfert entre robots aux cinématiques différentes. Une politique cross-embodiment unifiée réduit le coût d'adaptation lorsqu'un intégrateur doit passer d'un châssis à un autre, ou lorsqu'un constructeur révise sa plateforme mécanique. Plus significatif encore, VENOM démontre qu'une architecture de type language model peut absorber la diversité des morphologies sans supervision par récompense explicite, simplifiant ainsi le pipeline d'entraînement. Il faut néanmoins souligner que toutes les expériences restent confinées à la simulation : l'écart sim-to-real n'est pas abordé, et les métriques annoncées ne valident pas encore un comportement physique sur robot réel. Ce travail s'inscrit dans un courant actif qui cherche à généraliser les politiques de contrôle au-delà d'un seul robot, dans la lignée de travaux comme Universal Humanoid Controller ou ExBody. Sur le front industriel, les grands déploiements humanoïdes actuels (Boston Dynamics Atlas, Agility Robotics Digit, Figure 02, Unitree H1) imposent chacun leurs propres pipelines de contrôle propriétaires, ce qui rend le problème du cross-embodiment économiquement pertinent pour tout intégrateur multi-plateforme. VENOM est un preprint non encore évalué par les pairs, le terme "letter" employé dans le texte suggérant une soumission vers une revue IEEE telle que RA-L ; la suite logique serait une validation sur au moins deux plateformes physiques pour établir la robustesse du transfert sim-to-real.

RecherchePaper
1 source
Piloter l'apprentissage par renforcement génératif vers un contrôleur robotique stable
113arXiv cs.RO 

Piloter l'apprentissage par renforcement génératif vers un contrôleur robotique stable

Des chercheurs ont publié fin juin 2026 sur arXiv (2606.16572) SteerGenPO, un cadre d'apprentissage par renforcement en espace latent destiné à transformer une politique générative entraînée, basée sur la diffusion ou les flux normalisants, en un contrôleur robotique déterministe et stable. Le système a été évalué sur six benchmarks Isaac Lab d'NVIDIA et sur une tâche de locomotion avec le robot humanoïde Unitree G1, avec des résultats supérieurs aux baselines RL classiques et génératives selon les auteurs. Il s'agit d'une publication académique en pré-impression, sans déploiement industriel annoncé ni validation terrain au-delà du G1. Le verrou technique adressé est connu : les politiques de diffusion accumulent des variations d'action à chaque pas de temps, ce qui dégrade la stabilité sur des systèmes robotiques à haute dimensionnalité. SteerGenPO sépare architecturalement exploration et contrôle : l'échantillonnage stochastique reste actif à l'entraînement pour diversifier les proposals d'actions, mais au déploiement, un acteur latent appris prédit une entrée déterministe et dépendante de l'état qui pilote la politique générative sans bruit résiduel. Pour les intégrateurs, la proposition n'exige pas de réentraîner la politique depuis zéro : elle greffe un mécanisme de pilotage sur un checkpoint pré-entraîné existant, ce qui ouvre la voie à l'exploitation de modèles fondation tout en garantissant la reproductibilité des trajectoires en production. Ce travail s'inscrit dans la compétition intense autour des politiques génératives en robotique. Physical Intelligence avec Pi-0 (2024) et NVIDIA avec GR00T N2 (2025) ont validé l'approche VLA-diffusion en environnements contrôlés, mais les questions sur la robustesse à l'inférence longue restent ouvertes. Boston Dynamics, Agility Robotics et Figure AI privilégient des pipelines de contrôle plus classiques pour la fiabilité en production. SteerGenPO propose une voie médiane : capitaliser sur la richesse exploratoire des modèles génératifs sans en subir l'instabilité au déploiement. Aucune timeline, partenariat industriel ni essai terrain n'est mentionné dans le préprint ; les prochaines validations naturelles porteraient sur la manipulation dextère et des tests sim-to-real approfondis.

IA physiqueOpinion
1 source
Soutenu par Samsung, un robot à 7 DOF apprend à travailler dans un grand entrepôt e-commerce
114Interesting Engineering 

Soutenu par Samsung, un robot à 7 DOF apprend à travailler dans un grand entrepôt e-commerce

Le RB-Y1 de Rainbow Robotics, filiale à 35 % de Samsung, aurait débuté des tests opérationnels dans un entrepôt de fulfillment de Coupang, premier e-commerce de Corée du Sud - ce qui constituerait son premier déploiement en environnement logistique commercial réel. Selon le Korea Herald et des sources industrielles citées par ETNews, le pilote vise à évaluer si le robot peut trier, transporter et manipuler des colis de manière fiable dans ce réseau hautement automatisé. Ni Coupang, ni Samsung, ni Rainbow Robotics n'ont confirmé officiellement l'essai : on reste au stade de test non annoncé, pas de déploiement validé. Le RB-Y1 adopte une architecture distincte des humanoïdes bipèdes qui dominent l'actualité : c'est un manipulateur mobile sur base à roues (AMR), mesurant 1,4 mètre pour 131 kilogrammes, équipé de deux bras à 7 degrés de liberté chacun, avec un payload de 3 kg par bras et une vitesse de déplacement de 1,5 m/s. L'ensemble est coordonné par un système de contrôle corps entier à 20 axes avec logiciel d'anti-collision intégré. Coupang a par ailleurs investi plus de 84 millions de dollars dans des startups IA mondiales depuis 2023 dans le cadre de sa stratégie de modernisation logistique. Ce pilote illustre un franchissement potentiel du fossé laboratoire-terrain pour les manipulateurs mobiles avancés, qui restent habituellement cantonnés à des environnements contrôlés. Le contexte réglementaire coréen renforce l'urgence : la loi sur la punition des accidents graves (Serious Accidents Punishment Act) engage pénalement les dirigeants en cas d'accident mortel sur le lieu de travail, créant une incitation directe à automatiser les tâches à risque. Le payload de 3 kg par bras positionne clairement le RB-Y1 sur le tri et le picking de petits articles - un segment différent de robots comme le Boston Dynamics Stretch, conçu pour des charges jusqu'à 23 kg. Pour les décideurs B2B, l'approche AMR plus double bras articulé, plus sobre que les humanoïdes bipèdes, pourrait s'avérer plus rapidement opérationnelle en conditions industrielles réelles - à condition que les métriques annoncées tiennent hors cadre laboratoire. Rainbow Robotics a été fondée en 2011 par des chercheurs issus du KAIST. Samsung a progressivement monté au capital avant d'en faire une filiale, identifiant la robotique comme axe stratégique aux côtés de l'IA et des semi-conducteurs avancés. La Corée du Sud affiche déjà la densité robotique la plus élevée au monde selon l'IFR, avec 1 012 robots industriels pour 10 000 travailleurs manufacturiers, soit plus de sept fois la moyenne mondiale. Dans la compétition sur les manipulateurs mobiles pour la logistique, le RB-Y1 fait face à l'Apollo d'Apptronik (partenaire de Mercedes-Benz), au Digit d'Agility Robotics (évalué par Amazon) et aux solutions de 1X Technologies. En Europe, Enchanted Tools et Pollen Robotics (France) travaillent sur des architectures comparables, à des stades de commercialisation plus précoces. Si le pilote Coupang est concluant, un déploiement à grande échelle en ferait l'un des premiers cas documentés de standardisation de ce type de robot dans la logistique commerciale mondiale.

UEEnchanted Tools et Pollen Robotics (France) sont explicitement positionnées comme en retard de commercialisation face au RB-Y1 de Rainbow Robotics, soulignant la pression concurrentielle que les acteurs européens subissent des conglomérats coréens soutenus par Samsung.

Chine/AsieOpinion
1 source
Capteurs tactiles dynamiques et évolutifs grâce à des guides d'ondes acoustiques passifs et flexibles
115arXiv cs.RO 

Capteurs tactiles dynamiques et évolutifs grâce à des guides d'ondes acoustiques passifs et flexibles

Des chercheurs ont publié en juin 2026 (arXiv:2606.13746) un système de peau tactile dynamique basé sur des guides d'ondes acoustiques passifs et flexibles. L'architecture repose sur des résonateurs de Helmholtz à membranes élastiques interconnectés par des microtubes renforcés par ressorts, formant un réseau fermé dont la transmission acoustique reste stable sous flexion macroscopique, sans électronique distribuée dans la structure. Quatre microphones suffisent à couvrir 64 noeuds de détection avec une résolution spatiale de 4 mm et une précision de localisation supérieure à 99 %. L'inférence, fondée sur une transformée en ondelettes continue rapide (Fast CWT) couplée à un réseau de neurones léger, s'exécute en 5,5 ms. Les prototypes démontrés (réseau d'extrémité de doigt, gant tactile, peaux de grande surface) détectent des stimuli allant du contact d'un seul cheveu à un impact de particule de 5 mg, ainsi que des ondes de pouls artériel et des effleurements de plume, sur des signaux inférieurs à 100 Hz. La contribution clé n'est pas la sensibilité brute mais le découplage entre performance et flexibilité structurelle : contrairement aux capteurs piézorésistifs ou capacitifs qui se dégradent sur des substrats courbés, la transmission acoustique passive reste invariante. Ramener à quatre microphones la couverture de 64 points de mesure réduit câblage, coût et modes de défaillance, trois leviers critiques pour une mise en série industrielle. La précision annoncée de 99 % reste à confirmer hors conditions de laboratoire contrôlé et sur des cycles de manipulation réels. Ces travaux s'inscrivent dans une compétition dense autour de la peau tactile robotique, face aux capteurs optiques (famille GelSight du MIT), aux matrices piézorésistives (BeBop Sensors, SynTouch) et aux peaux capacitives développées en Europe et en Asie. Aucune approche n'a encore atteint la trifecta scalabilité-robustesse-coût sur un corps humanoïde complet. Ce paradigme passif pourrait intéresser des plateformes comme Agility Robotics, Figure AI ou Apptronik, qui cherchent à intégrer du retour tactile sans multiplier la complexité d'assemblage. La validation mécanique sur cycles répétés et la soumission à une revue à comité de lecture constituent les prochaines étapes critiques.

RecherchePaper
1 source
Un robot humanoïde coréen exécute une danse K-POP virale apprise en regardant des vidéos
116Interesting Engineering 

Un robot humanoïde coréen exécute une danse K-POP virale apprise en regardant des vidéos

ROBOTIS, fabricant coréen de composants et plateformes robotiques, a publié début juin 2026 une démonstration de son humanoïde AI Sapiens reproduisant le "CORTIS REDRED Challenge", une chorégraphie K-POP virale, à partir d'une unique vidéo captée sur smartphone. La chaîne de traitement repose sur quatre étapes enchaînées : capture de mouvement vidéo, retargeting cinématique vers la morphologie du robot, entraînement par apprentissage par renforcement en simulation, puis transfert Sim2Real vers le matériel physique. Aucun système de motion capture professionnel (OptiTrack, Vicon) n'a été utilisé. AI Sapiens mesure 1,3 mètre pour 34 kilogrammes, dispose de 23 degrés de liberté assurés par 23 actionneurs DYNAMIXEL-Q quasi-direct-drive (14 QM-060 et 9 QM-080), et embarque un NVIDIA Jetson Orin NX 16 Go offrant jusqu'à 100 TOPS de puissance de calcul. L'alimentation est assurée par une batterie 46,8 V, 9 000 mAh. ROBOTIS prévoit de publier l'intégralité du pipeline en open-source, incluant les fichiers CAD, le code source, les assets de simulation et les tutoriels. Ce qui mérite attention, ce n'est pas la danse en elle-même -- les vidéos de robots qui dansent sont devenues un genre communicationnel à part entière -- mais la suppression du goulot d'étranglement de la collecte de données de mouvement. Jusqu'ici, entraîner un humanoïde sur des mouvements complexes requérait des studios de capture équipés et des techniciens spécialisés, coûts prohibitifs pour les équipes de recherche et les PME industrielles. Substituer cela à une vidéo smartphone abaisse drastiquement la barrière d'entrée pour la production de comportements moteurs variés. La démonstration valide aussi partiellement le pipeline Sim2Real comme suffisamment robuste pour des mouvements dynamiques à corps entier -- un point que beaucoup d'équipes considéraient encore fragile hors de contextes très contraints. Reste que la vidéo présente un mouvement expressif non critique : il faudra des preuves comparables sur des tâches à charge utile ou à contact riche pour juger de la généralisation réelle de la méthode. ROBOTIS est une entreprise coréenne historiquement centrée sur les actionneurs Dynamixel, composants de référence dans la robotique académique mondiale depuis les années 2000. AI Sapiens constitue sa montée en gamme vers les plateformes humanoides complètes, en compétition directe avec des systèmes comme Unitree H1/G1 (Chine), Agility Robotics Digit (USA) ou Sanctuary AI Phoenix (Canada), tous également positionnés sur l'open-source partiel ou la recherche collaborative. Dans le paysage européen, des acteurs comme Enchanted Tools (Mirokaï, France) ou Wandercraft (exosquelette, Paris) restent sur des segments plus spécialisés. La publication open-source annoncée par ROBOTIS est un pari sur l'effet de communauté : si le pipeline se diffuse dans les labos universitaires, ROBOTIS consolide son écosystème Dynamixel comme standard de facto pour la prochaine génération d'humanoides de recherche. Aucune date de release précise n'a été communiquée à ce stade.

UELes laboratoires de recherche européens utilisant des actionneurs Dynamixel (standard académique mondial) pourront potentiellement bénéficier de la publication open-source du pipeline vidéo-vers-mouvement, réduisant le coût d'entrée pour l'entraînement de comportements moteurs complexes sans équipement de capture de mouvement professionnel.

HumanoïdesPaper
1 source
Des avancées au Congrès pour créer une Commission nationale sur la robotique
117Robotics Business Review 

Des avancées au Congrès pour créer une Commission nationale sur la robotique

Quatre sénateurs américains bipartisans, Dave McCormick (R-Pennsylvanie), John Hickenlooper (D-Colorado), Todd Young (R-Indiana) et Martin Heinrich (D-Nouveau-Mexique), ont déposé la semaine dernière un projet de loi visant à créer une Commission nationale indépendante sur la robotique. Cette initiative fait écho à la loi H.R. 7334 introduite en février à la Chambre des représentants par Jay Obernolte (R-Californie), Jennifer McClellan (D-Virginie) et Bob Latta (R-Ohio), tous membres du Congressional Robotics Caucus récemment relancé. La commission aurait pour mandat d'évaluer la compétitivité américaine dans le secteur, les risques de la chaîne d'approvisionnement, les politiques étrangères en matière de robotique, les partenariats stratégiques public-privé-académique, et les dispositifs d'attraction des talents STEM. Elle formulerait également des recommandations sur la densité robotique, soit le nombre de robots pour 10 000 employés, indicateur en hausse en Amérique du Nord depuis 2024 selon l'IFR (International Federation of Robotics) et l'A3 (Association for Advancing Automation). L'enjeu principal est la pression concurrentielle exercée par la Chine, qui aurait déployé plus de robots que le reste du monde combiné. Les États-Unis disposent de capacités industrielles, universitaires et entrepreneuriales solides, mais l'absence de stratégie fédérale coordonnée freine leur positionnement. Robert Little, directeur de la stratégie robotique chez Novanta Inc. et lauréat 2026 du Prix Joseph F. Engelberger, formule le diagnostic clairement : reconstruire des usines aux États-Unis sans maîtriser les technologies robotiques qui les font fonctionner revient à reconstituer une dépendance sous une autre forme. Aaron Prather, directeur du programme Robotics & Autonomous Systems chez ASTM International, souligne de son côté que la robotique est en train de devenir une infrastructure critique et que les États-Unis gagneraient à aligner recherche, formation, normalisation et déploiement dans un cadre cohérent, comme l'ont fait d'autres nations industrialisées. Sur le plan historique, les États-Unis n'ont jamais disposé d'une politique robotique fédérale unifiée, contrairement à la Corée du Sud, au Japon ou à l'Allemagne, qui ont mis en place des stratégies nationales depuis plus d'une décennie. Pittsburgh, pôle historique de la robotique américaine via Carnegie Mellon et des acteurs comme Agility Robotics, dont la PDG Peggy Johnson cite explicitement le sénateur McCormick comme soutien clé, illustre ce que peut produire une concentration de talents sans cadre national. La prochaine étape sera l'examen du texte en commission au Sénat ; aucun calendrier de vote n'a été annoncé. Si la commission est créée, ses recommandations n'auraient pas de force contraignante, mais pourraient constituer le socle d'une législation plus structurante sur la politique industrielle robotique américaine.

UESi adoptée, cette commission américaine pourrait accélérer la structuration d'une politique industrielle robotique fédérale aux États-Unis, augmentant la pression concurrentielle sur les acteurs européens dans les segments humanoïdes et industriels où l'UE reste en retrait malgré les stratégies nationales de l'Allemagne, la France 2030 et le plan robotique européen.

RegulationReglementation
1 source
X-OP : téléopération corps entier entre morphologies différentes via MPC
118arXiv cs.RO 

X-OP : téléopération corps entier entre morphologies différentes via MPC

X-OP est un système de téléopération whole-body présenté en pré-publication arXiv (2606.07934) qui permet à un opérateur humain de contrôler un robot corps entier via un unique casque de réalité étendue (XR), sans exosquelette ni setup multi-caméras. Le coeur technique est un retargeter basé sur le MPC (Model Predictive Control) qui optimise simultanément l'alignement avec les intentions de l'opérateur et la faisabilité dynamique du robot en temps réel. Pour stabiliser l'exécution, la méthode réinitialise l'état du simulateur à chaque pas MPC afin de gérer les mesures bruitées et la sensibilité aux contacts, et intègre une estimation de pose globale par SLAM pour limiter la dérive long terme. En simulation, le système obtient un temps de complétion réduit de plus de 30 % et une consommation énergétique réduite de 20 % pour un humanoïde, et zéro collision pour un manipulateur mobile, par rapport aux baselines. Des expériences réelles valident la méthode sur les deux plateformes. L'apport central est l'absence de réentraînement lors du changement de morphologie robot : là où les méthodes XR existantes basées sur du RL end-to-end nécessitent une politique par plateforme, X-OP s'insère comme couche d'abstraction au-dessus des contrôleurs bas niveau existants. C'est un signal potentiellement structurant pour les intégrateurs industriels cherchant à constituer des datasets loco-manipulation à moindre coût. La distinction entre retargeting cinématique classique (qui ignore la dynamique) et retargeting MPC (qui garantit la faisabilité) résout partiellement le problème de distribution shift qui fragilise les politiques VLA au déploiement réel, un point que le secteur peine à adresser. La téléopération pour la collecte de données est au coeur des stratégies de Physical Intelligence (Pi-0), d'Agility Robotics et de Figure AI, qui s'appuient sur des exosquelettes ou setups dédiés coûteux. X-OP se positionne comme alternative généraliste et bas coût. Il convient de noter que le papier est une pré-publication non peer-reviewed, et que les expériences réelles restent limitées en scope : les métriques de simulation sans contexte de tâche industrielle invitent à la prudence. Aucun partenaire commercial ni déploiement terrain n'est annoncé à ce stade.

IA physiqueOpinion
1 source
Dream-Tac : un modèle d'action monde tactile unifié pour la manipulation robotique riche en contacts
119arXiv cs.RO 

Dream-Tac : un modèle d'action monde tactile unifié pour la manipulation robotique riche en contacts

Des chercheurs ont publié le 9 juin 2026 sur arXiv (arXiv:2606.08737) Dream-Tac, un modèle d'action mondial unifié intégrant la modalité tactile pour la manipulation robotique en contact. L'architecture joint trois dimensions simultanément : la génération d'actions, la prédiction d'observations visuelles futures et la dynamique tactile. Deux contributions techniques structurent le système : une fusion visuotactile à déclenchement par contact ("contact-gated visuotactile fusion"), qui intègre sélectivement les signaux tactiles uniquement lors des phases d'interaction physique effective, et un biais d'attention conscient du contact ("contact-aware attention bias") régulant les échanges cross-modaux. Pour rendre le modèle déployable en temps réel, les auteurs introduisent une stratégie d'accélération à deux niveaux : reformulation du biais lors de l'entraînement pour préserver les chemins d'attention fusionnés, et accélération de la diffusion par cache à l'inférence. Résultat annoncé : entraînement 2,9 fois plus rapide, inférence 1,8 fois plus rapide. Sur six tâches de manipulation en contact riche, Dream-Tac améliore la précision des actions de 31,7 % en moyenne. Le code est publié sur GitHub. Le résultat le plus significatif n'est pas le chiffre brut des 31,7 %, mais ce qu'il révèle sur une limitation structurelle des modèles d'action mondiaux (world action models) actuels : ces architectures, qui héritent la capacité prédictive des world models pour guider la génération d'actions, s'appuient quasi exclusivement sur la vision. Or, la vision seule est insuffisante pour les tâches à fort contact (assemblage de pièces, vissage, insertion de connecteurs, manipulation d'objets souples) où les signaux critiques sont d'ordre haptique. Dream-Tac adresse directement ce "reality gap" tactile, en montrant que l'intégration conditionnelle de la modalité tactile dans le pipeline de diffusion améliore substantiellement la robustesse. Pour les intégrateurs industriels et les équipes robotique travaillant sur des cellules d'assemblage ou de finishing, c'est un signal clair que les VLA (Vision-Language-Action models) ne suffisent pas seuls pour les cas d'usage à contact. Le contexte est celui d'une compétition intense entre laboratoires sur la manipulation dextère. Physical Intelligence (pi0, pi0-FAST), Boston Dynamics, Figure AI et Agility Robotics investissent massivement dans des pipelines de manipulation généralisable, principalement visuels. Côté recherche académique, des travaux comme DexDiffuser ou UniDexGrasp ont posé les bases de la manipulation dextère par diffusion, mais sans intégration tactile unifiée. Dream-Tac s'inscrit dans une tendance émergente visant à enrichir ces pipelines avec des capteurs de contact (GelSight, Digit, BubbleGripper), encore peu intégrés dans les architectures de world models. Il s'agit ici d'un article de recherche arXiv, pas d'un produit ou d'un déploiement industriel : les six tâches de validation sont des benchmarks contrôlés en laboratoire, et la généralisation à des environnements réels non structurés reste à démontrer. Les prochaines étapes naturelles seraient une validation sur des plateformes hardware commerciales (UR, Franka, ou bras dextre humanoïde) et une extension à des gripper tactiles standardisés disponibles sur le marché.

RechercheOpinion
1 source
Récupération après chute sur terrains variés par apprentissage à phases et terrains découplés
120arXiv cs.RO 

Récupération après chute sur terrains variés par apprentissage à phases et terrains découplés

Des chercheurs proposent une méthode de récupération après chute pour robots humanoïdes sur terrains variés, publiée en juin 2026 sur arXiv (identifiant 2606.08922). Baptisée PTDL (Phase-Terrain Decoupled Learning), elle cible un problème concret : un humanoïde tombé sur du gravier, une pente ou un sol inégal doit non seulement se relever, mais reprendre immédiatement une marche dirigée par commande de vitesse, sans capteurs externes ni étiquettes de terrain fournies au moment de l'exécution. La validation porte sur le Unitree G1, humanoïde commercial de 29 degrés de liberté, testé en simulation et sur robot réel, sur sol plat, gravier et inclinaisons allant jusqu'à 20 degrés. L'architecture de PTDL repose sur une double décorrélation. Sur l'axe des phases, des discriminateurs de mouvement à double prior conditionnés par la gravité projetée lient la récupération post-chute à la reprise de locomotion normale. Sur l'axe des terrains, un façonnage de récompense stratifié par surface applique des supervisions d'entraînement spécifiques à chaque sol, labels qui sont ensuite retirés à la politique au déploiement : le robot développe des comportements de lever implicitement adaptés à chaque surface, sans qu'on lui indique sur quoi il repose. Les méthodes antérieures s'arrêtaient généralement au lever quasi-statique ou entraînaient une politique de compromis dégradée face à la diversité des terrains. PTDL enchaîne récupération et reprise de marche sous une seule politique proprioceptive unifiée, ce qui est directement pertinent pour tout déploiement en environnement industriel non structuré où la chute n'est pas une exception mais une probabilité réelle. Le G1 de Unitree Robotics (Shenzhen) est devenu en 2024-2025 une plateforme de référence pour la recherche en locomotion humanoïde, notamment grâce à son accessibilité tarifaire (environ 16 000 USD). La récupération après chute reste un angle mort notoire dans la course humanoïde actuelle : Figure AI (Figure 03), Boston Dynamics (Atlas), Agility Robotics (Digit) et Tesla (Optimus) se concentrent principalement sur les démonstrations de marche et de manipulation, peu sur les protocoles de résilience post-chute. Ce preprint arXiv n'annonce pas de déploiement industriel immédiat et n'a pas encore subi de révision par les pairs, mais il ouvre une piste méthodologique solide : entraîner sur des terrains stratifiés tout en maintenant une politique unifiée à l'inférence, une approche transposable à d'autres défis de robustesse en conditions réelles.

RecherchePaper
1 source
Vidéo : des robots humanoïdes volent la vedette dans America's Got Talent
121Interesting Engineering 

Vidéo : des robots humanoïdes volent la vedette dans America's Got Talent

Huit robots humanoïdes G1 du fabricant chinois Unitree ont performé en direct sur NBC lors du premier épisode de la saison en cours d'America's Got Talent, diffusé mardi soir aux États-Unis. Aux côtés du danseur Wu Yufei, originaire du Sichuan et connu sous le pseudonyme "Flying Bug", les machines ont exécuté une chorégraphie synchronisée combinant mouvements rythmés et coordination précise avec l'interprète humain. Le numéro a reçu une ovation debout du public en studio et l'approbation unanime des quatre juges, propulsant le duo vers la prochaine étape d'une compétition dotée d'un grand prix d'un million de dollars. Yufei a présenté l'un des robots sous le surnom "Jackie", en référence au kung-fu. Le mode de pilotage des machines pendant la performance (téléopération partielle, séquences préenregistrées ou autonomie hybride) n'a pas été divulgué par l'équipe, un point que les commentateurs spécialisés n'ont pas manqué de relever. La prestation illustre un paradoxe croissant aux États-Unis: l'enthousiasme du grand public pour les humanoïdes chinois se heurte à une pression législative grandissante. Le lendemain même de la diffusion, une proposition de loi bipartisane, le Guard Act, a été déposée au Congrès pour interdire les robots d'origine chinoise jugés risques pour la sécurité nationale. En parallèle, l'American Security Robotics Act avance avec pour objectif d'empêcher les agences fédérales d'acquérir des robots produits par des entreprises chinoises, humanoïdes inclus. Pour les décideurs B2B et les intégrateurs industriels, cette double dynamique crée une incertitude réelle: adopter une technologie qui capte l'adhésion populaire tout en naviguant un risque réglementaire croissant. La visibilité télévisée d'Unitree renforce la crédibilité commerciale de ses machines auprès des acheteurs non spécialisés, un levier marketing qu'aucun salon professionnel ne peut reproduire à cette échelle. Fondée à Hangzhou, Unitree commercialise ses robots à l'international via la plateforme AliExpress d'Alibaba, ciblant les marchés d'Amérique du Nord, d'Europe et du Japon. La société a récemment annoncé un partenariat avec Nvidia pour concevoir un design de référence humanoïde baptisé H2+, dont la disponibilité est prévue pour la fin de l'année. Sur le terrain, les observateurs notent que le déploiement opérationnel des robots chinois à l'étranger se heurte à des obstacles concrets: identification des cas d'usage industriels, collecte de données opérationnelles, et construction de réseaux locaux de maintenance, d'intégration et de calibration. Face à Unitree, le marché des humanoïdes voit s'affronter Figure AI (Figure 02), Tesla (Optimus Gen 2), Boston Dynamics (Atlas électrique), Physical Intelligence (pi0) et Agility Robotics (Digit), tous positionnés sur des verticales industrielles précises. L'apparition télévisée ne règle aucun de ces défis opérationnels, mais marque une étape dans la bataille pour la normalisation culturelle des humanoïdes auprès du grand public américain.

UEUnitree ciblant explicitement les marchés européens via AliExpress, la pression réglementaire américaine sur les robots chinois (Guard Act, American Security Robotics Act) pourrait inspirer des mesures similaires en Europe sur l'acquisition de robotique d'origine chinoise par les entités publiques et industrielles.

Chine/AsieOpinion
1 source
RealDexUMI : interface portable universelle pour l'apprentissage de la manipulation dextérique
122arXiv cs.RO 

RealDexUMI : interface portable universelle pour l'apprentissage de la manipulation dextérique

RealDexUMI est une interface de téléopération portable présentée en juin 2026 par des chercheurs de BeingBeyond dans un preprint arXiv (arXiv:2606.06033). Le dispositif repose sur un module d'effecteur terminal partagé combinant une main robotique légère, une caméra embarquée dans la paume et des capteurs tactiles au bout des doigts. Un gant isomorphe porté par l'opérateur humain traduit les mouvements des doigts en commandes articulaires directes sur la main robotique, sans retargeting ni conversion d'incarnation. Le système a été évalué sur huit tâches réelles couvrant des manipulations fines, riches en contacts, à longue durée et bimanuelles, obtenant un taux de succès moyen de 88,75%. Les politiques apprises se généralisent à des poses initiales non vues lors de l'entraînement et ont été transférées vers trois morphologies de robots différentes. Le verrou que RealDexUMI cherche à lever est connu dans le secteur sous le nom de "collection-to-deployment gap". Les pipelines classiques de collecte de données pour la manipulation dextre font face à un dilemme : la motion capture ou les gants souples permettent une collecte rapide mais nécessitent un retargeting qui dégrade la fidélité des contacts, tandis que la téléopération robot-spécifique préserve cette fidélité mais reste onéreuse et difficile à passer à l'échelle. RealDexUMI propose un troisième chemin via un effecteur "zéro-gap" : les observations (images embarquées, signaux tactiles, contacts, commandes articulaires) sont identiques entre collecte et déploiement, supprimant le biais d'observation qui dégrade souvent les politiques d'imitation. Un taux de 88,75% sur des tâches bimanuelles longue durée est significatif si les conditions expérimentales sont représentatives, bien que le preprint ne détaille pas encore la distribution des tentatives par tâche ni les protocoles de randomisation des scènes. La question de l'interface universelle de manipulation dextre est activement travaillée depuis plusieurs années, notamment depuis les travaux UMI de Columbia University (2023-2024), qui instrumentaient une spatule pour des robots standard. RealDexUMI étend ce paradigme aux mains multi-doigts, terrain nettement plus difficile. La démarche entre en compétition directe avec des approches comme ALOHA 2 et ACT de Carnegie Mellon, les systèmes de DexHand Research, ou les plateformes bimanuelle d'Apptronik et Agility Robotics. En Europe, des équipes de l'ISIR à Sorbonne Université et du DLR en Allemagne travaillent sur des thématiques proches de capture et transfert de manipulation dextre. BeingBeyond reste discret sur son positionnement commercial et ses partenaires industriels : la prochaine étape naturelle serait une validation dans des environnements non structurés ou une intégration sur des plateformes humanoïdes commerciales comme Figure 03, Unitree G1 ou Fourier GR-1, où la manipulation dextre demeure le principal goulot d'étranglement.

UELes équipes européennes de manipulation dextre (ISIR/Sorbonne, DLR) pourraient intégrer l'approche zéro-gap de RealDexUMI pour accélérer leurs pipelines de collecte de données sans retargeting.

RechercheOpinion
1 source
Suivi corporel intégral contraint pour robots humanoïdes
123arXiv cs.RO 

Suivi corporel intégral contraint pour robots humanoïdes

Des chercheurs ont publié sur arXiv (2606.00374) un framework de contrôle baptisé ConstrainedMimic, conçu pour imposer des contraintes de sécurité en temps réel sur des robots humanoïdes pilotés par apprentissage par renforcement. La démonstration s'appuie sur un Unitree G1 simulé : le système fait tourner la politique de suivi de mouvement whole-body à 300-500 Hz, indifféremment sur CPU, GPU ou TPU, tout en garantissant simultanément l'évitement de collisions (auto-collisions et obstacles externes), le respect des butées articulaires et la stabilité du centre de masse. Les expériences couvrent le suivi de mouvements cinématiques référencés et la téléopération. Le code sera libéré à la publication. L'enjeu sous-jacent est structurant pour l'industrialisation des humanoïdes : les politiques RL apprennent des comportements agiles mais ne savent pas, par défaut, respecter des contraintes ajoutées après entraînement, ce qui bloque le déploiement dans des environnements où les exigences de sécurité évoluent (cellule de travail reconfigurée, proximité opérateur, certification CE). ConstrainedMimic répond à ce problème en combinant deux outils de contrôle classiques, le contrôle en espace opérationnel (OSC) et les control barrier functions (CBF), pour projeter la commande du réseau de neurones dans un espace faisable respectant les contraintes actives. La méthode est entièrement différentiable et n'altère la politique que le strict minimum lorsqu'une contrainte entre en jeu, ce qui la distingue des approches d'override brutales. C'est un pas vers la séparation propre entre performance et sécurité dans les pipelines RL pour humanoïdes. Le sujet s'inscrit dans une course active à la robustesse des politiques whole-body : Figure (Figure 02/03), Boston Dynamics (Atlas), Agility Robotics (Digit) et Unitree investissent massivement en RL locomotion, mais la question des garanties formelles reste un angle mort industriel. Les CBF sont bien établies en robotique mobile (AMR, véhicules autonomes) mais leur intégration dans des politiques RL pour humanoïdes à haute dimension cinématique est encore exploratoire. À noter : l'évaluation reste entièrement en simulation, ce qui laisse ouverte la question du sim-to-real gap sur les contraintes dynamiques, un point que les auteurs n'adressent pas dans cet abstract. La publication du code facilitera la reproductibilité et pourrait accélérer l'adoption dans des labos comme le DLR, l'INRIA ou des intégrateurs industriels européens travaillant sur la certification de robots collaboratifs.

UELa publication du code pourrait permettre à des laboratoires européens comme l'INRIA ou le DLR d'intégrer des garanties formelles de sécurité dans leurs pipelines RL pour humanoïdes, facilitant la certification CE de robots collaboratifs en environnement industriel partagé.

HumanoïdesPaper
1 source
Apprentissage du contrôle corps entier adapté au terrain pour la loco-manipulation perceptive de robots à pattes
124arXiv cs.RO 

Apprentissage du contrôle corps entier adapté au terrain pour la loco-manipulation perceptive de robots à pattes

Une équipe de chercheurs a publié sur arXiv (référence 2605.31343, mai 2026) un framework baptisé TA-WBC (Terrain-Aware Whole-Body Control) destiné aux manipulateurs à pattes, c'est-à-dire des robots combinant membres locomoteurs (quadrupèdes ou bipèdes) et bras articulés. Le coeur du système est une politique unifiée entraînée par apprentissage par renforcement (RL) qui pilote simultanément les jambes et le bras lors de tâches de loco-manipulation, terme désignant la capacité à se déplacer et manipuler des objets en même temps. L'architecture repose sur trois briques techniques : un encodeur d'extéroception hybride qui extrait en temps réel les caractéristiques du terrain, une méthode d'échantillonnage de l'effecteur final ancrée sur le plan de contact des pieds pour découpler la cible de manipulation des oscillations du torse, et un module de distillation à double politique pour intégrer motricité étendue et adaptabilité sans effacement catastrophique des compétences acquises. Les expériences en simulation et en environnement réel montrent une zone atteignable agrandie, une erreur de tracking réduite et moins de trébuchements imprévus. Ce travail s'attaque à une limitation structurelle des contrôleurs corps entier existants : leur dépendance quasi exclusive à la proprioception (capteurs internes, IMU, encodeurs) au détriment de l'extéroception (perception externe du terrain). En milieux industriels complexes comme les chantiers, les entrepôts en hauteur variable ou les sites nucléaires, cette lacune rend les plateformes mobiles-manipulatrices peu fiables dès que le sol n'est plus plan. Le découplage effecteur/torse est particulièrement notable pour les intégrateurs : il signifie que le bras peut maintenir une trajectoire stable même quand le corps compense une marche irrégulière, ce qui est un prérequis non négociable pour tout assemblage ou saisie de précision en terrain dégradé. La validation sim-to-real, même partielle, renforce la crédibilité d'une approche qui reste à ce stade un preprint non commercialisé. Les manipulateurs à pattes constituent une catégorie en pleine structuration. Boston Dynamics commercialise Spot avec bras depuis 2021, Unitree propose le B2W équipé d'un bras, et plusieurs laboratoires académiques majeurs (ETH Zurich, CMU, Berkeley) publient régulièrement sur la loco-manipulation. Le verrou que TA-WBC cherche à lever, la perception de topologie de terrain couplée au contrôle corps entier, est précisément ce qui freine le déploiement de ces plateformes au-delà des environnements structurés. Ce preprint n'annonce pas de produit ni de partenaire industriel ; il pose néanmoins une brique algorithmique que des acteurs comme Agility Robotics, Apptronik ou les équipes robotique de Google DeepMind pourraient intégrer dans leurs chaînes d'entraînement.

UETravail de recherche applicable aux déploiements industriels en environnements dégradés (sites nucléaires, entrepôts à topologie variable) présents en Europe, mais sans implication directe d'acteurs français ou européens.

RecherchePaper
1 source
La Chine va attribuer des identifiants numériques aux robots humanoïdes pour suivre leur cycle de vie
125Robotics & Automation News 

La Chine va attribuer des identifiants numériques aux robots humanoïdes pour suivre leur cycle de vie

La Chine déploie un système national d'identification numérique pour les robots humanoïdes, selon une annonce relayée par la télévision d'État CCTV. Chaque robot se verra attribuer un numéro d'identité unique couvrant l'intégralité de son cycle de vie : fabrication, mise en service, déploiement opérationnel, jusqu'au recyclage et à la mise au rebut. L'objectif déclaré est de surveiller les risques de sécurité et de standardiser la gestion d'un parc en croissance rapide, sans que les autorités n'aient précisé à ce stade les modalités techniques du registre ni l'agence responsable de son opération. Pour les intégrateurs et les décideurs industriels, cette mesure signale un changement de maturité réglementaire : la Chine ne pilote plus seulement des déploiements expérimentaux, elle construit l'infrastructure de conformité nécessaire à un déploiement à l'échelle. La traçabilité lifecycle est un prérequis pour les marchés B2B exigeants (automobile, logistique, agroalimentaire), où la responsabilité produit et la maintenance prédictive sont des conditions d'achat. C'est aussi un levier de contrôle étatique sur une technologie jugée stratégique, capable d'imposer des standards de facto que les exportateurs devront respecter. Ce mouvement intervient alors que la Chine s'est positionnée comme le marché le plus actif du secteur humanoïde, avec des acteurs comme Unitree Robotics, UBTECH, Fourier Intelligence et AgiBot accumulant financements publics et commandes industrielles. Face aux concurrents américains Figure, Agility Robotics et Tesla Optimus, Pékin mise sur la standardisation réglementaire comme avantage compétitif systémique, une approche comparable à ce que l'UE tente via l'AI Act pour les systèmes logiciels.

UELa standardisation réglementaire chinoise sur les humanoïdes crée un précédent de facto qui pourrait imposer des contraintes de conformité aux exportateurs européens et renforcer l'urgence d'un cadre équivalent dans l'AI Act ou France 2030 Robotique.

Chine/AsieReglementation
1 source
Vers une intelligence incarnée partagée pour les robots humanoïdes : développement et tests du robot ergoCub
126arXiv cs.RO 

Vers une intelligence incarnée partagée pour les robots humanoïdes : développement et tests du robot ergoCub

Des chercheurs de l'Istituto Italiano di Tecnologia (IIT) de Gênes ont publié en mai 2026 sur arXiv une architecture formelle pour humanoïdes collaboratifs, dont ils présentent une implémentation concrète dans le robot ergoCub. L'approche repose sur deux piliers conceptuels empruntés aux neurosciences cognitives : la "shared intelligence" (la capacité à modéliser les intentions et actions d'un partenaire humain) et l'"embodied cognition" (l'idée que corps et cognition co-évoluent en réponse à l'environnement). Concrètement, la morphologie d'ergoCub et ses paramètres de contrôle moteur ont été co-optimisés en prenant comme fonction objectif des métriques ergonomiques humaines, notamment en intégrant des modèles biomécaniques du corps humain directement dans la couche de planification du mouvement. L'abstract ne fournit pas de chiffres de charge utile, de DOF ni de temps de cycle, et aucune ligne de production ni site de déploiement industriel n'est mentionné : il s'agit d'un article de recherche, pas d'une annonce de produit. Le principal apport de ce travail est méthodologique : c'est l'un des rares frameworks à co-optimiser simultanément le hardware et l'intelligence physique d'un humanoïde autour de l'ergonomie humaine, plutôt que de traiter ces deux couches séparément. Pour les intégrateurs industriels et les équipes d'ingénierie, cela ouvre une voie de conception où le robot n'est pas simplement "sécurisé" par des capteurs de force ou des limites de vitesse, mais structurellement conçu pour minimiser la charge musculo-squelettique de l'opérateur lors de tâches de co-manipulation. C'est une réponse directe à l'un des angles morts des humanoïdes commerciaux actuels, qui optimisent surtout la dextérité autonome sans modéliser l'impact biomécanique sur le coéquipier humain. ergoCub est une évolution directe du robot iCub, plateforme de recherche humanoïde phare du programme européen RobotCub lancé par l'IIT dans les années 2000, qui compte aujourd'hui plus de 40 laboratoires utilisateurs dans le monde. Cette filiation place ergoCub dans un écosystème académique robuste, mais loin encore d'une commercialisation. Sur le terrain concurrent, les acteurs en avance sur la collaboration humain-robot incluent Physical Intelligence (pi0), Agility Robotics (Digit, déployé chez Amazon), et Figure (02), mais aucun ne publie de métriques ergonomiques formalisées de ce type. En Europe, Enchanted Tools (Mirokaï) et Wandercraft (Atalante X) restent les acteurs les plus avancés sur les humanoïdes à vocation assistive et médicale. Les prochaines étapes pour ergoCub passeront vraisemblablement par des validations expérimentales de l'architecture en conditions de co-manipulation réelle, avant tout envisagement de transfert industriel.

UEL'IIT de Gênes (EU) positionne l'Europe comme précurseur sur la co-optimisation hardware/intelligence autour de l'ergonomie humaine pour les humanoïdes collaboratifs, un angle différenciateur absent des architectures des constructeurs américains.

FR/EU ecosystemePaper
1 source
Optimisation par données des configurations de capteurs tactiles pour la manipulation dextérique
127arXiv cs.RO 

Optimisation par données des configurations de capteurs tactiles pour la manipulation dextérique

Des chercheurs ont publié sur arXiv (arXiv:2409.20473v3) un cadre méthodologique permettant, pour la première fois, de quantifier la contribution individuelle de chaque capteur tactile à la performance d'une politique d'apprentissage par renforcement profond (DRL) appliquée à la manipulation dextère. L'étude cible la Shadow Hand, une main robotique à 24 degrés de liberté équipée de 92 capteurs tactiles. En deux étapes, les auteurs réduisent ce réseau dense à 14 capteurs tout en conservant plus de 90 % de la performance initiale sur trois tâches de manipulation standardisées (bloc, oeuf, stylo). La première phase, empirique, écrête le nombre de capteurs de 92 à 21 en maintenant 93 % des performances. La seconde phase, plus fine, combine une régression par processus gaussiens (GPR) et une régression Lasso pour classer l'importance fonctionnelle de chaque capteur restant. Le résultat le plus saillant contredit l'intuition habituelle en robotique : les capteurs du doigt médius contribuent négativement à l'apprentissage, dégradant activement la politique DRL plutôt que de l'améliorer. À l'inverse, le pouce, l'annulaire et l'auriculaire concentrent l'essentiel de l'information utile au contrôle de contact. Pour les intégrateurs et les équipes de R&D en manipulation robotique, cela signifie qu'une réduction drastique du nombre de capteurs n'est pas seulement possible sans sacrifier les performances, elle peut même les améliorer en éliminant des signaux redondants ou antagonistes. Des expériences de transfert zéro-shot sur deux nouveaux objets et une validation croisée sur l'Allegro Hand et la Leap Hand confirment que ces classements d'importance se généralisent au-delà de la plateforme d'entraînement. La problématique de placement de capteurs tactiles reste largement non résolue dans la littérature, en l'absence de méthodes systématiques comparables à celles développées pour la vision. Ce travail s'inscrit dans un contexte où plusieurs laboratoires et entreprises, dont Sanctuary AI, Agility Robotics ou encore OpenAI avec Dexterous Manipulation, investissent massivement dans la manipulation fine comme prochain verrou de la robotique humanoïde. Les concurrents directs sur la Shadow Hand incluent des frameworks basés sur le sim-to-real (IsaacGym, MuJoCo), qui peinent encore à modéliser fidèlement le retour tactile dense. Les auteurs proposent leurs critères de déploiement comme des guidelines quantitatifs applicables à d'autres morphologies robotiques, ouvrant la voie à des configurations capteurs optimisées dès la phase de conception mécanique plutôt qu'a posteriori.

RecherchePaper
1 source
Apprentissage de séquences d'actions continues haute fréquence dans l'espace latent
128arXiv cs.RO 

Apprentissage de séquences d'actions continues haute fréquence dans l'espace latent

Des chercheurs de TARS Robotics ont publié sur arXiv (2605.24931) une méthode de contrôle robotique haute fréquence baptisée RTR (Reuse-then-Refine), visant à résoudre un problème identifié dans les politiques d'action chunking actuelles. À 60 Hz, les systèmes qui exécutent des séquences pré-calculées de commandes motrices génèrent des mouvements saccadés et spatialement incohérents, ce que les politiques standard ne parviennent pas à corriger. L'approche RTR déplace l'apprentissage depuis l'espace d'action direct vers un espace latent encodé par un auto-encodeur variationnel (VAE), ce qui améliore significativement la consistance temporelle et spatiale. Elle intègre également une stratégie de raffinement par chunk permettant une transition fluide entre séquences adjacentes lors d'une inférence asynchrone. Les auteurs valident la méthode sur trois tâches réelles à contact riche, avec une exécution continue et moins de pauses involontaires. Le code et les données sont publiés en open source sur GitHub (tars-robotics/RTR). Le passage de 10-30 Hz à 60 Hz représente une frontière critique pour la manipulation robotique : à basse fréquence, le robot doit compenser sa lenteur par des pauses de recalcul, limitant son utilité en production industrielle. Les politiques de type VLA (Vision-Language-Action) ou diffusion policy, actuellement dominantes en imitation learning, fonctionnent généralement en dessous de 30 Hz. En montrant qu'un encodage latent peut absorber la variance temporelle sans sacrifier la précision spatiale, RTR apporte une réponse concrète au problème de "jerkiness" qui freine le déploiement des robots manipulateurs en conditions réelles. Pour un intégrateur ou un décideur B2B, c'est une voie vers des systèmes capables d'assurer une cadence de travail continue sans interruption de flux de production. L'action chunking a été popularisé par ACT (Action Chunking with Transformers, Zhao et al., 2023) et les travaux sur Diffusion Policy, tous deux conçus pour des fréquences modérées. TARS Robotics se positionne dans un espace concurrentiel qui inclut Physical Intelligence avec pi0-FAST (ciblant 50-200 Hz via flow-matching) et les efforts de Figure AI, Agility Robotics et Boston Dynamics sur le contrôle haute cadence. RTR se distingue de pi0-FAST en proposant un raffinement incrémental du chunk existant plutôt qu'une régénération complète, ce qui réduit la charge computationnelle par inférence. Il s'agit pour l'instant d'une contribution de recherche validée en laboratoire sur robot réel, sans timeline de déploiement industriel ni partenariat annoncé.

RechercheOpinion
1 source
Commande corpo-entière sûreté-critique pour robots humanoïdes via les barrières de contrôle entrée-état
129arXiv cs.RO 

Commande corpo-entière sûreté-critique pour robots humanoïdes via les barrières de contrôle entrée-état

Des chercheurs ont publié sur arXiv (référence 2605.25546) un framework hiérarchique de contrôle sécurisé corps entier pour robots humanoïdes, fondé sur les fonctions barrières robustes aux perturbations (ISSf-CBF, Input-to-State Safe Control Barrier Functions). L'architecture s'articule en trois couches : un contrôleur whole-body cinématique (KinWBC) qui génère des références articulaires à partir de tâches priorisées, un filtre ISSf-CBF qui les ajuste au minimum pour satisfaire les contraintes de sécurité sous perturbations bornées, et un contrôleur whole-body dynamique (DynWBC) qui garantit la faisabilité corps entier et la stabilité des contacts. Les contraintes couvertes incluent les limites articulaires, l'évitement d'auto-collision, l'évitement d'obstacles et les frontières du workspace. Validé en simulation et sur robot réel, le système a été testé dans trois scénarios : locomotion, téleopération et équilibre monopode avec contrôle simultané des mains. L'intérêt de l'approche tient à un problème fondamental en robotique humanoïde : les garanties de sécurité formelles s'effondrent dès qu'apparaît un écart entre le modèle de simulation et le comportement physique réel. Les CBFs classiques supposent un système parfaitement connu et deviennent fragiles face aux incertitudes de modèle, aux erreurs de suivi de trajectoire ou aux perturbations externes, précisément les conditions d'un environnement industriel. Les ISSf-CBFs étendent ce formalisme en admettant des perturbations bornées tout en maintenant des garanties formelles transférables du niveau cinématique vers la dynamique complète. Le filtre intervient de façon minimalement invasive, ne corrigeant les références nominales que lorsque nécessaire, ce qui préserve la performance globale. C'est une réponse directe au "demo-to-reality gap" structurellement reproché aux humanoïdes actuels, et un prérequis pour toute certification de robot collaboratif en environnement humain. Les Control Barrier Functions sont un outil bien établi en automatique, popularisé dans les années 2010 pour les véhicules autonomes et les bras robotiques. Leur extension aux ISSf-CBFs pour la robustesse aux perturbations est plus récente, et leur application à un humanoïde corps entier avec des dizaines de degrés de liberté, des contacts multiples et des dynamiques non linéaires représente un saut de complexité notable. Dans la course actuelle aux humanoïdes, les acteurs comme Figure, Boston Dynamics, Tesla (Optimus), Agility Robotics, Apptronik ou Unitree publient peu sur les garanties de sécurité formelles corps entier, un domaine resté majoritairement académique. Ce travail n'annonce pas de déploiement industriel, mais fournit une brique méthodologique directement applicable aux pipelines de validation et de certification des futurs robots collaboratifs.

UELes garanties de sécurité formelles apportées par ce framework sont directement pertinentes pour la certification des robots collaboratifs humanoïdes dans le cadre du Machinery Regulation et de l'AI Act européens.

RecherchePaper
1 source
Comprendre les défaillances multimodales dans le clonage comportemental par découpage d'actions
130arXiv cs.RO 

Comprendre les défaillances multimodales dans le clonage comportemental par découpage d'actions

Déposée sur arXiv le 22 mai 2026 (arXiv:2605.22493), une étude analyse les mécanismes d'échec du behavioral cloning (apprentissage par imitation) lorsqu'une même observation admet plusieurs actions valides, un cas fréquent en manipulation robotique. Les auteurs se concentrent sur les politiques à action-chunking, qui prédisent des séquences d'actions futures plutôt qu'une action isolée, et distinguent deux familles d'architectures : les politiques à variable latente de type VAE (dont ACT, Action Chunking with Transformers) et les politiques génératives en espace d'action (dont les politiques de diffusion comme Diffusion Policy). Pour les premières, la régularisation posterior-prior (terme KL dans un VAE) crée un compromis difficile : une régularisation forte stabilise l'échantillonnage au déploiement mais efface l'information permettant de distinguer les modes démontrés ; une régularisation faible préserve cette information mais expose à une couverture insuffisante par le prior. Pour les politiques génératives, les auteurs montrent que la multimodalité est bornée par la constante de Lipschitz du transport entre espace de base et espace d'action : une carte lisse ne peut pas distribuer de probabilité substantielle sur plusieurs modes bien séparés sans introduire des transitions brutales dans l'espace de base ou des régions de pont hors support en espace d'action. Ces mécanismes sont validés sur des tâches synthétiques multimodales et des benchmarks de simulation robotique. Ces résultats donnent aux équipes déployant des politiques d'imitation une grille de diagnostic concrète. En manipulation industrielle, où un préhenseur peut légitimement atteindre un objet depuis plusieurs angles, comprendre pourquoi un modèle s'effondre sur certains modes est directement actionnable : le coefficient bêta d'un VAE de type ACT, souvent ajusté empiriquement par tâtonnement, dispose maintenant d'une interprétation formelle. Pour les politiques de diffusion, la contrainte de Lipschitz suggère que la capacité à couvrir plusieurs modes dépend de l'expressivité du réseau de transport, avec un compromis explicite entre lissage et richesse modale. C'est un verrou théorique central pour le déploiement en production, où les observations ambiguës sont la règle plutôt que l'exception. L'apprentissage par imitation connaît un regain d'intérêt majeur depuis 2023, porté par ACT et Diffusion Policy, puis par des architectures plus récentes comme pi-0 (Physical Intelligence, 2024) et GR00T N2 (NVIDIA, 2025), aujourd'hui au coeur des pipelines d'entraînement des robots humanoïdes chez Figure AI, 1X et Agility Robotics. Malgré leurs succès en démonstration, la multimodalité reste l'un des verrous majeurs du sim-to-real et du passage en production à grande échelle. Cette étude, de nature purement théorique, ne propose pas d'architecture clé en main, mais son cadre analytique devrait orienter les prochains choix de conception et les stratégies de collecte de données pour les tâches à haute ambiguïté gestuelle.

RecherchePaper
1 source
IA à l'échelle urbaine : du pilote à la généralisation, robots en conditions réelles et passage à l'échelle
13136Kr 

IA à l'échelle urbaine : du pilote à la généralisation, robots en conditions réelles et passage à l'échelle

Coowa Technology, fondée en 2015 à Shanghai et dont le siège social est à Pékin, a présenté lors de la conférence AI+ Industry de Yizhuang en mai 2026 un bilan opérationnel chiffré: 55 millions de kilomètres réels parcourus, déploiement dans plus de 50 villes chinoises, et 10 millions de clips vidéo-sémantique-action alignés collectés. La gamme commercialisée comprend des robots d'assainissement urbain de 1 et 3 tonnes, le minibus autonome Coobus (déployé dans une dizaine de villes à l'échelle mondiale, dont prochainement Yizhuang), le robot de gestion immobilière Wall-E R0, et des robots-chiens quadrupèdes pour la livraison du dernier kilomètre, capables d'assurer des livraisons en moins de 30 minutes dans un rayon de 3 km sans modification des ascenseurs ni de l'infrastructure existante. Li Kehong, COO et co-fondateur, a indiqué une rentabilité annuelle de "plusieurs centaines de millions de yuans". L'argument central de la présentation porte sur la donnée comme avantage concurrentiel structurel: dans l'IA incarnée (embodied AI), le goulot d'étranglement n'est pas algorithmique mais datalogique. Coowa y répond avec une stratégie où les revenus d'exploitation financent directement l'itération du modèle CooWAIM (World-Action Interactive Model), une architecture duale combinant inférence temps réel en bordure de réseau pour la sécurité immédiate et planification sémantique longue portée pour la navigation globale. L'approche "Drive+Work", qui fusionne mobilité et manipulation dans un espace d'action indissociable, s'écarte du paradigme modulaire dominant dans la robotique de service. Les chiffres d'exploitation donnent une mesure concrète: aux heures de pointe, les robots traitent en temps réel plus de 100 caractéristiques dynamiques par intersection (piétons, véhicules non motorisés); un gain de 20% sur le temps de traversée équivaut selon Coowa à une hausse de 20% de la marge brute, argument directement actionnable pour un décideur B2B ou un intégrateur. Fondée sur la base académique de l'Université Jiaotong de Shanghai, Coowa opère depuis dix ans dans les environnements urbains ouverts chinois, accumulant une antériorité opérationnelle que peu de concurrents peuvent revendiquer à cette échelle commerciale. Waymo, issu du laboratoire Google X après plus d'une décennie de développement, et Tesla, qui s'appuie sur sa flotte de plusieurs millions de véhicules pour constituer ses données d'entraînement, progressent en robotaxi sur un périmètre distinct; les acteurs de la robotique humanoïde comme Figure, Agility Robotics ou 1X Technologies demeurent majoritairement en phase de pilote industriel. Coowa anticipe l'ouverture réglementaire de marchés étrangers en positionnant en priorité ses produits dans les pays de l'initiative "Ceinture et Route". Les prochaines étapes concernent la montée en puissance de la livraison instantanée à court terme et, à horizon plus long, l'entrée dans les environnements domestiques fermés, segment le plus complexe techniquement mais potentiellement le plus générateur de données d'entraînement inédites.

Chine/AsieActu
1 source
Une entreprise chinoise accélère l'intelligence des robots humanoïdes avec un contrôle à 300 FPS
132Interesting Engineering 

Une entreprise chinoise accélère l'intelligence des robots humanoïdes avec un contrôle à 300 FPS

Horizon Robotics, entreprise chinoise connue jusqu'ici pour ses SoC dédiés à l'IA embarquée dans l'automobile, a publié en open source HoloMotion-1, un modèle de contrôle moteur corps entier pour robots humanoïdes. Fort de 4 milliards de paramètres, ce modèle dépasse d'un à deux ordres de grandeur les architectures cérébelleuses habituellement déployées, qui plafonnent à quelques millions de paramètres. En inférence, HoloMotion-1 atteint 200 à 300 cycles par seconde sur calculateur embarqué, le module moteur physique tournant en parallèle à 50 Hz pour lisser les trajectoires. La démonstration a été conduite sur un robot Unitree G1, en zero-shot complet : aucun fine-tuning sur données réelles, toute l'inférence exécutée en local. Le robot a reproduit des comportements absents de son entraînement physique, notamment la danse, le rampé, la position assise et des frappes de type arts martiaux. Des tests de téléopération en temps réel via combinaison de capture de mouvement et contrôleurs VR ont également montré un suivi stable des gestes humains. Le point critique n'est pas la vitesse brute mais la robustesse du sim-to-real gap sans adaptation. Réussir un transfert zero-shot sur un humanoïde commercial reste un obstacle mal résolu par la majorité des systèmes actuels, qui exigent des phases de fine-tuning coûteuses. HoloMotion-1 contourne partiellement ce problème en constituant un corpus de données radicalement plus large : données MoCap sélectionnées, données internes, et mouvements reconstruits depuis des vidéos du monde réel, augmentant la couverture des situations imprévues. L'architecture MoE (Mixture-of-Experts) Transformer active sélectivement des sous-réseaux spécialisés à chaque pas de temps, réduisant le coût computationnel sans régresser sur la capacité expressive. Le KV-cache accélère l'inférence séquentielle en réutilisant les calculs passés. L'entraînement repose sur une méthode PPO (Proximal Policy Optimization) appliquée à des séquences de mouvement complètes plutôt qu'à des pas de temps isolés, ce qui améliore la stabilité sur corpus hétérogène. Pour un intégrateur ou un OEM robotique, la conséquence concrète est qu'un modèle généraliste à 4 milliards de paramètres devient déployable sur edge hardware sans infrastructure cloud. Il convient toutefois de souligner que les démonstrations publiées restent des séquences sélectionnées, sans métriques indépendantes sur la robustesse en conditions industrielles. Horizon Robotics est historiquement positionnée sur la couche silicium, avec ses puces Journey pour l'ADAS, et HoloMotion-1 marque un pivot vers la couche logicielle en robotique humanoïde. Le choix de l'open source suit la stratégie d'influence sur l'écosystème pratiquée par Meta avec LLaMA dans les LLM : imposer un standard de fait avant que les concurrents ne verrouillent leur stack propriétaire. Le paysage concurrentiel est dense : Physical Intelligence (Pi-0), NVIDIA (GR00T N2), Agility Robotics et Figure AI côté occidental, Unitree, Fourier Intelligence et Zhiyuan Robotics côté chinois. La publication décrit un plan en quatre phases pour le contrôle humanoïde ("Imitate Any Pose, Follow Any Command" en constituent les deux premières), mais les phases suivantes n'ont pas été détaillées publiquement. Aucun déploiement industriel ni partenariat de production n'est annoncé à ce stade.

UELa publication open-source de HoloMotion-1 met à disposition des équipes R&D européennes un modèle de contrôle moteur corps entier déployable sur edge hardware, mais aucun acteur, labo ou déploiement européen n'est impliqué.

IA physiqueOpinion
1 source
La robotique connaîtra-t-elle son moment ChatGPT ?
133IEEE Spectrum Robotics 

La robotique connaîtra-t-elle son moment ChatGPT ?

En 2025, les investissements dans les entreprises de robotique ont atteint un record de 40,7 milliards de dollars, soit 9 % de l'ensemble du capital-risque mondial. C'est dans ce contexte que Jonathan Hurst, professeur en robotique à l'Oregon State University et cofondateur d'Agility Robotics, et Wendy Tan White, ancienne CEO du projet Everyday Robots chez Google X, publient une analyse à contre-courant. Leur thèse : la robotique ne connaîtra pas de "moment ChatGPT" unique, mais progressera grâce à l'application coordonnée de plusieurs systèmes d'IA complémentaires. Ils articulent leur démonstration autour de cinq vérités difficiles, dont la première est le "YouTube-to-Reality Gap". La prestation des robots humanoïdes Unitree au gala du Nouvel An chinois 2026, où des machines exécutaient des figures d'arts martiaux avec des enfants, illustre parfaitement ce fossé : techniquement impressionnante, la séquence était entièrement chorégraphiée, relevant du même niveau d'autonomie qu'un bras industriel en usine automobile, et non d'un système capable de s'adapter à l'imprévu. L'enjeu est décisif pour les intégrateurs et décideurs industriels. Si les robots maîtrisent le backflip et le kung-fu, pourquoi sont-ils absents des chaînes de production généralistes et des cuisines domestiques ? L'IA mobilisée dans ces démonstrations ne sert que le contrôle moteur de bas niveau, sans capacité de raisonnement ni d'adaptation à des environnements non structurés. La rupture introduite par l'IA est réelle : les robots apprennent désormais au lieu d'être programmés, et peuvent, avec suffisamment de données, percevoir, raisonner et agir de façon fiable. Mais ce saut exige des systèmes d'IA coordonnés et rigoureusement intégrés, et non un modèle fondateur unique. La promesse de robots polyvalents vivant aux côtés des humains alimente la science-fiction depuis des décennies, et les déceptions accumulées ont rendu le secteur prudent face aux annonces. Agility Robotics déploie son humanoïde Digit dans des entrepôts Amazon depuis 2023, l'une des rares preuves de déploiement industriel réel à l'échelle. La concurrence s'est toutefois densifiée : Figure AI, Tesla Optimus, 1X et Apptronik côté produits, Physical Intelligence (Pi-0) et NVIDIA (GR00T N2) côté recherche. Hurst et White, forts d'une décennie de terrain, ne disqualifient pas l'optimisme ambiant, mais rappellent l'obligation de distinguer ce qui est opérationnel de ce qui reste un prototype filmé sous son meilleur angle.

HumanoïdesOpinion
1 source
LLMs incarnés : quand une meilleure fidélité d'observation nuit à la résolution de problèmes
134arXiv cs.RO 

LLMs incarnés : quand une meilleure fidélité d'observation nuit à la résolution de problèmes

Une équipe de chercheurs présente sur arXiv (réf. 2605.20072) une étude empirique sur le comportement des LLM incarnés en robotique. Pour sonder l'effet de la fidélité perceptuelle sur les agents cognitifs, ils ont conçu une série d'expériences autour du "Lockbox", un puzzle mécanique séquentiel aux interdépendances cachées, déployé sur un robot physique. Trois modes d'observation ont été testés : RGB brut, RGB-D (avec profondeur), et observations symboliques ground-truth (état parfaitement connu de l'environnement). Le résultat est contre-intuitif : les agents obtiennent leurs meilleures performances avec le RGB brut et leurs pires avec les observations parfaites. En simulation, les chercheurs ont consolidé ce constat en injectant du bruit artificiel, en inversant aléatoirement les résultats des actions perçues par l'agent. La performance culmine à un taux d'inversion de 40%, avec une multiplication du taux de réussite par 2,85 par rapport à la baseline sans bruit. Ce résultat interroge directement un postulat central de la robotique cognitive : l'idée qu'une perception plus précise améliore mécaniquement la prise de décision. L'analyse des trajectoires d'actions révèle que le gain provient d'une réduction des boucles répétitives : un agent qui perçoit l'état du monde avec précision peut se bloquer dans un raisonnement circulaire, faute de signal lui indiquant de changer de stratégie. Un bruit perceptuel modéré brise ces boucles en forçant l'agent à reconsidérer ses hypothèses. Cette observation soulève une question sérieuse pour les pipelines VLA (Vision-Language-Action) actuels, où la précision des capteurs et la richesse des représentations symboliques sont présentées comme des leviers d'amélioration inconditionnels. Les auteurs tirent une conclusion méthodologique forte : les taux de réussite seuls sont insuffisants pour évaluer les LLM dans des tâches incarnées, car une performance mesurée peut refléter une interaction fortuite entre erreurs perceptuelles et défauts de raisonnement, plutôt qu'une résolution robuste. Cette mise en garde arrive à un moment où Figure, 1X, Agility Robotics et Boston Dynamics intègrent des LLM comme planificateurs de haut niveau dans leurs humanoïdes, souvent évalués sur des benchmarks de tâches simples en environnement contrôlé. L'approche "empirical AI" adoptée ici, qui consiste à varier systématiquement les entrées et mesurer les effets comportementaux, offre un cadre d'évaluation plus rigoureux que les métriques agrégées habituelles.

RecherchePaper
1 source
CEER : contrôle unifié de l'effecteur final souple et de la base pour la loco-manipulation hiérarchique des humanoïdes
135arXiv cs.RO 

CEER : contrôle unifié de l'effecteur final souple et de la base pour la loco-manipulation hiérarchique des humanoïdes

CEER (Compliant End-Effector and Root Control) est une abstraction de contrôle pour robots humanoïdes présentée sur arXiv en mai 2026 (arXiv:2605.19981). L'approche résout un problème d'interfaçage central: connecter des planificateurs hétérogènes (téleopération, modèles de langage, VLA) à un contrôleur corps entier sans réentraînement à chaque nouvelle tâche. La solution repose sur deux types de commandes unifiées: les poses cibles de l'effecteur terminal (end-effector) et les commandes de déplacement de la racine (root, soit le torse de l'humanoïde). Un framework enseignant-étudiant distille un contrôleur générique en une politique bas niveau consommant uniquement ces commandes EE-root. Les résultats expérimentaux, conduits en simulation et sur matériel réel, affichent une précision de suivi à 3,3 cm, une réduction substantielle du jerk mécanique par rapport aux baselines, et un taux de succès jusqu'à 70% sur des tâches de loco-manipulation d'objet unique dans un environnement à l'échelle d'une pièce. La manipulation au contact riche (contact-rich manipulation) reste le principal goulot d'étranglement des humanoïdes: saisir des objets en positions variées, pousser des pièces dans des logements, interagir avec des surfaces non structurées. CEER apporte une réponse architecturale plutôt qu'algorithmique: une couche de contrôle compliant (souple au contact, à l'inverse du contrôle rigide en position) que n'importe quel planificateur peut piloter en plug-and-play. Pour un intégrateur industriel ou un OEM, l'argument est concret: la politique bas niveau ne nécessite pas de réentraînement à chaque nouvelle application. C'est précisément la modularité qui manque aux approches bout-en-bout dominantes. La compliance réduit également les risques de dommages en cas de contact imprévu, prérequis pour tout déploiement en environnement humain. La manipulation reste le défi non résolu des humanoïdes commerciaux. Figure Robotics, Tesla (Optimus), Agility Robotics (Digit) et 1X Technologies avancent avec des pipelines souvent propriétaires, dominés par l'imitation learning et la téleopération. Physical Intelligence (Pi-0) et NVIDIA (GR00T N2) misent sur les VLA pour généraliser la manipulation depuis des données multimodales. CEER se positionne comme une couche orthogonale: non pas un nouveau planificateur, mais un socle de contrôle interopérable avec les approches existantes. La validation sur hardware distingue ce travail des publications purement simulées, même si les 70% de succès sur tâche unique en simulation demeurent une métrique circonscrite. Les prochaines étapes naturelles incluent l'intégration avec des planificateurs LLM ou VLA et la validation sur des tâches bi-manuelles et à horizon long.

IA physiquePaper
1 source
PRIME : estimation inertielle et de mouvement physiquement cohérente pour robots à pattes et humanoïdes
136arXiv cs.RO 

PRIME : estimation inertielle et de mouvement physiquement cohérente pour robots à pattes et humanoïdes

Une équipe de chercheurs a présenté PRIME (Physically-consistent Robotic Inertial and Motion Estimation), une méthode d'estimation de mouvement pour robots à pattes et humanoïdes publiée sur arXiv en mai 2026 (arXiv:2605.17681). Là où les pipelines conventionnels basés sur des filtres de Kalman étendus (EKF) ou la capture de mouvement externe ne reconstruisent que la cinématique, PRIME formule le problème comme une estimation MAP (Maximum A Posteriori) qui raffine simultanément les données proprioceptives brutes et les commandes des actionneurs pour produire une trajectoire dynamiquement cohérente. L'algorithme estime conjointement les forces de contact frictionnelles et les paramètres inertiels du robot (masses, centres de masse, moments d'inertie), via une modélisation différentiable de la dynamique de contact avec contraintes de complémentarité lissées et un modèle de friction d'Anitescu. Les validations ont été conduites sur des robots quadrupèdes et sur l'humanoïde Unitree G1, lors de séquences de locomotion à contacts multiples en déploiement réel. Le problème abordé est structurel : les pipelines de perception robotique actuels ignorent les forces de contact et les paramètres inertiels effectifs du système, ce qui entraîne des reconstructions qui violent régulièrement la dynamique des corps rigides, en particulier lors des phases de contact. Cette incohérence dégrade la qualité des données d'entraînement et limite la robustesse des contrôleurs en boucle fermée. PRIME produit des reconstructions de mouvement annotées en forces et contacts directement depuis des robots en déploiement terrain, sans infrastructure de laboratoire. Pour les équipes qui développent des modèles de fondation robotiques ou des architectures Visual-Language-Action (VLA), cette capacité représente une source de données haute qualité exploitable à grande échelle, là où la rareté d'annotations dynamiques fiables reste un goulot d'étranglement reconnu. L'estimation d'état pour robots à pattes est un problème ancien, historiquement traité par EKF couplés à la proprioception, la capture de mouvement restant cantonnée aux laboratoires. PRIME se distingue en proposant une solution embarquée et déployable en conditions réelles, sans dépendance à une infrastructure externe. L'humanoïde Unitree G1, commercialisé autour de 16 000 dollars et très présent dans la recherche académique mondiale, sert de banc de validation représentatif. Dans un contexte où Boston Dynamics, Figure AI, Agility Robotics, 1X et Unitree accumulent des données de déploiement pour alimenter leurs pipelines d'apprentissage, PRIME propose une brique méthodologique transversale pour enrichir ces corpus avec des annotations dynamiques fiables. Les applications naturelles incluent l'imitation learning, le transfert sim-to-real et l'entraînement de modèles de fondation à partir de données terrain.

UELes équipes de recherche européennes en locomotion robotique (INRIA, LAAS-CNRS) pourraient exploiter PRIME pour enrichir leurs pipelines d'entraînement sans infrastructure de laboratoire, mais aucun acteur ou institution européen n'est directement impliqué.

RecherchePaper
1 source
Boston Dynamics révèle comment Atlas soulève des charges industrielles de 45 kg en production
137Interesting Engineering 

Boston Dynamics révèle comment Atlas soulève des charges industrielles de 45 kg en production

Boston Dynamics a publié début 2025 un billet technique détaillant comment son robot humanoïde Atlas a appris à manipuler des charges industrielles lourdes grâce au reinforcement learning et à la simulation à grande échelle. La démonstration montre Atlas effectuer une rotation du torse à 180 degrés, se baisser pour saisir un mini-réfrigérateur, puis le transporter sur plusieurs mètres en compensant le déplacement du poids interne de l'objet. La charge nominale d'entraînement se situe entre 23 et 32 kg (50-70 lb), mais le robot a réussi à déplacer un réfrigérateur dépassant les 45 kg (100 lb) lors des tests. Pour percevoir le poids, l'équilibre et la résistance, Atlas s'appuie principalement sur la proprioception, c'est-à-dire la conscience interne de son propre corps, plutôt que sur la vision seule. L'entraînement repose sur des millions d'heures de simulation parallèle sur GPU, où l'on fait varier le poids de l'objet, le frottement au sol, la force de préhension et la position initiale de la charge pour forcer le robot à généraliser ses comportements. Ce que cette publication révèle, au-delà de la performance brute, c'est une avancée méthodologique sur le problème dit du "sim-to-real gap" : l'écart historique entre les comportements appris en simulation et leur transposition sur le robot physique. Boston Dynamics affirme l'avoir réduit grâce à une architecture matérielle délibérément simplifiée : Atlas n'utilise que deux types d'actionneurs sur l'ensemble du corps, les bras et les jambes sont symétriques, et les câbles ont été éliminés au niveau des articulations, autorisant une rotation continue des joints et réduisant les sources d'usure et de latence. Pour les intégrateurs industriels et les décideurs B2B, cela signifie que la simulation devient un outil de développement comportemental fiable, raccourcissant potentiellement les cycles de mise en production. Le fait que le comportement de levage ait été développé en quelques semaines seulement après le lancement public d'Atlas est un signal fort sur la scalabilité du pipeline d'entraînement. Il faut toutefois noter que la démonstration reste une vidéo sélectionnée en laboratoire : aucun déploiement terrain ni données de fiabilité sur durée longue ne sont communiqués. Boston Dynamics, rachetée par Hyundai en 2021 pour 1,1 milliard de dollars, a rebooté Atlas en version entièrement électrique début 2024, abandonnant la plateforme hydraulique utilisée depuis 2013. Ce nouvel Atlas se positionne explicitement comme un "outil polyvalent pour le travail physique", en concurrence directe avec Figure (Figure 02 et 03 annoncés), Tesla (Optimus Gen 3), Physical Intelligence (Pi-0), Agility Robotics (Digit), et NVIDIA dans l'écosystème GR00T N2. La décision de lier les démonstrations athlétiques d'Atlas, dont des figures au sol et des backflips, à des cas d'usage industriels est une communication stratégique visant à montrer que l'agilité n'est pas une fin en soi mais un proxy pour la robustesse en environnement difficile. Les prochaines étapes annoncées concernent des pilotes en environnement industriel réel, notamment avec BMW, sans calendrier précis communiqué.

UEUn pilote industriel avec BMW (groupe allemand) est évoqué sans calendrier précis, signal pertinent pour les intégrateurs européens qui évaluent les humanoides en environnement de production.

HumanoïdesOpinion
1 source
Qu'est-ce qui rend un métier ennuyeux, sale ou dangereux ?
138IEEE Spectrum Robotics 

Qu'est-ce qui rend un métier ennuyeux, sale ou dangereux ?

Une équipe de chercheurs a mené une analyse systématique de la littérature robotique publiée entre 1980 et 2024 pour examiner comment la discipline utilise le cadre dit "DDD", dull, dirty, dangerous (répétitif, sale, dangereux), pour justifier le déploiement de robots dans certains secteurs. Le résultat est frappant : sur des milliers de publications mentionnant ce triptyque, seulement 2,7 % en proposent une définition explicite et seulement 8,7 % citent des exemples concrets de tâches ou de métiers visés. Les chercheurs ont ensuite croisé ces données avec la littérature en sciences sociales, anthropologie, économie, psychologie, sociologie, pour proposer un cadre analytique plus rigoureux des trois catégories. Cette imprécision n'est pas sans conséquences pour les décideurs et les ingénieurs qui orientent les feuilles de route robotiques. Sur le volet "dangereux", les données administratives sur les accidents du travail souffrent d'une sous-déclaration estimée à 70 % dans certaines études, et les statistiques sont rarement désagrégées par genre, statut migratoire ou type d'activité informelle. Exemple concret : la plupart des équipements de protection individuelle, masques, gilets, gants, sont dimensionnés pour des morphologies masculines, exposant les femmes à des risques accrus dans les environnements industriels. Sur le volet "sale", la dimension physique (déchets, substances toxiques, entretien) ne représente qu'une partie du concept : la stigmatisation sociale joue un rôle central. Les métiers "socialement dégradants" (agents de recouvrement, agents pénitentiaires) ou "moralement ambigus" selon les normes culturelles entrent dans cette catégorie, et la frontière varie selon les époques et les pays. Les chercheurs soulignent également un paradoxe important pour la conception des systèmes robotiques : un emploi classé "bas prestige" dans les enquêtes quantitatives sur le prestige professionnel peut être vécu avec fierté et sens par ceux qui l'exercent, ce que les roboticiens oublient souvent de mesurer avant d'intervenir. Le cadre DDD est apparu dans les années 1980 comme raccourci rhétorique pour légitimer la robotisation industrielle, notamment dans l'automobile et la manutention lourde. Il s'est imposé sans véritable formalisation, héritage d'une époque où la robotique se déployait quasi exclusivement en milieu manufacturier contrôlé. Aujourd'hui, avec l'essor des robots humanoïdes (Figure AI, Apptronik, Agility Robotics) et des systèmes mobiles en environnements non structurés, la cible s'étend à des secteurs comme les soins à domicile, la logistique urbaine ou l'agriculture. L'enjeu soulevé par cette recherche est de forcer la discipline à définir précisément quel problème humain elle cherche à résoudre, pour quels travailleurs, dans quel contexte culturel, avant de concevoir le robot, pas après.

UELes conclusions de cette recherche pourraient alimenter les discussions réglementaires européennes (AI Act, directive machines révisée) sur les critères d'acceptabilité sociale et les conditions de déploiement des robots dans des secteurs non structurés comme les soins ou la logistique urbaine.

RecherchePaper
1 source
Fanuc renforce son partenariat avec Nvidia pour la simulation de robots IA et les jumeaux numériques
139Robotics & Automation News 

Fanuc renforce son partenariat avec Nvidia pour la simulation de robots IA et les jumeaux numériques

Fanuc a approfondi son partenariat avec Nvidia en intégrant Isaac Sim, le framework ouvert de simulation robotique de Nvidia, directement dans RoboGuide, le logiciel de simulation et de programmation hors-ligne propriétaire de Fanuc. Cette interconnexion permet désormais aux opérateurs de piloter des robots Fanuc au sein d'environnements d'usine entièrement virtuels, et de générer des jumeaux numériques haute-fidélité exploitables pour la planification de production et la validation de trajectoires. La technologie a été présentée en démonstration lors de l'International Robot Exhibition (IRE) de Tokyo en décembre 2025, où Fanuc a montré un flux d'importation de mouvements robotiques entre les deux plateformes. L'enjeu industriel est significatif : RoboGuide est l'un des outils de programmation hors-ligne les plus déployés dans l'automatisation industrielle, Fanuc ayant franchi le cap des 900 000 robots installés à l'échelle mondiale. Connecter cet outil à Isaac Sim, qui s'appuie sur le moteur de simulation physique Omniverse d'Nvidia, réduit concrètement l'écart sim-to-real lors de la mise en service : les programmes validés en virtuel arrivent sur la cellule réelle avec moins de cycles d'ajustement. Pour un intégrateur ou un COO industriel, c'est une réduction directe des temps de commissioning et des risques de redémarrage en production. Fanuc intègre progressivement l'IA à son catalogue depuis plusieurs années, notamment via des modules de vision et d'inspection basés sur l'apprentissage profond. Nvidia, de son côté, multiplie les partenariats similaires avec Universal Robots, Boston Dynamics, Agility Robotics et Figure pour imposer Isaac Sim comme infrastructure standard de la robotique physique. Cette annonce est pour l'instant une démonstration technologique, pas un déploiement commercial confirmé ; les modalités de disponibilité pour les intégrateurs tiers n'ont pas été précisées.

UELes intégrateurs et industriels européens utilisant des robots Fanuc (très présents dans l'automobile et l'aérospatiale EU) pourraient bénéficier d'une réduction des temps de commissioning via cette intégration, mais l'absence de disponibilité commerciale confirmée limite l'impact concret à court terme.

IndustrielOpinion
1 source
Asimov : un robot humanoïde open source accessible à tous
140Hackaday Robots Hacks 

Asimov : un robot humanoïde open source accessible à tous

Le projet Asimov v1 est un robot humanoïde open source en kit, proposé à un prix cible de 15 000 dollars, avec la nomenclature complète publiée sur GitHub pour permettre aux équipes de sourcer leurs propres composants. Doté de 25 degrés de liberté au total, il embarque un calculateur basé sur un Raspberry Pi 5 et un module Radxa CM5, deux références grand public faciles à approvisionner. Les performances physiques déclarées restent modestes : 5 kg en squat et 18 kg en tirage unilatéral à un bras, ce qui le positionne clairement dans la catégorie expérimentale. Tout le code est libre, laissant aux développeurs la latitude d'implémenter leurs propres couches de contrôle. À 15 000 dollars avec du matériel sur étagère, Asimov v1 représente une rupture de prix notable dans un secteur longtemps réservé aux géants industriels. Les démonstrations emblématiques de Honda (Asimo, programme lancé dans les années 1980) et les investissements massifs de Tesla pour Optimus ont durablement ancré l'image d'un marché inaccessible aux laboratoires ou aux startups. L'open source change la donne : une équipe universitaire ou un intégrateur peut désormais disposer d'une base matérielle documentée pour tester des modèles de contrôle visuomoteur ou des politiques d'apprentissage par renforcement sans dépendre d'un fournisseur propriétaire. Il convient toutefois de rester prudent sur les métriques publiées, présentées sans protocole de test standardisé et sans vidéo en conditions réelles. Asimov v1 s'inscrit dans une tendance de démocratisation du hardware robotique comparable à ce que l'open source a réalisé dans les drones avec ArduPilot ou PX4 dans les années 2010. Sur le segment accessible, il se distingue du Unitree G1 (environ 16 000 dollars, non open source) par sa transparence architecturale complète. Il reste très éloigné des plateformes industrielles comme Figure 03, Agility Robotics Digit ou Apptronik Apollo, qui ciblent la logistique avec des financements de plusieurs centaines de millions de dollars et des déploiements confirmés chez des partenaires industriels. Fédérer une communauté active de contributeurs sera la prochaine étape critique pour faire progresser les performances mécaniques et logicielles du projet.

UELes laboratoires universitaires et startups robotique français et européens disposent d'une base matérielle open source documentée à 15 000 $ pour prototyper des algorithmes de contrôle visuomoteur sans dépendre d'un fournisseur propriétaire.

HumanoïdesOpinion
1 source
Comment l'IA à base d'agents permet la navigation robotique généraliste
141Robotics Business Review 

Comment l'IA à base d'agents permet la navigation robotique généraliste

Les systèmes de navigation robotique traditionnels s'appuient sur un pipeline déterministe en cinq étapes séquentielles: perception, localisation, cartographie, planification, contrôle. Des techniques comme le SLAM (Simultaneous Localization and Mapping) permettent à un robot de construire une carte et d'estimer sa position en temps réel, mais ces approches supposent un environnement relativement stable. Dès qu'un robot sort d'un entrepôt balisé ou d'une cellule d'usine pour se retrouver dans un domicile, une zone sinistrée, un chantier ou une opération logistique extérieure, les performances se dégradent: obstacles mobiles, cartes incomplètes, terrains inconnus font échouer les hypothèses de base du pipeline. L'IA agentique propose une rupture architecturale en ajoutant une couche d'orchestration au-dessus du stack existant. Plutôt qu'exécuter une séquence fixe de modules, ces systèmes coordonnent dynamiquement perception, planification et contrôle en fonction de l'objectif courant, via des boucles de raisonnement itératives, une mémoire contextuelle et un usage dynamique d'outils invocables à la demande. L'impact concret pour les intégrateurs et décideurs est structurel. En traitant ses propres capacités comme des outils sélectionnables selon le contexte, un robot agentique peut adapter sa stratégie de navigation sans reprogrammation explicite de chaque scénario, ce qui élargit significativement le périmètre de déploiement réel. Cela remet en question l'hypothèse longtemps dominante selon laquelle la robotique mobile généraliste exige une pré-cartographie exhaustive et des règles explicites pour chaque situation rencontrée. L'approche agentique suggère qu'une part de cette rigidité peut être remplacée par un raisonnement contextuel, rapprochant la navigation robotique de la capacité d'adaptation d'un opérateur humain en terrain inconnu. Pour un COO industriel, cela se traduit par une réduction potentielle des coûts de mise en service et une plus grande tolérance aux variations d'environnement entre sites. Ce changement de paradigme s'inscrit dans une évolution longue. Les architectures réactives des années 1980, popularisées par Rodney Brooks avec la subsumption architecture, répondaient aux capteurs sans modèle global. Les générations suivantes ont introduit SLAM et la planification par graphes, dominant le secteur durant les années 2000-2010. L'émergence des LLMs et des modèles VLA (Vision-Language-Action) à partir de 2022-2023 ouvre une troisième voie. Sur le plan concurrentiel, des acteurs comme Boston Dynamics, Figure AI et Agility Robotics investissent dans ces architectures agentiques pour leurs robots humanoïdes et AMR. En Europe, Enchanted Tools et Wandercraft restent positionnés sur des segments spécialisés, mais l'architecture agentique pourrait modifier les équilibres en abaissant le coût d'adaptation aux environnements non structurés. Les prochaines étapes attendues incluent des benchmarks standardisés pour évaluer la performance hors environnements contrôlés, ainsi que les premières intégrations commerciales dans la logistique du dernier kilomètre et les services à domicile.

UEEnchanted Tools et Wandercraft sont cités comme acteurs européens dont les positions concurrentielles pourraient être réévaluées si l'architecture agentique abaisse le coût d'adaptation aux environnements non structurés.

IA physiqueOpinion
1 source
Vers l'intelligence des mains dextériques en robotique : un état de l'art
142arXiv cs.RO 

Vers l'intelligence des mains dextériques en robotique : un état de l'art

Une équipe de chercheurs a publié en mai 2026 sur arXiv (identifiant 2605.13925) une revue systématique de l'état de l'art des mains robotiques dextres, couvrant l'ensemble de la chaîne de recherche : mécanique et actionnement, perception tactile, méthodes de contrôle et d'apprentissage, jeux de données et protocoles d'évaluation. Le papier structuré en quatre axes examine les compromis fondamentaux entre capacité de force, compliance mécanique, bande passante de contrôle et complexité d'intégration. Il recense les principales architectures de transmission (câbles, tendons, engrenages), les modalités sensorielles embarquées (capteurs de force, peau artificielle, vision tactile type GelSight), et retrace l'évolution chronologique des paradigmes de contrôle : du contrôle impédanciel classique vers les approches par apprentissage par renforcement, imitation, et plus récemment les Visual-Language-Action models (VLA) appliqués à la manipulation en contact riche. L'intérêt principal de cette synthèse pour les équipes R&D et les intégrateurs industriels est qu'elle tente de résoudre un problème structurel du domaine : l'hétérogénéité des hypothèses expérimentales rend les comparaisons entre travaux quasi impossibles. Les auteurs pointent explicitement que les résultats publiés varient selon l'embodiment de la main, la configuration sensorielle, le type de tâche et le protocole d'évaluation retenu, ce qui obscurcit la trajectoire réelle du secteur. En consolidant datasets, pratiques de benchmarking et métriques d'évaluation dans un cadre commun, le survey fournit une grille de lecture pour juger si les progrès annoncés relèvent d'avancées méthodologiques réelles ou d'artefacts de setup. C'est particulièrement utile dans un contexte où les démos vidéo soigneusement sélectionnées et les claims "sim-to-real solved" se multiplient sans validation robuste sur des tâches industrielles répétables. Ce travail s'inscrit dans une vague de consolidation académique portée par l'essor des mains humanoïdes commerciales : Figure (main intégrée sur Figure 02 et 03), Tesla Optimus, Agility Robotics ou encore les systèmes de Sanctuary AI ont tous relancé l'intérêt pour la manipulation dextre après deux décennies de progrès limités post-DLR Hand et Shadow Hand. Côté recherche, les laboratoires Carnegie Mellon, Stanford, ETH Zurich et, en Europe, des acteurs comme Enchanted Tools (France) et des spin-offs universitaires allemands poussent des approches hybrides hardware-learning. Le survey identifie comme chantiers ouverts prioritaires : la généralisation hors distribution (objets inconnus, matériaux déformables), la robustesse sensorielle en conditions industrielles dégradées, et la co-optimisation hardware-software encore trop rare. Aucun calendrier de publication étendue n'est annoncé ; le preprint est disponible en accès libre sur arXiv.

UELe survey cite explicitement Enchanted Tools (France) et des spin-offs universitaires allemands comme acteurs actifs sur la manipulation dextre hybride hardware-learning, en faisant une ressource de référence directement pertinente pour les équipes R&D françaises du secteur.

RecherchePaper
1 source
IA incarnée : conditionnement géométrique explicite des escaliers pour une locomotion humanoïde robuste
143arXiv cs.RO 

IA incarnée : conditionnement géométrique explicite des escaliers pour une locomotion humanoïde robuste

Des chercheurs ont publié sur arXiv (2605.09944) un cadre de conditionnement géométrique explicite pour la montée d'escaliers par robot humanoïde. Le système extrait trois paramètres compacts depuis la perception : la hauteur de marche, la profondeur de marche, et l'angle de lacet courant par rapport au cap du robot. Ces paramètres conditionnent directement une politique de locomotion entraînée par Proximal Policy Optimization (PPO), permettant une modulation proactive de la hauteur d'enjambée et des caractéristiques de foulée selon la géométrie de l'escalier. Validé sur le Unitree G1, humanoïde à 23 degrés de liberté de Unitree Robotics, le système a enchaîné 33 marches consécutives en extérieur sans défaillance lors des expériences en conditions réelles. Des tests en simulation confirment par ailleurs une généralisation à des hauteurs de marches hors de la distribution d'entraînement. L'intérêt de l'approche tient au choix de représentations explicites et interprétables plutôt que des encodages latents haute dimension. Les politiques de locomotion actuelles s'appuient généralement sur du feedback proprioceptif aveugle ou des représentations implicites du terrain, ce qui limite leur capacité à anticiper les ajustements de gait face à des géométries non vues, problème central du sim-to-real gap. En conditionnant la politique sur des paramètres lisibles par un ingénieur, le système peut moduler proactivement la hauteur d'enjambée avant le contact, là où une représentation opaque réagirait après coup. Pour un intégrateur ou un COO logistique, cela se traduit par une robustesse prédictive accrue dans des environnements réels non maîtrisés, sans instrumentation supplémentaire des escaliers. Le Unitree G1, commercialisé depuis 2024 à partir de 16 000 USD, s'est imposé comme plateforme de référence pour la recherche en locomotion humanoïde grâce à sa disponibilité et son prix d'accès. Unitree concurrence directement Agility Robotics (Digit), Boston Dynamics (Atlas) et des startups comme Figure ou 1X sur la capacité à opérer dans des espaces tertiaires et industriels non modifiés. La traversée d'escaliers reste un verrou opérationnel clé pour les déploiements logistiques et de services, segment où des acteurs européens comme Wandercraft et Enchanted Tools opèrent sur des créneaux voisins mais distincts. L'article, soumis en preprint sans revue par les pairs à ce stade, ne fournit pas de comparaison quantitative avec d'autres politiques sur le même matériel, ce qui limite l'évaluation rigoureuse des gains réels.

UELa traversée d'escaliers étant un verrou opérationnel clé pour les déploiements en espaces non modifiés, cette avancée fixe un niveau de référence que des acteurs européens comme Wandercraft et Enchanted Tools devront intégrer dans leur feuille de route locomotion.

RecherchePaper
1 source
Apprendre à sentir le futur : DreamTacVLA pour la manipulation riche en contacts
144arXiv cs.RO 

Apprendre à sentir le futur : DreamTacVLA pour la manipulation riche en contacts

Des chercheurs ont publié DreamTacVLA, un framework qui dote les modèles Vision-Language-Action (VLA) d'un sens du toucher anticipatif. Ces architectures, parmi lesquelles Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, généralisent des comportements robotiques à partir de connaissances web-scale, mais restent aveugles à la physique du contact : force, texture et glissement. DreamTacVLA introduit une perception hiérarchique à trois niveaux : images tactiles haute résolution (micro-vision), caméra poignet (vision locale) et vue tierce (macro-vision), le tout aligné par une perte baptisée Hierarchical Spatial Alignment (HSA). Le système est ensuite affiné par un modèle de monde tactile prédisant des états de contact futurs, ce qui lui permet de conditionner ses décisions à la fois sur des observations réelles et sur des conséquences anticipées ; sur des benchmarks de manipulation contact-riche (vissage, pelage, textiles), il atteint jusqu'à 95 % de succès face aux baselines VLA état de l'art, appuyé par un dataset hybride combinant simulation haute-fidélité (digital twin) et expériences en monde réel. Ce résultat quantifie concrètement le "gap tactile" des VLA modernes : intégrer des signaux de contact haute résolution est discriminant pour des tâches industrielles entières, de l'assemblage de précision au conditionnement de composants déformables. Conditionner les décisions sur des conséquences tactiles anticipées, et non seulement sur des observations en temps réel, rapproche les VLA du raisonnement physique implicite des opérateurs expérimentés. Pour les intégrateurs B2B, cela laisse entrevoir une prochaine génération de politiques robotiques capables de manipulation fine sans capteurs de force-couple coûteux, à condition d'embarquer des capteurs tactiles conformes haute résolution. La démonstration reste cependant purement académique : aucun déploiement industriel ni partenariat de production n'est annoncé dans le papier. Le travail s'inscrit dans un mouvement d'enrichissement des VLA au-delà du seul canal vision-langage, aux côtés d'approches intégrant proprioception, retour de force ou audio. DreamTacVLA se distingue par l'application au domaine tactile de techniques issues des modèles de monde visuels (Dreamer, RSSM), une transposition méthodologiquement originale. L'article est à sa troisième révision arXiv (v3), signe d'une évaluation par les pairs active. Parmi les acteurs à surveiller : Sanctuary AI et Agility Robotics sur les politiques de manipulation, GelSight et Contactile sur les capteurs tactiles, et en Europe, Pollen Robotics qui explore des effecteurs sensoriellement enrichis.

UEPollen Robotics, identifié comme acteur européen explorant des effecteurs sensoriellement enrichis, est directement positionné pour intégrer ce type d'avancée tactile dans ses politiques de manipulation VLA.

IA physiqueOpinion
1 source
Un nouveau système d'IA aide les robots à transférer leur entraînement virtuel vers des tâches réelles
145Interesting Engineering 

Un nouveau système d'IA aide les robots à transférer leur entraînement virtuel vers des tâches réelles

Des chercheurs de l'Aston University et de l'University of Birmingham ont publié dans Scientific Reports une méthode d'entraînement robotique visant à réduire le "sim-to-real gap", ce fossé persistant entre les performances d'un robot en simulation et son comportement réel. L'approche, développée dans le cadre du projet REBELION financé par UK Research and Innovation, utilise un générateur de variations d'environnement piloté par IA : pendant la phase de simulation, le système introduit automatiquement des perturbations (bruit capteur, variabilité des matériaux, forces inattendues) pour entraîner le robot à des conditions plus proches du terrain. La validation expérimentale porte sur des tâches de manipulation et de découpe impliquant une interaction physique avec des matériaux, puis un ajustement avec un volume minimal de données réelles. Le cas d'usage mis en avant est le recyclage de batteries lithium-ion, où les robots doivent opérer autour de cellules endommagées ou potentiellement dangereuses, rendant les cycles de test physiques coûteux et risqués. L'intérêt industriel est direct : la dépendance à de longs cycles de test en environnement réel est l'un des principaux freins au déploiement rapide de robots dans des lignes de production ou des ateliers de recyclage. En permettant de compresser l'essentiel de l'apprentissage en simulation tout en garantissant un transfert fiable avec peu de données réelles, cette approche pourrait raccourcir significativement les timelines d'intégration et réduire les coûts opérationnels pour les industriels. Elle valide aussi une hypothèse qui fait débat dans le secteur depuis plusieurs années : que le sim-to-real gap n'est pas une fatalité, mais un problème d'exposition à la variance pendant l'entraînement. La vision formulée par le Dr. Alireza Rastegarpanah, assistant professor en applied AI and robotics à Aston University, est celle de systèmes robotiques "plug-and-play", entraînés une fois en simulation et redéployés rapidement dans un nouveau contexte sans reconfiguration lourde. C'est une promesse ambitieuse, et les résultats publiés restent limités à un périmètre de tâches contrôlées ; aucun chiffre de performance comparative (taux de succès, cycles de recalibration) n'est rendu public dans la version relayée. Le sim-to-real gap est un problème structurel documenté depuis les premières applications de reinforcement learning en robotique. Des acteurs comme Boston Dynamics, Agility Robotics ou encore Wandercraft (France, exosquelettes) utilisent des combinaisons de domain randomization et de transfert par imitation pour y répondre, avec des niveaux de maturité variables selon les tâches. Le projet REBELION s'inscrit dans un effort européen plus large sur l'automatisation du recyclage de batteries, filière en forte croissance avec l'essor des véhicules électriques. Les prochaines étapes annoncées par l'équipe visent à élargir la méthode à des environnements industriels plus incertains et à des applications en manufacturing avancé et opérations autonomes, sans calendrier précis communiqué.

UELa méthode du projet REBELION (financé UKRI, inscrit dans un effort européen) pourrait accélérer le déploiement de robots dans les filières EU de recyclage de batteries lithium-ion, secteur stratégique pour la transition électrique.

RecherchePaper
1 source
Un algorithme certifié exact pour la calibration généralisée robot-monde et main-œil
146arXiv cs.RO 

Un algorithme certifié exact pour la calibration généralisée robot-monde et main-œil

Des chercheurs ont déposé sur arXiv (identifiant 2507.23045, version révisée) un algorithme de calibration extrinsèque pour plateformes multi-capteurs, formulé comme une solution générale au problème dit de "robot-world and hand-eye calibration" (RWHEC). La contribution centrale est la garantie de convergence vers l'optimum global, une propriété que les méthodes précédentes, souvent fondées sur une optimisation locale par descente de gradient, ne pouvaient pas assurer. L'algorithme résout simultanément la pose de plusieurs capteurs et de plusieurs cibles, et prend en charge les caméras monoculaires, qui présentent une ambiguïté d'échelle intrinsèque : seules, elles ne peuvent pas mesurer la distance absolue sans information supplémentaire. Une implémentation open-source accompagne la publication pour faciliter reproductibilité et adoption. La calibration extrinsèque, la détermination précise de la position et de l'orientation relative entre un capteur (caméra, LiDAR) et l'effecteur ou la base d'un robot, est un prérequis critique pour tout système multi-capteurs, qu'il s'agisse de robotique industrielle, de véhicules autonomes ou de manipulation. En pratique, les méthodes existantes exigent soit des hypothèses fortes sur l'environnement (cibles connues, mouvements structurés), soit des initialisations manuelles proches de la solution, au risque de converger vers un minimum local erroné. Les auteurs dérivent des critères d'identifiabilité a priori, c'est-à-dire des conditions mathématiques permettant de vérifier avant le calcul si le problème admet une solution unique, ainsi que des garanties d'optimalité globale pour des instances à erreurs de mesure bornées. Cela réduit la charge opérateur et élimine le risque d'échec silencieux en production. Techniquement, l'algorithme repose sur une relaxation SDP (Semidefinite Programming) d'un programme quadratique à contraintes quadratiques (QCQP), une famille de méthodes popularisée notamment par TEASER++ (MIT, 2020) pour le recalage de nuages de points. Les auteurs introduisent en parallèle une nouvelle qualification de contraintes pour les programmes non linéaires à contraintes redondantes, une contribution de théorie de l'optimisation valable indépendamment du problème de calibration. À noter que ce travail reste un preprint non encore évalué par les pairs. Dans un secteur où des acteurs comme Boston Dynamics, Agility Robotics, ou côté français Wandercraft, investissent massivement dans la perception embarquée multi-capteurs, disposer d'une calibration certifiée, générale et peu contraignante représente un gain opérationnel concret pour le passage à l'échelle en environnements réels.

UELes entreprises françaises multi-capteurs comme Wandercraft pourraient intégrer cet algorithme open-source pour fiabiliser leur calibration robot en production sans risque de minimum local silencieux.

RecherchePaper
1 source
Un cadre d'autonomie sémantique pour robots mobiles d'intérieur intégrant un VLM : raisonnement déterministe hybride et mémoire adaptative inter-robots
147arXiv cs.RO 

Un cadre d'autonomie sémantique pour robots mobiles d'intérieur intégrant un VLM : raisonnement déterministe hybride et mémoire adaptative inter-robots

Des chercheurs ont publié sur arXiv (réf. 2605.02525) le "Semantic Autonomy Stack", un framework de référence en six couches conçu pour permettre aux robots mobiles d'intérieur de suivre des instructions en langage naturel, sans se limiter à des coordonnées métriques. Validé sur deux robots différentiels custom équipés de Raspberry Pi 5 sans GPU embarqué, le système repose sur un résolveur paramétrique en sept étapes qui traite 88 % des requêtes en moins de 0,1 milliseconde, sans invoquer de VLM (Vision-Language Model) ni de GPU. Seules les instructions réellement ambiguës remontent au VLM, dont la latence d'inférence oscille entre 2 et 9 secondes sur hardware grand public. Un mécanisme de mémoire sémantique cross-robot transfère ensuite les préférences apprises d'un robot à l'autre via un digest compilé partagé, avec une réduction de latence mesurée à 103 000 fois. Sur 82 scénarios répartis en trois sessions, le système affiche 100 % de précision de transfert sémantique (33/33, IC 95 % [0,894 à 1,000]), sans aucune donnée d'entraînement. Ce résultat s'attaque directement aux deux freins structurels des déploiements VLM en robotique de service: la latence d'inférence à l'edge qui rend le contrôle temps-réel impraticable, et l'amnésie session-par-session propre aux modèles de langage. Le fait que 88 % des instructions soient résolues de manière déterministe en sous-milliseconde invalide l'hypothèse selon laquelle intégrer un VLM impose un coût computationnel permanent. Le mécanisme cross-robot va plus loin: les préférences acquises par interaction VLM sont compilées en règles déterministes puis diffusées à l'ensemble de la flotte, ouvrant la voie à des flottes apprenantes sans cycle d'entraînement ni données labellisées. Pour les intégrateurs AMR et les COO industriels, c'est une architecture crédible sur hardware off-the-shelf, ce qui abaisse significativement le seuil de déploiement. Les frameworks actuels couvrent soit la navigation purement métrique (ROS 2 Navigation 2), soit le raisonnement sémantique mais avec dépendance réseau ou GPU (SayPlan, LM-Nav, NLMap). Ce travail, présenté comme preprint arXiv et non comme produit commercial ni déploiement industriel, spécifie une taxonomie de mémoire en cinq catégories: connaissance globale d'environnement, préférences par opérateur, et capacités par robot. La validation reste limitée à deux robots différentiels custom; la montée en charge sur flottes commerciales ou architectures non différentielles (1X Technologies, Agility Robotics, Figure) n'a pas été testée, et certaines métriques comme le taux de 88 % dépendent du corpus de scénarios choisi. Aucun acteur FR/EU n'est impliqué. Les suites logiques seraient la validation sur flottes de taille réelle et l'intégration de VLM multimodaux récents comme Qwen-VL.

RechercheOpinion
1 source
Figure et 1X accélèrent la production de robots humanoïdes
148IEEE Spectrum Robotics 

Figure et 1X accélèrent la production de robots humanoïdes

Figure atteint désormais une cadence de production de 55 robots humanoïdes par semaine, selon une annonce publiée fin avril 2026. Ces unités sont, selon la startup américaine, destinées aux équipes internes de R&D, à la collecte de données, au développement de tâches domestiques de bout en bout et à des "cas d'usage commerciaux en développement", une formulation qui interroge sur la destination réelle de cette production alors que les déploiements commerciaux restent à maturité. En parallèle, 1X Technologies a officiellement ouvert la NEO Factory à Hayward, en Californie : une usine de 58 000 pieds carrés (environ 5 400 m²) employant plus de 200 personnes, avec une chaîne entièrement intégrée couvrant moteurs, batteries, transmissions, capteurs, structures et assemblage final. Les premières unités NEO sortent déjà des lignes de production, avec des livraisons grand public annoncées pour 2026. Sur le plan technique, Agility Robotics a publié des tests d'équilibre dynamique sur une seule jambe pour son robot Digit, et une équipe de recherche a présenté HTD (Humanoid Transformer with Touch Dreaming), un système de manipulation humanoïde combinant téleopération VR, apprentissage par renforcement pour le bas du corps et capteurs tactiles distribués. La montée en cadence simultanée de Figure et 1X marque un glissement du secteur humanoïde vers la production industrielle, mais chaque annonce appelle une lecture critique. Produire 55 unités par semaine sans contrats commerciaux confirmés suggère soit une stratégie de collecte de données à grande échelle, ressource clé pour l'entraînement des politiques VLA (Vision-Language-Action), soit une anticipation agressive de la demande avant une prochaine levée de fonds. L'intégration verticale revendiquée par 1X, inspirée du modèle Tesla, offre une flexibilité d'itération et réduit la dépendance aux fournisseurs, mais mobilise des capitaux considérables. Les travaux d'Agility sur l'équilibre dynamique illustrent par ailleurs que le gap sim-to-real reste un verrou technique central : la moindre divergence entre modèle simulé et robot réel peut provoquer une instabilité en conditions réelles, limitant directement la fiabilité en milieu industriel. Figure, fondée en 2022 par Brett Adcock, a levé plus de 750 millions de dollars avec BMW, Microsoft et Amazon comme partenaires, et opère un pilote chez BMW Manufacturing en Caroline du Sud depuis 2024, bien que les vidéos publiées restent en conditions contrôlées. 1X, société norvégienne soutenue par OpenAI et Tiger Global, se positionne sur le marché résidentiel face à Tesla Optimus (déployé progressivement dans les usines Tesla), aux robots Agility Digit (opérés chez Amazon) et aux fabricants chinois comme Unitree (G1, H1) qui exercent une pression tarifaire croissante. Aucun acteur européen, ni Wandercraft, ni Enchanted Tools, ni Pollen Robotics, n'annonce de production à ce volume pour l'instant. Les prochains trimestres détermineront si ces cadences correspondent à des commandes fermes ou à une stratégie de positionnement avant financement.

UELa montée en cadence de Figure et 1X exerce une pression concurrentielle sur les acteurs européens (Wandercraft, Enchanted Tools, Pollen Robotics), qui n'annoncent pas de volumes de production comparables à ce stade.

HumanoïdesActu
1 source
On n’est plus dans la science-fiction : il est vraiment possible d’acheter un robot humanoïde en promo aujourd’hui
149Frandroid 

On n’est plus dans la science-fiction : il est vraiment possible d’acheter un robot humanoïde en promo aujourd’hui

L'Agibot X2 Ultra, robot humanoïde développé par la société chinoise Agibot, est désormais disponible à l'achat pour le grand public via la plateforme Joybuy, à un prix promotionnel de 36 889 euros contre 41 899 euros habituellement. La machine est capable d'interagir physiquement avec son environnement, de marcher de manière bipède, de danser et d'exécuter des gestes fins comme former un cœur avec les doigts, des capacités qui relevaient encore récemment du domaine expérimental. Ce basculement vers la commercialisation grand public marque un tournant symbolique : pour la première fois, un humanoïde fonctionnel peut être commandé en ligne comme n'importe quel produit électronique haut de gamme. Si le prix reste prohibitif pour un particulier, il se situe dans une fourchette accessible pour des entreprises souhaitant expérimenter l'automatisation physique sans attendre des déploiements industriels à grande échelle. La réduction de 5 000 euros, aussi anecdotique soit-elle, signale une logique de marché en train de s'installer. Agibot, fondée en 2023 à Shanghai et soutenue par des investisseurs proches de l'écosystème technologique chinois, s'inscrit dans une course mondiale à l'humanoïde qui voit s'affronter Figure, 1X, Agility Robotics ou encore Tesla avec Optimus. La Chine pousse activement ce secteur comme axe stratégique, avec des subventions publiques et un tissu industriel capable de produire à coût compétitif. La question n'est plus de savoir si ces robots seront viables, mais à quelle vitesse leurs prix s'effondreront pour atteindre une masse critique d'acheteurs.

UELes entreprises européennes peuvent désormais commander en ligne un robot humanoïde fonctionnel via Joybuy à environ 37 000 euros, rendant tangible une première expérimentation d'automatisation physique sans attendre des déploiements industriels.

HumanoïdesOpinion
1 source
Digit apprend à danser en une nuit grâce à la simulation
150IEEE Spectrum AI 

Digit apprend à danser en une nuit grâce à la simulation

Le robot humanoïde Digit d'Agility Robotics vient d'apprendre à danser en une nuit. Grâce à des données brutes de capture de mouvement, d'animation et de téléopération, l'équipe IA de l'entreprise a développé de nouvelles capacités de contrôle corporel via un entraînement par renforcement en simulation transféré ensuite au robot réel. Dans le même temps, la startup Generalist AI a annoncé GEN-1, un modèle d'IA généraliste pour la robotique physique atteignant 99 % de taux de réussite sur des tâches simples, contre 64 % pour les générations précédentes, avec une vitesse d'exécution environ trois fois supérieure et seulement une heure de données collectées sur robot réel par tâche. Unitree, de son côté, a rendu public depuis le 5 mars 2026 le dataset UnifoLM-WBT, un jeu de données open-source de téléopération whole-body pour robots humanoïdes en environnements réels, disponible sur Hugging Face avec des mises à jour fréquentes. Ces avancées illustrent une accélération concrète sur deux fronts majeurs : la généralisation des capacités motrices et la réduction des coûts de données d'entraînement. GEN-1 représente un saut qualitatif potentiellement décisif pour la viabilité commerciale des robots de service, en abaissant drastiquement le seuil d'échec sur des tâches répétitives industrielles ou logistiques. L'ouverture du dataset Unitree constitue elle un signal fort pour la communauté académique et les startups qui manquent de ressources pour collecter des données humanoïdes à grande échelle. Par ailleurs, Universal Robots démontre avec THEMAGIC5 comment des cobots automatisent les derniers 5 % d'une production personnalisée, permettant à une entreprise née sur Kickstarter de dépasser les 400 000 paires de lunettes de natation sur mesure vendues dans le monde. Ces démonstrations s'inscrivent dans une dynamique plus large où la frontière entre recherche et déploiement commercial s'efface rapidement. La conférence ICRA 2026 se tiendra à Vienne du 1er au 5 juin, et RSS 2026 à Sydney en juillet, deux rendez-vous clés où beaucoup de ces travaux seront formalisés. Sanctuary AI poursuit quant à elle le développement de ses mains hydrauliques à haute dextérité, capables de réorienter un objet de manière autonome vers une configuration cible. Enfin, la Chine a validé en orbite un bras robotique flexible embarqué à bord du satellite commercial Yuxing 3-06, ouvrant la voie au ravitaillement autonome en orbite. L'ensemble de ces actualités confirme que 2026 marque une inflexion décisive : la robotique physique entre dans une phase d'industrialisation rapide, portée par des modèles IA de plus en plus généralisés et des écosystèmes de données ouverts.

UEUniversal Robots (Danemark) illustre l'adoption des cobots dans la production personnalisée européenne, et la conférence ICRA 2026 à Vienne constituera un relais académique clé pour ces avancées en robotique physique.

HumanoïdesActu
1 source