Aller au contenu principal

Dossier Boston Dynamics — page 7

716 articles · page 7 sur 15

Boston Dynamics, pionnier de la locomotion : Atlas électrique, Spot patrouille industrielle et inspection, partenariats Hyundai et Toyota Research Institute.

KYON : quadrupède semi-modulaire roues-pattes aux capacités bimanuelles agiles
301arXiv cs.RO RecherchePaper

KYON : quadrupède semi-modulaire roues-pattes aux capacités bimanuelles agiles

KYON est un robot quadrupède hybride roue-jambes, doté d'un torse bimanel, présenté dans un preprint arXiv (2606.30243) publié fin juin 2026 par une équipe dont l'affiliation institutionnelle n'est pas précisée dans l'abstract. La plateforme adopte une architecture semi-modulaire : les membres inférieurs sont reconfigurables, permettant de basculer entre locomotion sur roues et locomotion sur pattes selon le terrain. Plutôt que de distribuer les actionneurs le long des membres, KYON les concentre dans le châssis central et transmet le mouvement via des mécanismes de transmission, ce qui réduit l'inertie distale et améliore l'agilité dynamique. Le système de contrôle combine un cadre de contrôle du corps entier (whole-body control) avec une politique d'apprentissage par renforcement (RL), traitant séparément mais de façon coordonnée les tâches de locomotion et de manipulation. Les résultats expérimentaux rapportés valident la capacité du robot à opérer en locomotion dynamique et en manipulation bimane dans des environnements non structurés -- aucun chiffre précis de charge utile, de degrés de liberté ou de temps de cycle n'est communiqué dans l'abstract. L'intérêt de KYON pour les intégrateurs industriels et les décideurs B2B tient à la combinaison rare d'une base mobile à double mode (roue/patte) et d'une capacité de manipulation à deux bras sur un même châssis compact. La réduction de l'inertie distale via la centralisation des actionneurs est un choix de conception déjà validé sur des plateformes comme l'ANYmal de ANYbotics ou le MIT Cheetah, et son application à un système bimane à mobilité hybride constitue un apport méthodologique tangible. L'usage du RL pour absorber les perturbations dynamiques sans recalibration manuelle est cohérent avec les avancées récentes en sim-to-real, bien que les conditions exactes de test et les métriques de robustesse ne soient pas détaillées, ce qui limite l'évaluation externe à ce stade. Le marché des quadrupèdes mobiles est aujourd'hui dominé par Boston Dynamics (Spot), ANYbotics (ANYmal C/D), Unitree (B2, Go2) et, en France, des acteurs comme Wandercraft sur le segment bipède. La niche hybride roue-patte est occupée par peu de plateformes commerciales matures, ce qui positionne KYON comme un candidat de recherche dans un espace encore peu peuplé. Publié en preprint sans validation par les pairs, ce travail reste au stade de prototype de laboratoire : aucun partenaire industriel, aucun déploiement ni calendrier de commercialisation ne sont mentionnés. Les prochaines étapes naturelles seraient une publication en conférence (ICRA, IROS, RSS) et des tests en conditions réelles d'entrepôt ou de logistique.

1 source
PA-BiCoop : un cadre coopératif principal-auxiliaire pour la manipulation bimanuelle généraliste
302arXiv cs.RO 

PA-BiCoop : un cadre coopératif principal-auxiliaire pour la manipulation bimanuelle généraliste

Des chercheurs ont publié le 29 juin 2026 sur arXiv (arXiv:2606.28192) PA-BiCoop, un framework de manipulation bimanualle à modèle unique reposant sur une différenciation dynamique des rôles "primaire-auxiliaire". L'architecture déploie un encodeur de caractéristiques global partagé alimentant deux décodeurs spécialisés : le décodeur primaire génère la pose du bras principal en coordonnées absolues ainsi que des heatmaps d'affordance pour la tâche centrale, tandis que le décodeur auxiliaire produit la pose relative du bras de support dans le repère du bras primaire. Un module d'assignation dynamique des rôles détermine automatiquement quel bras (gauche ou droit) prend la position primaire ou auxiliaire à chaque étape de la tâche, sans pré-définition manuelle. Les benchmarks rapportés indiquent une progression de 48 % en moyenne sur les tâches de simulation RLBench2 par rapport aux meilleures baselines existantes, et de plus de 50 % sur des tâches en environnement réel. Ces résultats, s'ils se confirment à l'échelle, adressent un verrou bien identifié dans la manipulation bimanualle : la quasi-totalité des approches actuelles traitent les deux bras comme des agents symétriques et interchangeables, ce qui force des synchronisations coûteuses et empêche l'émergence d'une division du travail naturelle. L'asymétrie primaire-auxiliaire est au contraire la norme dans la manipulation humaine, que ce soit pour visser un couvercle, positionner une pièce ou assembler un connecteur. Un gain de 50 % sur des tâches réelles est une affirmation forte : les benchmarks RLBench2 sont réputés pour permettre des optimisations d'artefacts de simulation, et les auteurs ne précisent pas le nombre de tâches réelles testées ni les conditions d'évaluation, deux points qui mériteront une vérification indépendante avant toute intégration industrielle. La manipulation bimanualle mobilise actuellement plusieurs équipes de premier plan : Physical Intelligence (pi) avec Pi-0, Figure AI avec le modèle embarqué sur Figure 02 et 03, et les équipes de recherche de Boston Dynamics, Toyota Research Institute et NVIDIA (GR00T N2) travaillent toutes sur des politiques bimanuelles généralisables. PA-BiCoop se distingue par son approche à modèle unique, là où des concurrents recourent à des architectures hiérarchiques séparées ou à du reinforcement learning multi-agent. Il s'agit pour l'instant d'une publication de recherche sans déploiement annoncé, ni code public ni partenaire industriel identifié ; la prochaine étape logique serait une validation sur des manipulateurs commerciaux type Franka, UR ou Kinova dans un contexte de production réelle.

IA physiquePaper
1 source
TaskNPoint : apprendre à un humanoïde à frapper un revers en quelques minutes
303arXiv cs.RO 

TaskNPoint : apprendre à un humanoïde à frapper un revers en quelques minutes

Des chercheurs publient sur arXiv (juin 2026) TaskNPoint, un protocole d'entraînement qui enseigne des compétences dynamiques à un humanoïde à partir d'une seule démonstration humaine par compétence, avec moins d'une heure de calcul sur un seul GPU standard. Le système repose sur quatre entrées fournies par un coach humain : un ensemble discret de compétences à acquérir, une démonstration vidéo par compétence, l'identification d'une "fenêtre d'interaction" critique (les ~20 cm de déplacement de raquette autour du contact balle-raquette, par exemple) et l'objectif cible. L'apprentissage par renforcement en simulation physique prend le relais pour générer les trajectoires complètes et, via un échantillonnage aléatoire des positions cibles pendant l'entraînement, assure une généralisation zero-shot à des objectifs inédits. L'approche est validée sur un humanoïde Unitree G1 : coups droits et revers face à des balles lancées par un humain, tirs de football et pick-and-place de cartons depuis des positions arbitraires, sans ajustement manuel de fonction de récompense. L'enjeu est la scalabilité de l'apprentissage sur des compétences dynamiques, où les méthodes actuelles butent soit sur le volume de démonstrations requis, soit sur le coût du reward engineering. TaskNPoint réduit les deux à presque rien : une seule démo par compétence suffit, sans réglage de récompense par tâche. L'argument structurel est que le résultat d'un mouvement dynamique est déterminé par un court segment de la trajectoire, la fenêtre d'interaction critique, et non par sa totalité ; calibrer ce segment en coordination avec la physique du robot et son architecture mécanique permet de généraliser le reste automatiquement. C'est un argument direct contre la thèse selon laquelle les humanoïdes nécessitent des milliers d'heures de données pour performer sur des gestes non triviaux. Il s'agit toutefois d'un preprint arXiv, testé en conditions contrôlées ; la robustesse en milieu industriel non scénarisé reste à établir. Le Unitree G1, humanoïde chinois vendu autour de 16 000 dollars, s'est imposé depuis 2024 comme la plateforme de recherche ouverte de référence, alternative accessible aux Boston Dynamics Atlas et Agility Digit. TaskNPoint s'inscrit dans un courant cherchant à réconcilier imitation et renforcement simulé, face aux diffusion policies de Physical Intelligence (Pi-0) ou aux politiques visuomotrices universelles de type VLA. Son positionnement distinctif est la parcimonie en données d'entrée, une démo par compétence là où d'autres méthodes en exigent des centaines, avec un coût de calcul suffisamment bas pour être accessible à des équipes sans infrastructure GPU lourde. Aucun pilote industriel ni partenariat de déploiement n'est annoncé avec cette publication.

IA physiqueOpinion
1 source
WOLF-VLA : framework de locomotion optimale corps entier pour humanoïdes avec apprentissage vision-langage-action
304arXiv cs.RO 

WOLF-VLA : framework de locomotion optimale corps entier pour humanoïdes avec apprentissage vision-langage-action

Des chercheurs ont publié le 25 juin 2026 sur arXiv (arXiv:2606.25591) WOLF-VLA, un cadre unifié qui combine la synthèse de trajectoires par contrôle optimal (OC) en corps entier avec un dataset multimodal à grande échelle, dans le but d'entraîner des modèles VLA (Vision-Language-Action) capables de piloter la locomotion d'humanoïdes directement depuis des instructions en langage naturel. Le dataset couvre six familles de tâches de locomotion, paramétrées par des variations d'environnement, de couleurs d'objets, de placements et de distracteurs visuels. L'entrainement utilise des trajectoires articulaires dynamiquement cohérentes, des observations visuelles ego-centriques et des instructions textuelles. Les résultats annoncés font état d'une robustesse notable aux variations de conditions initiales et de performances compétitives sur plusieurs tâches et configurations d'environnement. Le dataset complet, les checkpoints de modèle et la suite de benchmarks en simulation seront publiés en open source. Ce travail comble un angle mort important : si les VLA ont prouvé leur efficacité en manipulation (voir Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA), leur extension à la locomotion en corps entier, contact-riche et dynamiquement contrainte, restait quasi inexploitée. Les trois verrous identifiés par les auteurs sont précis -- pénurie de données, absence de démonstrations dynamiquement consistantes, et difficulté à encoder optimalité et sécurité dans un pipeline d'apprentissage -- ce sont exactement les obstacles qui ont maintenu la locomotion hors du champ VLA. La génération de trajectoires via contrôle optimal comme source de données supervisées est une approche méthodologiquement solide pour contourner la dépendance aux démonstrations humaines ou téléopérées. Ce papier s'inscrit dans un mouvement plus large vers des politiques de locomotion instruction-guidées, concurrent de travaux comme ANYmal (ETH Zurich / ANYbotics), Digit (Agility Robotics) ou les approches reinforcement learning de Boston Dynamics. La release open source du benchmark constitue la contribution potentiellement la plus durable : établir un référentiel reproductible pour la locomotion humanoïde VLA permettrait de structurer les comparaisons dans un domaine où les métriques sont encore disparates. Aucun déploiement physique n'est mentionné dans cet article, qui reste une contribution de recherche en simulation -- le transfert sim-to-real sur des plateformes comme Unitree H1 ou Figure 03 constitue la prochaine étape non résolue.

UELe benchmark open source pourrait servir de référence aux laboratoires européens travaillant sur la locomotion humanoïde (ETH Zurich/ANYbotics notamment), mais aucun acteur français ni institution de l'UE n'est directement impliqué dans cette publication.

RechercheOpinion
1 source
StairMaster : apprendre à franchir des escaliers ajourés périlleux pour robots quadrupèdes agiles
305arXiv cs.RO 

StairMaster : apprendre à franchir des escaliers ajourés périlleux pour robots quadrupèdes agiles

Des chercheurs ont publié sur arXiv (2606.25765) un système baptisé StairMaster, un cadre d'apprentissage par renforcement en trois étapes permettant à un robot quadrupède Unitree Go2 de gravir des escaliers creux avec une inclinaison jusqu'à 55 degrés en transfert zéro-shot depuis la simulation. L'architecture combine un mécanisme d'attention croisée (Cross-Attention) pour extraire des structures depuis des données de profondeur bruitées, une unité récurrente spatiale (SRU) maintenant une mémoire spatio-temporelle pour compenser les zones aveugles de perception, et un pipeline de modélisation haute-fidélité du capteur de profondeur en simulation répliquant les artefacts réels. Des récompenses de perception active guidées par waypoints 3D et des pénalités cinématiques sur les barreaux creux et les arêtes de marches assurent un placement précis des appuis. Ce résultat s'attaque à l'un des problèmes les plus difficiles de la locomotion quadrupède en milieu industriel : les escaliers à barreaux creux exposent les pattes au risque de coincement, génèrent une densité de points de profondeur très faible et un bruit haute fréquence difficile à filtrer. Que le système tienne à 55 degrés sans ré-entraînement sur le robot réel valide deux hypothèses que le secteur testait depuis plusieurs années : la modélisation fidèle des artefacts capteurs peut combler le sim-to-real gap sur la perception de profondeur, et des politiques RL peuvent généraliser à des terrains extrêmes en zéro-shot. Pour les intégrateurs déployant des robots sur des infrastructures multi-niveaux, passerelles métalliques ou escaliers de secours, ce type de politique ouvre des scénarios jusqu'ici inaccessibles. Le Unitree Go2 est devenu un banc d'essai académique de référence pour la locomotion RL, aux côtés de l'ANYmal d'ANYbotics et du Spot de Boston Dynamics. Des équipes d'ETH Zurich (RSL), CMU et UC Berkeley ont publié des politiques sur terrains difficiles, mais aucune ne revendiquait jusqu'ici le franchissement d'escaliers creux à cette inclinaison en zéro-shot. Les auteurs ne citent aucun partenariat industriel ni timeline de déploiement commercial : il s'agit à ce stade d'un résultat de laboratoire avec démonstration vidéo, dont la robustesse en conditions réelles à plus grande échelle reste à valider.

RecherchePaper
1 source
ExRobotics lance un robot d'inspection certifié UL pour environnements dangereux
306Robotics Business Review 

ExRobotics lance un robot d'inspection certifié UL pour environnements dangereux

ExRobotics B.V., société néerlandaise fondée en 2017 et basée à Delft, a lancé officiellement son robot d'inspection autonome ExR-2.5 sur le marché nord-américain lors de l'Energy Drone & Robotics Summit à Houston. L'appareil a obtenu la certification UL 6260, norme américaine spécifique aux équipements électriques déployés en atmosphères potentiellement explosives (zones ATEX équivalentes). Le robot embarque un ensemble de capteurs orientés sécurité industrielle : imagerie acoustique haute fréquence pour détecter les fuites de gaz et les défauts mécaniques avant qu'ils ne deviennent visibles, caméras haute résolution pour l'inspection visuelle de vannes, jauges et structures, caméra thermique pour identifier les anomalies de température, et capteurs environnementaux adaptés aux zones dangereuses. Une fois ses missions autonomes accomplies, l'ExR-2.5 retourne automatiquement à sa station de charge pour se préparer au cycle suivant. ExRobotics revendique plusieurs milliers de missions robotiques complétées pour des opérateurs majeurs incluant Shell, Repsol et BP. La certification UL constitue le signal le plus concret que ce lancement n'est pas un teaser : elle conditionne légalement le déploiement en environnements classifiés aux États-Unis, et son obtention marque un franchissement de la barrière réglementaire qui bloquait beaucoup de robotique d'inspection au stade pilote. Le contexte de marché renforce l'argument commercial : selon des analystes cités par ExRobotics, l'industrie énergétique mondiale accusera un déficit de 40 000 travailleurs qualifiés cette année, tandis que 62 % des générations Z et millennials considèrent les carrières pétrolières et gazières comme peu attractives. Le coût de l'indisponibilité non planifiée est chiffré par Siemens à 11 % du chiffre d'affaires total des grandes industrielles, et 3,5 jours d'arrêt suffisent à générer plus de 5 millions de dollars de pertes pour une installation de taille intermédiaire. Dans ce contexte, un robot capable d'effectuer des rondes d'inspection à fréquence constante, sans exposition humaine et sans dépendre d'experts de plus en plus rares, répond à un besoin opérationnel documenté, pas simplement à une aspiration d'automatisation. ExRobotics opère depuis 2017 sur un créneau volontairement étroit : les robots d'inspection pour environnements dangereux, sans diversification vers d'autres verticales. Ce positionnement de spécialiste le distingue de concurrents comme Boston Dynamics (Spot, usage généraliste) ou ANYbotics (ANYmal C, présent aussi sur les sites industriels) qui adressent un spectre plus large. Sur le segment oil & gas spécifiquement, l'entreprise est en concurrence directe avec Gecko Robotics pour l'inspection de réservoirs et de structures, et avec des intégrateurs locaux nord-américains qui déploient du matériel non ATEX dans des zones moins contraintes. L'absence de prix publics et le fait que l'article repose largement sur des déclarations de l'entreprise elle-même invitent à une lecture prudente sur les volumes réels déployés. Les prochaines étapes annoncées concernent l'expansion nord-américaine, mais ExRobotics n'a pas communiqué de jalons contractuels précis ni de pipeline client chiffré pour 2026.

UEExRobotics, PME néerlandaise fondée à Delft, franchit la barrière réglementaire américaine UL 6260, validant la capacité de l'écosystème deep tech robotique européen à conquérir des marchés industriels classifiés hors UE.

FR/EU ecosystemeActu
1 source
ANYbotics ouvre un centre d'ingénierie et d'IA à Barcelone pour accélérer son expansion mondiale
307Robotics & Automation News 

ANYbotics ouvre un centre d'ingénierie et d'IA à Barcelone pour accélérer son expansion mondiale

ANYbotics, entreprise suisse spécialisée dans l'inspection autonome par robots quadrupèdes, a inauguré un nouveau bureau à Barcelone, en Espagne, sur le campus DFactory Barcelona. Ce hub d'ingénierie et d'intelligence artificielle constitue la troisième implantation mondiale de la société, après son siège de Zurich et son bureau de San Francisco. L'ouverture répond à une demande croissante pour ses solutions d'inspection autonome dans les secteurs industriels à forte intensité d'actifs : pétrochimie, énergie, mines, et infrastructures critiques. L'annonce ne précise ni les effectifs prévus ni le calendrier de montée en puissance. L'expansion géographique vers Barcelone traduit une tendance de fond dans la robotique d'inspection : les éditeurs de solutions autonomes cherchent à concentrer des talents en IA et en robotique dans des écosystèmes tech émergents, moins concurrentiels sur le recrutement que Zurich ou San Francisco. Pour les intégrateurs et les décideurs industriels, la présence d'un hub R&D européen réduit les frictions sur les projets de déploiement en zone EMEA, notamment pour les sites Seveso ou les installations offshore soumises à des contraintes réglementaires locales. Cela signale aussi que le marché de l'inspection robotisée est entré dans une phase de scaling commercial, au-delà des pilotes. ANYbotics est connu pour son robot quadrupède ANYmal, développé à l'ETH Zurich et commercialisé depuis 2021, déployé notamment chez Equinor, BASF et Swisscom dans des environnements ATEX. La société fait face à une concurrence directe de Boston Dynamics (Spot), Exyn Technologies, et Ghost Robotics sur le segment quadrupède industriel, ainsi qu'à des acteurs drones comme Flyability sur certains cas d'usage confinés. DFactory Barcelona, campus dédié à l'industrie 4.0 géré par la ville de Barcelone, accueille également d'autres acteurs de la robotique et de la fabrication avancée, ce qui positionne ce hub comme un choix délibéré d'écosystème plutôt qu'une simple extension administrative.

UEL'ouverture d'un hub R&D à Barcelone par ANYbotics réduit les frictions de déploiement pour les industriels européens (sites Seveso, offshore ATEX) et confirme l'entrée du marché EMEA de l'inspection robotisée en phase de scaling commercial.

FR/EU ecosystemeOpinion
1 source
Pegasus Tech Ventures lance un fonds de 60 millions de dollars pour les startups d'IA physique
308The Robot Report 

Pegasus Tech Ventures lance un fonds de 60 millions de dollars pour les startups d'IA physique

Pegasus Tech Ventures, société de capital-risque basée à San Jose (Californie), a annoncé le lancement d'un fonds de capital-risque corporatif (CVC) de 10 milliards de yens, soit environ 60 millions de dollars, en partenariat avec CYBERDYNE Inc., entreprise japonaise fondée en 2004 et établie à Tsukuba. Pegasus en assure la gestion en tant que general partner, tandis que CYBERDYNE en est l'unique limited partner. Le fonds ciblera des startups développant des technologies dans les domaines de la robotique, de l'IA physique (physical AI), de la santé, de l'automatisation et des systèmes intelligents, avec une priorité pour les projets alignés sur la vision HCPS (human-cyber-physical space) défendue par CYBERDYNE, soit la fusion entre biologie humaine, intelligence artificielle, robotique et systèmes d'information. Pegasus, qui gère plus de 40 fonds et plus de 2 milliards de dollars d'actifs, a déjà investi dans plus de 300 startups, dont SpaceX, OpenAI, Anthropic, Airbnb et Coinbase. Ce fonds positionne CYBERDYNE comme un acteur offensif dans la course à l'IA incarnée, un segment qui attire des capitaux massifs depuis 2024. Pour les intégrateurs et décideurs industriels, le signal est clair : les fabricants de dispositifs d'assistance humaine misent désormais sur des écosystèmes de startups pour accélérer leur R&D, plutôt que de la conduire entièrement en interne. Le véhicule VCaaS (venture capital-as-a-service) de Pegasus donne à CYBERDYNE un accès structuré à Silicon Valley et aux écosystèmes d'innovation mondiaux, sans avoir à constituer une équipe d'investissement dédiée. Pour le secteur de la robotique de service et des exosquelettes, cela ouvre la porte à des co-développements entre un acteur cliniquement validé sur le marché médical japonais et des startups deeptech encore en phase early-stage. CYBERDYNE est surtout connue pour son exosquelette HAL (Hybrid Assistive Limb), un dispositif qui détecte les signaux bioélectriques de surface pour assister ou rééduquer les mouvements du porteur, déployé dans les secteurs médical, de la rééducation, du soutien au travail et de la réponse aux catastrophes. L'entreprise cherche à élargir son périmètre face aux défis démographiques japonais, notamment le vieillissement de la population et la pénurie de main-d'oeuvre. Sur le plan concurrentiel, CYBERDYNE évolue dans un espace où se positionnent également des acteurs comme Ekso Bionics, ReWalk ou Ottobock pour les exosquelettes médicaux, et où les grands noms de la robotique humanoïde (Figure, 1X, Agility Robotics, Boston Dynamics) empiètent progressivement sur les cas d'usage industriels et de soin. Le fonds ne précise pas de calendrier de déploiement ni de nombre de participations visées, ce qui limite pour l'instant la portée concrète de l'annonce.

BusinessOpinion
1 source
Kawasaki Robotics dévoile sa plateforme d'IA physique RL030N à Automate
309Robotics Business Review 

Kawasaki Robotics dévoile sa plateforme d'IA physique RL030N à Automate

Kawasaki Robotics dévoilera la semaine prochaine, lors du salon Automate 2026 à Chicago (McCormick Place, stand S-2201), sa nouvelle plateforme RL030N, un bras robotique à 8 degrés de liberté (DoF) conçu pour les applications d'IA physique. L'entreprise présentera également deux robots industriels inédits, le MXP360L dédié à la manutention lourde et le BA013L, ainsi que sa technologie d'inspection Pulseboard brevetée. Le RL030N se distingue des bras six axes conventionnels par un axe supplémentaire en configuration dite "plongeoir" ("diving board") : une extension supplémentaire qui permet d'atteindre des positions en espace confiné sans tomber en singularité, c'est-à-dire sans perdre le contrôle du couple cinématique inverse. Selon Paul Marcovecchio, directeur des industries générales chez Kawasaki Robotics (siège américain à Wixom, Michigan), cette articulation maintient également la pleine capacité de charge sur toute l'amplitude de mouvement, un compromis que les bras traditionnels étirent ne peuvent généralement pas tenir. La plateforme repose sur l'API temps réel ouverte KRNX de Kawasaki et supporte l'évitement d'obstacles, la planification de mouvement complexe et l'orchestration externe, c'est-à-dire le pilotage du robot par un superviseur logiciel tiers. L'intérêt industriel de la RL030N réside dans le pont qu'elle tente de construire entre les robots industriels fiables et les exigences de dextérité des nouveaux systèmes d'IA physique. Plusieurs startups ont développé des logiciels de planification de mouvement avancés, mais se heurtaient aux limites cinématiques des plateformes existantes ou à des latences incompatibles avec le contrôle temps réel. Kawasaki répond à cette demande en offrant un matériel pensé dès la conception pour être commandé par des orchestrateurs externes, ce qui réduit la friction d'intégration pour les éditeurs de VLA (Vision-Language-Action models) ou de systèmes de manipulation adaptative. La posture de Kawasaki est délibérément pragmatique : l'entreprise évite le discours "humanoid-first" et mise sur des robots industriels éprouvés reconvertis pour l'IA physique, un pari sur la robustesse plutôt que sur la rupture spectaculaire. Kawasaki Robotics opère dans l'automatisation industrielle depuis 1969, filiale de Kawasaki Heavy Industries, conglomérat japonais actif dans l'aéronautique, le ferroviaire et les véhicules récréatifs. Cette origine manufacture-first explique le discours centré sur les résultats concrets plutôt que sur les benchmarks de laboratoire. Sur un marché où Boston Dynamics, Agility Robotics, Figure ou 1X Technologies concentrent l'attention médiatique autour de l'humanoïde, Kawasaki choisit un positionnement différent : bras industriel augmenté, compatible physique AI, déployable immédiatement dans des lignes existantes. Automate 2026 sera le premier test public de la RL030N ; aucun calendrier de disponibilité commerciale ni tarif n'ont été communiqués à ce stade, ce qui en fait pour l'instant une annonce de salon plutôt qu'un produit disponible à la commande.

UEKawasaki dispose d'une filiale européenne (KRE, Allemagne) et équipe les lignes de production EU, mais la RL030N est présentée exclusivement sur le marché américain sans calendrier ni partenariat européen annoncé.

IA physiqueOpinion
1 source
VENOM : réseau polyvalent de suivi de mouvement pour toutes morphologies corporelles
310arXiv cs.RO 

VENOM : réseau polyvalent de suivi de mouvement pour toutes morphologies corporelles

Des chercheurs ont publié sur arXiv (référence 2606.16696) VENOM, un modèle de suivi de mouvement corps entier conçu pour fonctionner sur plusieurs plateformes humanoïdes distinctes sans adaptation spécifique à chaque châssis. L'architecture repose sur un transformeur de type GPT entraîné sur le VENOM dataset, un jeu de données multi-humanoïdes constitué par l'équipe, qui rassemble états, actions et récompenses issus de plusieurs morphologies robotiques. L'originalité principale réside dans l'abandon du découplage classique haut/bas du corps : VENOM produit une politique unifiée qui contrôle simultanément l'ensemble des degrés de liberté. Les évaluations, conduites en simulation, montrent que le modèle surpasse un perceptron multicouche (MLP) entraîné par apprentissage supervisé sur les mêmes données et qu'il égale les performances d'experts formés par renforcement asymétrique acteur-critique, sans jamais avoir eu accès aux signaux de récompense pendant l'entraînement. L'enjeu est structurant pour la filière humanoïde : la majorité des politiques de suivi de mouvement publiées à ce jour segmentent le corps en sous-problèmes distincts, ce qui complique le transfert entre robots aux cinématiques différentes. Une politique cross-embodiment unifiée réduit le coût d'adaptation lorsqu'un intégrateur doit passer d'un châssis à un autre, ou lorsqu'un constructeur révise sa plateforme mécanique. Plus significatif encore, VENOM démontre qu'une architecture de type language model peut absorber la diversité des morphologies sans supervision par récompense explicite, simplifiant ainsi le pipeline d'entraînement. Il faut néanmoins souligner que toutes les expériences restent confinées à la simulation : l'écart sim-to-real n'est pas abordé, et les métriques annoncées ne valident pas encore un comportement physique sur robot réel. Ce travail s'inscrit dans un courant actif qui cherche à généraliser les politiques de contrôle au-delà d'un seul robot, dans la lignée de travaux comme Universal Humanoid Controller ou ExBody. Sur le front industriel, les grands déploiements humanoïdes actuels (Boston Dynamics Atlas, Agility Robotics Digit, Figure 02, Unitree H1) imposent chacun leurs propres pipelines de contrôle propriétaires, ce qui rend le problème du cross-embodiment économiquement pertinent pour tout intégrateur multi-plateforme. VENOM est un preprint non encore évalué par les pairs, le terme "letter" employé dans le texte suggérant une soumission vers une revue IEEE telle que RA-L ; la suite logique serait une validation sur au moins deux plateformes physiques pour établir la robustesse du transfert sim-to-real.

RecherchePaper
1 source
Le robot humanoïde Pemba vise le sommet de l'Everest après une ascension historique à 6 191 m
311Interesting Engineering 

Le robot humanoïde Pemba vise le sommet de l'Everest après une ascension historique à 6 191 m

Le 5 juin 2026, un robot humanoïde Unitree G1 baptisé Pemba a atteint une altitude de 6 193 mètres (20 312 pieds) sur le mont Chimborazo en Équateur, dans le cadre d'une expédition menée par Geologic Dome et sponsorisée par Eastworlds Labs, l'initiative robotique d'intelligence artificielle de Virtuals Protocol. Le robot pèse 35 kg et se compacte à 690 mm, ce qui a permis à l'équipe de le démonter et de le transporter entre les camps avant de le réassembler à chaque étape. Pour résister aux conditions extrêmes du Chimborazo, températures descendant à -15 °C et rafales atteignant 90 km/h, Pemba a été équipé de vestes thermiques sur mesure, d'enceintes grillagées et de pieds composites. Son système d'autonomie a été entraîné dans NVIDIA Isaac Sim à 1 620 fois la vitesse réelle, avec un taux de transfert sim-to-réel de 85 % sur terrain accidenté déclaré par Eastworlds Labs. Les communications étaient assurées par un réseau maillé propriétaire entre les camps, avec une connexion satellite affichant une latence de 25 ms, sous le seuil de 50 ms requis pour la télé-opération en direct via le logiciel Reflex. Cette mission sur le Chimborazo est présentée comme un test préliminaire avant une expédition planifiée sur l'Everest à l'automne 2026, avec une collaboration documentaire confirmée avec l'équipe de production derrière le documentaire Netflix "14 Peaks: Nothing Is Impossible". Ces résultats, présentés dans un communiqué de presse soigneusement mis en scène, méritent d'être lus avec prudence : le taux de transfert sim-to-réel de 85 % reste un chiffre auto-déclaré, sans peer review ni protocole de test publié. Cela dit, parvenir à faire fonctionner un humanoïde en autonomie partielle à plus de 6 000 mètres d'altitude, dans des conditions de froid et de vent sévères, constitue un test de robustesse matérielle et logicielle non trivial. L'enjeu industriel réel dépasse la performance sportive : il s'agit de valider que des plateformes humanoïdes de taille commerciale (le G1 est vendu autour de 16 000 dollars) peuvent être déployées dans des environnements non structurés et extrêmes, sans infrastructure dédiée. Pour les intégrateurs et les décideurs B2B opérant dans des secteurs comme l'énergie en zone isolée, la surveillance environnementale ou l'intervention d'urgence, c'est une preuve de concept pertinente, même partielle. Geologic Dome est une organisation de conservation qui construit des infrastructures autonomes pour les zones protégées : relais de communication, monitoring écologique par IA, plateformes robotiques indépendantes en énergie. L'expédition Chimborazo s'inscrit dans un programme plus large incluant trois sites d'expérimentation : forêt équatoriale en République démocratique du Congo, forêts de nuages en Équateur et le gradient altitudinal complet de l'Himalaya au Népal. Le Unitree G1 utilisé pour l'Everest sera donné à la communauté sherpa locale, une décision de positionnement symbolique autant que logistique. Aucun concurrent direct n'est explicitement cité dans cette expédition, mais le choix du G1 plutôt que de plateformes comme le Boston Dynamics Spot ou l'Atlas illustre la montée en maturité des humanoïdes bon marché face aux quadrupèdes établis pour les missions de terrain. La prochaine étape attendue est la confirmation de la date et du parcours de l'expédition Everest, ainsi que la publication de données techniques sur les performances autonomes en conditions réelles.

HumanoïdesOpinion
1 source
GAIT : estimation proprioceptive de l'état d'un robot à pattes par attention sur tokens inertiels
312arXiv cs.RO 

GAIT : estimation proprioceptive de l'état d'un robot à pattes par attention sur tokens inertiels

Une équipe de chercheurs a publié sur arXiv (2606.14160) une nouvelle méthode d'estimation d'état proprioceptive pour robots à pattes, baptisée GAIT. L'approche repose sur une tokenisation inertielle-jambe (Inertial-Leg, IL) couplée à un réseau d'attention : plutôt que de concaténer l'ensemble des données capteurs en un seul vecteur plat, l'architecture représente les mesures inertielles et les mesures par jambe comme des tokens distincts, puis utilise un mécanisme d'attention pour pondérer dynamiquement chaque source selon les conditions de contact courantes. La méthode a été validée sur un robot quadrupède Unitree Go1, sur des terrains encombrés de débris absents de la simulation d'entraînement, et sur des allures (gait patterns) non présentées lors de l'apprentissage. L'enjeu de GAIT est de résoudre un problème central des estimateurs à pattes : la fiabilité des mesures de cinématique directe dépend du contact effectif du pied avec le sol. Les estimateurs classiques "contact-aided" contournent ce problème via un module de détection de contact explicite et l'hypothèse d'un appui stationnaire, ce qui les rend fragiles sur terrains irréguliers ou lors de transitions d'allure. GAIT apprend ce comportement de repondération directement depuis les données, sans estimateur de contact dédié, éliminant une source d'erreur en cascade. Les résultats montrent une supériorité sur les estimateurs d'apprentissage existants pour des allures non vues, ainsi qu'une amélioration par rapport aux méthodes modèles contact-aided, confirmant que les architectures à attention peuvent réduire le gap sim-to-real sur l'estimation proprioceptive bas-niveau. L'estimation d'état proprioceptive reste un défi persistant en robotique à pattes : les filtres de Kalman étendu (EKF) et variantes invariantes dominent en production chez Boston Dynamics et Unitree, mais peinent sur terrains non structurés. Les approches d'apprentissage antérieures traitaient généralement les capteurs comme un vecteur plat homogène, sans différenciation structurelle entre inertielles et cinématiques. GAIT s'inscrit dans la tendance 2024-2026 d'appliquer des mécanismes d'attention aux données robotiques bas-niveau, une direction convergente avec les architectures VLA (Vision-Language-Action) pour la commande motrice. Le code n'est pas encore publié ; la prochaine étape naturelle serait une validation sur plateformes bipèdes telles que l'Unitree H1 ou le Boston Dynamics Atlas, où la phase de vol rend l'estimation d'état encore plus critique.

RecherchePaper
1 source
Kine2Go : jeu de données cinématiques pour le robot Unitree Go2, avec allures et mouvements variés
313arXiv cs.RO 

Kine2Go : jeu de données cinématiques pour le robot Unitree Go2, avec allures et mouvements variés

Une équipe de chercheurs a publié en juin 2026 Kine2Go, un jeu de données cinématiques open-source destiné au robot quadrupède Unitree Go2. Le dataset contient 800 trajectoires de marche couvrant une large variété de gaits, issues de 40 politiques de contrôle distinctes. Le pipeline développé accepte des données de locomotion provenant de morphologies quadrupèdes variées et les retraduit dans un format compatible Go2. Ces politiques sont entraînées par renforcement (RL) pour reproduire fidèlement les trajectoires cibles, puis les données collectées en simulation incluent des perturbations, ce qui produit des séquences cinématiques robustes accompagnées des commandes moteur correspondantes, niveau actionneur. Le problème que Kine2Go cherche à résoudre est concret : les approches modernes d'apprentissage sur robots, qu'il s'agisse d'imitation learning, de behavioral cloning ou de RL, nécessitent des données de démonstration incluant l'état cinématique complet du robot et les actions appliquées aux moteurs. Construire le pipeline d'acquisition de ces données est coûteux en temps et en ingénierie, ce qui constitue un frein réel pour les équipes de recherche à ressources limitées. En prépackageant 800 trajectoires prêtes à l'emploi avec leurs labels moteur, le dataset réduit significativement ce coût d'entrée pour les travaux en navigation, contrôle de locomotion et transfert sim-to-real. La présence de perturbations dans les données est un choix pertinent : elle expose les modèles apprenants à de la variabilité, ce qui améliore la robustesse des politiques résultantes en condition réelle. Le Unitree Go2 s'est imposé ces deux dernières années comme plateforme de référence accessible dans la recherche en locomotion quadrupède, notamment face au Boston Dynamics Spot, beaucoup plus onéreux. Sa démocratisation tient au rapport coût-performance : moins de 2 000 dollars en version grand public, contre plusieurs dizaines de milliers pour ses concurrents institutionnels. Ce contexte de coût hardware décroissant est précisément la motivation affichée par les auteurs. La prochaine étape logique serait l'extension du pipeline à d'autres plateformes quadrupèdes populaires comme l'ANYmal de ANYbotics ou le Spot de Boston Dynamics, voire aux robots bipèdes, que le pipeline générique semble en principe permettre. Le preprint est disponible sur arXiv (2606.14433).

RecherchePaper
1 source
X-Loco : vers un contrôle généraliste de la locomotion humanoïde par distillation synergique de politiques
314arXiv cs.RO 

X-Loco : vers un contrôle généraliste de la locomotion humanoïde par distillation synergique de politiques

Publié sur arXiv (2603.03733) en 2025, X-Loco est un framework d'entraînement d'une politique de locomotion généraliste basée sur la vision pour robots humanoïdes. L'approche repose sur une distillation synergétique : plusieurs politiques expertes sont entraînées séparément pour des compétences distinctes - locomotion bipède stable, récupération après chute, coordination corps entier, franchissement de terrains variés - puis une politique unique guidée par entrée visuelle est distillée à partir de ces experts via un mécanisme de sélection adaptative au cas par cas. X-Loco opère uniquement sur des commandes de vitesse, sans recours à des mouvements de référence issus de captures de mouvement. Les auteurs revendiquent une première dans l'intégration simultanée de toutes ces compétences dans une seule politique vision - affirmation à prendre avec les précautions d'usage pour un preprint non encore évalué par les pairs. Ce travail s'attaque à un verrou technique central : entraîner une politique unique qui maîtrise des comportements aux dynamiques radicalement différentes et aux objectifs de contrôle parfois contradictoires. Une telle politique simplifie le déploiement opérationnel en éliminant les modules de commutation entre comportements. L'absence de dépendance aux données de mocap rend également le pipeline d'entraînement plus scalable, puisqu'il ne requiert pas de bibliothèques de mouvements spécifiques à chaque compétence cible. Les études d'ablation incluses renforcent la crédibilité des choix architecturaux, mais les résultats restent cantonnés à la simulation et au laboratoire, sans validation sur hardware réel à grande échelle. X-Loco s'inscrit dans une dynamique de recherche intense sur la locomotion humanoïde, portée par des équipes comme Berkeley Humanoid, CMU et les labos gravitant autour d'Unitree. La distillation enseignant-étudiant est un paradigme établi en apprentissage par renforcement, mais son application à un spectre aussi large de compétences reste un défi ouvert. Côté commercialisation, Tesla (Optimus Gen 2), Figure AI, Boston Dynamics (Atlas) et 1X Technologies travaillent sur des problèmes similaires avec des ressources bien supérieures. La suite logique pour X-Loco serait une validation sim-to-real convaincante sur hardware physique, étape non encore franchie selon le papier.

RecherchePaper
1 source
IA incarnée : la correspondance proprioceptive-visuelle permet aux robots humanoïdes de se distinguer d'autrui
315arXiv cs.RO 

IA incarnée : la correspondance proprioceptive-visuelle permet aux robots humanoïdes de se distinguer d'autrui

Des chercheurs ont publié en juin 2026 un préprint sur arXiv (2606.13222) décrivant un système permettant à un robot humanoïde d'apprendre à se distinguer des autres agents présents dans son environnement, sans recourir à des étiquettes d'identité ni à des modèles cinématiques prédéfinis. Le mécanisme repose sur la correspondance proprioceptive-visuelle : le robot corrèle ses propres états articulaires avec ce qu'il perçoit visuellement, ce qui lui permet d'identifier ses propres membres parmi d'autres corps en mouvement. À partir de cette capacité, le système construit automatiquement un modèle prédictif de soi qui associe les configurations articulaires à une représentation d'occupation corporelle en trois dimensions. Le système a été validé dans des scènes multi-agents impliquant soit des humains, soit des robots morphologiquement identiques, et supporte des tâches aval concrètes : atteinte de cibles, planification de mouvement avec évitement de collision, et retargeting de mouvement humain-robot. L'enjeu pratique est significatif pour les intégrateurs déployant des humanoïdes en environnements partagés. Jusqu'ici, la distinction soi/autrui dans les robots était traitée soit par des marqueurs extérieurs, soit par des modèles cinématiques codés en dur, deux approches qui échouent dès que le robot opère aux côtés d'agents inconnus ou de copies identiques de lui-même. Que cette capacité puisse émerger d'un signal d'apprentissage auto-supervisé, sans annotation, contredit l'hypothèse selon laquelle la conscience corporelle nécessite une ingénierie explicite. La robustesse face à des robots morphologiquement identiques est particulièrement notable : c'est précisément le scénario qui se généralise dans les lignes d'assemblage où plusieurs unités du même modèle cohabitent. Le problème de la représentation de soi chez les robots est un sujet actif depuis les travaux fondateurs sur le « miroir robotique », mais les approches précédentes restaient limitées à des configurations contrôlées. Côté concurrent, des équipes chez Figure AI, Boston Dynamics et Sanctuary AI travaillent sur des architectures d'apprentissage incarné, mais peu publient sur la distinction soi/autrui en contexte multi-agent. Ce travail reste à ce stade un preprint non évalué par les pairs ; aucun déploiement industriel ni partenariat n'est annoncé. Les auteurs publient une page projet avec démonstrations vidéo, ce qui permettra d'évaluer la robustesse hors conditions de laboratoire.

IA physiquePaper
1 source
GenHOI : interaction humanoïde-objet sensible aux contacts par imitation de vidéos générées, sans entraînement spécifique
316arXiv cs.RO 

GenHOI : interaction humanoïde-objet sensible aux contacts par imitation de vidéos générées, sans entraînement spécifique

Une équipe de chercheurs propose GenHOI (arXiv:2606.12995, juin 2026), un cadre logiciel permettant à des robots humanoïdes d'interagir avec des objets variés en mode zéro-shot, sans entraînement spécifique à la tâche ni données de démonstration physique. Le système prend en entrée une commande en langage naturel et une image du premier plan de la scène robot-objet reconstruite en simulation, à partir desquels un modèle génératif produit une vidéo d'interaction synthétique orientée tâche. Cette vidéo est analysée pour identifier les événements de contact pertinents et estimer les régions de contact main-objet, encodés sous forme de contraintes géométriques centrées sur l'objet. Ces contraintes servent de priors d'optimisation pour raffiner la trajectoire de référence extraite de la vidéo 2D, résolvant l'ambiguïté d'échelle inhérente à la génération vidéo, et adaptent une trajectoire unique à des poses relatives robot-objet non vues à l'entraînement. Un contrôleur de suivi en boucle fermée assure l'exécution finale. Les tâches validées en simulation et en réel incluent la saisie de boîtes, le transport bimanuel asymétrique d'une chaise, le soulèvement d'une table par en-dessous et l'enveloppement d'objets cylindriques. Il s'agit d'un preprint académique, pas d'un produit déployé. L'enjeu central est la rupture avec le paradigme d'entraînement par tâche, principal goulot d'étranglement du déploiement industriel des humanoïdes. Les approches existantes exigent soit des centaines d'heures de collecte de démonstrations physiques par tâche, soit rejouent des trajectoires rigides incapables de s'adapter à des variations de pose ou d'objet. GenHOI contourne ces deux limites en substituant la génération vidéo à la démonstration réelle, tout en maintenant une conscience physique du contact via des contraintes géométriques explicites. La capacité d'adaptation à des configurations inédites robot-objet sans réentraînement est particulièrement significative pour les intégrateurs industriels devant déployer rapidement un humanoïde sur de nouvelles références produit. La problématique de l'interaction humanoïde-objet est activement travaillée par plusieurs acteurs concurrents : Physical Intelligence avec Pi-0, NVIDIA avec GR00T N2, et les équipes de Figure AI ou Boston Dynamics opèrent dans un espace voisin, mais s'appuient majoritairement sur du fine-tuning tâche par tâche ou du reinforcement learning avec simulateurs massivement parallèles. GenHOI se positionne comme une approche complémentaire, plus légère en données, exploitant la capacité des générateurs vidéo récents à produire des séquences physiquement plausibles. La principale limite non adressée est la robustesse à l'échelle sur des centaines de tâches distinctes et la gestion des objets déformables. Les prochaines étapes naturelles seraient une évaluation sur des plateformes commerciales comme l'Unitree G1 ou l'Agility Digit, et une intégration avec des policies de bas niveau plus génériques.

IA physiqueOpinion
1 source
AllDayNav : navigation permanente par apprentissage par renforcement en environnement réel
317arXiv cs.RO 

AllDayNav : navigation permanente par apprentissage par renforcement en environnement réel

Des chercheurs ont publié sur arXiv (réf. 2606.10927) AllDayNav, un système de navigation robotique lifelong capable d'évoluer indéfiniment dans des environnements dynamiques sans carte explicite. Son architecture combine un grand modèle d'un milliard de paramètres, entraîné par apprentissage par renforcement directement en conditions réelles, et une mémoire multimodale auto-évolutive qui agrège images-clés visuelles, descriptions sémantiques et contexte temporel. Ce mécanisme permet au robot de générer automatiquement des instructions en vocabulaire ouvert, des objectifs visuels et des récompenses structurées, sans annotation humaine à chaque nouvelle tâche. Évalué sur des scénarios de navigation inter-pièces, inter-épisodes et inter-tâches, AllDayNav atteint des taux de succès proches de 100 % et surpasse des baselines de type SLAM, VLM et RL classique en efficacité de trajectoire et en robustesse, aussi bien en simulation qu'en environnement physique. Ce travail remet en question une hypothèse structurante du domaine : la navigation autonome fiable nécessiterait une représentation spatiale explicite de l'environnement (cartes métriques, graphes de scènes). AllDayNav montre qu'un modèle suffisamment large, affiné en continu par RL avec une mémoire implicite, peut dépasser ces approches y compris hors contextes contrôlés. Pour les intégrateurs de robots mobiles (AMR en logistique, robots de service en espaces publics), cela préfigure des systèmes adaptables aux modifications d'environnement sans reconfiguration manuelle. La prudence reste de mise : les chiffres de "100 % de succès" proviennent d'un preprint non encore évalué par les pairs, sans détail complet sur les conditions exactes d'évaluation ni sur la variabilité entre scènes. AllDayNav s'inscrit dans une tendance de fond visant à remplacer les pipelines modulaires perception-cartographie-planification par des modèles de fondation entraînés de bout en bout. Google DeepMind (travaux NavIRL, SayCan), CMU et Berkeley explorent des directions similaires pour la navigation mobile généraliste, tandis que des acteurs comme Boston Dynamics et ANYbotics continuent de s'appuyer sur des approches hybrides métriques. Soumis le 10 juin 2026, ce papier reste une contribution académique : aucun déploiement industriel ni partenariat commercial n'est annoncé à ce stade.

UEImpact indirect pour les intégrateurs européens d'AMR logistique : si les résultats se confirment après peer review, cette approche pourrait réduire les coûts de reconfiguration dans des entrepôts et espaces publics dynamiques.

IA physiquePaper
1 source
RLWRLD et Nvidia lancent DexBench pour standardiser la dextérité des robots humanoïdes
318Robotics & Automation News 

RLWRLD et Nvidia lancent DexBench pour standardiser la dextérité des robots humanoïdes

RLWRLD, une startup spécialisée en IA physique, a annoncé en partenariat avec Nvidia le lancement de DexBench, un benchmark universel destiné à standardiser l'évaluation des capacités de dextérité des robots humanoïdes. L'initiative repose sur trois axes : DexBench en tant que référentiel d'évaluation commun, un standard de données pour l'entraînement à la manipulation dextre, et une intégration native aux frameworks open-source Nvidia Isaac Lab et Isaac Lab-Arena. Aucune date de disponibilité publique ni métriques de performance n'ont été communiquées à ce stade -- il s'agit d'une annonce de feuille de route, pas d'un produit shipped. L'absence de standard commun pour mesurer la dextérité est l'un des obstacles majeurs à la comparaison objective entre systèmes humanoïdes. Sans référentiel partagé, chaque constructeur publie ses propres métriques dans des conditions contrôlées, ce qui rend les comparaisons entre Figure 03, Optimus, Unitree ou 1X quasi impossibles pour les intégrateurs industriels. DexBench vise à combler ce vide en établissant des protocoles reproductibles, ce qui pourrait accélérer la qualification de robots pour des tâches d'assemblage ou de picking en milieu non structuré. RLWRLD s'inscrit dans un écosystème naissant autour des fondations de simulation Nvidia, qui positionne Isaac Lab comme infrastructure commune pour le sim-to-real dans la robotique humanoïde. Des acteurs comme Physical Intelligence (Pi-0), Agility Robotics ou Boston Dynamics s'appuient également sur des pipelines de simulation propriétaires. Le choix de standardiser via un framework open Nvidia plutôt qu'un consortium neutre (comme ROS 2 ou IEEE) est un pari sur l'adoption par l'écosystème Jetson/Omniverse -- une dynamique à surveiller face aux initiatives concurrentes en Europe.

UELa standardisation de l'évaluation de la dextérité pourrait indirectement bénéficier aux intégrateurs industriels européens, mais aucun acteur FR/EU n'est impliqué et l'initiative demeure au stade de feuille de route sans métriques ni date de disponibilité.

HumanoïdesOpinion
1 source
QuadVerse : un cadre intégré alignant réalité visuelle et physique pour la simulation quadrupède
319arXiv cs.RO 

QuadVerse : un cadre intégré alignant réalité visuelle et physique pour la simulation quadrupède

Une équipe de recherche a publié début juin 2026 QuadVerse, un cadre de simulation intégré pour robots quadrupèdes conçu pour résoudre simultanément les décalages visuels, physiques et d'actionneur qui constituent le sim-to-real gap. La méthode repose sur une reconstruction de scènes par 3D Gaussian Splatting (3DGS) à partir de vidéos RGB ordinaires : ces scènes servent de substrat de calibration commun à toute la pipeline. Les maillages géométriques extraits permettent un rendu photoréaliste en vue ego, une détection de collisions, et une initialisation de priors de friction spatialement variables, affinés par une recherche bayésienne sur des trajectoires réelles. Un compensateur de dynamique résiduelle est ensuite entraîné en rejouant ces trajectoires sur le terrain calibré, séparant les erreurs de contact dues au relief des non-idéalités propres aux actionneurs. Les expériences rapportées montrent une amélioration de la qualité de reconstruction et du suivi de locomotion par rapport aux baselines, ainsi qu'un déploiement zero-shot d'une politique de navigation visuelle sans aucune collecte de données terrain spécifique à la tâche. Ce que QuadVerse apporte concrètement, c'est une approche unifiée du sim-to-real : là où la majorité des travaux traitent le gap visuel ou dynamique de façon indépendante, ce framework les calibre conjointement à partir du même substrat de scène reconstruite. L'accumulation et la propagation des erreurs individuelles dans l'évolution d'état du robot sont explicitement prises en compte, un problème souvent sous-estimé dans les pipelines existants. Le résultat le plus opérationnel est le déploiement zero-shot : une politique entraînée entièrement en simulation peut être transférée sur un robot réel sans rollout terrain supplémentaire, ce qui réduit le coût d'adaptation à de nouveaux environnements. Pour les intégrateurs qui cherchent à accélérer les cycles de validation, c'est un levier potentiellement significatif. Il faut néanmoins souligner que l'article est un preprint arXiv (v2 déposé en juin 2026), les expériences sont conduites en environnement contrôlé, et aucune validation industrielle à grande échelle n'est encore documentée. Le sim-to-real gap est l'un des problèmes centraux de la robotique apprenante depuis plusieurs années. Des équipes comme ETH Zurich (ANYmal), Agility Robotics ou Boston Dynamics ont montré que les politiques de locomotion peuvent franchir ce gap, mais souvent au prix d'une randomisation de domaine intensive ou d'une adaptation en conditions réelles coûteuse. La technique de 3D Gaussian Splatting, popularisée en 2023, est de plus en plus mobilisée dans des pipelines robotiques pour sa capacité à produire des représentations photoréalistes différentiables. QuadVerse s'inscrit dans un courant actif incluant des travaux comparables autour de NeRF-to-Real et les simulateurs hybrides de Nvidia Isaac Lab. La prochaine étape logique serait une validation sur des plateformes commerciales standardisées comme l'Unitree Go2 ou l'ANYmal-D en environnements non structurés, et une éventuelle extension aux politiques de manipulation pour robots à pattes équipés de bras.

RecherchePaper
1 source
Évolution des récompenses par graphe de pensées : un cadre bilingue à deux niveaux pour l'apprentissage par renforcement
320arXiv cs.RO 

Évolution des récompenses par graphe de pensées : un cadre bilingue à deux niveaux pour l'apprentissage par renforcement

Une équipe de chercheurs a publié RE-GoT (Reward Evolution with Graph-of-Thoughts), un cadre de conception automatique de fonctions de récompense pour l'apprentissage par renforcement (RL). La méthode, présentée dans l'article arXiv:2509.16136 (version 5), associe des grands modèles de langage (LLM) à des modèles visuels (VLM) via un raisonnement structuré en graphe. RE-GoT décompose d'abord la tâche cible en un graphe d'attributs textuels, génère une fonction de récompense correspondante, puis la raffine itérativement en exploitant les retours visuels fournis par un VLM, sans intervention humaine. Évalué sur 10 tâches RoboGen et 4 tâches ManiSkill2, le système améliore le taux de succès moyen de 32,25 % sur RoboGen par rapport aux baselines LLM existantes, et atteint 93,73 % de taux de succès sur les quatre tâches de manipulation de ManiSkill2, dépassant même les récompenses conçues manuellement par des experts. L'enjeu est significatif : la conception des fonctions de récompense représente l'un des principaux goulots d'étranglement du RL appliqué à la robotique, et elle exige aujourd'hui une expertise humaine considérable ainsi que de nombreuses itérations manuelles. RE-GoT adresse deux faiblesses chroniques des approches LLM existantes : les hallucinations, que la structure en graphe réduit en contraignant le raisonnement, et l'incapacité à traiter des tâches multi-étapes complexes. Le fait que RE-GoT surpasse les récompenses expertes sur ManiSkill2 est notable, bien qu'il convienne de nuancer : les expériences restent dans des environnements simulés, et la question du sim-to-real gap, cruciale pour les industriels souhaitant déployer ces méthodes sur des robots physiques, n'est pas traitée dans ce travail. Ce travail s'inscrit dans une dynamique de recherche active depuis 2023, notamment portée par Eureka (NVIDIA, octobre 2023), qui utilisait GPT-4 pour générer des fonctions de récompense sur IsaacGym, ou par FunsSearch (DeepMind). RE-GoT se distingue en introduisant le paradigme Graph-of-Thoughts, une extension du Chain-of-Thought qui organise le raisonnement en graphe plutôt qu'en chaîne linéaire, permettant une analyse plus exhaustive des dépendances entre sous-tâches. Les prochaines étapes naturelles concernent la validation sur robots physiques et l'intégration à des pipelines sim-to-real comme ceux utilisés par Figure AI, Agility Robotics ou Boston Dynamics dans leurs boucles d'entraînement.

RecherchePaper
1 source
Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes
321arXiv cs.RO 

Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes

Une équipe de chercheurs a publié le 9 juin 2026 sur arXiv (2606.08278) SIMPLE, un banc de test de simulation unifié pour l'apprentissage et l'évaluation de politiques de contrôle de robots humanoïdes. La plateforme couple la simulation de dynamique de contact de MuJoCo avec le rendu photoréaliste d'IsaacSim, et propose 60 tâches de loco-manipulation plein corps, 50 scènes d'intérieur et plus de 1 000 assets d'objets. Pour la collecte de données, deux pipelines sont intégrés : génération automatisée de trajectoires par planification de mouvement, et interface de téléopération VR à faible latence. Les auteurs y benchmarkent plusieurs familles de politiques humanoïdes : réseaux d'imitation légers, grands modèles vision-langage-action (VLA) et les récents modèles d'action du monde (WAM, World Action Models). Les expériences démontrent, selon les auteurs, un transfert zero-shot vers des robots humanoïdes physiques dans des configurations similaires. L'enjeu central est un goulot d'étranglement d'évaluation : les modèles fondationnels humanoïdes progressent plus vite que les protocoles pour les tester. Les benchmarks existants se concentrent sur la robotique de table ou les robots à roues, sans couvrir la loco-manipulation plein corps, compétence clé pour les humanoïdes déployés en environnement industriel ou domestique. Si la corrélation sim-to-real revendiquée dans l'article se confirme à plus grande échelle, elle légitime le recours massif à la simulation pour entraîner des politiques de contrôle, réduisant drastiquement les coûts de collecte de données en conditions réelles. C'est précisément le pari industriel de Physical Intelligence avec pi-0, et de Figure AI avec Figure 02 : remplacer les démos téléopérées coûteuses par des pipelines simulés reproductibles. La fragmentation des benchmarks est un problème structurel en robotique humanoïde : chaque laboratoire publie sur ses propres protocoles, rendant toute comparaison inter-équipes difficile. Des initiatives comme HumanoidBench, RoboVerse ou Isaac Lab ont tenté d'y répondre, mais sans couvrir la chaîne complète loco-manipulation avec rendu photoréaliste et pipelines de données intégrés. SIMPLE se positionne à cette intersection. Les équipes de Google DeepMind (GR00T N2, Helix), Agility Robotics (Digit) et Boston Dynamics sont directement concernées. Ce preprint arXiv n'est pas encore évalué par les pairs ; l'adoption par la communauté dépendra de la disponibilité publique du code et des assets, non encore confirmée.

RecherchePaper
1 source
Mind Your Steps : un cadre d'apprentissage général pour le suivi précis des appuis de pas chez les robots humanoïdes
322arXiv cs.RO 

Mind Your Steps : un cadre d'apprentissage général pour le suivi précis des appuis de pas chez les robots humanoïdes

Des chercheurs ont déposé le 9 juin 2026 sur arXiv (réf. 2606.08253) un framework léger pour entraîner des politiques de locomotion humanoïde capables de suivre précisément des appuis en 3D. Les approches dominantes basées sur l'apprentissage par renforcement avec commande de vitesse produisent des humanoïdes robustes, mais sans contrôle explicite du placement des pas : le robot peut marcher sur un pied humain ou rater un appui précis, compromettant les tâches de manipulation en aval. La méthode proposée introduit un "goal sampler" dynamique qui génère des séquences d'appuis variées pendant l'entraînement, rendant la politique agnostique au terrain. Une nouvelle représentation des cibles de pas compense les imprécisions du monde réel (estimation de pose bruitée, détection de contact peu fiable). La politique fonctionne comme un contrôleur bas niveau autonome, couplable à n'importe quel planificateur haut niveau, qu'il soit basé sur des cartes 2.5D, la vision ou un agent VLA. L'intérêt pour les intégrateurs industriels est concret : la précision du placement des appuis conditionne l'ensemble des tâches loco-manipulation, soit la prochaine étape critique avant le déploiement d'humanoïdes dans les entrepôts et lignes de montage. En découplant le contrôleur bas niveau du planificateur, cette architecture permet de substituer l'algorithme de planification sans réentraîner la locomotion, un argument de modularité fort pour des déploiements multi-environnements. Les expériences en simulation et en transfert sim-to-real sur terrains complexes sont présentées comme concluantes, mais ce preprint non encore évalué par les pairs ne fournit pas de benchmark comparatif public ni de métriques de précision standardisées. Ce framework s'inscrit dans la continuité des travaux sur la locomotion bipède précise issus d'ETH Zurich, du MIT et de CMU, que les équipes commerciales (Boston Dynamics Atlas, Agility Robotics Digit, Unitree H1, Figure AI) cherchent à industrialiser. L'abstract ne précise pas la plateforme matérielle utilisée lors des tests réels, ce qui limite la reproductibilité des résultats. La prochaine étape logique serait une évaluation ouverte sur des robots nommément identifiés, assortie de métriques comparables aux approches concurrentes en planification de pas développées à l'EPFL ou à Carnegie Mellon.

UEL'EPFL est citée comme référence concurrente pour la planification de pas, ce qui signale la compétitivité des labos européens dans ce domaine, mais sans impact direct sur des acteurs ou institutions français.

HumanoïdesPaper
1 source
IA incarnée : Kuawei Intelligence domine le benchmark mondial WorldArena
323Pandaily 

IA incarnée : Kuawei Intelligence domine le benchmark mondial WorldArena

La société chinoise Kuawei Intelligence a décroché la première place du classement mondial WorldArena Track 2 (Data Engine) pour le mois de mai 2026, devançant les concurrents internationaux WoW et BLM. Ce benchmark évalue non pas la qualité visuelle des sorties générées, mais les taux de succès réels de robots sur des tâches physiques, ce qui le rend plus pertinent pour les déploiements industriels que les métriques classiques de génération d'images. Le modèle lauréat, DSCFuncWorld, repose sur l'architecture DexWorldModel et est conçu pour produire des données d'entraînement robotique de haute qualité. Contrairement aux world models génératifs conventionnels qui opèrent au niveau du pixel, Kuawei utilise l'espace de features sémantiques DINO pour la prédiction d'état, une approche qui réduit la charge de calcul tout en améliorant la robustesse. La société a par ailleurs open-sourcé son infrastructure de données EmbodiChain. Ces résultats benchmark s'accompagnent de chiffres de déploiement concrets : Kuawei revendique plus de 1 000 projets dans plus de 50 secteurs industriels, un taux de succès de 99,99 % sur une ligne de production Hisense, une efficacité de tri trois fois supérieure à l'humain chez Midea, un chiffre d'affaires dépassant 100 millions de RMB en 2024 et plus de 100 unités de son robot humanoïde W1 Pro livrées à des clients comme BYD, GAC, Zoomlion, SANY et Panasonic. Ces chiffres sont issus de communications officielles de l'entreprise et n'ont pas fait l'objet de vérification indépendante. La performance de Kuawei sur WorldArena Track 2 est significative précisément parce que ce classement mesure le sim-to-real transfer, soit la capacité d'un modèle entraîné en simulation à fonctionner sur du matériel réel, longtemps considéré comme le principal obstacle à la robotisation à l'échelle. Si les chiffres revendiqués se confirment, ils suggèrent qu'une entreprise chinoise de taille intermédiaire a résolu, au moins partiellement, le problem de la data engine, c'est-à-dire la génération automatisée de données d'entraînement suffisamment réalistes pour produire des politiques motrices robustes. Pour les intégrateurs industriels et les décideurs B2B, l'argument le plus fort n'est pas le benchmark lui-même mais la combinaison revenus/déploiements réels, qui tranche avec le schéma habituel du secteur humanoïde, souvent long en annonces et court en traction commerciale. Kuawei Intelligence s'inscrit dans une vague d'acteurs chinois de l'IA incarnée qui ont émergé depuis 2023, parmi lesquels Unitree Robotics, Fourier Intelligence et AgileX Robotics, tous positionnés sur le segment des robots à bas coût et des plateformes open-source. Sur la scène internationale, elle affronte Physical Intelligence (Pi-0), Apptronik, Figure AI (Figure 03) et Boston Dynamics, dont les approches misent davantage sur la puissance des VLA (Vision-Language-Action models) que sur la data synthesis. La victoire de Kuawei à l'ICRA 2025 avec un robot bi-bras en manipulation fine sans intervention humaine avait déjà signalé ses ambitions. La prochaine étape pour l'entreprise sera de démontrer que ses déploiements tiennent dans des environnements non structurés, au-delà des lignes de production contrôlées où les benchmarks ont jusqu'ici été réalisés.

Chine/AsieActu
1 source
Robot humanoïde : démonstration de compétences de lutte contre l'incendie en terrain difficile
324Interesting Engineering 

Robot humanoïde : démonstration de compétences de lutte contre l'incendie en terrain difficile

Deep Robotics, entreprise chinoise spécialisée en robotique, a publié début juin 2026 une nouvelle vidéo de démonstration de son robot humanoïde DR02, montrant l'engin courir sur un terrain herbeux irrégulier, franchir des obstacles, gravir des escaliers en béton et naviguer en extérieur. Deux séquences retiennent particulièrement l'attention : le robot portant un extincteur fixé dans son dos, et évoluant à proximité d'infrastructures électriques haute tension. L'entreprise indique que la plateforme bénéficie désormais d'une capacité de charge et d'une franchissabilité améliorées, sans toutefois publier de spécifications techniques mises à jour. Pour rappel, lors de sa présentation en octobre 2025, le DR02 affichait une taille de 1,73 mètre, une certification IP66 (résistance à la poussière et à l'eau), une plage de fonctionnement de -20°C à 55°C et une charge utile de 20 kilogrammes. La vidéo actuelle constitue une annonce de progression de la plateforme, non un déploiement commercial confirmé. Ce que cette démonstration signale avant tout, c'est une stratégie cohérente de positionnement sur les environnements industriels difficiles et les missions à risque, plutôt que sur les démonstrations grand public. Pour un intégrateur ou un COO industriel, le signal pertinent n'est pas la prouesse locomotrice en elle-même, mais l'orientation résolument terrain : inspection, maintenance, réponse d'urgence. Deep Robotics avait déjà déployé des robots quadrupèdes dans des environnements dangereux, et présenté en mars 2026 un robot-cheval capable de transporter 50 kilogrammes sur terrains non carrossables, destiné à la logistique et à l'exploration industrielle. La récurrence du motif "extincteur + haute tension" suggère que l'entreprise cible activement les opérateurs d'infrastructure énergétique et les services de sécurité industrielle. Il reste que les vidéos sélectionnées ne permettent pas d'évaluer les taux de succès réels ni les conditions de test, un biais classique dans ce type de communication. Deep Robotics arrive à ce stade de communication dans un contexte financier et concurrentiel tendu. L'entreprise a récemment déposé un dossier d'introduction en bourse sur le STAR Market de Shanghai, visant à lever environ 2,5 milliards de yuans (367 millions de dollars) pour financer le développement de systèmes d'IA embarquée, de nouvelles plateformes humanoïdes et des capacités de production. Son concurrent direct Unitree Robotics a simultanément avancé ses propres plans d'IPO, illustrant la course à la capitalisation qui structure désormais le secteur humanoïde chinois. Le véritable enjeu pour les mois à venir ne sera pas la mobilité physique, déjà largement démontrée par plusieurs acteurs (Figure, Boston Dynamics, Agility Robotics côté occidental), mais la capacité à prouver une autonomie réelle dans des environnements non structurés et imprévisibles, condition sine qua non d'un déploiement industriel crédible.

UELa montée en puissance de Deep Robotics et Unitree sur le créneau des environnements industriels difficiles accentue la pression concurrentielle sur les intégrateurs et équipementiers européens qui ciblent les mêmes segments (inspection, maintenance, sécurité industrielle).

Chine/AsieOpinion
1 source
Sem-NaVAE : navigation extérieure sans carte guidée sémantiquement via des trajectoires génératives
325arXiv cs.RO 

Sem-NaVAE : navigation extérieure sans carte guidée sémantiquement via des trajectoires génératives

Des chercheurs ont publié Sem-NaVAE, une approche de navigation sans carte (mapless) pour robots mobiles en extérieur, détaillée dans un preprint arXiv (arXiv:2502.01429v2). Le système repose sur deux composants articulés : un autoencodeur variationnel conditionnel (CVAE) qui génère en temps réel un ensemble de trajectoires candidates, et un modèle vision-langage (VLM) léger qui sélectionne la trajectoire à exécuter via segmentation sémantique à vocabulaire ouvert. L'opérateur spécifie une consigne en langage naturel, le VLM score chaque trajectoire proposée selon la sémantique visuelle de la scène, et un planificateur local de pointe convertit la trajectoire retenue en commandes de vitesse. Sur des parcours réels de 120 à 240 mètres dans des environnements non vus lors de l'entraînement, Sem-NaVAE atteint un taux de réussite de 90%, surpassant la baseline la plus proche de 10 points de pourcentage tout en restant à seulement 7% du plafond théorique d'un système avec carte. Ce résultat est notable car il démontre qu'une navigation extérieure robuste et généralisable est atteignable sans cartographie préalable, une contrainte opérationnelle majeure pour le déploiement d'AMR sur des chantiers, en agriculture ou en logistique outdoor. La combinaison d'un générateur stochastique de trajectoires avec une couche sémantique pilotée par langage naturel permet d'abstraire la description du terrain sans règles codées en dur ni base de données d'annotation. Le fait que le système opère en temps réel sur des itinéraires inédits constitue une validation partielle du sim-to-real pour la navigation extérieure non structurée. L'écart résiduel de 7% avec un système cartographié reste un indicateur honnête des limites actuelles : la carte conserve un avantage mesurable. La navigation mapless en extérieur est un problème ouvert depuis des années : les solutions SLAM indoor ne se transfèrent pas aux terrains variables (végétation, météo, absence de repères stables). Sem-NaVAE s'inscrit dans une tendance récente qui exploite les VLM pour une compréhension sémantique du monde réel, dans la lignée de ViNT (Stanford/Berkeley) ou de GNFactor. Côté industriel, des acteurs comme Boston Dynamics, Clearpath (désormais Rockwell Automation) ou le français Exotec restent principalement positionnés sur des environnements contrôlés et structurés. Le preprint ne mentionne aucun partenaire industriel ni timeline de commercialisation ; les prochaines étapes logiques seraient une validation sur des distances plus longues, des conditions météorologiques adverses, et une comparaison formelle avec des approches VLA de type end-to-end.

UEImpact indirect : les opérateurs d'AMR outdoor européens (agriculture, chantiers, logistique) pourraient bénéficier d'une navigation sans cartographie préalable, mais aucun acteur ou financement européen n'est impliqué dans ces travaux.

RecherchePaper
1 source
Co-entraînement avec vidéo égocentrique et démonstration pour la navigation robotique
326arXiv cs.RO 

Co-entraînement avec vidéo égocentrique et démonstration pour la navigation robotique

Des chercheurs ont publié sur arXiv (réf. 2606.01951) un cadre d'apprentissage par imitation pour robots mobiles qui exploite des vidéos égocentrées tournées par des humains en train de marcher. Le principe : estimer le mouvement de la caméra à partir de ces séquences piétonnes, puis convertir ce flux en représentations d'actions compatibles avec des robots mobiles au sol. Un modèle VLA (Vision-Language-Action) est ensuite entraîné conjointement sur ces données dérivées de vidéos humaines et sur des trajectoires collectées directement par le robot. Les expériences portent sur une tâche de navigation avec recherche de fruits, où le robot doit localiser des objets cibles dans un environnement non structuré en suivant des instructions en langage naturel. L'intérêt de cette approche réside dans sa réponse au principal goulot d'étranglement de la robotique apprise : la collecte de données sur robot réel est coûteuse, lente, et difficilement scalable. Si recycler des vidéos égocentrées humaines pour l'apprentissage de tâches de manipulation existe déjà dans la littérature (notamment via des datasets comme EPIC-Kitchens ou des pipelines type ACT), l'étendre à la navigation mobile reste difficile car les changements de point de vue lors de la locomotion créent des discontinuités que les modèles de manipulation ne rencontrent pas. Les résultats montrent que l'entraînement conjoint dépasse les deux sources de données prises isolément, aussi bien en compréhension du langage qu'en robustesse de génération d'actions. Cela valide partiellement l'hypothèse que le sim-to-human-video-to-real peut fonctionner pour la navigation, sans simulation physique. Ce travail s'inscrit dans une course plus large à la scalabilité des données pour les VLA, où des acteurs comme Physical Intelligence (pi0), Google DeepMind (RT-2, GR00T N2 pour Nvidia) ou Boston Dynamics cherchent des pipelines moins dépendants de la téléopération humaine sur robot. La navigation mobile reste moins couverte que la manipulation dans cette littérature, et ce papier ouvre une voie de co-training à moindre coût. Les prochaines étapes naturelles seraient d'évaluer la généralisation à des environnements plus complexes, de mesurer le ratio optimal données humaines/données robot, et de tester sur des plateformes AMR commerciales. Le code et les datasets ne sont pas encore publiés au moment de la soumission arXiv.

RechercheOpinion
1 source
Factorisation tâche-monde pour l'apprentissage robotique
327arXiv cs.RO 

Factorisation tâche-monde pour l'apprentissage robotique

Une équipe de chercheurs a publié le 2 juin 2026 sur arXiv (arXiv:2606.02027) un framework d'apprentissage robotique baptisé "World-Task Factorization", dont le principe central est de séparer structurellement ce qui relève du monde physique de ce qui relève de la tâche à accomplir. Les facteurs "monde" regroupent les propriétés du corps du robot et de son environnement, indépendamment de toute intention ; les facteurs "tâche" encodent la logique de ce que le monde autorise à faire. Pour instancier cette séparation, les auteurs couplent un module analytique nommé AICON, un graphe différentiable d'estimateurs récursifs compositionnels opérant sans données spécifiques à la tâche, à une politique apprise compacte qui module les chemins de gradient. Ce mécanisme est testé sur trois familles de problèmes impliquant des robots hétérogènes, des modalités sensorimotrices variées et des logiques de tâche distinctes ; le framework surpasse les baselines bout-en-bout et les heuristiques analytiques dans tous les scénarios, et les auteurs rapportent un transfert vers du matériel réel sans réentraînement. L'intérêt industriel de cette approche tient à ce qu'elle adresse directement le problème de généralisation, obstacle majeur à la commercialisation des robots polyvalents. En factorisant explicitement monde et tâche, le framework promet de réduire le volume de données nécessaire au réentraînement lors d'un changement de contexte, de coéquipier ou de contrainte, là où les architectures bout-en-bout actuelles exigent de recollecterdes données à chaque variation. La capacité annoncée de généralisation zero-shot à des configurations hors distribution reste toutefois à valider à plus grande échelle : les expériences rapportées, bien que convaincantes sur trois domaines, demeurent de portée laboratoire, sans chiffres de volume de déploiement ni métriques de cycle time dans des contextes industriels réels. Sur le plan académique, ce travail s'inscrit dans un débat structurant du domaine : faut-il laisser la structure émerger du passage à l'échelle des données (approche des VLA de type Pi-0, GR00T N2 ou OpenVLA), ou l'encoder explicitement via des hiérarchies ou des bibliothèques de compétences ? Le framework proposé prend une troisième voie, fondée sur la théorie bayésienne (evidence du modèle, rasoir d'Occam) pour justifier la factorisation. Il se positionne ainsi face aux travaux de Physical Intelligence (Pi-0), de Boston Dynamics, et des laboratoires académiques comme Berkeley (RT-2, RoboAgent) ou Stanford (Mobile ALOHA). Les auteurs n'annoncent pas de partenariat industriel ni de calendrier de commercialisation ; l'étape suivante naturelle serait une validation sur des manipulateurs ou des humanoïdes dans des environnements semi-structurés, avec des métriques de robustesse publiées.

RecherchePaper
1 source
Une startup forme des robots en envoyant des humains filmer le ménage chez vous
328Ars Technica AI 

Une startup forme des robots en envoyant des humains filmer le ménage chez vous

La startup allemande MicroAGI propose depuis le 28 mai 2026 un service de nettoyage à domicile entièrement gratuit aux habitants de New York, avec une contrepartie inhabituelle : les agents de ménage portent des caméras qui enregistrent l'intégralité de leur intervention. Le service est accessible via l'application Shift, lancée simultanément par l'entreprise. Pour réserver, les utilisateurs doivent fournir leur numéro de téléphone, adresse e-mail, adresse du domicile et les instructions d'accès. Chaque session dure environ deux heures. La communication autour du lancement a été soignée : vidéos sur X et LinkedIn accompagnées des notes de piano d'« Empire State of Mind » de Jay-Z et Alicia Keys. Les images captées par les caméras servent à entraîner la prochaine génération de robots domestiques. MicroAGI se décrit comme une équipe d'ingénieurs, de chercheurs et d'opérateurs dont la mission est d'« accélérer l'IA incarnée », c'est-à-dire des systèmes capables d'agir physiquement dans le monde réel. Le modèle économique est clair : les habitants obtiennent un ménage gratuit, la startup obtient des données rares et précieuses, des séquences vidéo en vue subjective montrant comment un humain navigue dans un appartement, manipule des objets et exécute des tâches quotidiennes. Ce type de données est l'un des goulots d'étranglement majeurs du développement de robots ménagers. L'initiative s'inscrit dans une course mondiale à la robotique domestique, où des acteurs comme Figure, Physical Intelligence ou Boston Dynamics investissent des centaines de millions de dollars pour doter des robots d'une compréhension fine de l'environnement humain. La collecte de données via des humains équipés de caméras est une approche déjà adoptée par plusieurs laboratoires, mais rarement proposée directement au grand public sous forme de service commercial. Le modèle soulève néanmoins des questions sur la vie privée : les résidents invitent chez eux des inconnus munis de caméras, dans leurs espaces les plus intimes. MicroAGI n'a pas encore précisé comment ces données seront stockées, protégées ou éventuellement partagées.

UEMicroAGI étant une startup allemande, ses pratiques de collecte de données vidéo au domicile de particuliers pourraient être scrutées au regard du RGPD européen.

SPRINT : a priori spectraux efficaces pour les sprints athlétiques des humanoïdes
329arXiv cs.RO 

SPRINT : a priori spectraux efficaces pour les sprints athlétiques des humanoïdes

Des chercheurs ont publié en mai 2026, via arXiv (2605.28549), un framework nommé SPRINT visant à faire sprinter des robots humanoïdes à haute vitesse de manière stable et biomimétique. Le système repose sur des priors spectraux adaptatifs en fréquence : plutôt que d'entraîner le robot sur de grandes bibliothèques de captures de mouvement, SPRINT caractérise la périodicité fondamentale de la locomotion humaine dans le domaine fréquentiel à partir d'une bibliothèque de référence réduite à cinq séquences de mouvements discrets. Ces priors génèrent ensuite des trajectoires articulaires cinématiquement cohérentes sur un large spectre de vitesses, y compris des vitesses supérieures à celles présentes dans les données d'entraînement. Sur le robot Unitree G1, la politique résultante atteint 6 m/s en pointe lors d'expériences en conditions réelles, avec des transitions de foulée fluides et sans ajustement manuel post-simulation. Ce résultat est notable pour deux raisons distinctes. Premièrement, le transfert sim-to-real s'effectue en zéro-shot, c'est-à-dire sans fine-tuning entre simulation et terrain réel, ce qui reste un verrou majeur dans les pipelines d'apprentissage par renforcement pour l'humanoïde. Deuxièmement, l'efficacité des données est exceptionnelle : cinq séquences de référence suffisent là où les approches concurrentes en imitation de mouvement nécessitent généralement des centaines, voire des milliers de captures. Pour une équipe R&D ou un intégrateur, cela réduit drastiquement le coût d'entrée pour des comportements locomoteurs à haute performance. La capacité à extrapoler au-delà de la distribution d'entraînement est prometteuse, même si les conditions exactes des tests terrain (surface, charge utile, durée de sprint) restent peu documentées dans la publication. La course aux humanoïdes rapides s'est intensifiée ces deux dernières années : Boston Dynamics a publié des démonstrations d'Atlas dépassant 5 m/s, tandis que des équipes en Chine, notamment chez Unitree et Fourier Intelligence, publient régulièrement des benchmarks locomoteurs. SPRINT s'inscrit dans une tendance académique qui cherche à rendre ces capacités reproductibles avec peu de données, en opposition aux pipelines massifs type Tesla Optimus ou Figure. Le Unitree G1, plateforme commerciale disponible autour de 16 000 dollars, est devenu le banc d'essai standard pour ce type de travaux de recherche. L'article est un preprint, sans déploiement industriel annoncé ni partenariat commercial déclaré.

RecherchePaper
1 source
Le robot humanoïde XPeng IRON entre en production en série accélérée, attendu en showroom en 2027
330Pandaily 

Le robot humanoïde XPeng IRON entre en production en série accélérée, attendu en showroom en 2027

Le constructeur automobile chinois XPeng a officiellement lancé la phase de sprint vers la production de masse de son robot humanoïde IRON, avec un objectif de production en série d'ici fin 2026 et un déploiement commercial dès le premier trimestre 2027. Selon des sources sectorielles, IRON sera d'abord déployé dans les propres showrooms de XPeng, où il assurera des missions d'accueil, d'accompagnement client et de présentation des véhicules. La plateforme mesure moins de 1,70 mètre et embarque trois puces IA Turing, le système de vision XNGP AI Hawk Eye déjà utilisé dans les voitures XPeng, et un réseau de radars 4D à ondes millimétriques pour la perception temps réel de l'environnement. La capacité de production visée est de l'ordre de plusieurs milliers d'unités par mois, ce qui placerait IRON parmi les premiers robots humanoïdes chinois à atteindre un volume industriellement significatif. Le robot avait été présenté lors d'un événement produit antérieur, où sa démarche naturaliste avait suscité des doutes quant à son authenticité, certains spectateurs soupçonnant un humain déguisé. Le choix de déployer IRON dans des environnements commerciaux contrôlés plutôt qu'en usine ou à domicile est une décision stratégique révélatrice de l'état réel du secteur. He Xiaopeng, PDG de XPeng, l'a lui-même reconnu publiquement : les robots humanoïdes actuels ne sont pas encore capables de répondre aux exigences de précision des lignes de fabrication ni à l'imprévisibilité des environnements domestiques. Cette honnêteté tranche avec le discours marketing dominant dans le secteur. En se limitant à des scénarios à tâches répétables et cadre structuré, XPeng optimise les chances de succès opérationnel tout en utilisant ses propres points de vente comme terrain de collecte de données réelles, une boucle de feedback qui alimentera les itérations suivantes du modèle. Pour les intégrateurs et les décideurs industriels, cela confirme une règle empirique du moment : le "sim-to-real gap" reste le principal frein, et les déploiements réussis passent d'abord par des verticales à faible variabilité. XPeng, connu pour ses véhicules électriques et ses systèmes ADAS avancés, capitalise ici sur sa maîtrise de la perception embarquée pour accélérer le développement robotique. Dans le paysage concurrentiel, IRON se positionne face à des acteurs comme Unitree (G1, H1), Fourier Intelligence ou encore Agibot en Chine, et à l'international contre Figure (Figure 02), Agility Robotics (Digit, déployé chez Amazon) et Boston Dynamics (Atlas). Tesla reste un point de comparaison incontournable avec Optimus, dont la production est également annoncée pour 2025-2026 sans déploiement commercial confirmé à grande échelle. La prochaine étape décisive pour IRON sera la démonstration de fiabilité opérationnelle sur plusieurs mois en condition réelle, seul indicateur qui permettra de distinguer un déploiement commercial effectif d'une vitrine technologique.

HumanoïdesOpinion
1 source
Argus, le nouveau robot à 20 pattes, redéfinit la robotique avec son système de déplacement omnidirectionnel
331Interesting Engineering 

Argus, le nouveau robot à 20 pattes, redéfinit la robotique avec son système de déplacement omnidirectionnel

Des chercheurs de l'université Duke ont présenté Argus, un robot à 20 pattes modulaires et télescopiques disposées radialement autour d'un noyau central, sans avant ni arrière définis. Chaque patte intègre une caméra de profondeur, l'ensemble formant une géométrie dodécaédrique régulière à 12 faces pentagonales qui distribue uniformément la force et le champ de vision dans toutes les directions. L'équipe a simulé plus de 1 500 configurations morphologiques avant d'aboutir à ce design, qui atteint un score de 0,91 sur leur métrique d'isotropie dynamique, contre moins de 0,6 pour la quasi-totalité des robots actuels, quadrupèdes, humanoïdes et drones compris. Sur le campus de Duke, Argus a été testé sur sable, sentiers forestiers, herbe, béton et surfaces mouillées : il franchit des obstacles de 12 cm quelle que soit son orientation, transporte une charge utile de 4,5 kg à vitesse quasi maximale, continue de se déplacer après la mise hors service de trois pattes, et peut escalader des parois verticales en alternant groupes de pattes d'appui et de poussée. Ces comportements ont été appris entièrement en simulation avant transfert en environnement réel. L'intérêt de ce travail pour l'industrie robotique ne réside pas dans les performances brutes d'Argus, mais dans le cadre mathématique sous-jacent. L'isotropie dynamique fournit une méthode unifiée pour scorer, comparer et concevoir des systèmes robotiques selon leur uniformité de mouvement, applicable aux plateformes existantes. Pour un intégrateur ou un décideur industriel, cela signifie disposer d'un critère objectif pour évaluer la pertinence d'une architecture face à des tâches omnidirectionnelles, navigation en entrepôt dense, inspection en espace confiné, assistance en milieu non structuré. Le fait que les compétences d'Argus soient issues de sim-to-real pur, sans apprentissage en milieu réel, renforce la thèse que le design lui-même simplifie le problème d'apprentissage : un robot isotrope est plus facile à généraliser. Il faut néanmoins nuancer : les vidéos publiées montrent des conditions de test relativement contrôlées, et aucune métrique de temps de cycle industriel ou de coût de fabrication n'est communiquée. Duke s'inscrit dans un courant de recherche qui questionne le paradigme biomimétique dominant, où Boston Dynamics, Figure, Agility Robotics et Tesla Optimus misent sur la forme humanoïde ou quadrupède pour justifier une utilisation en environnement conçu pour l'humain. Argus représente une direction alternative, déjà explorée en partie par des robots sphériques ou hexapodes, mais formalisée ici avec une rigueur mathématique nouvelle. L'équipe a publié l'ensemble des 1 500 morphologies simulées pour permettre à d'autres groupes d'explorer l'espace de design. Aucun partenaire industriel ni timeline de commercialisation n'est annoncé, et Argus reste à ce stade un démonstrateur académique. La prochaine étape logique serait de valider le cadre d'isotropie dynamique sur des plateformes commerciales existantes, ou de voir si des acteurs comme Enchanted Tools ou Wandercraft en France intègrent ce type de métrique dans leurs cycles de conception.

RecherchePaper
1 source
Elevator-LIO : odométrie LiDAR-inertielle robuste pour la navigation multi-étages dans les ascenseurs
332arXiv cs.RO 

Elevator-LIO : odométrie LiDAR-inertielle robuste pour la navigation multi-étages dans les ascenseurs

Une équipe de chercheurs a publié sur arXiv (arXiv:2605.24495) Elevator-LIO, un framework d'odométrie LiDAR-inertielle conçu pour maintenir la localisation continue d'un robot pendant ses déplacements en ascenseur. Le système repose sur un modèle d'estimation d'état découplé qui modélise séparément le mouvement du robot par rapport à la cabine et le mouvement de la cabine elle-même, intégré dans un filtre de Kalman itératif à erreur d'état dépendant du mode. Un gestionnaire de mode détecte l'entrée et la sortie de l'ascenseur via des statistiques de télémétrie LiDAR, puis déclenche des mises à jour de vitesse nulle et d'accélération nulle lorsque la cabine est à l'arrêt afin de supprimer la dérive verticale accumulée. Une stratégie de sous-échantillonnage voxel adaptatif maintient un nombre stable de points efficaces lors des changements d'échelle environnementale. Les tests portent sur 20 séquences réelles comprenant 79 trajets en ascenseur, couvrant des espaces de grande dimension, de longs déplacements verticaux, des piétons en mouvement et des réflexions sur miroirs. L'erreur de hauteur terminale reste inférieure à 1 cm dans 17 séquences sur 20. Ce résultat est significatif pour les déploiements de robots mobiles autonomes (AMR) en environnement multi-étages, un cas d'usage que les systèmes LIO conventionnels gèrent mal : les accélérations non inertielles d'un ascenseur saturent le filtre IMU standard et provoquent des dérives cumulatives qui corrompent la carte et la pose estimée. Elevator-LIO démontre qu'une modélisation explicite du référentiel non inertiel, plutôt qu'un post-traitement correctif, permet une localisation robuste sans recalage a posteriori. Les auteurs indiquent également que la méthode reste compétitive sur les benchmarks Hilti 2022 et 2023, ce qui suggère qu'elle n'est pas spécialisée au détriment des scénarios intérieurs standards. La navigation multi-étages est depuis plusieurs années l'un des verrous opérationnels majeurs pour les robots de livraison et de service en milieu tertiaire ou hospitalier. Des acteurs comme Boston Dynamics (Spot), Keenon Robotics ou Savioke affrontent ce problème avec des solutions ad hoc souvent dépendantes d'infrastructure. Dans l'écosystème européen, des entreprises comme Enchanted Tools (Miroki) ou Exotec opèrent principalement en environnement mono-niveau, mais la pression vers des déploiements bâtimentaires complets s'intensifie. Elevator-LIO est pour l'instant un prototype académique sans déploiement annoncé, mais son intégration dans des stacks LIO open-source comme FAST-LIO2 ou LIO-SAM serait techniquement directe, ce qui pourrait accélérer l'adoption industrielle.

UELes acteurs français comme Enchanted Tools (Miroki) et Exotec, qui opèrent aujourd'hui principalement en environnement mono-niveau, pourraient s'appuyer sur cette technologie pour étendre leurs déploiements robotiques aux bâtiments multi-étages sans dépendre d'infrastructures dédiées.

RecherchePaper
1 source
Quelles questions les robots devraient-ils pouvoir répondre ? Un jeu de données pour la robotique explicable
333arXiv cs.RO 

Quelles questions les robots devraient-ils pouvoir répondre ? Un jeu de données pour la robotique explicable

Une équipe de chercheurs a publié sur arXiv (référence 2510.16435) un jeu de données de 1 893 questions posées par des utilisateurs à des robots domestiques, issu d'une collecte auprès de 100 participants recrutés via la plateforme Prolific. Les données ont été structurées en 12 catégories et 70 sous-catégories, à partir de 22 stimuli au total : 15 vidéos et 7 scénarios textuels dépeignant des robots effectuant des tâches ménagères variées. Dans le jeu de données final, les questions les plus fréquentes portent sur les détails d'exécution des tâches (21,4 %), les capacités du robot (12,6 %) et l'évaluation de ses performances (10,7 %). À noter que les questions relatives aux scénarios difficiles ou à la fiabilité du comportement sont moins nombreuses, mais que les participants les jugent comme les plus importantes auxquelles un robot devrait pouvoir répondre. Ce travail comble un angle mort structurel dans la recherche en robotique explicable : la quasi-totalité des travaux existants se concentre sur les questions de type "pourquoi" (justification d'une décision), alors que ce dataset couvre un spectre bien plus large, des détails opérationnels aux hypothèses contrefactuelles. Pour les intégrateurs et concepteurs de systèmes d'interaction humain-robot, cela signifie que les modules de question-réponse embarqués doivent gérer des requêtes que les architectures conversationnelles actuelles ne priorisent pas. Le constat que les utilisateurs novices posent des questions plus factuelles et immédiates, tandis que les utilisateurs expérimentés interrogent davantage les capacités généralisées du robot, a des implications directes pour la conception des interfaces et la gestion du niveau de détail dans les réponses. Ce dataset s'inscrit dans un contexte où les grands modèles de langage (LLMs) sont de plus en plus intégrés comme couche conversationnelle dans des systèmes robotiques, des plateformes comme Boston Dynamics Spot aux robots de service de PAL Robotics ou Enchanted Tools. Il constitue une ressource de référence pour trois usages : identifier quelles données les robots doivent logger et exposer via une interface conversationnelle, benchmarker les modules de QA en HRI, et aligner les stratégies d'explication avec les attentes réelles des utilisateurs. Les prochaines étapes naturelles incluent l'extension du dataset à d'autres contextes (industriel, médical) et son utilisation pour entraîner ou évaluer des modèles vision-langage-action (VLA) dans des scénarios d'interaction explicite.

UELe dataset pourrait servir de référence pour les équipes européennes (dont Enchanted Tools et PAL Robotics) qui intègrent des LLMs comme couche conversationnelle dans leurs robots de service, en orientant la conception de leurs modules QA vers des questions que les architectures actuelles ne priorisent pas.

RecherchePaper
1 source
Combler le fossé : permettre au Soft Actor Critic des performances élevées en locomotion sur pattes
334arXiv cs.RO 

Combler le fossé : permettre au Soft Actor Critic des performances élevées en locomotion sur pattes

Une équipe de chercheurs publie sur arXiv (preprint 2605.24975, mai 2026) une série de modifications ciblées permettant à l'algorithme Soft Actor-Critic (SAC) d'atteindre les performances de Proximal Policy Optimization (PPO) dans l'entraînement à grande échelle de robots à pattes. PPO s'impose depuis plusieurs années comme l'algorithme de référence pour la locomotion bipède et quadrupède, notamment dans les environnements de simulation massivement parallèles comme IsaacLab (NVIDIA). Son défaut structurel est son caractère on-policy : chaque mise à jour de gradient exige de nouvelles données fraîches, le rendant inutilisable pour un apprentissage continu directement sur le robot physique. SAC, algorithme off-policy capable de réutiliser l'expérience passée, était un candidat naturel, mais échouait systématiquement à rivaliser en performance dans ces mêmes conditions. Les auteurs identifient trois correctifs spécifiques : une initialisation améliorée de la politique, un calcul de la valeur cible corrigé pour les épisodes tronqués (timeout-aware critic targets), et une estimation multi-pas du retour (multi-step return estimation). Ces ajustements ferment entièrement l'écart avec PPO, validé sur plusieurs plateformes de robots à pattes et une diversité de tâches de locomotion. L'enjeu pour l'industrie robotique est concret. PPO contraint les équipes à retourner systématiquement en simulation pour chaque cycle d'amélioration, allongeant les boucles de développement et compliquant l'adaptation à des environnements physiques non anticipés. Un SAC équivalent en performance à l'entraînement offline ouvre la voie à un workflow unifié : un seul algorithme pour la phase de simulation initiale, puis pour l'adaptation en ligne sur le robot déployé, sans boucle retour sim-to-real. Pour les intégrateurs travaillant sur des robots mobiles à pattes en inspection industrielle ou logistique, cela réduit potentiellement les cycles de re-entraînement lors de changements de terrain ou de configuration. Ce résultat conteste aussi l'hypothèse selon laquelle le sim-to-real gap exige des algorithmes fondamentalement différents entre entraînement et déploiement. PPO a été popularisé pour la locomotion robotique par les travaux de l'ETH Zurich sur ANYmal (2019-2022) et s'est généralisé avec l'adoption massive d'IsaacLab comme environnement de référence. SAC avait été introduit en 2018 par Tuomas Haarnoja et ses collègues à l'UC Berkeley, mais ses applications à la locomotion à grande échelle se heurtaient à des instabilités numériques en parallèle massif. Boston Dynamics, Unitree et Agility Robotics n'ont pas divulgué leurs pipelines d'entraînement internes, mais la littérature académique récente sur les robots H1 (Unitree) ou Digit (Agility) reste majoritairement dans l'écosystème PPO. Ce preprint demeure une contribution de recherche et non un produit déployé : sa portée pratique dépendra d'implémentations publiques dans IsaacLab ou MuJoCo et de validations indépendantes par la communauté.

RecherchePaper
1 source
LimX Intelligence lance LimX Luna : un robot humanoïde pleine taille à 298 000 RMB
335Pandaily 

LimX Intelligence lance LimX Luna : un robot humanoïde pleine taille à 298 000 RMB

LimX Intelligence, une licorne spécialisée dans l'IA incarnée basée à Shenzhen, a commercialisé le 26 mai 2026 son robot humanoïde LimX Luna à destination du marché domestique chinois, au prix de 298 000 RMB (environ 41 000 dollars). La machine mesure 160 cm, dispose de 27 degrés de liberté corporels (hors effecteurs terminaux) et intègre des capacités de perception environnementale en temps réel couplées à un système de planification de mouvement dynamique. LimX positionne Luna non pas comme un démonstrateur de laboratoire, mais comme un candidat au déploiement opérationnel dans la logistique, la fabrication et les services. La différenciation technique repose sur des modèles vision-langage-action (VLA) propriétaires permettant au robot d'interpréter des commandes en langage naturel, de reconnaître objets et environnements, et d'adapter sa stratégie de mouvement sans chorégraphie préprogrammée. L'accès au marché international est annoncé pour 2027, après obtention des certifications et mise en place de partenariats de distribution. Le lancement de Luna illustre un glissement structurel dans la compétition humanoïde : l'avantage concurrentiel ne se joue plus sur la mécanique, mais sur la couche d'intelligence embarquée. Un robot capable de généraliser ses comportements à travers des tâches variées, sans reprogrammation manuelle, représente un saut qualitatif pour les intégrateurs industriels qui peinent à justifier le coût de déploiement face à des bras robotisés fixes bien plus matures. Le tarif de 298 000 RMB place Luna dans le segment intermédiaire du marché chinois, ce qui signale une ambition commerciale sérieuse, mais le manque de données indépendantes sur les performances réelles en environnement non structuré invite à la prudence : les vidéos de lancement restent sélectionnées, et le gap entre démonstration et déploiement à l'échelle demeure le principal angle mort du secteur. LimX Intelligence évolue dans un écosystème chinois saturé depuis 18 mois : Fourier Intelligence, Unitree et Xiaomi (avec le successeur annoncé du CyberOne) occupent des segments proches, tandis qu'au niveau mondial, Figure (Figure 03), Boston Dynamics, Physical Intelligence (Pi-0) et 1X Technologies maintiennent une pression technologique constante. LimX se distingue par son accent sur les VLA propriétaires plutôt que sur le partenariat avec des fondations de modèles tierces, un pari risqué mais cohérent avec la stratégie de verticalisation observée chez d'autres acteurs chinois. La prochaine étape critique sera la validation en conditions réelles chez des clients pilotes, dont LimX n'a pas encore communiqué les noms ni les calendriers, et l'obtention des certifications CE et UL nécessaires pour l'expansion internationale prévue en 2027.

HumanoïdesOpinion
1 source
Le nouveau robot humanoïde chinois rejoint des agents pour gérer les tâches de voirie
336Interesting Engineering 

Le nouveau robot humanoïde chinois rejoint des agents pour gérer les tâches de voirie

La ville de Shanghai a lancé en mai 2026 le premier programme pilote chinois d'application du droit urbain associant agents municipaux et robot humanoïde dans un espace public. Le déploiement se déroule dans le quartier d'innovation en IA de Zhangjiang, dans l'arrondissement de Pudong, et met en scène le Lingxi X2, robot humanoïde développé par AgiBot, entreprise shanghaïenne fondée en 2023. Le dispositif repose sur une chaîne tripartite : des drones de surveillance identifient en temps réel les infractions commises par des commerçants de rue et transmettent l'information aux agents de patrouille et au Lingxi X2. Le robot se charge ensuite des interactions répétitives à faible valeur décisionnelle, à savoir expliquer les réglementations de voirie, les obligations des exploitants de commerces en façade, et répondre aux questions des marchands. Les agents humains conservent l'intégralité du pouvoir d'évaluation juridique et d'exécution des sanctions. AgiBot décrit la machine comme un "assistant intelligent" et non comme un remplaçant, une précision qui, dans ce contexte politique, est autant un positionnement commercial qu'une garantie opérationnelle. Ce que ce déploiement teste concrètement, c'est la capacité des systèmes d'IA incarnée à tenir un rôle de contact public structuré, avec un corpus de connaissances réglementaires consultable en temps réel, dans un environnement non contrôlé. Pour les intégrateurs et les décideurs en charge de services publics, le cas d'usage est délibérément choisi pour son haut volume de tâches répétitives et son faible risque décisionnel : le robot ne verbalise pas, ne sanctionne pas, n'interprète pas. Il informe. Pan Weijia, responsable de Pudong ayant supervisé l'opération, a explicitement indiqué que l'évaluation portera sur les performances pratiques plutôt que sur le simple volume de déploiement, ce qui signale une approche plus mesurée que le discours habituel sur la scalabilité. Pan Helin, membre du comité d'experts du ministère de l'Industrie et des Technologies de l'Information, a qualifié le pilote de "jalon majeur" dans la commercialisation de l'IA incarnée en administration publique, avec l'objectif affiché de passer des robots capables de "se déplacer" à des robots capables de "travailler efficacement". AgiBot a été fondé en 2023 et s'est positionné rapidement sur le segment des humanoïdes à usage professionnel, avec le Lingxi X2 comme produit phare pour les environnements semi-publics. L'entreprise s'inscrit dans un écosystème chinois d'humanoïdes très dense, qui inclut Unitree (G1, H1), Fourier Intelligence (GR-1), et dans une moindre mesure les ambitions de UBTECH et de Kepler. À l'international, les comparaisons les plus directes sont Figure (01, 02), 1X Technologies (NEO), et Boston Dynamics (Atlas), tous positionnés sur des environnements industriels ou logistiques plutôt que sur l'espace public. Le vrai enjeu du pilote de Pudong n'est pas la performance du robot dans une démonstration maîtrisée, mais sa robustesse sur la durée dans un contexte d'interactions non scénarisées avec des usagers non entraînés. Les prochaines étapes annoncées par Pan Helin visent une extension à d'autres scénarios de service public, sans échéance précisée.

UESignal stratégique indirect pour les décideurs européens de la robotique de service public : la Chine ouvre un précédent réglementaire et opérationnel pour le déploiement d'humanoïdes en espace civil non contrôlé, domaine où aucun acteur FR/EU n'est encore positionné.

Chine/AsieOpinion
1 source
IntentionNav : un benchmark pour la navigation vers des objets guidée par des intentions humaines implicites
337arXiv cs.RO 

IntentionNav : un benchmark pour la navigation vers des objets guidée par des intentions humaines implicites

Un groupe de chercheurs a publié fin mai 2026 IntentionNav, un benchmark diagnostique conçu pour évaluer la navigation d'agents incarnés à partir d'instructions humaines implicites. Contrairement aux benchmarks classiques d'ObjectNav (MP3D, HM3D), qui fournissent à l'agent une catégorie cible explicite ("trouve un micro-ondes"), IntentionNav formule des intents en langage naturel non directif : "j'ai besoin de quelque chose pour réchauffer ce plat" ou "la pièce me semble étouffante". Le benchmark couvre 500 épisodes distribués sur 176 scènes Isaac Sim et 64 catégories d'objets cibles. Chaque intent est reformulé en quatre styles linguistiques contrôlés et annoté selon quatre modes sémantiques distincts (script d'événement, état physique, affordance, usage contextuel), ce qui permet d'isoler les erreurs de reformulation linguistique des erreurs d'inférence sémantique. Trois modèles VLM (Vision-Language Models) ont été évalués avec un agent de navigation fixe. Les résultats sont sans ambiguïté : les modèles identifient correctement l'objet cible dans 48,3 % des épisodes, atteignent son voisinage à 2 mètres dans 68,7 % des cas, mais ne terminent avec succès que dans 24,9 % des épisodes et n'atteignent un succès ancré à 1 mètre que dans 5,5 % des cas. Ces chiffres révèlent que le bottleneck principal dans la navigation incarnée réelle n'est pas la navigation proprement dite, mais l'inférence d'intention, la vérification visuelle de l'instance correcte, et la décision de terminaison. Les intents de type "script d'événement" (ex : préparer le dîner) obtiennent les meilleurs scores (28,7 % de succès terminal), tandis que les intents fondés sur l'état physique (19,2 %) ou l'affordance (18,5 %) restent en deçà. Pour un COO industriel ou un intégrateur robotique, ce résultat est critique : un robot opérant en environnement humain doit recevoir des instructions naturelles, rarement formulées en termes de catégories d'objets précises. Les VLMs actuels échouent précisément sur ce que l'interaction humaine génère le plus souvent. Le benchmark s'inscrit dans la continuité des travaux sur l'embodied AI et le grounding langage-perception (SQA3D, EQA, R2R), mais comble un angle mort : la déconnexion entre succès agrégé et succès ancré dans la géométrie réelle. L'utilisation d'Isaac Sim comme environnement de simulation soulève la question du sim-to-real gap, non adressée dans cette publication. Aucun acteur industriel (Boston Dynamics, Figure, Agility, ni d'acteurs FR/EU comme Enchanted Tools ou Wandercraft) n'est impliqué dans cette étude académique. Les suites naturelles incluent l'extension à des scènes réelles captées en RGB-D, l'évaluation de modèles VLA (Vision-Language-Action) de bout en bout, et l'intégration de mécanismes de clarification active quand l'intent est ambigu, une direction encore peu explorée dans la littérature.

RecherchePaper
1 source
De la perception de l'environnement à la transformation du monde : opportunités, voies et pratiques de l'IA physique
33836Kr 

De la perception de l'environnement à la transformation du monde : opportunités, voies et pratiques de l'IA physique

À la conférence AI+ de Beijing Yizhuang en mai 2026, Chen Long, directeur technique "foundation models" de Jiangxing Intelligence (江行智能), a présenté l'architecture d'IA physique industrielle JX-Phi, déjà déployée dans des centrales photovoltaïques et des réseaux électriques au Guizhou et en Mongolie intérieure. Le système couvre plus de 1 000 stations d'inspection avec une précision algorithmique annoncée à 99 %. L'architecture se décompose en trois couches : une infrastructure de données (JX-Phi World), un modèle central en cours d'évolution vers un World Action Model (JX-Phi Brain, intégrant des modèles Vision-Language-Action longue durée, dits LT-VLA), et une couche applicative (JX-Phi Agent) qui orchestre drones, chiens robotiques, robots à roues et bras mécaniques via un contrôleur global de 100 milliards de paramètres. Indicateur structurant : une simple tâche d'inspection d'équipement se décompose en 100 à 200 sous-tâches dans un contexte industriel, contre quelques dizaines en usage grand public. Ce chiffre illustre une bascule dans la compétition autour de l'IA : l'enjeu n'est plus le nombre de paramètres des modèles de base, mais la capacité à déployer des systèmes stables et contrôlés dans des environnements physiques contraignants. La densité des scénarios industriels chinois constitue un avantage structurel difficile à répliquer : le parc de robots industriels installés en Chine représente 8,6 fois celui des États-Unis et a crû d'un facteur 12 en dix ans, alimentant un volant de données continu sans équivalent mondial. L'approche sim-to-real de Jiangxing repose sur un moteur de simulation 3D génératif (AutoWorld) qui produit des scénarios rares, pannes atypiques ou conditions météo extrêmes, avant tout déploiement terrain, réduisant significativement les risques dans des secteurs où l'erreur en conditions réelles n'est pas tolérable, comme l'énergie ou la pétrochimie. Jiangxing capitalise sur cinq couches d'infrastructure que la Chine a constituées : densité de scénarios industriels, modèles open source compétitifs (DeepSeek, Qwen, Kimi) en rattrapage rapide sur les niveaux de performance mondiaux, 4,48 millions de stations 5G représentant plus de 60 % du parc mondial, capacité électrique environ deux fois supérieure à celle des États-Unis, et une co-optimisation logiciel-matériel stimulée en partie par les restrictions d'accès aux puces d'entraînement haut de gamme. Sur le plan concurrentiel, la société se positionne comme fournisseur de système complet face à des acteurs comme Unitree ou Boston Dynamics côté plateformes robotiques, et Physical Intelligence (Pi-0) côté modèles généralistes. Les prochaines étapes visent une extension aux secteurs minier et chimique, où la criticité des tâches et la rareté des données d'incidents justifient précisément l'approche simulation-to-real développée par la société.

UELes avantages structurels de la Chine en IA physique industrielle (parc robotique 8,6x supérieur aux États-Unis, 60 % des stations 5G mondiales, capacité électrique double) représentent un écart compétitif croissant que les industriels européens devront intégrer dans leur stratégie d'automatisation à horizon 5 ans.

Chine/AsieOpinion
1 source
NORM-Nav : navigation de robot mobile sans apprentissage préalable, guidée par contraintes comportementales en langage naturel
339arXiv cs.RO 

NORM-Nav : navigation de robot mobile sans apprentissage préalable, guidée par contraintes comportementales en langage naturel

NORM-Nav est un framework zero-shot présenté en mai 2026 dans un preprint arXiv (2605.16979) pour la navigation de robots mobiles en environnements humains. Le système associe un grand modèle de langage (LLM) à une perception temps réel par fusion vision-LiDAR: l'opérateur formule des règles comportementales en langage naturel, le LLM les parse en contraintes structurées, et celles-ci sont encodées sous forme de costmaps multi-couches couvrant quatre dimensions (géométrique, sémantique, directionnel, vitesse), directement compatibles avec les planificateurs grid-based standards comme ceux utilisés sous ROS. Des expériences en simulation et en environnement réel indiquent une amélioration des taux de succès de tâche et des trajectoires statistiquement plus proches des références humaines par rapport aux baselines testées, sans réentraînement du planificateur de base. L'enjeu concret est le suivant: les costmaps conventionnels traitent la navigation comme un problème géométrique pur, produisant des trajectoires techniquement valides mais socialement inadaptées, frôlement de passants, ignorance des sens de circulation, vitesse inappropriée en zone dense. Pour un intégrateur déployant des AMR en environnement hospitalier, en entrepôt partagé ou en espace public, cette limite est un frein réel à l'acceptation opérationnelle. NORM-Nav adresse ce verrou en mode zero-shot, sans données de démonstration spécifiques à l'environnement cible, ce qui simplifie le pipeline de déploiement. La compatibilité native avec les planificateurs standard constitue l'argument industriel clé: pas de refonte architecturale, pas de rupture avec la stack ROS existante. La navigation socialement consciente (social navigation) est un chantier actif depuis une décennie, porté par des travaux comme CADRL, SARL ou ORCA, et plus récemment par des approches LLM comme NavGPT ou LM-Nav. NORM-Nav s'inscrit dans cette tendance mais mise sur l'intégration costmap plutôt que sur un planificateur de bout en bout, choix conservateur et pragmatique pour l'industrie. Le preprint ne cite ni partenaires industriels ni timeline de commercialisation, le positionnant clairement comme contribution académique à ce stade. Une soumission en conférence (IROS 2026 ou CoRL 2026) est vraisemblable. Sur le terrain concurrent, Boston Dynamics (Spot en environnements mixtes), les acteurs AMR comme Exotec, et plusieurs projets académiques franco-européens travaillent sur la cohabitation robots-humains, bien qu'aucun n'utilise exactement cette approche de grounding linguistique sur couches costmap.

UELes intégrateurs européens d'AMR en milieu hospitalier ou logistique pourraient tester cette approche zero-shot compatible ROS pour améliorer l'acceptation sociale de leurs flottes sans refonte architecturale.

IA physiquePaper
1 source
Apprentissage de politiques robotiques structurées à partir de modèles vision-langage par supervision neuro-symbolique synthétique
340arXiv cs.RO 

Apprentissage de politiques robotiques structurées à partir de modèles vision-langage par supervision neuro-symbolique synthétique

Une équipe de recherche publie sur arXiv (référence 2604.02812) une approche neuro-symbolique permettant à un modèle de langage vision (VLM) de générer automatiquement des politiques robotiques exécutables sous forme d'arbres de comportement (Behavior Trees, BTs), à partir d'observations visuelles, d'instructions en langage naturel et de spécifications système structurées. La contribution centrale est un pipeline entièrement automatisé qui produit un jeu de données synthétique multimodal : des scènes à randomisation de domaine sont générées procéduralement, chacune associée à des exemples instruction-politique produits par un modèle fondamental. Un modèle de 12 milliards de paramètres est ensuite entraîné exclusivement sur ces données synthétiques, sans annotation humaine. Les expériences physiques, conduites sur deux manipulateurs robotiques hétérogènes, confirment un transfert zéro-shot vers des environnements réels. L'enjeu industriel est direct : la grande majorité des politiques visuomotrices actuelles reposent sur des architectures end-to-end opaques, difficilement auditables ou certifiables pour un déploiement en production. En produisant des BTs, cette méthode offre interprétabilité, modularité et exécution réactive, trois propriétés que les intégrateurs industriels exigent mais que les approches VLA classiques (Pi-0, GR00T N2, OpenVLA) ne garantissent pas nativement. Le fait que le transfert sim-to-real soit obtenu sans aucune donnée réelle lors de l'entraînement contredit l'hypothèse persistante selon laquelle le gap simulation-réalité rendrait ce type d'approche impraticable pour la manipulation. C'est sur ce point que les résultats méritent attention, même si les auteurs ne détaillent pas la complexité des scènes testées ni les métriques de robustesse sur longues séquences. Les Behavior Trees sont un standard hérité du jeu vidéo et de la robotique classique, adoptés notamment dans ROS 2 via BehaviorTree.CPP, précisément pour leur lisibilité et leur capacité de reprise sur erreur. La tension entre contrôle symbolique et apprentissage end-to-end est au coeur des débats actuels, avec des acteurs comme 1X, Physical Intelligence ou Boston Dynamics cherchant des compromis différents. Cette recherche positionne les VLMs non plus comme générateurs de mouvements bruts, mais comme compilateurs de plans structurés, une distinction architecturale qui pourrait orienter les prochains cycles de développement vers des systèmes hybrides plus auditables. La prochaine étape naturelle serait de valider l'approche sur des manipulateurs commerciaux dans des environnements non contrôlés et sur des horizons de tâches plus longs.

RechercheOpinion
1 source
Apprentissage par renforcement guidé par référence pour la navigation autonome de robots humanoïdes en terrain variable
341arXiv cs.RO 

Apprentissage par renforcement guidé par référence pour la navigation autonome de robots humanoïdes en terrain variable

Une équipe de recherche publie sur arXiv (référence 2605.15517) une méthode d'entraînement de politiques de locomotion par apprentissage par renforcement (RL) pour robots humanoïdes, dans laquelle les trajectoires de référence sont adaptées dynamiquement à la géométrie du terrain pendant l'entraînement. Concrètement, le système génère en boucle des trajectoires de référence contrôlables en SE(2), l'espace de déplacement planaire, en projetant les appuis de pied sur des zones d'appui valides et en ajustant les trajectoires du pied oscillant et du centre de masse selon le relief. L'interface exposée est un vecteur de vitesse SE(2) standard, directement compatible avec les planificateurs de navigation autonome existants. Côté hardware, les chercheurs ont intégré cette politique avec un planificateur MPC (Model Predictive Control) couplé à des fonctions de barrière de contrôle (CBF), et démontré une navigation autonome en boucle fermée sur plus de 70 mètres en extérieur sur le robot Unitree G1, incluant des terrains accidentés et des escaliers consécutifs, avec l'ensemble du calcul et de la perception embarqués. Ce résultat est notable parce qu'il attaque directement le problème du "reality gap" dans la locomotion humanoïde sur terrain non structuré : en conditionnant les trajectoires de référence au terrain dès la phase de simulation, la politique apprend des comportements footholds-aware plutôt que des mouvements génériques dégradés au contact du sol réel. L'exposition d'une interface SE(2) propre signifie que cette politique s'insère sans friction dans un stack de navigation autonome standard, celui qu'utilisent déjà les AMR (autonomous mobile robots) industriels, sans couche d'adaptation supplémentaire. Pour un intégrateur ou un équipementier, c'est une architecture qui réduit la dette de middlewares entre planification de chemin et exécution de locomotion. Le Unitree G1 est un humanoïde à faible coût (environ 16 000 dollars) dont Unitree, fabricant chinois, a multiplié les variantes depuis 2024. Le domaine de la locomotion humanoïde guidée par trajectoires de référence est aussi exploré par des laboratoires comme CMU, ETH Zurich (ANYbotics, Legged Gym), et des équipes comme celles de Boston Dynamics ou Agility Robotics, qui privilégient des approches similaires sim-to-real. Ce travail reste une démonstration académique, parcours sélectionnés, conditions contrôlées, et n'est pas associé à une annonce de déploiement commercial. Les prochaines étapes logiques incluent des tests à plus grande échelle de variabilité de terrain et l'intégration avec des planificateurs 3D.

HumanoïdesPaper
1 source
Mind Robotics lève 400 millions de dollars pour déployer ses robots à IA dans l'industrie manufacturière
342Robotics Business Review 

Mind Robotics lève 400 millions de dollars pour déployer ses robots à IA dans l'industrie manufacturière

Mind Robotics, startup américaine basée à Palo Alto, a annoncé le 13 mai 2026 une levée de fonds de 400 millions de dollars, portant son financement total à plus d'un milliard de dollars depuis sa création. Ce tour a été mené par Kleiner Perkins, avec la participation de nouveaux investisseurs comme Meritech Capital, Redpoint Ventures, SV Angel et Garuda Ventures, aux côtés d'acteurs déjà présents tels qu'Andreessen Horowitz, Accel, Bain Capital Ventures et Greenoaks. La startup, fondée par RJ Scaringe, avait enchaîné un seed de 115 millions de dollars fin 2025 puis une Série A de 500 millions en mars 2026, soit trois tours en moins de six mois. Mind Robotics se positionne comme constructeur d'une "plateforme full-stack" combinant modèles de fondation pour la robotique physique, hardware dédié et infrastructure de déploiement, ciblant l'automatisation de tâches manufacturières dextres et à fort contenu décisionnel. Rivian, le constructeur de véhicules électriques, est à la fois premier client, partenaire stratégique et actionnaire, fournissant un environnement de production à haut volume pour l'entraînement des modèles et alimentant ce que la société appelle un "data flywheel" d'itération continue. À ce stade, Mind Robotics reste une annonce plus qu'un produit déployé : le site de la société ne publie aucune image de robot, aucune fiche technique n'est disponible (payload, degrés de liberté, cadence de cycle), et les démonstrations publiques sont absentes. Ce point mérite d'être noté, car la plupart des levées comparables dans le secteur humanoïde ou manufacturing (Figure, 1X, Apptronik, Agility) s'accompagnent au minimum de vidéos opérationnelles. L'accès à l'usine Rivian comme terrain d'entraînement est un avantage réel pour réduire le sim-to-real gap, mais la promesse de généralisation inter-tâches et inter-domaines reste à valider empiriquement. Pour les décideurs industriels, la question centrale n'est pas le montant levé mais la capacité à démontrer une fiabilité en conditions réelles avant 2027, dans un secteur où le fossé entre démo et déploiement à l'échelle reste le principal obstacle commercial. RJ Scaringe, qui a co-fondé Rivian en 2009 et conduit l'entreprise jusqu'à son introduction en bourse en 2021, a créé Mind Robotics en novembre 2025 en s'appuyant sur l'expertise manufacturière accumulée chez Rivian. La société s'insère dans une vague de financements massifs autour de la "physical AI" : Boston Dynamics, Figure (2,6 milliards levés à date), Physical Intelligence avec Pi-0, ou encore 1X Technologies en Europe. En France et en Europe, des acteurs comme Wandercraft (exosquelettes), Enchanted Tools (Miroki) ou Pollen Robotics (Reachy) avancent sur des segments plus ciblés avec des modèles économiques plus définis. Les prochaines étapes à surveiller pour Mind Robotics : une première démonstration publique de son hardware, l'annonce d'un second client industriel hors Rivian, et la publication de métriques de déploiement concrètes qui permettront de juger si l'ambition "general-purpose" tient face à la réalité de la chaîne de production.

UELa concentration massive de capital américain sur la robotique physique (Mind Robotics dépasse le milliard en 6 mois) accentue l'écart de ressources avec les acteurs européens comme Wandercraft, Enchanted Tools et Pollen Robotics, qui opèrent sur des segments ciblés avec des levées sans commune mesure.

BusinessOpinion
1 source
SenseTime ouvre un commerce de proximité en IA incarnée avec des robots humanoïdes à Shanghai
343Pandaily 

SenseTime ouvre un commerce de proximité en IA incarnée avec des robots humanoïdes à Shanghai

SenseTime, l'un des principaux groupes d'intelligence artificielle en Chine, a inauguré en mai 2026 à Shanghai un point de vente de détail entièrement opéré par des robots humanoïdes. La boutique, baptisée "Shaomai Gou" (烧卖购), est installée dans le site touristique Baoshan Riverside Scenic Area. Le protocole client est simple : scanner un QR code pour passer commande depuis son téléphone, puis recevoir le produit directement des mains du robot. Au-delà de la préparation des commandes, les robots seraient capables d'assurer la sélection des références, la tarification et l'analyse des données de réapprovisionnement des stocks. Le magasin a attiré des files d'attente spontanées lors du week-end du 1er mai. Aucun modèle de robot n'est identifié dans l'annonce officielle, et SenseTime ne publie pas de métriques opérationnelles (temps de cycle, taux de succès des saisies, volume de transactions). Ce déploiement est significatif parce qu'il sort les robots humanoïdes du contexte industriel contrôlé pour les placer face à des consommateurs non formés, dans un environnement ouvert et non structuré. La manipulation de produits variés, la gestion des interactions client et le réassort en rayon constituent des tâches difficiles pour un système robotique généraliste. Cela dit, l'absence de données techniques publiées invite à la prudence : l'initiative ressemble davantage à un déploiement pilote à forte valeur marketing qu'à une preuve de passage à l'échelle industrielle. Ce que cela valide en revanche, c'est l'existence d'une voie commerciale pour l'embodied AI dans les services de proximité à forte fréquentation, un segment jusqu'ici dominé par des kiosques automatisés passifs. SenseTime a bâti sa réputation initiale sur la vision par ordinateur et la reconnaissance faciale avant de pivoter vers l'IA incarnée, combinant vision robotique, compréhension du langage naturel et manipulation physique. En Chine, la société fait face à la concurrence de Unitree Robotics, Fourier Intelligence et UBTECH sur le segment humanoïde ; à l'international, les références du secteur restent Figure AI avec le robot 03, Physical Intelligence avec Pi-0 et Boston Dynamics. La prochaine étape logique pour SenseTime sera d'étendre "Shaomai Gou" à d'autres sites et de publier des données de performance qui permettraient de distinguer la démonstration du déploiement opérationnel réel.

Chine/AsieActu
1 source
DreamPolicy : une politique basée sur un modèle du monde unifié pour la locomotion des robots humanoïdes à grande échelle
344arXiv cs.RO 

DreamPolicy : une politique basée sur un modèle du monde unifié pour la locomotion des robots humanoïdes à grande échelle

Des chercheurs ont publié DreamPolicy (arXiv:2505.18780, mai 2025), un cadre de locomotion humanoïde conçu pour maîtriser des terrains variés avec une seule politique de contrôle. Son composant central est un modèle du monde à diffusion autorégressive, entraîné sur des trajectoires agrégées issues de plusieurs politiques spécialisées par type de terrain. Ce modèle génère des trajectoires futures physiquement plausibles qui guident une politique conditionnée, sans ingénierie manuelle des fonctions de récompense. En simulation, DreamPolicy surpasse la meilleure baseline de 27% sur des terrains composites jamais vus à l'entraînement, et de 38% sur des terrains combinés. Le framework est conçu pour scaler avec la taille du dataset offline: plus les données s'accumulent, plus le modèle de diffusion acquiert de compétences locomotrices. La contribution principale est de rompre le verrou "une tâche, une politique" qui freine les systèmes humanoïdes actuels. Les méthodes dominantes reposent sur la distillation de politiques enseignantes spécialisées en une politique étudiante unifiée; ce paradigme capture des primitives de base mais échoue à les composer organiquement face à des environnements composites hors distribution. DreamPolicy y substitue un modèle du monde qui capture des compétences locomotrices généralisables, autorisant un transfert zero-shot vers des terrains inédits. Il convient néanmoins de nuancer: les gains relatifs annoncés (27%, 38%) sont mesurés en simulation uniquement, sans détail sur les taux absolus de succès ni les conditions précises des benchmarks, ce qui limite les comparaisons directes avec d'autres systèmes publiés. Ce travail s'inscrit dans une tendance portée par DreamerV3 (Google DeepMind) et le RL model-based, ici appliquée à la locomotion humanoïde scalable. Figure, Agility Robotics (Amazon), Unitree, Apptronik et Boston Dynamics se livrent une course intensive sur ce segment; en Europe, Wandercraft (France) travaille sur la locomotion bipeède thérapeutique et Enchanted Tools sur des humanoïdes de service. DreamPolicy reste une contribution de recherche pure: aucun déploiement hardware ni partenariat industriel n'est mentionné. La validation sur robot physique constitue l'étape suivante naturelle, avec les défis de sim-to-real gap que les approches à diffusion n'ont pas encore pleinement résolus à grande échelle.

UEImpact indirect : les avancées en locomotion unifiée zero-shot pourraient alimenter les travaux de Wandercraft (France) sur la bipédie thérapeutique, mais aucun lien institutionnel ou déploiement européen n'est mentionné.

RecherchePaper
1 source
Comme de vrais Transformers : Unitree dévoile un robot mecha qui passe de 2 à 4 pattes
345SCMP Tech 

Comme de vrais Transformers : Unitree dévoile un robot mecha qui passe de 2 à 4 pattes

Unitree Robotics, entreprise chinoise déjà connue pour ses robots quadrupèdes et humanoïdes à prix agressifs, a dévoilé le 13 mai 2025 le GD01, un engin piloté de 500 kg capable de passer d'une locomotion bipède à une configuration à quatre pattes. Construit en alliage haute résistance, le GD01 transporte un pilote humain en cabine fermée et affiche un prix de départ de 3,9 millions de yuans, soit environ 574 000 dollars américains. L'engin est positionné pour le transport civil, sans précision sur les distances ou charges utiles supportées au-delà du pilote. Le GD01 marque une rupture de catégorie dans le paysage robotique : ce n'est ni un AMR industriel, ni un humanoïde de manipulation, mais un véhicule terrestre à locomotion hybride. La capacité à basculer entre mode bipède et quadrupède pourrait théoriquement offrir une meilleure adaptabilité sur terrains accidentés qu'un véhicule à roues, mais aucune donnée de performance indépendante n'a encore été publiée. Il s'agit à ce stade d'une annonce produit avec démonstration, pas d'un déploiement commercial validé. Unitree s'est imposée ces dernières années comme le challenger low-cost face à Boston Dynamics, avec ses quadrupèdes Go2 et B2, puis ses humanoïdes H1 et G1. Le GD01 s'inscrit dans une stratégie de montée en gamme spectaculaire, sur un segment encore expérimental occupé par quelques acteurs comme Hankook Mirae Technology (Method-2, Corée du Sud) ou des projets de recherche universitaires. Aucun calendrier de livraison ni volume de production n'a été communiqué lors du lancement.

Chine/AsieOpinion
1 source
MOBIUS : un robot bipède multimodal capable de marcher, ramper, grimper et rouler
346arXiv cs.RO 

MOBIUS : un robot bipède multimodal capable de marcher, ramper, grimper et rouler

Des chercheurs ont publié sur arXiv (référence 2511.01774, version 3 de mai 2026) la plateforme MOBIUS, un robot bipède à quatre membres capable d'enchaîner marche, reptation, escalade et déplacement sur roues sans reconfiguration mécanique. La plateforme embarque deux bras à 6 degrés de liberté (6-DoF) équipés de préhenseurs à deux doigts pour la manipulation et l'escalade, ainsi que deux jambes à 4-DoF pour la locomotion. Une architecture de contrôle hybride combine apprentissage par renforcement pour les transitions de gait et contrôle en force pour les interactions de contact compliantes lors des phases de manipulation. Un planificateur haut niveau de type MIQCP (Mixed-Integer Quadratically Constrained Program) sélectionne automatiquement le mode de locomotion optimal selon des critères de stabilité et d'efficacité énergétique. Les expériences sur prototype physique montrent des transitions de marche robustes, une escalade dynamique et un support de charge sur l'ensemble du corps par préhension en pince. Ce travail s'attaque à l'un des verrous historiques de la robotique mobile : la plupart des plateformes humanoïdes ou quadrupèdes sont optimisées pour un seul mode de déplacement, ce qui limite leur traversabilité réelle en environnement industriel non structuré. MOBIUS démontre qu'une intégration serrée entre morphologie, planification autonome et contrôle multi-modal peut étendre substantiellement l'espace de travail et les capacités d'interaction d'un robot sans multiplier les actionneurs. Pour un intégrateur B2B, le signal est clair : le paradigme "un robot, un usage" n'est plus une contrainte technique incontournable. Il convient toutefois de noter que les démonstrations restent en contexte laboratoire contrôlé ; aucune donnée de déploiement industriel n'est communiquée à ce stade. MOBIUS s'inscrit dans un courant de recherche en pleine expansion autour des robots loco-manipulateurs, aux côtés de travaux comme ANYmal (ETH Zurich), Spot ARM (Boston Dynamics) ou les plateformes du CMU Robotics Institute. La singularité de MOBIUS réside dans sa capacité à rouler, ce qui le rapproche également des robots hybrides roues-pattes (wheeled-legged) comme Ascento ou Rezero. Aucun partenaire industriel ni calendrier de commercialisation n'est mentionné dans l'article, ce qui en fait pour l'instant une contribution académique solide plutôt qu'une annonce produit. Les prochaines étapes naturelles seraient des tests en environnement semi-structuré (entrepôt, chantier) et une validation de la robustesse du planificateur MIQCP face à des perturbations imprévues.

RecherchePaper
1 source
Locomotion humanoïde de bout en bout apprise à partir de pixels bruts
347arXiv cs.RO 

Locomotion humanoïde de bout en bout apprise à partir de pixels bruts

Une équipe de recherche a publié sur arXiv (réf. 2602.06382v2) un framework end-to-end permettant à un robot humanoïde de naviguer sur terrain varié en s'appuyant uniquement sur des images brutes de caméras stéréo de profondeur, sans carte de terrain préchargée à l'inférence. Le système s'articule autour de deux contributions distinctes. La première est une simulation haute-fidélité du capteur stéréo qui reproduit les artefacts de matching et les incertitudes de calibration réels, comblant le fossé entre l'entraînement simulé et le déploiement physique. La seconde est une approche de distillation comportementale tenant compte de la vision : une politique enseignante, entraînée sur des cartes de hauteur parfaites ("privileged height maps"), transfère ses connaissances à une politique étudiante ne recevant que des observations de profondeur bruitées, via un alignement dans l'espace latent et des tâches auxiliaires invariantes au bruit. Pour la gestion multi-terrain, une architecture multi-critic et multi-discriminator attribue des réseaux dédiés à chaque type de surface. La méthode a été validée sur deux plateformes humanoïdes équipées de caméras stéréo différentes, couvrant des défis tels que plateformes surélevées, larges brèches et traversée bidirectionnelle de longs escaliers. Ce travail s'attaque à un verrou majeur : la quasi-totalité des politiques de locomotion par reinforcement learning contournait jusqu'ici la perception visuelle en utilisant des cartes de terrain parfaites en simulation, inexistantes sur robot réel. En intégrant explicitement les imperfections du capteur dans la boucle d'entraînement, les auteurs montrent qu'un humanoïde peut naviguer en milieu non structuré avec seulement des caméras RGB-D grand public. Pour un intégrateur ou un décideur industriel, cela réduit potentiellement la suite sensorielle nécessaire et évite le recours au LiDAR ou à la cartographie préalable. L'architecture multi-discriminator règle également la friction habituellement observée entre les objectifs conflictuels d'apprentissage sur terrains homogènes et hétérogènes, une limite connue des politiques locomotion généralistes. La locomotion humanoïde basée vision est un champ de bataille actif : Unitree (H1, G1) et Agility Robotics (Digit) privilégient encore largement la proprioception, tandis que Boston Dynamics (Atlas), Figure (Figure 03) et Physical Intelligence (Pi-0) y intègrent progressivement la vision dans leurs pipelines de contrôle. NVIDIA pousse GR00T N2 comme couche commune de synthèse de mouvement simulé. Ce papier de février 2026 s'inscrit dans une vague cherchant à rendre la locomotion bas niveau aussi robuste que les policies VLA (Vision-Language-Action) le sont pour la manipulation. La validation sur deux plateformes différentes constitue un signal positif de généralisation, mais les métriques quantitatives détaillées (taux de succès, vitesse de marche, distance franchissable) ne figurent pas dans le résumé et méritent vérification avant toute décision d'intégration opérationnelle.

IA physiquePaper
1 source
Unitree lance UniStore, le premier App Store mondial pour robots humanoïdes, avec 24 applications de mouvement disponibles au lancement
348Pandaily 

Unitree lance UniStore, le premier App Store mondial pour robots humanoïdes, avec 24 applications de mouvement disponibles au lancement

Unitree Robotics a lancé UniStore, une plateforme de distribution d'applications pour robots humanoïdes, structurée autour de quatre modules : User Square, Motion Library, Dataset et Developer Center. Au lancement, la Motion Library propose 24 actions motrices téléchargeables, parmi lesquelles une danse style Jackson, du Mantis Boxing, le Charleston, des animations "比心" (finger heart) et une catégorie de comportements humoristiques baptisée "整活". Ces contenus sont accessibles en essai gratuit à durée limitée. L'interface utilisateur reproduit le modèle UX des app stores mobiles : navigation, téléchargement et installation de nouvelles compétences directement depuis une application smartphone, sans intervention technique sur le robot. La plateforme est compatible avec l'ensemble de la gamme Unitree, humanoïdes G1 et H1, quadrupède B2 et robot chien Go2. Le Developer Center ouvre la publication à des développeurs tiers, qui peuvent créer et soumettre leurs propres packages de mouvements. L'initiative est structurellement significative pour le secteur, même si les 24 applications du lancement relèvent davantage de la démonstration grand public que du cas d'usage industriel. Ce qui compte, c'est le modèle : Unitree cherche à décorréler la valeur logicielle de la valeur matérielle, en instaurant un écosystème tiers autour de ses plateformes physiques. Pour les intégrateurs et les décideurs B2B, c'est une orientation claire vers la monétisation des comportements robotiques et une réduction de la dépendance aux pipelines de développement propriétaires. Cela pose aussi une question sur la résilience qualité : des comportements créés par des tiers et installés sur des robots humanoïdes en environnement réel soulèvent des enjeux de validation et de responsabilité que la plateforme ne documente pas encore publiquement. Unitree, fondée en 2016 à Shenzhen, s'est imposée comme le fournisseur de robots quadrupèdes les moins chers du marché avant de pivoter vers les humanoïdes avec le H1 puis le G1, commercialisé sous les 16 000 dollars. La stratégie UniStore s'inscrit en opposition directe avec Boston Dynamics, dont l'approche reste fermée et orientée contrats enterprise, mais aussi face à Figure AI, Agility Robotics et 1X, qui misent sur des pipelines logiciels internes. Si des développeurs tiers commencent à publier des packages de mouvements fonctionnels, Unitree pourrait accélérer sa couverture de cas d'usage sans porter seul le coût R&D. Les prochaines étapes à surveiller : le volume de contributions externes dans les 90 premiers jours et l'éventuelle ouverture d'un modèle de monétisation pour les développeurs.

UESignal compétitif indirect pour les intégrateurs et développeurs européens : Unitree instaure un écosystème logiciel ouvert autour de robots humanoïdes low-cost, sans équivalent chez les acteurs occidentaux pour l'instant.

Chine/AsieOpinion
1 source
LG fait équipe des robots humanoïdes et quadrupèdes pour automatiser ses entrepôts
349Interesting Engineering 

LG fait équipe des robots humanoïdes et quadrupèdes pour automatiser ses entrepôts

LG CNS, filiale IT du conglomérat sud-coréen LG, a présenté le 6 mai 2026 une démonstration de logistique multi-robots sur son campus Magok, dans l'ouest de Séoul. Quatre robots de fabricants différents ont exécuté une chaîne de manutention complète sans téléopération ni intervention humaine : un humanoïde bipède a saisi des colis sur un tapis roulant et les a transmis à un robot quadrupède à roues, qui les a acheminés jusqu'à un humanoïde sur plateforme roulante, lequel a positionné les boîtes sur des étagères situées à plus de deux mètres de hauteur. Le cycle complet, entre stations espacées de deux à trois mètres, s'est bouclé en environ 90 secondes. L'ensemble repose sur la plateforme Physical Works de LG CNS, articulée en deux briques : Physical Works Forge (entraînement par simulation et données vidéo) et Physical Works Baton (orchestration centralisée de flottes multi-marques). La plateforme prend en charge les humanoïdes bipèdes et sur roues, les quadrupèdes, les AMR et les AGV via une interface unifiée. LG Display a par ailleurs dévoilé en parallèle un écran P-OLED courbe de 7,2 pouces (technologie Tandem OLED troisième génération) destiné à l'affichage facial des robots humanoïdes. Ce qui rend la démonstration techniquement notable, c'est moins la performance individuelle de chaque robot que la couche logicielle de coordination inter-marques. La plateforme intègre un mécanisme de réaffectation dynamique des tâches : lors de la simulation d'un incident, le quadrupède a été basculé vers une mission de patrouille de sécurité, et un AMR de remplacement a pris le relais de transport sans interrompre le flux. LG CNS annonce que cette approche ramène les délais de déploiement de plusieurs mois à un à deux mois, avec des projections de gains de productivité supérieurs à 15 % et de réduction des coûts opérationnels allant jusqu'à 18 % dans des environnements de flottes mixtes d'environ 100 unités. Ces chiffres restent des projections internes, non encore validés en production à grande échelle, et le cycle de 90 secondes a été mesuré sur une distance très courte, ce qui en limite la portée comme indicateur de performance industrielle réelle. LG CNS positionne Physical Works dans un marché où la concurrence se structure autour de plateformes d'orchestration robotique plutôt que d'hardwares isolés. Aux États-Unis, Boston Dynamics propose Orbit pour la gestion de flottes Spot, tandis qu'Amazon et ses partenaires intègrent déjà des flottes mixtes AMR-humanoïdes (Digit d'Agility Robotics) dans leurs entrepôts. En Corée du Sud, Samsung et Hyundai (actionnaire de Boston Dynamics) sont également présents sur ce terrain. LG CNS a annoncé mener des projets pilotes avec 20 clients industriels et déployer la plateforme dans le cadre du projet Busan Smart City. Le groupe a aussi pris des participations dans des entreprises de contrôle humanoïde et de robot foundation models, sans en préciser les noms, ce qui suggère une stratégie d'intégration verticale en cours de consolidation.

IndustrielOpinion
1 source
Apprentissage par renforcement basé sur un modèle pour le contrôle robotique via optimisation en ligne
350arXiv cs.RO 

Apprentissage par renforcement basé sur un modèle pour le contrôle robotique via optimisation en ligne

Des chercheurs ont publié sur arXiv (arXiv:2510.18518v2) un algorithme d'apprentissage par renforcement basé sur un modèle (MBRL) conçu pour contrôler des systèmes robotiques complexes directement dans le monde réel, sans passer par une phase de simulation intensive. L'approche construit un modèle de dynamique à partir des données d'interaction en temps réel, puis effectue des mises à jour de politique guidées par ce modèle appris. Les validations expérimentales ont été conduites sur deux plateformes distinctes : un bras d'excavatrice hydraulique et un bras robot souple. Dans les deux cas, l'algorithme atteint des performances comparables aux méthodes model-free en quelques heures d'entraînement, là où ces dernières réclament habituellement des millions d'interactions simulées. La robustesse de l'adaptation a également été évaluée sous conditions de charge utile (payload) aléatoire, avec des résultats stables malgré le changement de dynamique. L'enjeu principal est la réduction de ce que le secteur appelle le "sim-to-real gap" : l'écart entre les politiques apprises en simulation et leur comportement réel une fois déployées sur du matériel. Les pipelines dominants, adoptés aussi bien par des labos académiques que par des industriels comme Boston Dynamics ou Figure AI, reposent sur des millions de rollouts en simulation avant tout contact avec un robot physique, ce qui introduit un biais systématique difficile à corriger. Cet algorithme court-circuite cette étape en apprenant directement sur données réelles, avec une garantie formelle de progression : les auteurs démontrent des bornes de regret sous-linéaires (sublinear regret bounds) sous hypothèses d'optimisation stochastique en ligne, ce qui est rare dans la littérature MBRL appliquée à la robotique physique. Pour un intégrateur ou un industriel, cela se traduit par une réduction potentielle du temps de mise en service sur des tâches à dynamique variable (variation de charge, usure mécanique, changement de matériau). Ce travail s'inscrit dans un débat structurant du champ : model-based vs model-free RL pour la robotique physique. Les méthodes model-free comme PPO ou SAC dominent les benchmarks simulés mais peinent à s'adapter efficacement en production réelle. Des approches hybrides comme MBPO ou DreamerV3 ont tenté de combler cet écart, mais rarement validées sur des systèmes aussi hétérogènes qu'un bras hydraulique industriel et un manipulateur souple. La prochaine étape naturelle serait une validation sur des plateformes humanoïdes ou des AMR (autonomous mobile robots) à haute dimension, où les enjeux de sample efficiency sont directement liés aux coûts d'exploitation et à la durée de vie des actionneurs.

RecherchePaper
1 source