Aller au contenu principal
HumanoïdesarXiv cs.RO3h

MIND : contrôle de robot humanoïde par diffusion d'intention multi-échelle guidée par le texte

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié fin mai 2026 sur arXiv (2605.26006) MIND, un cadre de contrôle d'humanoïdes simulés piloté par commandes textuelles. Le système traduit une instruction en langage naturel en actions moteur de bas niveau via un mécanisme de diffusion multi-échelle. Deux composants cohabitent : un prédicteur d'intention globale, qui capture la dynamique générale du mouvement, et un prédicteur d'intention immédiate, qui raffine le geste à chaque itération du processus de diffusion. Clé du dispositif : les états internes de l'humanoïde sont encodés dans un espace latent et servent de pont sémantique entre le texte et les commandes moteur. Le code source sera mis en accès ouvert pour faciliter la reproductibilité.

L'apport de MIND est de contourner deux limitations structurelles bien documentées dans la littérature. Les pipelines en deux étapes, génération cinématique puis suivi physique, souffrent d'un décalage de domaine entre les deux modules, ce qui dégrade la qualité des comportements générés. Les approches bout-en-bout par imitation directe texte-vers-actions buttent sur l'écart sémantique entre langage naturel et signaux de bas niveau. En positionnant les états internes de l'humanoïde comme médiateur, sémantiquement plus proches du texte que les couples articulaires bruts, MIND réduit ce double handicap. Les benchmarks expérimentaux montrent des gains en cohérence physique et en alignement sémantique face aux méthodes de référence, bien que ces évaluations restent en environnement simulé, sans validation sur hardware réel.

Le contrôle d'humanoïdes par langage naturel se situe à l'intersection du reinforcement learning, de l'animation physique et des grands modèles de langage. Des travaux antérieurs comme PHC ou les modèles de diffusion de mouvement (MDM, MotionDiffuse) ont établi les bases cinématiques que MIND cherche à dépasser sur le plan de la plausibilité physique. Côté industriel, Figure AI, Boston Dynamics et Unitree Robotics explorent des pipelines texte-vers-mouvement pour leurs plateformes hardware, mais la majorité des démos publiées restent en simulation ou sur des tâches très contraintes. MIND s'inscrit dans la recherche fondamentale sans annoncer de déploiement concret ; son impact réel dépendra de sa capacité à franchir le sim-to-real gap, défi central non résolu pour le contrôle de corps entier.

À lire aussi

Adoptez une vision systémique pour le déploiement à grande échelle des humanoïdes au Robotics Summit
1Robotics Business Review 

Adoptez une vision systémique pour le déploiement à grande échelle des humanoïdes au Robotics Summit

Le Robotics Summit & Expo se tiendra les 27 et 28 mai 2026 à Boston, et l'un de ses temps forts techniques sera la session intitulée "Humanoids That Scale: A Systems and Semiconductor Perspective", programmée le second jour à 14h30 ET. L'intervenant principal sera Giovanni Campanella, directeur général du segment robotique chez Texas Instruments, ingénieur diplômé de l'Université de Bologne et du Politecnico di Torino. Sa présentation s'appuiera sur des architectures de référence et des cas de conception réels pour adresser quatre verrous techniques centraux dans le développement des humanoïdes : la fusion de capteurs à haute bande passante, le traitement IA embarqué en temps réel, le contrôle moteur de précision, et la fiabilité des communications entre sous-systèmes distribués. L'événement accueillera plus de 70 intervenants confirmés, issus notamment de Tesla, Toyota Research Institute, PickNik Robotics, Robust AI, Harmonic Drive et Fictiv, répartis sur plus de 50 sessions couvrant l'IA, le design, les technologies habilitantes, la santé et la logistique. La valeur de cette session tient à son niveau d'abstraction : alors que la plupart des annonces dans le secteur humanoïde portent sur les modèles de fondation, les VLA (Vision-Language-Action models) ou les benchmarks de locomotion, Campanella aborde la question par le bas de la pile, au niveau des chaînes de signal analogiques, de la gestion de puissance et du traitement embarqué. Pour un intégrateur ou un directeur technique qui doit concevoir un système déployable, c'est précisément là que se jouent les compromis décisifs : latence bout-en-bout, consommation énergétique par cycle de tâche, et fiabilité des communications dans un environnement industriel bruité. Le message implicite de Texas Instruments est que le "scaling" des humanoïdes n'est pas uniquement un problème logiciel, et que les semi-conducteurs restent un goulot d'étranglement sous-estimé dans la course à la commercialisation. Il faut noter que cet article est avant tout un communiqué promotionnel pour le sommet, sans métriques de déploiement ni annonce produit. Sur le fond, le Robotics Summit est produit par The Robot Report et WTWH Media, et constitue l'un des principaux rendez-vous techniques pour les développeurs de robotique commerciale aux États-Unis. Il est colocalisé cette année avec DeviceTalks Boston, dédié aux dispositifs médicaux. Dans le contexte plus large, la session TI s'inscrit dans une phase où les acteurs humanoïdes majeurs (Figure avec son robot 03, Tesla avec Optimus Gen 3, Physical Intelligence avec Pi-0, NVIDIA avec GR00T N2) ont tous publié des démonstrations convaincantes mais où les déploiements industriels à l'échelle restent rares. La question de savoir si l'infrastructure semiconducteur est prête à suivre la cadence des ambitions logicielles sera au coeur des échanges à Boston fin mai.

HumanoïdesActu
1 source
Apprentissage par renforcement guidé par référence pour la navigation autonome de robots humanoïdes en terrain variable
2arXiv cs.RO 

Apprentissage par renforcement guidé par référence pour la navigation autonome de robots humanoïdes en terrain variable

Une équipe de recherche publie sur arXiv (référence 2605.15517) une méthode d'entraînement de politiques de locomotion par apprentissage par renforcement (RL) pour robots humanoïdes, dans laquelle les trajectoires de référence sont adaptées dynamiquement à la géométrie du terrain pendant l'entraînement. Concrètement, le système génère en boucle des trajectoires de référence contrôlables en SE(2), l'espace de déplacement planaire, en projetant les appuis de pied sur des zones d'appui valides et en ajustant les trajectoires du pied oscillant et du centre de masse selon le relief. L'interface exposée est un vecteur de vitesse SE(2) standard, directement compatible avec les planificateurs de navigation autonome existants. Côté hardware, les chercheurs ont intégré cette politique avec un planificateur MPC (Model Predictive Control) couplé à des fonctions de barrière de contrôle (CBF), et démontré une navigation autonome en boucle fermée sur plus de 70 mètres en extérieur sur le robot Unitree G1, incluant des terrains accidentés et des escaliers consécutifs, avec l'ensemble du calcul et de la perception embarqués. Ce résultat est notable parce qu'il attaque directement le problème du "reality gap" dans la locomotion humanoïde sur terrain non structuré : en conditionnant les trajectoires de référence au terrain dès la phase de simulation, la politique apprend des comportements footholds-aware plutôt que des mouvements génériques dégradés au contact du sol réel. L'exposition d'une interface SE(2) propre signifie que cette politique s'insère sans friction dans un stack de navigation autonome standard, celui qu'utilisent déjà les AMR (autonomous mobile robots) industriels, sans couche d'adaptation supplémentaire. Pour un intégrateur ou un équipementier, c'est une architecture qui réduit la dette de middlewares entre planification de chemin et exécution de locomotion. Le Unitree G1 est un humanoïde à faible coût (environ 16 000 dollars) dont Unitree, fabricant chinois, a multiplié les variantes depuis 2024. Le domaine de la locomotion humanoïde guidée par trajectoires de référence est aussi exploré par des laboratoires comme CMU, ETH Zurich (ANYbotics, Legged Gym), et des équipes comme celles de Boston Dynamics ou Agility Robotics, qui privilégient des approches similaires sim-to-real. Ce travail reste une démonstration académique, parcours sélectionnés, conditions contrôlées, et n'est pas associé à une annonce de déploiement commercial. Les prochaines étapes logiques incluent des tests à plus grande échelle de variabilité de terrain et l'intégration avec des planificateurs 3D.

HumanoïdesPaper
1 source
Le robot humanoïde Tinnie devient apprenti dans un projet de rénovation, une première mondiale
3Interesting Engineering 

Le robot humanoïde Tinnie devient apprenti dans un projet de rénovation, une première mondiale

Un robot humanoide d'Unitree Robotics, baptisé "Tinnie", s'apprête à intégrer un chantier de rénovation résidentielle en Australie dans le cadre d'un projet intitulé "The Farmhouse". La propriété couvre 8,3 acres à Mulgoa, à quelques minutes du nouvel aéroport international de l'ouest de Sydney. Le site présente un indice BAL 29 (Bushfire Attack Level), correspondant à une exposition élevée aux attaques par braises et chaleur rayonnante, et héberge une faune reptilienne ajoutant une contrainte de sécurité supplémentaire. L'initiative est portée par Cherie Barber, animatrice de télévision surnommée "la Reine de la Rénovation" en Australie, et son partenaire Matt Hume, qui ont coordonné le projet avec Unitree Robotics pendant six mois, incluant un déplacement en Chine pour observer le robot en action. Le nom "Tinnie" est un double clin d'oeil à l'Homme de Fer-blanc du Magicien d'Oz et au slang australien désignant une bière en canette. La mission du robot ne comprend aucune tâche physique: il accueillera les équipes sur site, conduira les inductions de sécurité, consultera les codes du bâtiment, vérifiera les spécifications produits et conseillera sur les décisions de conception. Le projet sera documenté dans une série télévisée nationale australienne et en épisodes bimensuels sur la chaîne YouTube de Cherie Barber. Ce déploiement se distingue nettement des démonstrations industrielles récentes d'humanoïdes: Tinnie ne manipule ni outils ni matériaux, et son rôle reste strictement informationnel. Pour les intégrateurs et décideurs B2B du secteur du bâtiment, la question légitime est de savoir si la forme humanoïde apporte une valeur ajoutée réelle par rapport à une tablette ou un assistant vocal embarqué sur chantier. La communication officielle ne cite aucune métrique de performance: pas de taux d'adoption par les ouvriers, pas de réduction du temps de cycle, aucun indicateur de productivité mesurable. La revendication de "première mondiale" mérite donc d'être tempérée: il s'agit davantage d'une expérience sociale médiatisée que d'un pilote industriel formalisé. Ce qui reste potentiellement instructif pour le secteur, c'est l'exposition du robot à un environnement de chantier actif soumis à des contraintes réglementaires et environnementales réelles, loin des conditions contrôlées de laboratoire. Unitree Robotics est un fabricant chinois positionné sur le segment accessible des robots humanoïdes et quadrupèdes, dont le H1 et le G1 sont commercialisés bien en dessous des tarifs pratiqués par Figure AI ou Boston Dynamics. L'entreprise cherche à multiplier les déploiements visibles à l'international pour crédibiliser ses plateformes face à une concurrence qui progresse sur des cas d'usage plus opérationnels: Boston Dynamics déploie Spot en inspection de chantier, Built Robotics opère des engins autonomes en génie civil, et en Europe, Enchanted Tools (France) développe des approches robotiques collaboratives en environnement de travail mixte. Le projet "The Farmhouse" intègre également un volet de vie autonome, avec serre maraîchère, verger, ruches et poulailler, ce qui renforce l'impression d'une opération de contenu lifestyle plutôt que d'une validation technologique rigoureuse. Les prochaines étapes annoncées se limitent à la production audiovisuelle, sans timeline de déploiement à plus grande échelle ni partenariats industriels communiqués.

HumanoïdesOpinion
1 source
Les robots humanoïdes Figure AI atteignent un jalon de 24h/7 de travail continu en conditions réelles
4Interesting Engineering 

Les robots humanoïdes Figure AI atteignent un jalon de 24h/7 de travail continu en conditions réelles

Trois robots humanoïdes de Figure AI ont dépassé 24 heures de fonctionnement autonome continu le 14 mai 2026, sur une tâche de tri de colis dans un entrepôt dont la localisation exacte n'a pas été précisée. L'opération, initialement prévue comme un test de 8 heures, a été prolongée sans interruption après une première journée sans incident signalé. Brett Adcock, fondateur et PDG de la startup californienne, a diffusé l'opération en direct sur internet, où les internautes ont surnommé les trois machines "Bob", "Frank" et "Gary". Les robots, pilotés par le système embarqué Helix-02, ont trié plus de 28 000 colis pendant l'opération, à raison d'environ 3 secondes par colis, soit la parité annoncée avec un opérateur humain. La tâche consiste à détecter les codes-barres par caméra, saisir les paquets et les déposer face vers le bas sur des tapis roulants, sans aucune télé-opération. Helix-02 est décrit comme un réseau de neurones unifié intégrant vision, toucher, proprioception et contrôle du corps entier, fonctionnant entièrement en embarqué. Figure AI affirme également que si un robot se retrouve hors de sa distribution d'entraînement, Helix-02 déclenche une réinitialisation autonome, et que les machines peuvent quitter la zone de travail d'elles-mêmes en cas de problème matériel, pendant qu'un congénère prend le relais. Ce résultat constitue une réponse directe au reproche chronique du secteur : le "demo-to-reality gap", l'écart entre démonstrations de quelques minutes en conditions maîtrisées et déploiements industriels réels. Une opération de 24 heures sur une tâche répétitive à cadence humaine dépasse ce que la majorité des concurrents a rendu public à ce jour, et change structurellement l'argumentaire commercial : un intégrateur ou un COO logistique peut commencer à modéliser un ROI sur des shifts complets plutôt que sur des pilotes vitrines. L'architecture à modèle unique de Helix-02, qui fusionne déplacement, manipulation et coordination dans un seul réseau, s'inscrit dans la tendance VLA (Vision-Language-Action) et contraste avec les approches modulaires classiques de la robotique industrielle. Il convient néanmoins de noter que les métriques présentées sont autodéclarées par Figure AI, dans un environnement filmé et contrôlé par l'entreprise ; la diversité réelle des colis, les conditions ambiantes et le taux d'échec détaillé restent insuffisamment documentés pour une validation rigoureuse. Figure AI a été fondée en 2022 à Sunnyvale et avait précédemment testé ses humanoïdes sur les lignes de BMW en Caroline du Sud, une référence industrielle qui lui a apporté visibilité et crédibilité. La startup se positionne sur le même segment que Tesla avec Optimus Gen 3, Agility Robotics (filiale d'Amazon) avec Digit, et Apptronik avec Apollo, tous en lice pour les marchés de la logistique entrepôt et de l'assemblage industriel. L'annonce intervient dans un contexte de course à la preuve opérationnelle, avant les premiers déploiements commerciaux à l'échelle, dont Figure AI n'a pas encore communiqué de dates ni de volumes précis. En Europe, des acteurs comme Enchanted Tools avec Mirokaï ou Wandercraft progressent sur des segments adjacents, mais aucun n'a publié de métriques d'endurance comparables à ce stade.

UELe jalon de 24h de Figure AI fixe un nouveau benchmark opérationnel que les acteurs européens comme Enchanted Tools et Wandercraft n'ont pas encore atteint, renforçant la pression concurrentielle sur l'écosystème humanoïde européen.

HumanoïdesOpinion
1 source