Aller au contenu principal
Comment les humanoïdes apprennent à interpréter leur environnement
HumanoïdesRobotics Business Review6sem

Comment les humanoïdes apprennent à interpréter leur environnement

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Intégrer un robot humanoïde dans un environnement partagé avec des humains exige une capacité perceptive quasi-instantanée sur plusieurs canaux simultanés. Analog Devices Inc. (ADI) détaille dans une publication récente les contraintes techniques concrètes de cette perception multi-sensorielle, à travers le regard de Geir Ostrem, Fellow ADI au sein de la division Automotive. La vision constitue le premier pilier : des capteurs RGB associés à des modules de profondeur (temps de vol, lumière structurée ou stéréovision) permettent à un humanoïde de cartographier son environnement en continu. Le défi n'est pas tant la capture d'image que le transport et le traitement de ces données en temps réel. Les capteurs étant éloignés du processeur central, le câblage représente une contrainte mécanique non négligeable. ADI y répond avec sa technologie GMSL (Gigabit Multimedia Serial Link), empruntée à l'automobile, capable de transporter plusieurs gigabits par seconde sur un flux unique, tout en permettant un traitement local embarqué plutôt qu'un envoi vers le cloud. L'audio constitue le deuxième pilier : microphones MEMS, beamforming et détection d'événements acoustiques permettent à un robot d'identifier une chute d'objet derrière lui ou d'engager une conversation en langage naturel, réduisant la friction opérationnelle avec les équipes humaines.

Ce que cet article met en évidence, c'est que le vrai goulot d'étranglement dans le déploiement d'humanoïdes en milieu industriel n'est pas le mouvement ni la force, mais la latence perceptive et la confiance. Un robot qui réagit avec 200 ms de retard à un opérateur qui traverse son couloir reste dangereux, quelle que soit la sophistication de son bras. La répartition du traitement entre un processeur central et des unités dédiées proches des actionneurs, pattern déjà éprouvé en automotive et en robotique AMR, devient donc une question d'architecture système autant que de composants. Pour les intégrateurs industriels et les décideurs B2B, cela signifie que l'évaluation d'un humanoïde ne peut plus se limiter au payload ou aux degrés de liberté : il faut auditer la chaîne complète vision-audio-force et ses latences bout-en-bout.

ADI occupe une position historiquement forte sur les capteurs inertiels (famille ADIS d'IMU), les convertisseurs analogique-numérique haute précision et, plus récemment, sur la transmission vidéo embarquée via GMSL, technologie aujourd'hui omniprésente dans les ADAS automobiles. La transposition de cette stack vers la robotique humanoïde s'inscrit dans une tendance plus large où les fournisseurs de composants automotive cherchent de nouveaux marchés à mesure que le design automobile se stabilise. Il convient de noter que cet article est une publication de contenu éditorial produit par ADI, non une analyse indépendante, ce qui colore naturellement le positionnement technologique présenté. Les concurrents directs sur ces briques (Texas Instruments sur les ToF et GMSL-équivalents, Sony sur les capteurs CMOS, Bosch et STMicroelectronics sur les MEMS audio et inertiels) ne sont pas mentionnés. Les prochaines étapes annoncées restent floues : aucun déploiement client nommé, aucune timeline précise, ce qui positionne ce contenu davantage comme une feuille de route technologique que comme l'annonce d'un produit shipé.

À lire aussi

Apprendre à évoluer : champs interactifs multimodaux pour la navigation humanoïde robuste en environnements dynamiques
1arXiv cs.RO 

Apprendre à évoluer : champs interactifs multimodaux pour la navigation humanoïde robuste en environnements dynamiques

Des chercheurs ont publié sur arXiv (2605.21935, mai 2026) un système de cartographie dynamique baptisé MIF (Multi-modal Interactive Field), conçu pour permettre aux robots humanoïdes de naviguer et de manipuler des objets dans des environnements réels en constante évolution. Testé sur un Unitree G1, le système améliore le taux de relocalisation dans un bureau non-statique de 12 % à 94 %, tout en réduisant l'empreinte mémoire sémantique de 91,4 % grâce à la distillation de features. MIF repose sur trois composantes couplées : un champ d'apparence basé sur le 3D Gaussian Splatting (3DGS) conscient de l'incertitude pour atténuer le flou induit par la marche bipède, un champ spatial maintenant une mémoire topologique de la scène, et un champ géométrique qui calcule une pose d'interaction sûre (Interaction Pose Safety, IPS) avant chaque manipulation. Un score de détection de discordance distingue les fausses alarmes dues aux oscillations du robot des changements persistants réels, et ne met à jour que les zones localement incohérentes. L'enjeu pratique est direct : les systèmes de cartographie sémantique existants (semantic maps, scene graphs) supposent généralement des trajectoires caméra stables et des environnements statiques, deux hypothèses qu'un humanoïde en mouvement viole en permanence. Passer de 12 % à 94 % de succès en relocalisation sur un robot réel dans un bureau avec personnes en mouvement constitue un résultat concret, pas une démo en laboratoire contrôlé. Pour un intégrateur ou un COO industriel évaluant des humanoïdes pour des tâches de pick-and-place, la capacité à maintenir une carte cohérente sous perturbation locomotrice est un prérequis opérationnel non négociable que la plupart des démos actuelles ne valident pas. Le contexte de ce travail s'inscrit dans l'essor du 3DGS comme alternative aux NeRF pour la représentation de scènes en temps réel, une technique popularisée en 2023 et dont l'adaptation à la robotique mobile reste un sujet de recherche actif. L'Unitree G1 est l'une des plateformes humanoïdes commerciales les plus accessibles du marché (autour de 16 000 dollars), ce qui rend ce type de validation plus reproductible que sur des robots propriétaires comme l'Atlas de Boston Dynamics ou le Figure 02. Le code et la page projet sont publiés (ziya-jiang.github.io/MIF-homepage), signal d'une recherche ouverte à la reproduction. Les prochaines étapes naturelles seraient une validation à plus grande échelle et une intégration dans des pipelines de manipulation end-to-end, terrain sur lequel Physical Intelligence (Pi-0) et les équipes GR00T de NVIDIA travaillent en parallèle.

HumanoïdesPaper
1 source
Les humanoïdes apprennent à lire les situations
2Robotics Business Review 

Les humanoïdes apprennent à lire les situations

Concevoir un robot humanoïde capable d'opérer en sécurité aux côtés d'humains mobilise aujourd'hui une chaîne complète de technologies de perception en temps réel. Analog Devices Inc. (ADI) détaille dans un article technique les briques nécessaires à cette conscience situationnelle, porté par Geir Ostrem, Fellow ADI au sein de l'unité Automotive. Le défi central est architectural : capteurs visuels et microphones sont physiquement éloignés du processeur principal, ce qui introduit de la latence sur des câbles longs. Pour y répondre, ADI adapte sa technologie GMSL (Gigabit Multimedia Serial Link), déjà standardisée en automobile, aux châssis humanoïdes. GMSL transporte de la vidéo en flux unique à plusieurs gigabits par seconde, permettant un traitement local embarqué (via ce qu'ADI appelle "physical AI") plutôt qu'un renvoi vers le cloud. Sur la partie vision, les méthodes évoquées sont connues : capteurs RGB, time-of-flight, lumière structurée et stéréovision pour la profondeur. Sur la partie audio, la problématique est similaire : il faut une latence déterministe entre les microphones et l'ordinateur central pour localiser et identifier des événements sonores, par exemple un objet qui tombe derrière le robot. Des processeurs secondaires, positionnés au plus près des capteurs ou des actionneurs, gèrent les boucles de contrôle rapides et transmettent en parallèle au processeur principal. Ce que cette publication illustre concrètement, c'est le déplacement du centre de gravité technologique dans la robotique humanoïde : la mécanique et les modèles de mouvement ne suffisent plus, c'est la couche de perception embarquée qui devient le facteur limitant pour un déploiement en environnement mixte. La latence n'est pas un détail d'ingénierie, c'est une contrainte de sécurité. Un humanoïde qui réagit avec 200 ms de délai à un collègue qui change de trajectoire n'est pas exploitable en production. Le passage au traitement local, sans dépendance réseau, est donc moins un choix de performance qu'une nécessité opérationnelle, surtout dans des ateliers ou entrepôts où la connectivité peut être dégradée. L'article confirme ce que les intégrateurs industriels observent terrain : les architectures distribuées, avec des processeurs locaux près des actionneurs, deviennent le standard de facto pour les boucles de contrôle à haute fréquence. ADI arrive dans la robotique humanoïde depuis l'automobile, où GMSL équipe déjà les systèmes ADAS de nombreux constructeurs. Ce repositionnement sectoriel est cohérent avec la dynamique du marché : la pénurie de main-d'oeuvre pousse à l'accélération des déploiements en espaces partagés, et les fabricants d'humanoïdes, de Figure à Tesla Optimus en passant par Agility Robotics ou 1X Technologies, ont tous besoin de sous-systèmes de perception matures et validés industriellement. À noter que cet article est un contenu sponsorisé signé ADI, ce qui tempère son caractère neutre : les métriques citées (débit GMSL, latence) sont présentées sans benchmark comparatif ni conditions de test précisées. Les prochaines étapes probables pour ADI consistent à nouer des partenariats OEM directs avec des constructeurs d'humanoïdes, une dynamique déjà visible chez des fournisseurs de composants comme NVIDIA (plateforme Thor/Jetson) ou Bosch, qui ciblent eux aussi ce segment en pleine structuration.

InfrastructureActu
1 source
Locomotion corps entier des humanoïdes : apprentissage par génération et suivi de mouvement
3arXiv cs.RO 

Locomotion corps entier des humanoïdes : apprentissage par génération et suivi de mouvement

Des chercheurs proposent un cadre de locomotion humanoid corps-entier combinant un modèle de diffusion entraîné sur des mouvements humains retargetés avec un tracker de mouvements par apprentissage par renforcement (RL), le tout déployé sur le robot Unitree G1. Le système génère en temps réel des trajectoires de référence adaptées au terrain, puis un module de suivi les exécute sur le robot complet, en s'appuyant uniquement sur la perception embarquée. Lors des tests matériels, le G1 a franchi avec succès des boîtes, des haies, des escaliers et des combinaisons de terrains mixtes, sans recourir à des capteurs externes ni à un calcul déporté. L'enjeu technique central que ce travail adresse est connu dans le secteur sous le nom de "lower-body dominance" : les approches RL classiques avec reward shaping tendent à produire une locomotion efficace mais raide, concentrée sur les jambes, au détriment de la coordination du buste et des bras. À l'inverse, l'imitation pure de mouvements de référence limite la capacité d'adaptation en ligne aux obstacles imprévus. Le couplage proposé -- générer à la volée la référence adaptée au terrain puis la tracker en boucle fermée -- représente une architecture crédible pour combler ce gap, même si les vidéos de démonstration présentées restent sélectionnées et ne constituent pas encore une validation sur terrain non contrôlé à large échelle. Le Unitree G1, commercialisé depuis 2024 à environ 16 000 dollars, est devenu un banc de test standard pour les laboratoires académiques en locomotion humanoid, au même titre que l'Atlas de Boston Dynamics pour les groupes industriels. Ce travail s'inscrit dans une vague de publications exploitant les modèles de diffusion pour la génération de mouvements robotiques, une tendance initiée notamment par les travaux sur pi0 (Physical Intelligence) et GR00T N2 (NVIDIA). Les auteurs annoncent des résultats quantitatifs montrant que la fine-tuning en boucle fermée améliore la généralisation ; la prochaine étape logique serait une validation sur des terrains non vus pendant l'entraînement et un déploiement en conditions industrielles réelles.

HumanoïdesPaper
1 source
SceneBot : suivi corps entier d'humanoïde généraliste guidé par contacts avec l'environnement
4arXiv cs.RO 

SceneBot : suivi corps entier d'humanoïde généraliste guidé par contacts avec l'environnement

SceneBot est un cadre de contrôle pour robots humanoïdes déposé le 29 juin 2026 sur arXiv (référence 2606.27581), dont le code et les données seront entièrement publiés en open source. Le système entraîne une politique unique de reinforcement learning sur 7,5 heures de données de mouvement annotées en contacts, reconstituées depuis la motion capture humaine. SceneBot conditionne cette politique à la fois sur des mouvements de référence et sur des étiquettes de contact par segment corporel (per-link contact labels), définissant explicitement les interactions physiques attendues avec l'environnement. Le résultat est un agent humanoïde capable d'enchaîner locomotion en espace libre, franchissement de terrain irrégulier et manipulation corps entier, illustré par une tâche de référence : porter une boîte en montant un escalier. Ce que SceneBot résout est un verrou technique bien documenté : les politiques RL de locomotion humanoïde fonctionnent bien en espace libre mais échouent dès qu'un contact physique avec un objet ou une surface irrégulière est requis, car le tracking cinématique pur ne peut pas résoudre les ambiguïtés physiques de ces situations. En introduisant le "contact conditioning" comme interface de contrôle, les chercheurs montrent que 7,5 heures de données suffisent à généraliser à des mouvements et environnements non vus à l'entraînement. Pour les intégrateurs B2B et les décideurs industriels, cela suggère qu'une politique unifiée peut couvrir navigation et manipulation sans modules spécialisés distincts, et constitue une réponse partielle au "demo-to-reality gap" qui fragilise la crédibilité des annonces humanoïdes depuis plusieurs années. La contribution technique centrale est une méthode appelée "hindsight scene reconstruction" : à partir de mouvements humains retargeted, les auteurs reconstruisent après coup les graphes d'interaction avec la scène pour inférer les contacts, évitant l'annotation manuelle qui freine habituellement la constitution de tels datasets. Ce positionnement académique a des implications directes pour les développeurs de plateformes humanoïdes confrontés au même obstacle, notamment Figure AI, Agility Robotics, Unitree et Apptronik. Aucun déploiement industriel n'est annoncé à ce stade : SceneBot est une publication de recherche dont les résultats n'ont pas encore été validés sur hardware en conditions réelles, et les métriques présentées s'appuient sur des simulations et des démonstrations sélectionnées.

HumanoïdesPaper
1 source