Aller au contenu principal
HumanoïdesarXiv cs.RO1h

Suivi corporel intégral contraint pour robots humanoïdes

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (2606.00374) un framework de contrôle baptisé ConstrainedMimic, conçu pour imposer des contraintes de sécurité en temps réel sur des robots humanoïdes pilotés par apprentissage par renforcement. La démonstration s'appuie sur un Unitree G1 simulé : le système fait tourner la politique de suivi de mouvement whole-body à 300-500 Hz, indifféremment sur CPU, GPU ou TPU, tout en garantissant simultanément l'évitement de collisions (auto-collisions et obstacles externes), le respect des butées articulaires et la stabilité du centre de masse. Les expériences couvrent le suivi de mouvements cinématiques référencés et la téléopération. Le code sera libéré à la publication.

L'enjeu sous-jacent est structurant pour l'industrialisation des humanoïdes : les politiques RL apprennent des comportements agiles mais ne savent pas, par défaut, respecter des contraintes ajoutées après entraînement, ce qui bloque le déploiement dans des environnements où les exigences de sécurité évoluent (cellule de travail reconfigurée, proximité opérateur, certification CE). ConstrainedMimic répond à ce problème en combinant deux outils de contrôle classiques, le contrôle en espace opérationnel (OSC) et les control barrier functions (CBF), pour projeter la commande du réseau de neurones dans un espace faisable respectant les contraintes actives. La méthode est entièrement différentiable et n'altère la politique que le strict minimum lorsqu'une contrainte entre en jeu, ce qui la distingue des approches d'override brutales. C'est un pas vers la séparation propre entre performance et sécurité dans les pipelines RL pour humanoïdes.

Le sujet s'inscrit dans une course active à la robustesse des politiques whole-body : Figure (Figure 02/03), Boston Dynamics (Atlas), Agility Robotics (Digit) et Unitree investissent massivement en RL locomotion, mais la question des garanties formelles reste un angle mort industriel. Les CBF sont bien établies en robotique mobile (AMR, véhicules autonomes) mais leur intégration dans des politiques RL pour humanoïdes à haute dimension cinématique est encore exploratoire. À noter : l'évaluation reste entièrement en simulation, ce qui laisse ouverte la question du sim-to-real gap sur les contraintes dynamiques, un point que les auteurs n'adressent pas dans cet abstract. La publication du code facilitera la reproductibilité et pourrait accélérer l'adoption dans des labos comme le DLR, l'INRIA ou des intégrateurs industriels européens travaillant sur la certification de robots collaboratifs.

Impact France/UE

La publication du code pourrait permettre à des laboratoires européens comme l'INRIA ou le DLR d'intégrer des garanties formelles de sécurité dans leurs pipelines RL pour humanoïdes, facilitant la certification CE de robots collaboratifs en environnement industriel partagé.

À lire aussi

SONIC : un système de suivi du mouvement étendu pour le contrôle corporel intégral des humanoïdes
1arXiv cs.RO 

SONIC : un système de suivi du mouvement étendu pour le contrôle corporel intégral des humanoïdes

Des chercheurs présentent SONIC (arXiv:2511.07820), un modèle fondateur pour le contrôle corporel complet de robots humanoïdes, construit autour d'une mise à l'échelle agressive le long de trois axes : la capacité réseau (de 1,2 million à 42 millions de paramètres), le volume de données (plus de 100 millions de frames issues de 700 heures de capture de mouvement) et le calcul (21 000 heures GPU). La tâche centrale est le suivi de mouvement (motion tracking), utilisé comme proxy d'entraînement pour inculquer des priors sur le mouvement humain sans ingénierie manuelle de récompenses. Deux applications aval sont démontrées : un planificateur cinématique temps réel reliant le suivi de mouvement à des tâches de navigation, et un espace de tokens unifié permettant à une seule politique de gérer à la fois la téléopération VR et des modèles vision-langage-action (VLA). Dans ce second mode, le système réalise de la loco-manipulation autonome en coordonnant simultanément position des mains et des pieds. L'apport principal est d'étendre les lois de scaling, jusqu'ici réservées aux grands modèles de langage, au contrôle humanoïde à corps complet. Les auteurs montrent que les performances progressent de manière régulière avec la quantité de données et le calcul, et que les politiques apprises généralisent à des mouvements non vus à l'entraînement, sans nécessiter de reward shaping manuel. Pour les intégrateurs, l'interface unifiée VR-VLA dans un seul modèle réduit le coût d'adaptation entre téléopération humaine et autonomie. Il convient néanmoins de noter qu'il s'agit d'une publication académique, non d'un produit déployé, et que les démonstrations vidéo sélectionnées ne permettent pas encore d'évaluer la robustesse en conditions industrielles réelles. SONIC s'inscrit dans une course au scaling qui agite l'ensemble de la filière humanoïde. Physical Intelligence a publié Pi-0, un modèle VLA polyvalent ; NVIDIA a lancé GR00T N2 en s'appuyant sur des données synthétiques massives ; Figure et Tesla visent des architectures propriétaires à grande échelle avec Optimus Gen 3. Les 42 millions de paramètres de SONIC restent modestes comparés aux VLA les plus ambitieux, et le travail ne mentionne pas d'affiliation à un fabricant de robot ni de calendrier de déploiement physique. La prochaine étape logique serait une validation sur hardware réel avec des évaluations quantitatives standardisées, un exercice que les benchmarks émergents du secteur commencent tout juste à formaliser.

IA physiqueOpinion
1 source
MIND : contrôle de robot humanoïde par diffusion d'intention multi-échelle guidée par le texte
2arXiv cs.RO 

MIND : contrôle de robot humanoïde par diffusion d'intention multi-échelle guidée par le texte

Des chercheurs ont publié fin mai 2026 sur arXiv (2605.26006) MIND, un cadre de contrôle d'humanoïdes simulés piloté par commandes textuelles. Le système traduit une instruction en langage naturel en actions moteur de bas niveau via un mécanisme de diffusion multi-échelle. Deux composants cohabitent : un prédicteur d'intention globale, qui capture la dynamique générale du mouvement, et un prédicteur d'intention immédiate, qui raffine le geste à chaque itération du processus de diffusion. Clé du dispositif : les états internes de l'humanoïde sont encodés dans un espace latent et servent de pont sémantique entre le texte et les commandes moteur. Le code source sera mis en accès ouvert pour faciliter la reproductibilité. L'apport de MIND est de contourner deux limitations structurelles bien documentées dans la littérature. Les pipelines en deux étapes, génération cinématique puis suivi physique, souffrent d'un décalage de domaine entre les deux modules, ce qui dégrade la qualité des comportements générés. Les approches bout-en-bout par imitation directe texte-vers-actions buttent sur l'écart sémantique entre langage naturel et signaux de bas niveau. En positionnant les états internes de l'humanoïde comme médiateur, sémantiquement plus proches du texte que les couples articulaires bruts, MIND réduit ce double handicap. Les benchmarks expérimentaux montrent des gains en cohérence physique et en alignement sémantique face aux méthodes de référence, bien que ces évaluations restent en environnement simulé, sans validation sur hardware réel. Le contrôle d'humanoïdes par langage naturel se situe à l'intersection du reinforcement learning, de l'animation physique et des grands modèles de langage. Des travaux antérieurs comme PHC ou les modèles de diffusion de mouvement (MDM, MotionDiffuse) ont établi les bases cinématiques que MIND cherche à dépasser sur le plan de la plausibilité physique. Côté industriel, Figure AI, Boston Dynamics et Unitree Robotics explorent des pipelines texte-vers-mouvement pour leurs plateformes hardware, mais la majorité des démos publiées restent en simulation ou sur des tâches très contraintes. MIND s'inscrit dans la recherche fondamentale sans annoncer de déploiement concret ; son impact réel dépendra de sa capacité à franchir le sim-to-real gap, défi central non résolu pour le contrôle de corps entier.

HumanoïdesPaper
1 source
La première usine intégrée de robots humanoïdes aux États-Unis vise 100 000 NEO d'ici 2027
3Interesting Engineering 

La première usine intégrée de robots humanoïdes aux États-Unis vise 100 000 NEO d'ici 2027

1X, entreprise de robotique dont le siège est à Hayward en Californie, a lancé la production en série de son robot humanoïde NEO dans une usine de 5 400 m² ouverte dans la même ville. La structure emploie actuellement plus de 200 personnes et affiche une capacité de production de 10 000 unités par an, avec l'ambition de dépasser 100 000 robots annuels d'ici 2027. Conçu pour un usage résidentiel (assistance à la mobilité, tâches ménagères légères, interaction quotidienne), le NEO sera proposé à 20 000 dollars à l'achat ou 499 dollars par mois en abonnement. Les premières livraisons aux clients sont prévues pour 2026, via un programme d'accès anticipé. Selon l'entreprise, la totalité de la première année de production, soit plus de 10 000 unités, aurait été réservée en cinq jours lors de l'ouverture des commandes en octobre dernier, un chiffre non corroboré par une source tierce. La démarche de 1X se distingue par une intégration verticale quasi complète : moteurs, batteries, capteurs, structures mécaniques et systèmes de transmission sont conçus et fabriqués en interne, y compris des lignes automatisées de bobinage de cuivre pour les actionneurs. Cette stratégie vise à réduire la dépendance aux fournisseurs externes, accélérer les cycles d'itération matérielle et améliorer la fiabilité, un enjeu critique pour des robots destinés à évoluer dans des environnements domestiques imprévisibles. Chaque NEO embarque la plateforme de calcul NVIDIA Jetson Thor, qui assure l'inférence IA en temps réel à bord (perception, raisonnement, navigation) sans dépendre de l'infrastructure cloud, réduisant ainsi la latence opérationnelle. L'entraînement des comportements passe par les outils de simulation NVIDIA Isaac, permettant un apprentissage par renforcement à grande échelle avant tout déploiement physique, une approche sim-to-real dont la robustesse dans des foyers réels reste à valider. 1X Technologies, anciennement connue sous le nom de Halodi Robotics et d'origine norvégienne, s'est implantée aux États-Unis pour accélérer sa commercialisation. Elle se positionne sur un segment très disputé : Boston Dynamics (Atlas électrique), Figure AI (Figure 03, en partenariat avec BMW), Apptronik (Apollo), Agility Robotics (Digit, déployé chez Amazon) et Tesla (Optimus) se disputent tous une place dans les environnements logistiques et résidentiels. La particularité de 1X est de cibler explicitement le marché grand public plutôt que l'industrie lourde, un positionnement plus risqué à court terme mais potentiellement adressable à bien plus grand volume. Les prochaines étapes déclarées incluent la montée en cadence de l'usine de Hayward, le début des livraisons clients en 2026 et la validation des comportements IA dans des foyers réels, étape déterminante pour savoir si l'humanoïde domestique peut tenir ses promesses face à la complexité du quotidien.

UE1X est issue de Halodi Robotics (Norvège), ce qui confère à son montée en puissance industrielle aux États-Unis une pression concurrentielle indirecte sur les acteurs européens de l'humanoïde ; aucun déploiement ni partenariat EU annoncé à ce stade.

HumanoïdesActu
1 source
Locomotion corps entier des humanoïdes : apprentissage par génération et suivi de mouvement
4arXiv cs.RO 

Locomotion corps entier des humanoïdes : apprentissage par génération et suivi de mouvement

Des chercheurs proposent un cadre de locomotion humanoid corps-entier combinant un modèle de diffusion entraîné sur des mouvements humains retargetés avec un tracker de mouvements par apprentissage par renforcement (RL), le tout déployé sur le robot Unitree G1. Le système génère en temps réel des trajectoires de référence adaptées au terrain, puis un module de suivi les exécute sur le robot complet, en s'appuyant uniquement sur la perception embarquée. Lors des tests matériels, le G1 a franchi avec succès des boîtes, des haies, des escaliers et des combinaisons de terrains mixtes, sans recourir à des capteurs externes ni à un calcul déporté. L'enjeu technique central que ce travail adresse est connu dans le secteur sous le nom de "lower-body dominance" : les approches RL classiques avec reward shaping tendent à produire une locomotion efficace mais raide, concentrée sur les jambes, au détriment de la coordination du buste et des bras. À l'inverse, l'imitation pure de mouvements de référence limite la capacité d'adaptation en ligne aux obstacles imprévus. Le couplage proposé -- générer à la volée la référence adaptée au terrain puis la tracker en boucle fermée -- représente une architecture crédible pour combler ce gap, même si les vidéos de démonstration présentées restent sélectionnées et ne constituent pas encore une validation sur terrain non contrôlé à large échelle. Le Unitree G1, commercialisé depuis 2024 à environ 16 000 dollars, est devenu un banc de test standard pour les laboratoires académiques en locomotion humanoid, au même titre que l'Atlas de Boston Dynamics pour les groupes industriels. Ce travail s'inscrit dans une vague de publications exploitant les modèles de diffusion pour la génération de mouvements robotiques, une tendance initiée notamment par les travaux sur pi0 (Physical Intelligence) et GR00T N2 (NVIDIA). Les auteurs annoncent des résultats quantitatifs montrant que la fine-tuning en boucle fermée améliore la généralisation ; la prochaine étape logique serait une validation sur des terrains non vus pendant l'entraînement et un déploiement en conditions industrielles réelles.

HumanoïdesPaper
1 source