Aller au contenu principal
CoRe-MoE : un mélange d'experts contrastif pour la locomotion multi-terrain des robots humanoïdes avec adaptation de la démarche
IA physiquearXiv cs.RO1h

CoRe-MoE : un mélange d'experts contrastif pour la locomotion multi-terrain des robots humanoïdes avec adaptation de la démarche

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de recherche publie sur arXiv (2606.04718) CoRe-MoE, un framework d'apprentissage par renforcement en deux étapes conçu pour permettre à un robot humanoïde de marcher et de courir sur des terrains variés sans politique distincte par surface. L'architecture repose sur un Mixture-of-Experts (MoE) augmenté d'un objectif contrastif : une première phase entraîne une politique de locomotion de base produisant marche et course avec transitions fluides, puis une seconde phase greffe une branche MoE sensible au terrain, dont le réseau de gating est formé à distinguer structurellement les représentations de sol. L'action finale est une fusion pondérée entre la politique de base et la branche adaptative. Validé en simulation puis déployé en zero-shot sur le Unitree G1, le système traverse escaliers, rampes, marches, obstacles et terrains extérieurs non structurés tout en maintenant un placement de pied précis face à des perturbations externes.

L'intérêt de ce travail pour les intégrateurs et décideurs robotiques tient moins à la performance brute qu'à la méthode de découplage. Le problème classique dans l'entraînement multi-tâches est l'interférence de gradients : une politique unifiée marche/course/terrain provoque des conflits d'apprentissage qui dégradent chaque sous-compétence. CoRe-MoE contourne cela en séparant explicitement génération de démarche et adaptation terrain. L'objectif contrastif force une spécialisation claire des experts MoE, défaillance récurrente des implémentations MoE naïves. Le zero-shot sim-to-real sur G1 suggère une réduction du reality gap, point de friction central dans le passage de la simulation au déploiement industriel, bien que le papier ne fournisse pas de métriques de cycle ou de données de déploiement à l'échelle.

Le Unitree G1 est un humanoïde 23 degrés de liberté à environ 16 000 dollars, devenu référence de facto pour la recherche en locomotion académique, face au Boston Dynamics Atlas et à l'Agility Robotics Digit plus orientés industrie. CoRe-MoE s'inscrit dans un courant actif de politiques visuomotrices pour humanoïdes, aux côtés de travaux comme GR00T N2 de NVIDIA ou Pi-0 de Physical Intelligence, qui cherchent tous à unifier mobilité et manipulation sous une seule politique généraliste. La prochaine étape naturelle de ce type d'architecture est l'extension aux tâches de manipulation en locomotion, et le test sur des humanoïdes plus lourds à charge utile élevée, où la stabilité dynamique devient critique.

À lire aussi

Human2Humanoid : transfert de mouvement multi-morphologie assisté par la physique pour robots humanoïdes
1arXiv cs.RO 

Human2Humanoid : transfert de mouvement multi-morphologie assisté par la physique pour robots humanoïdes

Une équipe de recherche a publié le 3 juin 2026 sur arXiv (référence 2606.03476) un framework baptisé Human2Humanoid, conçu pour transférer automatiquement des mouvements humains vers des robots humanoïdes sans nécessiter de données d'entraînement appariées. La méthode, entièrement non supervisée, a été validée sur le robot Unitree G1, un humanoïde à 23 degrés de liberté commercialisé par la société chinoise Unitree Robotics. L'architecture repose sur un réseau adversarial de type CycleGAN couplé à un réseau de convolution sur graphes sensible à la topologie squelettique, permettant de capturer les caractéristiques motrices dépendantes de la structure anatomique. Pour compenser les écarts de proportions entre morphologies humaine et robotique, les auteurs introduisent une fonction de perte dite "morphology-invariant end-effector consistency" qui aligne les trajectoires normalisées des effecteurs terminaux (mains et pieds) afin de préserver la sémantique du mouvement d'un corps à l'autre. Des contraintes de faisabilité physique explicites sont également imposées pour reproduire les patterns de contact de la séquence source et limiter les artefacts cinématiques. Ce travail s'attaque à un goulot d'étranglement majeur du secteur humanoïde : le retargeting de mouvement est fondamental pour le télé-opération, l'apprentissage par imitation et l'interaction homme-robot, mais les approches supervisées exigent des corpus de données appariées humain-robot quasi inexistants à grande échelle. En supprimant cette contrainte, Human2Humanoid ouvre la voie à l'exploitation de bibliothèques de capture de mouvement (mocap) existantes sans phase de labellisation. Les résultats expérimentaux indiquent que la méthode surpasse les approches concurrentes sur deux critères clés : contrôlabilité en aval (la politique apprise est plus exploitable pour des tâches réelles) et faisabilité physique (moins de violations de contraintes, meilleure reproductibilité des contacts). C'est un signal positif dans un contexte où le fossé démo-réalité reste la critique récurrente du secteur. Le retargeting de mouvement humain vers robot est un champ de recherche actif depuis plusieurs années, alimenté par la course aux humanoïdes commerciaux. Unitree, positionné comme fournisseur de plateformes matérielles accessibles face à Boston Dynamics, Figure AI (modèle Figure 03), Tesla (Optimus Gen 3) ou Agility Robotics, bénéficie directement de ce type de contribution académique qui enrichit l'écosystème logiciel autour de son G1. Du côté des méthodes concurrentes, on trouve notamment des approches à base de réseaux de retargeting supervisés ou de politiques d'imitation directe comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Human2Humanoid n'est pas encore un produit déployé : c'est une contribution de recherche fondamentale, sans annonce de pilote industriel associée. Les prochaines étapes naturelles seraient une validation sur d'autres plateformes humanoïdes et une intégration dans des pipelines d'apprentissage par renforcement ou d'imitation à grande échelle.

IA physiquePaper
1 source
VOFA : poussée d'objets vers un objectif visuel avec contrôle adaptatif en force pour humanoïdes
2arXiv cs.RO 

VOFA : poussée d'objets vers un objectif visuel avec contrôle adaptatif en force pour humanoïdes

Une équipe de chercheurs a publié en mai 2025 sur arXiv les résultats de VOFA, un système de loco-manipulation destiné aux robots humanoïdes capable de pousser des objets lourds vers des positions cibles arbitraires en utilisant uniquement la perception embarquée. Les expériences ont été conduites sur le robot humanoïde Booster T1, et les résultats affichent un taux de réussite supérieur à 90 % en simulation et supérieur à 80 % en conditions réelles. Le système parvient à déplacer des charges allant jusqu'à 17 kg, soit plus de la moitié du poids propre du T1, sans aucune connaissance préalable de la masse des objets ni du coefficient de friction au sol. L'architecture repose sur deux niveaux hiérarchiques : une politique visuomotrice haut niveau, conditionnée par les objectifs, qui traite des observations embarquées bruitées, et un contrôleur bas niveau de type force-adaptive whole-body qui absorbe les incertitudes physiques en boucle fermée temps réel. La difficulté centrale que VOFA cherche à résoudre est précisément celle qui bloque la robotique de manipulation en entrepôt : agir de façon robuste sans connaissance privilégiée de l'état de l'objet, c'est-à-dire sans capteurs dédiés sur le sol, sans marqueurs visuels, et sans modèle de masse injecté à la volée. Le taux de 80 % en monde réel sur des tâches de poussée est significatif car ces tâches cumulent plusieurs sources de défaillance simultanées (glissement, dérive de perception, erreur d'actuation). Ce résultat suggère que la combinaison politique VLA conditionnée visuellement et contrôle force adaptatif permet de franchir le reality gap sans sur-spécialiser le système à un objet ou à un terrain particulier. Pour les intégrateurs logistiques, cela ouvre une voie vers la manutention généraliste sans infrastructure capteur supplémentaire. Le déploiement de robots humanoïdes dans la logistique est activement poursuivi par Figure Robotics (BMW, contrat 2024), Agility Robotics (Amazon), et Apptronik (Mercedes-Benz). VOFA se distingue de leurs approches en adressant explicitement la robustesse aux propriétés physiques inconnues plutôt que la vitesse ou le payload brut. Le Booster T1 est un humanoïde développé par la startup chinoise Booster Robotics, moins médiatisée que ses concurrents américains mais qui dispose d'une plateforme ouverte à la recherche. Le papier reste pour l'instant une contribution académique sans annonce de déploiement ni de partenariat industriel, et les vidéos de démonstration n'ont pas fait l'objet d'une validation externe. Les prochaines étapes naturelles incluent l'extension à des tâches de manipulation bimanuelles et à des environnements encombrants, deux conditions nécessaires pour valider l'approche en entrepôt réel.

IA physiqueOpinion
1 source
Mélange d'experts structuré sémantiquement pour la manipulation robotique compositionnelle
3arXiv cs.RO 

Mélange d'experts structuré sémantiquement pour la manipulation robotique compositionnelle

Des chercheurs ont publié le 23 mai 2026 sur arXiv (réf. 2605.23477) un cadre d'apprentissage pour la manipulation robotique compositionnelle baptisé SMoDP (Semantically Structured Mixture-of-Experts Diffusion Policy). L'approche combine des politiques de diffusion avec une architecture Mixture-of-Experts (MoE) guidée sémantiquement : un prédicteur de compétences léger, supervisé par des annotations hors-ligne générées par des modèles vision-langage (VLM), route des séquences d'actions vers des experts spécialisés par phase comportementale (saisie, transport, insertion). La cohérence du routage est assurée par une double stratégie d'alignement contrastif, inter-modal pour ancrer les observations multimodales dans des sémantiques définies en langage naturel, et intra-modal pour maintenir un routage cohérent entre comportements visuellement distincts mais fonctionnellement équivalents. Sur des benchmarks multi-tâches, SMoDP surpasse les baselines diffusion et MoE existantes avec une meilleure efficacité paramétrique, et supporte le transfert vers de nouvelles tâches via fine-tuning frugal. L'enjeu est réel : les politiques de diffusion haute performance sont coûteuses en inférence, tandis que les versions allégées peinent à généraliser dès que le nombre de tâches augmente. Les architectures MoE classiques, qui n'activent qu'un sous-ensemble de paramètres, souffrent d'un défaut de conception : leur routage basé sur des statistiques latentes fragmente les comportements réutilisables entre experts, réduisant l'interprétabilité et la transférabilité. En ancrant la spécialisation dans la structure sémantique de la tâche, SMoDP rend les experts plus modulaires, un avantage direct pour les intégrateurs déployant des robots polyvalents sans réentraîner l'ensemble du modèle. Ce travail s'inscrit dans une course intense à l'efficacité des politiques robotiques. Depuis 2023, les politiques de diffusion (Diffusion Policy, Pi-0 de Physical Intelligence) ont supplanté les approches classiques, et les succès des MoE dans les LLM (Mixtral, Qwen-MoE) ont incité les chercheurs en robotique à adapter ces architectures, avec des résultats mitigés faute d'un bon mécanisme de routage. SMoDP se rapproche des pipelines VLA (Vision-Language-Action) comme OpenVLA ou GR00T N2 de NVIDIA, en intégrant la supervision sémantique par VLM comme lien entre langage et action. À ce stade, il s'agit d'une contribution académique validée en simulation et en environnement de laboratoire, sans annonce de déploiement industriel ni de partenaire commercial ; l'étape logique suivante serait une validation sur plateformes matérielles réelles à grande diversité de tâches.

💬 Le vrai problème des MoE en robotique, c'était le routage : les experts se spécialisaient sur des statistiques latentes sans rapport avec ce que le robot faisait vraiment. Ancrer la spécialisation sur des phases comportementales concrètes, saisir, transporter, insérer, c'est le bon sens qui manquait, et les benchmarks suivent. Reste à confirmer ça sur du matériel réel, pas juste en simulation.

IA physiqueOpinion
1 source
HEX : experts alignés sur les humanoïdes pour la manipulation corps entier multi-plateforme
4arXiv cs.RO 

HEX : experts alignés sur les humanoïdes pour la manipulation corps entier multi-plateforme

Des chercheurs ont publié HEX (Humanoid-Aligned Experts for Cross-Embodiment Whole-Body Manipulation), un cadre de contrôle robotique déposé sur arXiv (arXiv:2604.07993v2) en avril 2026. HEX cible un problème structurel dans le déploiement des humanoïdes bipèdes de grande taille : la majorité des modèles Vision-Language-Action (VLA) existants traitent les membres du robot de façon indépendante, ce qui rend le contrôle à haute dimension (de nombreux degrés de liberté, ou DoF) instable et peu généralisable. Pour y répondre, HEX introduit une représentation d'état universelle alignée sur l'anatomie humanoïde, conçue pour l'apprentissage à grande échelle sur des plateformes hétérogènes. Son prédicteur proprioceptif unifié basé sur un Mixture-of-Experts (MoE) modélise la coordination corps entier et la dynamique temporelle de mouvement à partir de trajectoires issues de multiples morphologies robotiques. Pour l'encodage visuel temporel, HEX utilise des tokens d'historique légers résumant les observations passées sans réencodage redondant des images, puis fusionne indices visuels et langagiers avec la dynamique proprioceptive via un mécanisme de fusion résiduelle à portes et une tête d'action par flow-matching. Ce cadre adresse un goulet d'étranglement réel dans les VLA appliqués aux humanoïdes : le cloisonnement bras/jambes/torse empêche une coordination fluide et pénalise les tâches à réaction rapide ou à horizon long (planification multi-étapes). Les expériences sur tâches de manipulation réelles montrent que HEX atteint des taux de succès et une capacité de généralisation de l'état de l'art, précisément dans ces deux régimes critiques pour un déploiement industriel. La capacité à transférer des politiques entre morphologies hétérogènes (cross-embodiment) réduit également le coût de collecte de données par plateforme, un argument concret pour les intégrateurs. HEX s'inscrit dans une course dense au contrôle humanoïde haute fidélité. Pi0 de Physical Intelligence a popularisé le flow-matching pour la génération d'actions continues ; GR00T N2 de NVIDIA et Helix de Figure AI misent sur l'apprentissage en simulation massive. OpenVLA reste la référence open-source. HEX se distingue par son MoE dédié à la proprioception multi-corps, absent des architectures concurrentes. L'article étant un preprint arXiv révisé (v2), les résultats restent à confirmer par évaluation indépendante ; aucune affiliation institutionnelle ni timeline de déploiement n'est précisée dans le résumé public.

IA physiqueOpinion
1 source