
CoRe-MoE : un mélange d'experts contrastif pour la locomotion multi-terrain des robots humanoïdes avec adaptation de la démarche
Une équipe de recherche publie sur arXiv (2606.04718) CoRe-MoE, un framework d'apprentissage par renforcement en deux étapes conçu pour permettre à un robot humanoïde de marcher et de courir sur des terrains variés sans politique distincte par surface. L'architecture repose sur un Mixture-of-Experts (MoE) augmenté d'un objectif contrastif : une première phase entraîne une politique de locomotion de base produisant marche et course avec transitions fluides, puis une seconde phase greffe une branche MoE sensible au terrain, dont le réseau de gating est formé à distinguer structurellement les représentations de sol. L'action finale est une fusion pondérée entre la politique de base et la branche adaptative. Validé en simulation puis déployé en zero-shot sur le Unitree G1, le système traverse escaliers, rampes, marches, obstacles et terrains extérieurs non structurés tout en maintenant un placement de pied précis face à des perturbations externes.
L'intérêt de ce travail pour les intégrateurs et décideurs robotiques tient moins à la performance brute qu'à la méthode de découplage. Le problème classique dans l'entraînement multi-tâches est l'interférence de gradients : une politique unifiée marche/course/terrain provoque des conflits d'apprentissage qui dégradent chaque sous-compétence. CoRe-MoE contourne cela en séparant explicitement génération de démarche et adaptation terrain. L'objectif contrastif force une spécialisation claire des experts MoE, défaillance récurrente des implémentations MoE naïves. Le zero-shot sim-to-real sur G1 suggère une réduction du reality gap, point de friction central dans le passage de la simulation au déploiement industriel, bien que le papier ne fournisse pas de métriques de cycle ou de données de déploiement à l'échelle.
Le Unitree G1 est un humanoïde 23 degrés de liberté à environ 16 000 dollars, devenu référence de facto pour la recherche en locomotion académique, face au Boston Dynamics Atlas et à l'Agility Robotics Digit plus orientés industrie. CoRe-MoE s'inscrit dans un courant actif de politiques visuomotrices pour humanoïdes, aux côtés de travaux comme GR00T N2 de NVIDIA ou Pi-0 de Physical Intelligence, qui cherchent tous à unifier mobilité et manipulation sous une seule politique généraliste. La prochaine étape naturelle de ce type d'architecture est l'extension aux tâches de manipulation en locomotion, et le test sur des humanoïdes plus lourds à charge utile élevée, où la stabilité dynamique devient critique.
Dans nos dossiers




