RecherchearXiv cs.RO6sem

ECo-MoE : mélange d'experts conditionné par l'incarnation pour accroître l'évolvabilité des robots

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs ont publié fin mai 2026 sur arXiv (arXiv:2605.24225) un nouveau cadre d'apprentissage et d'évolution pour robots baptisé ECo-MoE (Embodiment-Conditioned Mixture of Experts). L'architecture co-optimise simultanément une distribution de vecteurs de conception latents, assimilables à des génotypes, et un ensemble de modules de contrôle spécialisés, ou "experts", dont l'activation est conditionnée par les coordonnées latentes du morphotype décodé. Concrètement, chaque plan corporel d'un robot active ou désactive dynamiquement des combinaisons distinctes de circuits sensorimoteurs appris, permettant un comportement orienté objectif adapté à la morphologie instanciée. Le projet est accompagné de vidéos et d'un code open source disponibles sur eco-moe.github.io.

L'intérêt principal de cette approche réside dans le compromis qu'elle propose entre deux extrêmes bien documentés du co-design robotique : entraîner une politique individuelle pour chaque morphologie (coûteux en calcul, non scalable) ou entraîner un contrôleur universel monolithique pour toutes les morphologies (résultat trop conservateur, comportements sous-optimaux). ECo-MoE préserve la connaissance accumulée au fil des générations dans un cadre unifié mais modulaire, où une partie du contrôleur peut être remaniée pour s'adapter à une nouvelle famille de designs sans perturber les modules experts déjà consolidés. Les auteurs introduisent également le concept d'"evo by demo" : des politiques pré-entraînées peuvent être directement injectées dans le mélange d'experts pour orienter l'évolution vers des régions de l'espace latent contenant des caractéristiques morphologiques souhaitées, ce qui constitue un levier de contrôle éditorial sur l'évolution libre.

Ce travail s'inscrit dans une ligne de recherche active autour de la neuro-évolution et du co-design morphologie/contrôle, dont les jalons récents incluent les travaux sur les politiques universelles (ex : pi0 de Physical Intelligence, GR00T N2 de NVIDIA) et les architectures transformer appliquées à l'évolution robotique. La différence revendiquée par rapport aux approches VLA généralistes est la modularité explicite : là où les grands modèles de politique tendent à absorber toute la diversité morphologique dans un seul réseau dense, ECo-MoE structure cette diversité via le routage conditionné. Il s'agit pour l'instant d'un preprint académique sans déploiement industriel annoncé, et les benchmarks présentés portent sur des robots simulés, ce qui laisse entier le classique gap simulation-réalité.

Dans nos dossiers

NVIDIA GR00T Physical Intelligence — π0 arXiv cs.RO

À lire aussi

1arXiv cs.RO

CoRE-VLA : vers une modélisation vision-langage-action évolutive et robuste par routage conditionnel d'experts

Des chercheurs présentent CoRE-VLA, une nouvelle architecture de modèle vision-langage-action (VLA) conçue pour résoudre un problème concret de déploiement robotique: la gestion de capteurs hétérogènes et potentiellement défaillants. Publié sur arXiv le 3 juillet 2026, le papier propose de traiter la génération d'actions comme un calcul épars conditionné par le contexte, plutôt que par un calcul dense partagé comme dans les VLA classiques. Concrètement, la disponibilité des capteurs active des experts spécialisés par modalité (le papier se concentre sur la profondeur, ou depth, comme capteur auxiliaire représentatif), tandis que l'intention de la tâche route les représentations vers des experts pertinents pour chaque sous-objectif. Les auteurs testent CoRE-VLA sur les benchmarks LIBERO et RoboCasa GR1 Tabletop, ainsi que sur des manipulations réelles à deux bras, et rapportent des performances supérieures à un modèle dense équivalent et à un VLA pré-entraîné de référence, y compris en généralisation zero-shot sur des scénarios non vus à l'entraînement. L'enjeu pratique est réel pour les intégrateurs: la plupart des VLA actuels couplent rigidement la génération d'action à un jeu de capteurs fixe, ce qui les rend fragiles dès qu'un capteur auxiliaire tombe en panne ou qu'un embodiment robotique en est simplement dépourvu par conception. CoRE-VLA promet une dégradation gracieuse sans réentraînement complet, un point clé pour des flottes hétérogènes déployées en usine ou en entrepôt où tous les robots n'ont pas la même instrumentation. C'est un signal de plus que la recherche VLA s'oriente vers la robustesse opérationnelle plutôt que la seule performance en benchmark contrôlé, un décalage régulièrement pointé du doigt entre démonstrations académiques et réalité industrielle. Ce travail s'inscrit dans la lignée des architectures VLA généralistes type Pi-0 ou GR00T N2, mais adresse un angle mort spécifique: l'hétérogénéité capteurs plutôt que la seule diversité des tâches. Il s'agit ici d'une contribution de recherche publiée sur arXiv, sans partenaire industriel ni déploiement annoncé; les prochaines étapes attendues seraient une validation sur davantage d'embodiments réels et une comparaison directe avec les VLA propriétaires déployés en production.

RechercheActu

1 source

2arXiv cs.RO

PATCH : suivi des innovations de patchs latents conditionné par les séquences d'actions pour la manipulation robotique

Des chercheurs présentent PATCH (Action-Chunk-Conditioned Latent Patch Innovation Monitor), un moniteur d'exécution temps réel publié sur arXiv (2606.16690) conçu pour rendre les politiques de manipulation robotique plus robustes lors du déploiement en environnements ouverts. Le système s'appuie sur le "chunk" d'actions courant, séquence de commandes prédites d'un coup par la politique apprise, pour définir un corridor d'exécution projeté dans l'espace latent. À l'intérieur de ce corridor, PATCH prédit l'évolution attendue des patches visuels latents et accumule les résidus persistants que le mouvement propre du robot n'explique pas. Ces résidus constituent un signal d'intervention localisé : le composant PATCH-Router peut suspendre l'exécution, sélectionner une source de récupération disponible, puis reprendre la politique originale une fois l'innovation locale dissipée. Des expériences sur données réelles de déploiement montrent des déclenchements plus stables et plus contextuellement pertinents que les moniteurs concurrents évalués. L'enjeu est précis : les politiques de manipulation à base d'apprentissage (politiques de diffusion, modèles VLA) produisent des résultats convaincants en laboratoire mais restent fragiles dès qu'un objet bouge inopinément, qu'une occlusion transitoire survient ou qu'une perturbation apparaît près de la trajectoire prévue. Les moniteurs existants s'appuient sur des anomalies d'observation globales, l'incertitude de la politique ou des différences frame-à-frame, des mécanismes qui peinent à distinguer un risque d'exécution réel d'une variation visuelle bénigne (reflet, passage d'une personne en fond). PATCH déplace l'analyse au niveau local et conditionné sur l'intention du robot, ce qui réduit les faux positifs et permet une reprise automatique plutôt qu'un arrêt définitif. Pour un intégrateur industriel, cela change la logique de supervision : au lieu d'une e-stop humaine systématique, on dispose d'un mécanisme de récupération autonome gradué. L'article s'inscrit dans une vague de travaux qui cherchent à combler le "deployment gap" des VLA et des politiques de diffusion, notamment après que des systèmes comme Pi-0 (Physical Intelligence) ou RDT ont démontré des performances impressionnantes en conditions contrôlées. PATCH ne cherche pas à remplacer la politique de base mais à la surveiller et à la relancer de façon ciblée, une approche modulaire compatible avec n'importe quelle politique pré-entraînée. Aucun partenaire industriel ni calendrier de commercialisation n'est mentionné ; il s'agit pour l'instant d'une contribution de recherche accompagnée d'une page projet publique, sans déploiement à l'échelle annoncé.

RechercheOpinion

1 source

3arXiv cs.RO

CTS-MoE : adaptation implicite au terrain par mélange d'experts pour la locomotion perceptive

Une équipe de recherche a publié en juin 2026 sur arXiv (ref. 2606.19633) une architecture baptisée CTS-MoE, conçue pour permettre à des robots quadrupèdes de traverser des terrains discontinus -- escaliers, trouées, obstacles -- sans recourir à un classifieur de terrain explicite. Le système repose sur un acteur à mélange dense d'experts (Mixture-of-Experts, MoE) dont le routage est piloté par la perception sensorielle, couplé à un multi-critique avec têtes de valeur spécifiques à chaque tâche pour éviter les interférences lors de l'entraînement. L'apprentissage s'effectue en bout-en-bout via un schéma enseignant-étudiant concurrent en une seule étape, sans distillation séquentielle, et les étiquettes de tâche ne sont utilisées qu'à l'entraînement. Les expériences ont été conduites sur un Unitree Go1 en simulation et sur matériel réel, sur des terrains vus et inédits. Ce travail s'attaque à une tension fondamentale du reinforcement learning multi-tâche appliqué à la locomotion : partager les comportements communs tout en évitant que des récompenses conflictuelles n'effacent la spécialisation acquise. Les approches monolithiques classiques sacrifient la spécialisation par terrain, tandis que les hiérarchies de sous-politiques peinent à généraliser lors des transitions entre environnements. CTS-MoE contourne les deux écueils en composant dynamiquement des experts partagés au runtime, guidé uniquement par la perception, sans sélecteur de haut niveau. Les résultats montrent une réduction de l'erreur de suivi de trajectoire et des taux de succès supérieurs aux baselines monolithiques -- bien que, s'agissant d'un preprint non encore évalué par les pairs, ces métriques restent à confirmer sur des benchmarks indépendants. La locomotion perceptive sur terrain complexe est un sous-domaine actif depuis les travaux d'ETH Zurich sur ANYmal (2020-2023) et ceux de CMU et Berkeley sur les quadrupèdes Unitree. L'usage des architectures MoE en robotique reste marginal par rapport à leur adoption massive en LLM (DeepSeek-MoE, Mixtral), et CTS-MoE est l'une des premières applications directes à la politique de locomotion avec validation hardware. Unitree, fabricant chinois du Go1, propose cette plateforme comme référence académique à moins de 3 500 USD, ce qui élargit la reproductibilité. Les concurrents directs en navigation sur terrain difficile incluent Boston Dynamics (Spot), ANYbotics et les laboratoires universitaires équipés d'ANYmal. Un site projet est disponible à cts-moe.github.io ; aucune timeline de déploiement industriel n'est annoncée.

RecherchePaper

1 source

4arXiv cs.RO

PAMAE : mélange d'experts d'action sensible aux phases pour des politiques VLA fiables par flow matching

Des chercheurs ont publié le 27 juin 2026 sur arXiv (2606.27144) un module baptisé PAMAE (Phase-Aware Mixture-of-Experts Action Experts), conçu pour améliorer la fiabilité des politiques d'action dans les modèles Vision-Language-Action (VLA) appliqués à la manipulation robotique multi-étapes. Le principe est simple : remplacer l'expert d'action unique partagé des architectures VLA à flow-matching par un mélange sparse d'experts spécialisés, sans toucher au backbone VLA pré-entraîné. Un routeur "phase-aware" oriente dynamiquement la génération d'actions vers l'expert approprié selon la phase d'exécution en cours, grâce à une tête de prédiction de phase légère et un objectif d'alignement de routage. L'entraînement se déroule en deux temps : d'abord un échauffement standard sous la loss de flow-matching, puis une optimisation du routage phase-cohérent sous supervision auxiliaire. Sur des benchmarks de simulation de manipulation multi-étapes, PAMAE affiche jusqu'à 9,2 % de gain en taux de succès par rapport à des baselines VLA solides. Ce résultat est notable parce qu'il s'attaque à un goulot d'étranglement concret des VLA à flow-matching : la tendance à lisser les comportements de contrôle à travers toutes les phases d'exécution avec un seul expert, ce qui nuit aux transitions critiques (saisie, repositionnement, insertion). L'approche "plug-and-play" est stratégiquement importante pour les intégrateurs -- elle évite le coût d'un réentraînement complet du backbone et reste compatible avec des fondations VLA existantes comme Pi-0 ou OpenVLA. Le gain de 9,2 % en simulation est mesuré sur des tâches multi-étapes, là où les architectures à expert unique échouent le plus souvent, ce qui rend la comparaison pertinente. Cela dit, la validation reste exclusivement en simulation, et le transfert sim-to-real n'est pas encore démontré : le "reality gap" demeure le vrai test pour ce type d'amélioration. Les VLA à flow-matching sont apparus comme une alternative aux politiques de diffusion classiques (Diffusion Policy, ACT) en combinant ancrage multimodal fort et généralisation, notamment via des modèles comme Pi-0 de Physical Intelligence ou les travaux de OpenVLA. L'idée des Mixture-of-Experts (MoE) pour les politiques de robot n'est pas nouvelle -- elle est empruntée au monde des LLMs (Mixtral, Switch Transformer) -- mais son application phase-conditioned dans un pipeline VLA end-to-end constitue une contribution originale. Côté concurrents, des approches comme HiRT, RoboVLMs ou les travaux de DeepMind sur RT-2 et ses successeurs explorent des trajectoires similaires pour améliorer la robustesse sur les tâches longues. La prochaine étape naturelle pour PAMAE serait une évaluation sur robot réel (plateforme Franka, UR5 ou bras humanoïde) et une comparaison directe avec des politiques récentes comme Pi-0.5 ou GR00T N2 de NVIDIA, dont les résultats terrain commencent à circuler.

RechercheOpinion

1 source