Aller au contenu principal
RecherchearXiv cs.RO3h

ECo-MoE : mélange d'experts conditionné par l'incarnation pour accroître l'évolvabilité des robots

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié fin mai 2026 sur arXiv (arXiv:2605.24225) un nouveau cadre d'apprentissage et d'évolution pour robots baptisé ECo-MoE (Embodiment-Conditioned Mixture of Experts). L'architecture co-optimise simultanément une distribution de vecteurs de conception latents, assimilables à des génotypes, et un ensemble de modules de contrôle spécialisés, ou "experts", dont l'activation est conditionnée par les coordonnées latentes du morphotype décodé. Concrètement, chaque plan corporel d'un robot active ou désactive dynamiquement des combinaisons distinctes de circuits sensorimoteurs appris, permettant un comportement orienté objectif adapté à la morphologie instanciée. Le projet est accompagné de vidéos et d'un code open source disponibles sur eco-moe.github.io.

L'intérêt principal de cette approche réside dans le compromis qu'elle propose entre deux extrêmes bien documentés du co-design robotique : entraîner une politique individuelle pour chaque morphologie (coûteux en calcul, non scalable) ou entraîner un contrôleur universel monolithique pour toutes les morphologies (résultat trop conservateur, comportements sous-optimaux). ECo-MoE préserve la connaissance accumulée au fil des générations dans un cadre unifié mais modulaire, où une partie du contrôleur peut être remaniée pour s'adapter à une nouvelle famille de designs sans perturber les modules experts déjà consolidés. Les auteurs introduisent également le concept d'"evo by demo" : des politiques pré-entraînées peuvent être directement injectées dans le mélange d'experts pour orienter l'évolution vers des régions de l'espace latent contenant des caractéristiques morphologiques souhaitées, ce qui constitue un levier de contrôle éditorial sur l'évolution libre.

Ce travail s'inscrit dans une ligne de recherche active autour de la neuro-évolution et du co-design morphologie/contrôle, dont les jalons récents incluent les travaux sur les politiques universelles (ex : pi0 de Physical Intelligence, GR00T N2 de NVIDIA) et les architectures transformer appliquées à l'évolution robotique. La différence revendiquée par rapport aux approches VLA généralistes est la modularité explicite : là où les grands modèles de politique tendent à absorber toute la diversité morphologique dans un seul réseau dense, ECo-MoE structure cette diversité via le routage conditionné. Il s'agit pour l'instant d'un preprint académique sans déploiement industriel annoncé, et les benchmarks présentés portent sur des robots simulés, ce qui laisse entier le classique gap simulation-réalité.

À lire aussi

Modèles vision-langage-action (VLA) conditionnés par l'état de santé pour un contrôle robotique sensible aux pannes
1arXiv cs.RO 

Modèles vision-langage-action (VLA) conditionnés par l'état de santé pour un contrôle robotique sensible aux pannes

Une équipe de recherche publie sur arXiv (référence 2605.16056) un modèle VLA (Vision-Language-Action) capable d'adapter son comportement à la dégradation physique d'un robot, une problématique distincte des pannes de tâches habituellement ciblées par la littérature. L'approche repose sur l'injection d'un module "Health Projector" dans l'architecture VLA-Adapter : le modèle reçoit en entrée un vecteur de santé encodant l'amplitude articulaire et le couple disponible pour chaque joint. Entraîné sur 128 épisodes téléopérés collectés dans l'environnement de simulation LIBERO (benchmark Libero-Spatial), il parvient à compléter des tâches de manipulation spatiale avec des configurations de joints dégradés où le modèle de référence VLA-Adapter Libero-Spatial-Pro échoue systématiquement. Le code et le jeu de données seront prochainement disponibles sur GitHub (h-arslan/health-aware-vla). L'intérêt industriel est réel : dans les déploiements terrain, les robots accumulent des dégradations mécaniques progressives (usure articulaire, perte de couple, grippage de préhenseur) sans nécessairement déclencher d'alarme critique. Un contrôleur aveugle à cet état physique maintient ses consignes nominales et accumule les erreurs ; un modèle conditionné à la santé peut recalculer ses trajectoires à la volée. La modification proposée est présentée comme légère, ce qui suggère une intégration possible dans des pipelines VLA existants sans refonte complète. Cependant, les résultats restent limités à la simulation LIBERO avec 128 épisodes seulement, un jeu de données particulièrement restreint, et aucune validation sur robot physique n'est présentée, laissant le gap sim-to-real entièrement ouvert. Ce travail s'inscrit dans l'expansion rapide des VLA depuis 2023, portée par des modèles comme pi0 (Physical Intelligence), OpenVLA ou la famille RoboVLMs. VLA-Adapter, utilisé comme base ici, est une variante qui réduit les coûts de fine-tuning en gelant le backbone visio-langagier pour n'entraîner qu'un adaptateur léger. La résilience robotique est jusqu'ici majoritairement traitée côté contrôle bas niveau (détection de fautes, compensation par redondance articulaire) plutôt qu'au niveau de la politique visuo-langagière, ce qui rend l'angle de cette recherche original. Aucun acteur européen n'est impliqué dans cette publication. La prochaine étape logique serait une validation sur hardware réel avec des dégradations induites mécaniquement et un dataset substantiellement élargi pour crédibiliser le passage à l'échelle.

RechercheOpinion
1 source
Modélisation de robots continus par Flow Matching conditionné sur l'action
2arXiv cs.RO 

Modélisation de robots continus par Flow Matching conditionné sur l'action

Une équipe de recherche a publié en mai 2026 (arXiv:2605.09216) une approche d'apprentissage automatique pour prédire la forme en régime stationnaire des robots continus à tendons (TDCRs, tendon-driven continuum robots). Le système combine une plateforme matérielle imprimée en 3D, un pipeline de collecte de données RGB-D multi-caméras, et un modèle de flow matching conditionné par l'état moteur, qui associe directement les commandes d'actionneurs à la géométrie 3D résultante sous forme de nuage de points. Les expériences couvrent des TDCRs simulés à 2, 3 et 5 modules sous MuJoCo, ainsi que des robots réels à 2 et 3 modules. Sur les métriques Chamfer Distance (CD) et Earth Mover's Distance (EMD), la méthode surpasse les approches antérieures de modélisation de déformables 3D et d'auto-modélisation robotique. Une extension en simulation montre que le même schéma conditionnel peut intégrer la charge utile en bout de bras comme variable d'entrée supplémentaire. Ce résultat est notable pour les intégrateurs de robots chirurgicaux, d'inspection en espace confiné ou de manipulation flexible, trois domaines où les TDCRs sont candidats naturels mais restent difficiles à contrôler précisément. Les méthodes analytiques classiques, basées sur la théorie des tiges de Cosserat, requièrent une caractérisation fine des paramètres de friction et de rigidité, souvent non reproductibles d'un exemplaire à l'autre en raison de la variabilité fabrication. L'approche présentée délègue cette complexité à la donnée : un échantillonnage de configurations quasi-statiques suffit à entraîner le modèle, sans connaissance du modèle physique. Le conditionnement par payload ouvre la voie à une planification adaptative en charge variable, ce que les modèles analytiques actuels gèrent mal en temps réel. Le flow matching, popularisé depuis 2022 comme alternative aux modèles de diffusion pour sa rapidité d'inférence, est ici appliqué pour la première fois à l'auto-modélisation cinématique de robots continus, selon les auteurs. Les approches concurrentes reposent soit sur des modèles physiques paramétriques, soit sur des réseaux neuronaux entraînés sur des représentations volumétriques ou de pose d'extrémité, sans géométrie complète. La plateforme 3D imprimée vise à rendre la méthode reproductible à faible coût. L'article reste un preprint sans déploiement annoncé ; les prochaines étapes naturelles incluent l'extension au contrôle en boucle fermée et la validation sur des robots à plus de 5 modules.

RecherchePaper
1 source
Des futurs imaginés aux actions exécutables : mélange d'actions latentes pour la manipulation robotique
3arXiv cs.RO 

Des futurs imaginés aux actions exécutables : mélange d'actions latentes pour la manipulation robotique

Des chercheurs ont publié sur arXiv (référence 2605.12167, mai 2026) une méthode baptisée MoLA, pour Mixture of Latent Actions, destinée à améliorer la manipulation robotique en exploitant les modèles génératifs de vidéo comme mécanisme d'anticipation. L'idée centrale : un robot peut "imaginer" la trajectoire visuelle future d'une tâche avant de l'exécuter, mais transformer ces séquences générées en commandes moteur concrètes reste un problème ouvert. MoLA introduit une interface dite orientée contrôle qui, au lieu de passer directement les images prédites à la politique de contrôle, mobilise un ensemble de modèles inverses de dynamique (IDM) pré-entraînés pour en extraire des actions latentes. Ces IDM sont multimodaux : ils capturent des indices sémantiques, de profondeur et de flux optique, fournissant une représentation structurée et physiquement ancrée des transitions d'état. L'approche a été évaluée sur les benchmarks simulés LIBERO, CALVIN et LIBERO-Plus, ainsi que sur des tâches de manipulation en conditions réelles, avec des gains annoncés en taux de succès, en cohérence temporelle et en généralisation. Le problème que MoLA tente de résoudre est structurel dans le domaine des VLA (Vision-Language-Action models) : les modèles de génération vidéo optimisent la fidélité perceptuelle, pas la pertinence pour le contrôle. Lorsqu'une politique est conditionnée sur des frames prédites, elle hérite de cette inadéquation, produisant un contrôle indirect et instable. En substituant aux frames brutes des représentations latentes inférées par des IDM complémentaires, MoLA réduit ce fossé structurel. Pour les intégrateurs et les équipes de recherche appliquée, c'est un signal important : l'imagination visuelle peut effectivement améliorer les politiques robotiques, à condition de disposer d'une couche de traduction adaptée plutôt que d'un couplage direct image-action. Ce travail s'inscrit dans un courant actif autour des world models appliqués à la robotique, où des approches comme DreamerV3 (DeepMind) ou SuSIE ont exploré des pistes similaires pour le reinforcement learning et la manipulation. Côté manipulation guidée par vidéo, UniSim et les travaux autour de Pi-0 de Physical Intelligence ont popularisé l'utilisation de prédictions futures pour structurer le comportement. MoLA se distingue par son architecture modulaire à IDM mixtes plutôt qu'un seul encodeur unifié. Aucune affiliation industrielle ni timeline de déploiement n'est mentionnée dans la publication, ce qui en fait pour l'instant une contribution de recherche fondamentale, dont la valeur pratique dépendra de la reproductibilité des gains annoncés en dehors des benchmarks de référence.

RechercheOpinion
1 source
Localisation par angle et contrôle de rigidité pour réseaux multi-robots
4arXiv cs.RO 

Localisation par angle et contrôle de rigidité pour réseaux multi-robots

Des chercheurs ont publié sur arXiv (référence 2604.11754v2) une contribution théorique et algorithmique portant sur la localisation par mesures d'angles et le maintien de rigidité dans les réseaux multi-robots, en 2D et en 3D. Le résultat central établit une équivalence formelle entre rigidité angulaire et rigidité de type "bearing" (orientation relative) pour des graphes de détection dirigés avec mesures en référentiel embarqué : un système dans SE(d) est infinitésimalement rigide au sens bearing si et seulement s'il est infinitésimalement rigide au sens angulaire et que chaque robot acquiert au moins d-1 mesures de bearing (d valant 2 ou 3). À partir de cette base, les auteurs proposent un schéma de localisation distribué et démontrent sa stabilité exponentielle locale sous des topologies de détection commutantes, avec comme seule hypothèse la rigidité angulaire infinitésimale sur l'ensemble des topologies visitées. Une nouvelle métrique, la valeur propre de rigidité angulaire, est introduite pour quantifier le degré de rigidité du réseau, et un contrôleur décentralisé par gradient est proposé pour maintenir cette rigidité tout en exécutant des commandes de mission. Les résultats sont validés par simulation. L'intérêt pratique de ce travail réside dans le choix des mesures angulaires plutôt que des distances ou des orientations absolues : les angles entre vecteurs de direction peuvent être extraits directement depuis des caméras embarquées à bas coût, sans capteur de distance actif ni accès GPS. Pour les intégrateurs de systèmes multi-robots, notamment en essaims de drones ou en robotique entrepôt avec coordination décentralisée, la robustesse sous topologies commutantes est critique, car les lignes de vue entre agents changent constamment. Le contrôleur proposé adresse ce problème en maintenant activement une configuration spatiale suffisamment rigide pour garantir l'observabilité du réseau, ce qui évite les dégradations silencieuses de localisation que l'on observe dans les déploiements réels. C'est une avancée sur le problème dit du "rigidity maintenance", encore peu traité dans la littérature avec des garanties formelles en 3D. La rigidité de réseau comme fondation pour la localisation distribuée est un domaine actif depuis les travaux fondateurs sur la formation control et les frameworks d'Henneberg dans les années 2010. Les approches concurrentes incluent la localisation par distances (nécessitant UWB ou radar), par bearings seuls (plus sensible aux ambiguïtés), ou par fusion IMU/SLAM embarqué par robot, chacune avec ses propres hypothèses de connectivité et de coût matériel. Ce papier se positionne dans le créneau "caméra seule, pas de métadonnées globales", pertinent pour les petits drones ou les robots à budget capteur contraint. Aucun déploiement ni partenaire industriel n'est mentionné, il s'agit d'une contribution académique pure. Les suites naturelles incluraient une validation sur plateforme physique (type Crazyflie ou quadrupèdes en formation) et l'extension aux perturbations de mesures bruitées en environnement non contrôlé.

RecherchePaper
1 source