RecherchearXiv cs.RO 20 avril 2026

Les limites de l'évolution lamarckienne face à la pression de nouveauté morphologique

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Une étude publiée sur arXiv (arXiv:2604.15854) en avril 2026 examine les limites de l'héritage lamarckien dans les systèmes de robots modulaires évolutifs. Le cadre expérimental repose sur une population de robots capables de co-évoluer leur morphologie et leurs contrôleurs, puis d'apprendre individuellement une tâche de locomotion. Dans un système lamarckien, les contrôleurs appris par les parents sont transmis directement aux descendants, contrairement à l'approche darwinienne classique où seule l'information génétique est héritée. Les chercheurs ont comparé les deux paradigmes en faisant varier la pression de sélection : d'une optimisation pure sur la performance de locomotion à une optimisation multi-objectif intégrant également une récompense pour la nouveauté morphologique. Résultat : l'héritage lamarckien surpasse le darwinisme en optimisation de tâche seule, mais accuse une chute de performance significativement plus importante dès que la diversité morphologique est encouragée.

Ce résultat met en évidence un arbitrage fondamental dans la conception des systèmes d'évolution robotique : l'exploitation par héritage et l'exploration par diversité sont partiellement incompatibles. L'efficacité de l'héritage lamarckien repose sur une hypothèse implicite de continuité morphologique entre parent et descendant. Or, maximiser la diversité des formes casse précisément cette continuité, rendant les contrôleurs hérités peu ou pas transférables. Pour les chercheurs en robotique évolutive et les équipes travaillant sur la synthèse automatique de robots (notamment pour des applications d'adaptation en environnements non structurés), cela signifie que le choix du mécanisme d'héritage doit être conditionné au régime d'exploration morphologique visé.

Ces travaux s'inscrivent dans un débat actif en robotique évolutive sur le sim-to-real gap et la capacité des algorithmes évolutifs à produire des morphologies réellement variées et fonctionnelles. Plusieurs équipes européennes, dont des laboratoires français travaillant sur la robotique adaptative, explorent des compromis similaires entre plasticité morphologique et transfert de politiques de contrôle. La piste ouverte par cette étude pointe vers des mécanismes d'héritage sélectif ou conditionnel, activés uniquement lorsque la similarité parent-descendant dépasse un seuil donné, une direction que les auteurs identifient comme prolongement naturel de ces résultats.

Impact France/UE

Les équipes européennes et françaises travaillant sur la robotique évolutive et adaptative peuvent ajuster leur choix de mécanisme d'héritage selon le régime d'exploration morphologique visé, à la lumière de ces résultats expérimentaux.

Dans nos dossiers

arXiv cs.RO

À lire aussi

1arXiv cs.RO

Héritage lamarckien en environnements dynamiques : comment les variables clés influencent la dynamique évolutive

Une équipe de chercheurs en robotique évolutionnaire a publié en mai 2025 sur arXiv (2605.15769) une étude clarifiant les conditions dans lesquelles l'héritage lamarckien améliore ou dégrade les performances d'un système de co-optimisation corps-cerveau. L'expérience repose sur des robots mous virtuels dont la morphologie évolue par algorithme évolutionnaire, tandis que le contrôleur est optimisé en cours de vie par apprentissage, soit par optimisation bayésienne, soit par apprentissage par renforcement. L'héritage lamarckien consiste ici à transférer directement les paramètres de contrôle appris par un parent à sa descendance, à la différence de l'héritage darwinien classique qui ne transmet que le génome structurel. Les auteurs font varier deux dimensions de l'environnement dynamique : le niveau de conflit entre les changements environnementaux et le comportement optimal du robot, et la prévisibilité de ces changements pour l'agent. Résultat : l'héritage lamarckien n'est inférieur à l'approche darwinienne que dans le seul cas où les changements sont à la fois conflictuels et imprévisibles. L'ajout d'un capteur permettant de détecter les transitions environnementales restaure les bénéfices lamarckiens même dans les environnements conflictuels, en donnant à l'agent les moyens d'anticiper un changement de comportement nécessaire. Ce résultat réconcilie une littérature jusque-là contradictoire. La théorie évolutionnaire classique considère l'héritage lamarckien comme neutre ou négatif à long terme, tandis que plusieurs travaux récents en robotique évolutionnaire rapportaient des gains de performance. Cette étude suggère que les comparaisons précédentes omettaient de contrôler conjointement la conflictualité et la prévisibilité des perturbations, deux variables qui interagissent de façon non-linéaire. Pour les praticiens du morpho-evolution, domaine qui cherche à co-optimiser forme et contrôle pour des robots adaptatifs industriels ou de terrain, cela pose un cadre d'analyse actionnable : le bon mécanisme d'héritage dépend du profil statistique de l'environnement opérationnel, pas d'un choix dogmatique. La co-optimisation morphologie-contrôleur est un problème ouvert depuis les travaux fondateurs de Karl Sims dans les années 1990, et reste un défi majeur en conception de robots autonomes. La robotique douce (soft robotics) sert ici de banc d'essai car ses espaces morphologiques continus amplifient la sensibilité aux stratégies d'héritage. Ce preprint n'est pas encore évalué par les pairs et les résultats reposent exclusivement sur simulation, le transfert sim-to-real reste à démontrer. Parmi les acteurs qui travaillent sur des approches similaires figurent des laboratoires comme le Vermont Complex Systems Center ou le groupe Kriegman, ainsi que des initiatives industrielles en conception générative de robots. La prochaine étape naturelle est une validation sur morphologies physiques dans des environnements dont les statistiques sont connues et contrôlées.

RecherchePaper

1 source

2arXiv cs.RO

Apprentissage par transfert efficace des modèles dynamiques de robots grâce à la similarité morphologique

Une équipe de recherche présente une méthode de transfert d'apprentissage pour modéliser la dynamique de robots sous-marins souples à propulsion par nageoires, selon un article publié sur arXiv le 5 juillet 2026 (arXiv:2607.05665v1). Le problème visé : un modèle de dynamique entraîné sur un robot de grande taille (domaine source) doit être adapté à un robot plus petit (domaine cible) partageant la même morphologie mais des propriétés hydrodynamiques différentes, avec très peu de données labellisées disponibles sur ce second robot. Les chercheurs développent pour cela une approche d'adaptation de domaine fondée sur un autoencodeur, qui apprend une représentation latente partagée alignant les dynamiques des deux plateformes. Testée sur deux robots sous-marins réels, la méthode permet d'estimer avec précision les vitesses dans le référentiel du corps sur la plateforme cible, sans qu'aucune donnée labellisée ne soit nécessaire pour celle-ci. L'enjeu pratique dépasse le cas d'école : collecter des données de vérité terrain sous l'eau (via systèmes de capture de mouvement, capteurs externes) est coûteux, lent et souvent impraticable en conditions réelles de déploiement. Pouvoir réutiliser un modèle de dynamique d'un robot vers un autre, dès lors qu'ils partagent une morphologie proche, réduit drastiquement le besoin de re-calibration à chaque nouvelle plateforme ou variante d'échelle. Pour les opérateurs de flottes de robots sous-marins souples (inspection, surveillance environnementale, biomimétisme), cela ouvre la voie à un déploiement plus rapide de nouveaux engins sans campagne de collecte de données dédiée, et valide l'idée que des architectures de type autoencodeur peuvent capter des invariants dynamiques transférables entre robots morphologiquement similaires. Ce travail s'inscrit dans la lignée des recherches sur l'apprentissage par transfert et l'adaptation de domaine, déjà explorées pour le sim-to-real en robotique terrestre et aérienne, mais encore peu appliquées à la robotique sous-marine souple, un domaine où la modélisation hydrodynamique reste particulièrement complexe. Les robots à nageoires bio-inspirés font l'objet d'un intérêt croissant en laboratoire pour leur efficacité énergétique et leur discrétion comparés aux propulseurs classiques à hélice. Les auteurs ne précisent pas de calendrier de validation en conditions opérationnelles, l'étude relevant pour l'instant de la preuve de concept en environnement contrôlé.

RecherchePaper

1 source

3arXiv cs.RO

Gradients de valeur pour la conception de robots à morphologies multiples

Des chercheurs ont publié le 2 juin 2026 sur arXiv (référence 2606.00702) une méthode visant à accélérer la conception de robots via ce qu'ils nomment les "value gradients". Le principe consiste à entraîner une unique fonction de valeur issue du reinforcement learning sur un ensemble varié de morphologies robotiques, puis à utiliser cette fonction, une fois gelée, comme proxy différentiable pour optimiser de nouveaux designs sans relancer de cycle d'apprentissage complet. Les expériences portent sur des modèles entraînés sur jusqu'à 50 robots distincts, couvrant des espaces de conception de plus de 1 100 paramètres continus d'embodiment: longueurs de membres, configurations articulaires, propriétés mécaniques. La méthode a été évaluée sur des variantes perturbées d'un même robot mais aussi sur des morphologies entièrement nouvelles appartenant à des classes non vues à l'entraînement, testant ainsi sa capacité de généralisation. Le problème que ce travail adresse est central en co-conception robotique: optimiser conjointement la morphologie d'un robot et son contrôleur nécessite traditionnellement de relancer un cycle complet de reinforcement learning pour chaque design candidat, une opération computationnellement prohibitive qui freine l'exploration de l'espace de conception. En gelant la fonction de valeur après un premier entraînement généralisé, les auteurs la transforment en oracle différentiable, permettant d'optimiser directement les paramètres physiques via descente de gradient, sans resimulation coûteuse. Au-delà de l'optimisation, l'analyse des gradients permet d'identifier quels paramètres de design ou de contrôle limitent les performances, une capacité analytique précieuse pour les ingénieurs souhaitant localiser des goulots d'étranglement avant d'engager des cycles de prototypage physique coûteux. La co-conception robotique est un domaine actif depuis plusieurs années, avec des approches concurrentes allant des algorithmes évolutionnaires aux méthodes de simulation physique différentiable explorées notamment par MIT CSAIL, ETH Zurich ou Google DeepMind. La particularité de cette contribution est de ne pas exiger de simulateur différentiable lors de l'optimisation: seule la fonction de valeur préentraînée suffit, la rendant potentiellement compatible avec des pipelines de simulation standard non différentiables. Les suites naturelles concernent l'extension à des espaces de conception encore plus larges, des tâches multi-objectifs et des morphologies plus complexes comme les manipulateurs industriels ou les humanoïdes. Il s'agit à ce stade d'une contribution purement académique, sans partenariat industriel ni déploiement annoncé.

RecherchePaper

1 source

4arXiv cs.RO

GaitSpan : de la marche à la course, l'évolution progressive de la locomotion humanoïde

GaitSpan est un nouveau framework d'apprentissage presente dans un preprint arXiv (2607.12114v1, publie en juillet 2026) qui permet a une politique de controle humanoide pretrainee sur la marche de s'etendre vers des allures plus rapides, jogging et course, sans reapprentissage complet. Le systeme traite la marche comme une "competence germe" (seed skill), c'est a dire une structure motrice reutilisable pour l'equilibre, le support, la coordination du corps et les transitions de contact, qui est ensuite regeneree a de nouveaux rythmes, etendue en foulees plus longues et plus hautes, puis corrigee par une adaptation residuelle. La methode combine trois mecanismes: une generation de rythme qui module la politique de marche figee via plusieurs horloges internes et apprend des combinaisons conditionnees par des commandes de vitesse; un faconnage de foulee qui recompense des schemas de locomotion dynamique adaptes aux vitesses elevees, inspire de la dynamique du pendule inverse a ressort (spring-loaded inverted pendulum); et une adaptation residuelle qui capture les details de mouvement non couverts par les deux premiers mecanismes. Selon les auteurs, GaitSpan est la premiere politique humanoide unique, conditionnee par commande, a couvrir un spectre continu allant de la marche au jogging jusqu'a des regimes proches de la course, tout en se transferant a differentes morphologies de robots et en se deployant en zero-shot sur des terrains simules inedits comme sur des terrains reels. Pour l'industrie de la robotique humanoide, cela repond a une limite recurrente des approches actuelles: les strategies existantes de diversification des allures, qu'elles reposent sur des calendriers de demarche predefinis, l'imitation de clips de mouvement humain, l'entrainement d'experts specialises ou la distillation de plusieurs competences en une seule politique, restent rigides face a des commandes de vitesse continues, des terrains varies et des changements de morphologie. Une politique capable de generaliser la course a partir d'une base de marche deja maitrisee reduirait le cout d'ingenierie et accelererait le deploiement sur des plateformes variees. Comparee aux approches de reference utilisant plusieurs experts ou l'imitation de demonstrations humaines, GaitSpan apprend plus vite et obtient de meilleures performances de demarche, selon les tests rapportes par les auteurs. Le papier s'inscrit dans la lignee des travaux recents sur les politiques VLA et d'apprentissage par renforcement pour la locomotion humanoide, ou la question du transfert sim-to-real et de la generalisation entre vitesses et terrains reste un enjeu central de robustesse avant deploiement industriel a grande echelle.

RecherchePaper

1 source