
Apprendre sans perdre son identité : l'évolution des capacités des agents incarnés
Des chercheurs ont publié sur arXiv (arXiv:2604.07799) un cadre baptisé "capability-centric evolution paradigm" qui permet aux agents robotiques incarnés d'acquérir continuellement de nouvelles compétences sans modifier leur architecture centrale. Le concept pivot est celui des Embodied Capability Modules (ECMs): des unités modulaires et versionnées de fonctionnalité, qui peuvent être apprises, affinées et composées indépendamment de l'identité cognitive de l'agent. Le processus fonctionne en boucle fermée -- exécution de tâche, collecte d'expérience, raffinement du modèle, mise à jour du module -- le tout supervisé par une couche d'exécution (runtime layer) appliquant en permanence les contraintes de sécurité. En simulation, le taux de réussite des tâches est passé de 32,4% à 91,3% en 20 itérations, avec zéro dérive de politique et zéro violation de sécurité signalées.
Le problème adressé est concret: dans les systèmes robotiques à longue durée de vie (entrepôts, manufactures, logistique hospitalière), chaque mise à jour du modèle risque de dégrader des comportements précédemment validés -- un frein majeur au déploiement à l'échelle. En découplant l'identité de l'agent de l'évolution de ses capacités, l'approche ECM ouvre la voie à des mises à jour incrémentales et auditables sans régression. Les performances annoncées surpassent SPiRL et SkiMo, deux méthodes de référence en apprentissage de compétences. Il faut cependant souligner que l'ensemble des résultats est obtenu en simulation uniquement: le franchissement du sim-to-real gap, défi central de la robotique incarnée, n'est pas démontré dans ce travail.
Cette recherche s'inscrit dans un courant plus large autour du lifelong learning et de la modularité en robotique, en réponse directe aux limites du fine-tuning de politique classique et du prompt engineering, qui induisent ce que les auteurs nomment une "instabilité d'identité" dans les systèmes durables. Elle dialogue avec les travaux sur les VLA (Vision-Language-Action models) comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, où la question de la mise à jour continue sans régression est également ouverte. Pour les intégrateurs et les décideurs industriels, la prochaine étape déterminante sera la validation sur hardware réel, en environnements non contrôlés, avant toute considération de déploiement.
Dans nos dossiers




