
Trajectoire d'abord : un programme d'entraînement pour découvrir des politiques diversifiées
Des chercheurs ont publié sur arXiv (référence 2506.01568, version 3) une méthode nommée "Trajectory First", un curriculum d'entraînement en deux étapes conçu pour produire des politiques comportementales diversifiées en apprentissage par renforcement (RL). La contribution centrale est l'introduction d'un a priori de trajectoires splines comme biais inductif durant la première phase : ce prior géométrique guide l'exploration de l'espace des comportements, permettant de générer un ensemble de stratégies à haute récompense mais distinctes. La seconde phase distille ces comportements en politiques réactives pas-à-pas, utilisables en temps réel. Les expériences valident l'approche sur des tâches de manipulation robotique en simulation, domaine où les méthodes de diversité contrainte existantes montrent des lacunes d'exploration marquées.
La diversité comportementale est un enjeu opérationnel concret pour les intégrateurs et les équipes de robotique industrielle : un robot capable de saisir un objet selon plusieurs stratégies est nettement plus robuste aux variations de position, d'éclairage ou de géométrie qu'un système limité à une unique politique apprise. Les cadres actuels d'optimisation de diversité contrainte, malgré leurs progrès théoriques, convergent fréquemment vers des optima locaux en manipulation dextre, bridant la robustesse effective des systèmes en production. "Trajectory First" propose une voie pour contourner cette limite sans sacrifier la performance sur la tâche principale, ce qui est précisément le compromis clef que la communauté cherche à résoudre depuis plusieurs années. L'approche ne nécessite pas d'entraînement spécifique à chaque configuration, ce qui renforce sa portée généraliste.
L'optimisation de diversité en RL s'est structurée autour de paradigmes comme Quality-Diversity (QD-RL), MAP-Elites, DIAYN ou DADS, qui peinent tous sur des espaces d'action continus à horizon long. "Trajectory First" s'inscrit dans un courant combinant curriculum learning et représentations géométriques du mouvement pour améliorer l'exploration initiale avant de contraindre la politique finale. Cette publication est une contribution de recherche fondamentale, validée en simulation uniquement, sans déploiement industriel ni partenaires commerciaux annoncés. Les extensions naturelles incluent le transfert sim-to-real et la manipulation bimanuelle, deux axes très actifs dans les laboratoires académiques (Inria, ETH Zurich, CMU) comme chez les acteurs industriels tels que Physical Intelligence (Pi-0), Covariant ou le Boston Dynamics AI Institute.




