Behavior Uncloning : distiller la redirection de mode dans les poids de politique sans guidage à l'inférence
Des chercheurs ont publié fin juin 2026 sur arXiv une méthode appelée MoRE (Mode Redirection) pour corriger un défaut structurel de l'apprentissage par imitation robotique (behavior cloning) : les politiques entraînées sur des jeux de démonstrations hétérogènes capturent simultanément des comportements désirés et indésirables, y compris dangereux. L'exemple retenu par les auteurs est parlant : un robot entraîné à des transferts d'objets peut apprendre à passer un couteau lame en premier. MoRE introduit une courte étape d'«uncloning» qui distille un signal de redirection, généré par un classificateur de modes temporaire, directement dans les poids de la politique. Une loss de rétention préserve la compétence sur les modes corrects. Sur huit tâches simulées et réelles, MoRE améliore le taux de succès moyen de 44 points de pourcentage par rapport à la politique multi-modes initiale, et approche les performances du réentraînement sur données filtrées, considéré comme la référence. La méthode est compatible avec Diffusion Policy et Pi0.5, le modèle VLA (Vision-Language-Action) de Physical Intelligence.
L'intérêt industriel de MoRE tient à deux absences : pas d'accès requis aux démonstrations originales, et aucun surcoût à l'inférence. Les solutions existantes butaient sur l'une ou l'autre contrainte : la curation de données impose un réentraînement complet depuis les données sources ; le steering à l'inférence (guidage externe durant l'exécution) ajoute une latence incompatible avec les cycles robotiques en temps réel. MoRE contourne les deux en modifiant les poids une seule fois, en aval de l'entraînement initial. Pour un intégrateur ou un COO industriel, c'est une piste crédible pour corriger une politique déjà déployée sans repartir de zéro. La compatibilité confirmée avec Pi0.5 est un signal fort : si la méthode tient sur un VLA large-scale, elle couvre un spectre large de déploiements réels.
L'apprentissage par imitation reste l'une des méthodes d'entraînement les plus accessibles, mais sa sensibilité aux données hétérogènes est un problème structurel documenté depuis des années. Les VLA récents comme Pi0 et Pi0.5 (Physical Intelligence), OpenVLA (Berkeley) ou GR00T N2 (NVIDIA) ont étendu les capacités générales des politiques sans régler ce problème de modes indésirables. MoRE s'inscrit dans un courant émergent de post-training alignment appliqué à la robotique, analogue aux techniques DPO/RLHF utilisées pour aligner les LLM après préentraînement. Les approches concurrentes incluent le filtrage par classificateur externe et la curation de données assistée par modèle. Ce travail est à ce stade un preprint de recherche, sans partenariat industriel annoncé ni timeline de commercialisation ; aucun acteur européen n'est impliqué parmi les auteurs identifiés.
Dans nos dossiers




