
Adaptation de politique sans mise à jour du modèle par flux normalisant
Des chercheurs du laboratoire RIPL ont publié sur arXiv (2606.06461) GLOVES, une famille de méthodes d'adaptation fondées sur le flow matching permettant de corriger les actions d'agents robotiques non experts, politiques pré-entraînées, modèles de fondation ou opérateurs humains, sans modifier leurs poids ni leur logique de contrôle. Le principe : plutôt que de remplacer l'agent par un système entièrement autonome, GLOVES "transporte" ses actions vers une distribution cible apprise d'un expert, à partir d'un petit nombre de démonstrations ou de segments de compétences réutilisables. Un mécanisme de score par flux inverse (reverse flow evaluation) sert de portail d'intervention sélective : les actions déjà cohérentes avec la distribution experte passent inchangées, seules les actions anomales ou hors distribution (OOD) sont corrigées.
Ce travail répond à un problème concret et croissant dans le déploiement des modèles de fondation robotiques de type VLA (Vision-Language-Action) : Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA produisent des comportements génériques qui échouent souvent sur des tâches spécifiques ou dans des environnements non vus à l'entraînement. GLOVES propose une couche d'adaptation légère qui ne nécessite pas de réentraîner le modèle de base, quelques démonstrations suffisent, et les segments de compétences réussis sont réutilisables sur plusieurs tâches. L'intervention conditionnelle préserve l'autonomie de l'agent sous-jacent, ce qui est pertinent pour des déploiements industriels où l'opérateur veut conserver le contrôle sémantique du comportement sans tout reconstruire.
GLOVES s'inscrit dans un courant actif de recherche sur la correction de politiques et le contrôle partagé (shared autonomy), distinct de l'imitation learning classique ou de l'IRL. Le flow matching est en forte progression depuis son adoption dans Pi-0 (diffusion policies) ; GLOVES l'applique non à la génération d'actions brutes mais à leur correction post-hoc, ce qui est architecturalement plus modulaire et plus facile à greffer sur un système existant. Le code et les démonstrations sont disponibles à ripl.github.io/GLOVES_web. Les suites naturelles incluent l'intégration dans des pipelines de téléopération augmentée, bien que le preprint n'annonce pas encore de déploiements industriels concrets ni de partenariats commerciaux.
Dans nos dossiers




