
VE2VF : distillation vision vers sans vision par apprentissage par renforcement pour la manipulation robuste avec contacts
Des chercheurs ont présenté VE2VF (Vision-Enabled to Vision-Free), un cadre d'apprentissage par renforcement (RL) pour la manipulation robotique en contact riche, publié en préprint sur arXiv (2605.29564). La méthode repose sur une distillation enseignant-élève conduite intégralement sur robot réel, sans simulation ni randomisation de domaine. Un module "enseignant" équipé de vision apprend d'abord la tâche, puis transfère sa politique à un "élève" n'utilisant que la pose, le twist et le wrench (position/orientation, vitesse et couple de force), sans aucun flux caméra. Sur le benchmark NIST d'assemblage, référence standardisée pour les tâches d'insertion de précision, le système atteint 95 % de taux de succès global après environ 50 minutes d'entraînement sur 3 tâches représentatives, et généralise à 8 variantes non vues lors de l'entraînement. Un fine-tuning par distillation permet d'atteindre 100 % de succès sur la variante la plus difficile.
Ce résultat adresse un problème structurel en robotique industrielle: les politiques basées sur la vision surapprennent les conditions d'éclairage et de fond vues à l'entraînement, ce qui fragilise leur déploiement en environnement de production variable. En éliminant la vision à l'inférence tout en l'exploitant pendant l'apprentissage, VE2VF produit des politiques robustes aux perturbations visuelles sans coût supplémentaire en données. Plus significatif encore: atteindre cette généralisation en moins d'une heure d'entraînement réel suggère qu'on peut contourner le sim-to-real gap sans simulateur haute-fidélité ni dataset synthétique massif. Pour les intégrateurs déployant des cellules d'assemblage de précision, la combinaison rapidité d'adaptation et robustesse proprioceptive est directement actionnable.
Le benchmark NIST Assembly Task Board est utilisé depuis plusieurs années comme terrain de comparaison inter-équipes en manipulation de précision, ce qui confère à ces résultats une lisibilité relative face aux travaux antérieurs. Les approches concurrentes combinent généralement simulation, randomisation de domaine et larges volumes de données synthétiques avant transfert sur robot réel. VE2VF se positionne comme une alternative ancrée dans le réel, avec une boucle human-in-the-loop permettant de superviser l'apprentissage en cours de session. Il s'agit à ce stade d'un préprint de recherche, non d'un système en production ni d'un produit commercialisé. Les suites naturelles incluent des tests sur d'autres plateformes matérielles et des tâches industrielles plus complexes, ainsi qu'une confrontation directe avec les approches de type VLA (Vision-Language-Action) qui ciblent elles aussi la généralisation en manipulation contact-riche à grande échelle.
Dans nos dossiers




