
Vérification visuelle : pilotage à l'inférence et amélioration autonome des politiques
Des chercheurs ont publié le 17 juin 2026 un preprint arXiv (2606.18247) présentant VERITAS, un cadre de type générateur-vérificateur destiné aux politiques robots généralistes. Le principe : une politique robot pré-entraînée joue le rôle de "générateur" et est couplée à un "vérificateur visuel" sans gradient qui évalue les actions produites au moment de l'inférence, c'est-à-dire pendant le déploiement réel. Les résultats rapportés indiquent que ce steering à l'inférence surpasse systématiquement la politique généraliste de base sans nécessiter de données de démonstration supplémentaires. Plus significatif encore, les trajectoires auto-générées et validées par le vérificateur servent ensuite de supervision pour un fine-tuning offline : selon les auteurs, ce post-training atteint une efficacité comparable à celle obtenue avec des démonstrations d'experts humains, et ce sans aucune intervention humaine dans la boucle.
L'enjeu industriel est direct : l'un des freins majeurs au déploiement à grande échelle de robots généralistes est le coût d'annotation humaine pour maintenir ou améliorer les performances après mise en service. VERITAS propose un mécanisme d'auto-amélioration autonome où le robot apprend de sa propre pratique, ce qui, si les résultats se confirment sur du matériel physique à l'échelle, réduirait structurellement le coût d'intégration pour les opérateurs industriels et les intégrateurs. La distinction entre "steering à l'inférence" (amélioration immédiate sans retraining) et "amélioration offline" (fine-tuning asynchrone sur rollouts vérifiés) est pertinente pour les décideurs B2B qui doivent planifier des cycles de mise à jour. Il faut cependant noter que le papier ne documente pas de métriques de déploiement sur des sites de production réels, ce qui tempère les conclusions.
Cette approche s'inscrit dans une tendance forte issue des LLMs : transposer le "test-time compute scaling" au domaine robotique. Des politiques généralistes comme pi-0 (Physical Intelligence), OpenVLA ou RT-2 (Google DeepMind) ont démontré la faisabilité du transfert multi-tâches, mais butent sur la dégradation en conditions réelles non vues à l'entraînement. VERITAS tente de combler ce fossé sans recourir à des méthodes coûteuses comme DAgger ou RLHF classique. Aucun partenaire industriel ni calendrier de validation sur plateforme physique n'est mentionné dans le preprint ; les prochaines étapes attendues sont une évaluation sur robots physiques (humanoïdes ou manipulateurs) dans des environnements non contrôlés.
Dans nos dossiers




