FAR : retentative sensible aux échecs pour la récupération en cours de test et l'amélioration continue des politiques
Les chercheurs à l'origine de ce papier arXiv (référence 2607.01111v1) présentent FAR (Failure-Aware Retry), un framework qui permet à un robot manipulateur d'apprendre de ses propres échecs directement au moment du test, sans intervention humaine, pour finir par accomplir la tâche de façon autonome. Le système combine deux mécanismes: la Failure-Contrastive Preference Adaptation, qui transforme chaque échec en donnée de préférence pour écarter la politique des comportements déjà ratés, et des perturbations d'action légères appliquées lors des tentatives suivantes pour favoriser une exploration locale ciblée autour du point d'échec. Les trajectoires de récupération qui réussissent sont ensuite réinjectées dans une boucle d'entraînement, ce qui permet une amélioration continue de la politique. Testé en simulation et sur des tâches de manipulation réelles, FAR améliore le taux de réussite de 17,6% en moyenne par rapport à une politique de diffusion standard en simulation, et de 11,7% en conditions réelles.
Ce travail s'attaque à un problème concret pour l'industrie: la plupart des politiques de manipulation actuelles, notamment celles basées sur la diffusion, échouent silencieusement en réel et se contentent de répéter la même erreur lors d'un nouvel essai, faute de mécanisme pour comprendre pourquoi elles ont échoué. Les méthodes de récupération existantes s'appuient généralement sur un opérateur humain pour réinitialiser ou corriger le robot, ce qui limite le déploiement autonome à grande échelle et alourdit le coût des essais réels. En démontrant qu'un robot peut exploiter ses propres échecs comme signal d'apprentissage plutôt que comme simple bruit à ignorer, FAR va dans le sens d'une meilleure robustesse des politiques VLA et de diffusion en environnement non contrôlé, un enjeu central pour les intégrateurs qui cherchent à réduire la supervision humaine sur des lignes de manipulation.
FAR s'inscrit dans la lignée des travaux récents sur les politiques de diffusion et l'apprentissage par imitation appliqués à la manipulation robotique, où la question du "reset" et du "budget de pas de temps" pendant l'entraînement continu reste un goulot d'étranglement pratique. Les auteurs montrent justement que leur méthode améliore l'efficacité des données sous ces deux contraintes de budget, en exploitant préférentiellement les cas d'échec les plus informatifs. Le papier, classé comme nouvelle soumission sur arXiv, ouvre la voie à des extensions vers d'autres familles de politiques et vers des déploiements réels prolongés, sans que des pilotes industriels concrets ne soient encore annoncés à ce stade.
Dans nos dossiers




