Freeform Preference Learning pour la manipulation robotique
Voici l'article traduit et reformaté selon les consignes :
Des chercheurs présentent Freeform Preference Learning (FPL), une méthode d'apprentissage de politiques robotiques à partir de préférences humaines exprimées en langage libre, publiée sur arXiv le 30 juin 2026. Le problème ciblé est connu dans la manipulation robotique à long horizon : les signaux de succès binaires (réussite ou échec) sont trop rares pour guider l'apprentissage, et les préférences par paires classiques (« la trajectoire A est meilleure que B ») écrasent en un seul score des critères de qualité pourtant distincts, comme la vitesse, la sécurité du geste ou la précision du placement d'un objet. FPL change l'approche en laissant les annotateurs définir eux-mêmes des axes de préférence en langage naturel, par exemple « rapidité », « prudence » ou « qualité du placement », puis en collectant des comparaisons par paires spécifiques à chaque axe. Ces annotations servent à entraîner un modèle de récompense conditionné par le langage, capable d'associer une trajectoire et un axe donné à un score de récompense propre à cet axe, sur lequel est ensuite entraînée une politique unique optimisant simultanément ces multiples dimensions. Sur quatre tâches de manipulation en conditions réelles et deux tâches simulées, toutes à horizon long, FPL améliore les taux de réussite de 38 points de pourcentage par rapport aux méthodes à récompense éparse et aux méthodes à préférence binaire classique.
L'enjeu dépasse le simple gain de performance chiffré. FPL produit un signal de progression dense sans nécessiter de découpage manuel en sous-tâches, ce qui allège considérablement le travail d'ingénierie de récompense, souvent le vrai goulot d'étranglement des pipelines d'apprentissage par renforcement appliqués à la robotique. Le résultat le plus notable pour les équipes qui conçoivent ces systèmes est la possibilité de piloter le comportement de la politique au moment de l'inférence, en pondérant différemment les axes appris, sans réentraînement, une flexibilité rarement démontrée à ce niveau. Les auteurs rapportent aussi une forme de compositionnalité : la politique combine des comportements qui n'apparaissaient pas ensemble dans les données d'entraînement, un indice que le modèle de récompense capture des notions de qualité généralisables plutôt que de simples heuristiques mémorisées.
Ce travail s'inscrit dans la lignée des efforts récents pour dépasser les limites du reinforcement learning from human feedback (RLHF) appliqué au-delà du texte, notamment dans la manipulation robotique où des méthodes comme les préférences binaires ou le reward shaping manuel dominent encore. Il ne s'agit pas d'un système déployé commercialement mais d'une contribution méthodologique testée en laboratoire sur un nombre limité de tâches, avec du matériel de démonstration disponible en ligne (freeform-pl.github.io/fpl.website). Les prochaines étapes attendues concernent le passage à l'échelle sur des jeux de tâches plus vastes et l'intégration éventuelle à des architectures VLA (vision-language-action) génériques, où la définition de récompenses reste un obstacle central au déploiement industriel de robots généralistes.
Dans nos dossiers




