
Politique de latence latente : apprendre des politiques visuomotrices robustes en restant dans la distribution
Une équipe de recherche publie sur arXiv (2508.05941v2, version révisée) un nouveau cadre baptisé Latent Policy Barrier, ou LPB, destiné à rendre plus robustes les politiques visuomotrices entraînées par apprentissage par imitation (behavior cloning). Le problème ciblé est bien connu des roboticiens : le covariate shift, c'est à dire le fait qu'un robot qui s'écarte même légèrement des trajectoires démontrées par un expert humain voit cette petite déviation s'amplifier jusqu'à provoquer un échec complet de la tâche. Pour y remédier, LPB s'inspire des fonctions barrières de contrôle (Control Barrier Functions) issues de la théorie du contrôle, et traite les représentations latentes des démonstrations expertes comme une frontière implicite séparant les états "dans la distribution", donc sûrs, des états hors distribution, potentiellement dangereux. Concrètement, l'architecture sépare deux rôles dans deux modules distincts : une politique de diffusion entraînée uniquement sur les données expertes pour l'imitation précise, et un modèle de dynamique entraîné à la fois sur les données expertes et sur des trajectoires sous optimales générées par la politique elle même. Au moment de l'inférence, ce modèle de dynamique prédit les futurs états latents et les optimise pour qu'ils restent dans la distribution experte. Les auteurs valident l'approche par des expériences en simulation et sur robot réel.
Cette séparation entre qualité de l'imitation et récupération face aux écarts est significative pour l'industrie de la manipulation robotique, où la collecte de démonstrations reste le goulot d'étranglement principal. Les méthodes existantes pour limiter le covariate shift, correction humaine en boucle (type DAgger) ou augmentation synthétique des données, sont coûteuses en main d'œuvre, reposent sur des hypothèses fortes propres à chaque tâche, ou dégradent la qualité de l'imitation elle même. Si LPB tient ses promesses de robustesse et d'efficacité des données sans annotation supplémentaire, cela réduirait un coût réel pour les intégrateurs qui doivent aujourd'hui multiplier les démonstrations ou les interventions correctives pour fiabiliser un déploiement.
Le travail s'inscrit dans la lignée des politiques de diffusion appliquées à la manipulation robotique, popularisées ces dernières années comme alternative aux politiques déterministes classiques, et emprunte au corpus des fonctions barrières utilisé en contrôle de sécurité pour véhicules et robots mobiles. Il se positionne face aux approches par correction humaine en boucle ou par augmentation de données synthétiques, qu'il cherche explicitement à remplacer. S'agissant d'une publication arXiv, il s'agit d'un résultat de recherche à ce stade, sans annonce de déploiement industriel ni de partenaire commercial identifié.
Dans nos dossiers




