
Apprentissage par imitation 3D pour la robotique par imagination latente asymétrique et reclassement
Des chercheurs ont déposé en mai 2026 sur arXiv (identifiant 2605.10166) une proposition intitulée DALI-R, pour Data-Asymmetric Latent Imagination and Reranking, un cadre d'apprentissage par imitation robotique conçu pour exploiter des trajectoires de données mixtes plutôt que des démonstrations exclusivement optimales. Le système repose sur deux composants distincts : un Latent World Model entraîné sur des nuages de points 3D qui génère des rollouts imaginés à partir de trajectoires sous-optimales ou échouées, et un Task Completion Scorer qui reclasse des chunks d'actions candidates pour améliorer la prise de décision sans nécessiter de données supplémentaires de haute qualité. Évalué sur les benchmarks de manipulation Adroit et MetaWorld, DALI-R produit une amélioration moyenne de 6,8 % du taux de succès sur deux familles de politiques 3D de base, diffusion et flow-matching, avec un surcoût d'inférence inférieur à 0,7x par rapport aux politiques de référence.
L'enjeu opérationnel est concret : collecter des démonstrations robotiques de haute qualité reste coûteux, chronophage et difficilement scalable en environnement industriel réel. Toute méthode permettant de recycler des trajectoires imparfaites ou échouées réduit mécaniquement la barrière à l'entrée pour entraîner des politiques performantes. Le gain de 6,8 % est modeste mais obtenu sans démonstrations supplémentaires, ce qui est précisément la contrainte dominante en déploiement. Il convient toutefois de noter que ces résultats restent cantonnés à des benchmarks de simulation standardisés ; l'article n'aborde pas le sim-to-real gap, et aucune validation sur hardware physique n'est présentée.
Ce travail s'inscrit dans la vague des politiques de manipulation 3D initiée autour de 2023-2024 avec DP3, Diffusion Policy et ACT, qui ont déplacé le problème de l'architecture vers celui de la qualité et du volume des données. La question de l'apprentissage depuis des données sous-optimales est également au coeur des travaux de Physical Intelligence (pi0), de CMU et de Stanford sur l'imitation offline. La prochaine étape crédible pour DALI-R serait une validation sur des plateformes hardware réelles et des tâches industrielles représentatives, encore absente de ce preprint.
Dans nos dossiers




