
Comment instruire un robot : les annotations linguistiques denses améliorent l'apprentissage de politiques
Des chercheurs publient DeMiAn (Dense Multi-aspect Annotation), une méthode en deux étapes pour améliorer l'apprentissage de politiques robotiques sans collecter de nouvelles démonstrations. Elle ré-annote automatiquement des segments existants via un modèle vision-langage selon quatre axes complémentaires : mouvement physique, composition de la scène, posture du bras et raisonnement. Un module « instructeur » traduit ensuite, à chaque déploiement, une description de tâche et un instantané de scène initiale vers l'annotation la plus adaptée, de façon asynchrone afin de masquer la latence de génération derrière l'exécution de la politique. Évaluée sur plus d'un million de clips de manipulation robotique et 50 000 vidéos égocentrées humaines issues d'EgoVerse, la méthode améliore à la fois une politique vision-langage-action (VLA) classique et un world-action model vidéo. Sur le benchmark RoboCasa, l'instructeur gagne cinq points de taux de succès sur une baseline limitée à la description de tâche seule, et reste à trois points d'un oracle disposant d'annotations parfaites par tâche.
Le principal frein au scaling en robotique manipulatrice n'est pas le compute mais le coût de collecte de démonstrations physiques. DeMiAn inverse la contrainte : ré-annoter un corpus existant avec du langage dense revient nettement moins cher que rejouer des trajectoires en environnement réel. La méthode améliore également les performances sur les tâches composites et en distribution de test hors domaine, là précisément où les politiques VLA échouent le plus fréquemment en déploiement. Résultat non trivial : aucun des quatre axes d'annotation ne domine systématiquement l'ensemble des tâches, ce qui fait du choix de la description dense un problème de recherche à part entière. Les gains sont de surcroît calculés en intégrant le coût de génération des annotations en FLOPs, garantissant des comparaisons compute-performance honnêtes, une rigueur peu fréquente dans ce segment.
Ce travail s'inscrit dans la valorisation croissante des datasets égocentrés humains (EgoVerse, EPIC-Kitchens) comme ressources pour pré-entraîner des politiques de manipulation, en alternative aux pipelines de simulation massive de type IsaacLab. Du côté compétitif, Physical Intelligence avec Pi-0 et Google DeepMind avec RT-X misent également sur la supervision langage-action à grande échelle. DeMiAn se distingue par son caractère post-hoc : aucune modification du protocole de collecte n'est requise, ce qui le rend directement applicable à des corpus robotiques institutionnels existants. Le papier (arXiv 2605.17077, mai 2025) reste un preprint sans validation hardware end-to-end au-delà des benchmarks simulés, laissant ouverte la question du sim-to-real gap sur les gains annoncés.




