
Robustesse des tâches par ré-étiquetage des données vision-action pour robots
Une équipe de chercheurs a publié TREAD (Task Robustness via Re-Labelling Vision-Action Robot Data), un framework de ré-annotation automatique des datasets de robotique présenté sur arXiv (arXiv:2606.10918, juin 2026). L'approche exploite un grand modèle vision-langage (VLM) pré-entraîné en trois étapes séquentielles : génération de sous-tâches sémantiques à partir des labels d'instruction originaux et des scènes initiales, segmentation des vidéos de démonstration conditionnée sur ces sous-tâches, puis production d'instructions textuelles diversifiées intégrant les propriétés des objets manipulés. Le résultat : des démonstrations longues décomposées en paires langage-action ancrées dans la scène, enrichies de reformulations linguistiques variées du même objectif. Les évaluations sur le benchmark LIBERO montrent une amélioration des performances sur des tâches et objectifs non vus à l'entraînement, sans collecte de données supplémentaire.
Ce travail cible un goulot d'étranglement bien identifié dans la course aux politiques de manipulation généralistes : les datasets de robotique existants manquent de diversité linguistique et de variété dans les séquences d'action, ce qui fait que les politiques de type VLA (Vision-Language-Action) peinent à suivre des instructions paraphrasées ou décomposées différemment. TREAD contourne ce problème en réutilisant la connaissance transférable des VLMs pour synthétiser de la diversité là où la collecte terrain serait coûteuse. L'approche améliore simultanément la généralisation de planification via la décomposition de trajectoires et la généralisation des politiques conditionnées au langage via la diversité des formulations, deux axes que les approches de scaling pur (plus de données, plus de paramètres) n'adressent pas directement.
Le contexte est celui de la montée en puissance des politiques généralistes pour la manipulation robotique, incarnée par des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA. Ces architectures héritent des faiblesses de leurs datasets d'entraînement, souvent collectés avec des instructions standardisées et des démonstrations d'une seule séquence. TREAD s'inscrit dans une tendance émergente de data augmentation sémantique, en complémentarité avec les approches de génération synthétique par simulation (sim-to-real) ou de téléopération à grande échelle. LIBERO, le benchmark utilisé pour validation, est largement adopté dans la communauté pour comparer les politiques de manipulation en environnement tabletop. Les prochaines étapes naturelles seraient la validation sur des datasets plus larges comme Open X-Embodiment et des tests en déploiement réel sur plateformes commerciales.




