
AnnotateAnything : annotation automatique d'objets 3D pour la manipulation robotique
Des chercheurs ont publié sur arXiv le 17 juin 2026 un framework baptisé AnnotateAnything (arXiv:2606.17446) pour annoter automatiquement des assets 3D bruts et les rendre exploitables dans des pipelines d'entraînement robotique. Le système convertit des modèles 3D passifs en assets "manipulation-ready" enrichis de labels sémantiques, physiques et interactifs sans intervention humaine, en s'appuyant sur deux pipelines complémentaires : un module de raisonnement visio-linguistique (VLM) infère les sémantiques d'objet et les contraintes d'interaction ; un second pipeline de physique, massivement parallèle, ancre ces priors dans la géométrie de chaque asset pour générer automatiquement poses de préhension, contacts dextres, waypoints d'articulation, directions d'insertion, affordances de suspension et cibles de navigation. Un système de collecte de données de simulation asynchrone s'appuie ensuite sur ces annotations pour couvrir objets, tâches et morphologies robotiques variés.
L'enjeu est central : les assets 3D bruts ne contenant que de la géométrie, annoter manuellement des bibliothèques à l'échelle reste coûteux et non scalable. AnnotateAnything automatise cette étape en combinant priors sémantiques VLM et optimisation géométrique pour produire des labels physiques exécutables. Les auteurs rapportent des gains en efficacité d'annotation, en efficacité de collecte et en taux de réussite de tâches face aux pipelines existants, des résultats à prendre avec précaution puisque les benchmarks comparatifs sont ceux des auteurs eux-mêmes. Le support natif du VQA robotique et du fine-tuning d'instructions visuelles ouvre une intégration directe dans des pipelines VLA (Vision-Language-Action), paradigme dominant pour l'apprentissage de politiques généralisables à l'échelle.
Ce travail s'inscrit dans une vague de recherche sur la scalabilité des données synthétiques, aux côtés de MimicGen (NVIDIA), RoboGen ou UniSim, tous ciblant la réduction du sim-to-real gap par voie simulée. La pénurie d'annotations structurées dans les assets 3D existants est un problème documenté depuis plusieurs années, faute d'alternative viable aux approches manuelles. AnnotateAnything se positionne comme infrastructure de données en amont de tout pipeline de simulation, sans cibler un robot ou un déploiement industriel précis. Les auteurs annoncent la publication du code complet, des annotations et d'un benchmark, un engagement qui, s'il est tenu, pourrait en faire une ressource partagée par la communauté ; aucun partenaire industriel ni déploiement terrain n'est mentionné à ce stade.
Dans nos dossiers




