
ATLAS : un outil d'annotation pour la segmentation d'actions robotiques à long horizon
Des chercheurs ont publié le 30 avril 2026 sur arXiv (référence 2604.26637) ATLAS, un outil d'annotation dédié à la segmentation d'actions robotiques sur des horizons temporels longs. L'outil propose une visualisation synchronisée de données multimodales : flux vidéo multi-vues et signaux proprioceptifs comme l'état de la pince ou les capteurs force/couple. ATLAS prend en charge nativement les formats les plus répandus dans la communauté robotique, à savoir les ROS bags et le format RLDS (Reinforcement Learning Dataset), avec un support direct pour des jeux de données spécifiques tels que REASSEMBLE. Son interface centrée sur le clavier vise à réduire la charge cognitive de l'annotateur. Sur une tâche d'assemblage riche en contacts, ATLAS réduit le temps moyen d'annotation par action d'au moins 6 % par rapport à ELAN, améliore l'alignement temporel avec les annotations expertes de plus de 2,8 %, et divise par cinq l'erreur aux frontières d'actions par rapport aux outils purement visuels.
Ce résultat pointe vers un goulot d'étranglement souvent sous-estimé dans le développement des politiques de manipulation : la qualité des annotations temporelles conditionne directement la performance des modèles d'imitation et de segmentation d'actions. Les approches VLA (Vision-Language-Action) et les méthodes de policy learning par démonstration nécessitent des frontières d'actions précises pour généraliser correctement. L'absence de synchronisation entre vidéo et signaux robot dans les outils existants introduit des biais systématiques dans les datasets, qui se répercutent ensuite sur le sim-to-real gap. ATLAS adresse ce problème structurel pour les équipes qui construisent des pipelines de données à grande échelle.
ELAN, l'outil de référence historique pour l'annotation multimodale issu de la linguistique computationnelle, était jusqu'ici la solution la plus utilisée dans les labos robotique faute d'alternative spécialisée. ATLAS se positionne explicitement comme son successeur pour les usages robotiques, avec une couche d'abstraction modulaire qui facilite l'intégration de nouveaux formats. Le format RLDS, popularisé notamment par les travaux de Google DeepMind sur RT-2 et Open X-Embodiment, est devenu un standard de facto pour les datasets de manipulation à large échelle, rendant la compatibilité native d'ATLAS particulièrement pertinente. Aucun déploiement industriel ni partenariat commercial n'est mentionné à ce stade : il s'agit d'un outil de recherche open source, dont la prochaine étape naturelle serait une adoption par les équipes construisant des benchmarks de manipulation standardisés.
Dans nos dossiers




