Vers une manipulation robotique généralisable dans des environnements dynamiques
Les chercheurs du consortium H-EmbodVis publient DOMINO, un jeu de données et un benchmark dédiés à la manipulation robotique dans des environnements dynamiques, où les objets à saisir bougent plutôt que de rester immobiles. L'ensemble couvre 35 tâches organisées par niveaux de complexité, plus de 110 000 trajectoires expertes et une suite d'évaluation multidimensionnelle. Parallèlement, l'équipe présente PUMA, une architecture Vision-Language-Action (VLA) conçue spécifiquement pour la dynamique de scène : elle combine un flux optique historique centré sur la scène avec des requêtes spécialisées ("world queries") qui anticipent implicitement l'état futur des objets. Résultat mesuré : un gain absolu de 6,3 points de taux de réussite par rapport aux modèles de référence, avec du code et des données disponibles sur GitHub (H-EmbodVis/DOMINO).
L'enjeu dépasse la simple performance sur un benchmark académique. La plupart des modèles VLA actuels, du type de ceux qui alimentent les bras robotiques et les humanoïdes commercialisés, sont entraînés et évalués sur des scènes statiques, alors que les usages industriels réels impliquent souvent des objets en mouvement : pièces sur convoyeur, échanges main à main, tri en environnement encombré. Le papier documente que cette dépendance à l'observation mono-image limite le raisonnement spatio-temporel des modèles, ce qui explique un écart de performance encore mal quantifié entre démonstrations en laboratoire et déploiement réel. Les auteurs montrent aussi que l'entraînement sur données dynamiques améliore les représentations spatio-temporelles au point de bénéficier aux tâches statiques, un signal utile pour les équipes qui arbitrent leurs budgets de collecte de données.
Ce travail s'inscrit dans la vague de modèles fondation pour la robotique (dans la lignée de familles comme Pi-0 ou GR00T) qui cherchent à généraliser au-delà des démonstrations scriptées. En publiant dataset, benchmark et code en open source, l'équipe positionne DOMINO comme une référence commune pour comparer les futurs VLA sur la dimension dynamique, un axe jusqu'ici sous-évalué par les benchmarks existants. Aucune date de déploiement industriel n'est annoncée, il s'agit pour l'instant d'une contribution de recherche destinée à orienter les prochains cycles d'entraînement des modèles de manipulation.
Dans nos dossiers




