
DexFuture : ciblage visuomoteur hiérarchique par états futurs pour la manipulation bimanuelle d'outils
Des chercheurs ont publié DexFuture (arXiv:2606.05699), une architecture hiérarchique pour la manipulation bimanuelle dextre avec des outils. Le système se décompose en deux niveaux : un prédicteur de cibles visuomotrices futures (Future-State Visuomotor Target Predictor) en haute couche, et une politique d'exécution bas niveau conditionnée sur ces cibles (Target-Conditioned Structured Dexterous Policy). Le prédicteur exploite un flux RGB égocentrique, des données proprioceptives et un historique géométrique pour générer une trajectoire multi-étape via un transformeur conditionné sur l'horizon temporel ; le module d'exécution suit ensuite ces cibles articulation par articulation (per-link) à 60 Hz. Sur le benchmark OakInk2 de tâches bimanuelles avec outils, DexFuture atteint 90 % des performances d'un oracle disposant d'états privilégiés (informations inaccessibles en déploiement réel), contre seulement 7 % pour une politique sans référence future, et s'exécute environ 250 fois plus vite que les approches de planification CEM de type DexWM.
Ce résultat est notable car il s'attaque à l'un des verrous fondamentaux de la robotique dextre : comment générer une référence future dynamiquement cohérente sans s'appuyer sur des états privilégiés issus de démonstrations humaines, et sans planification contrefactuelle lente sur des séquences d'actions à haute dimension. L'écart de performance entre la politique sans référence (7 %) et DexFuture (90 %) illustre à quel point le conditionnement sur un horizon temporel est déterminant pour la manipulation fine à deux mains. Pour les intégrateurs et décideurs B2B, l'exécution à 60 Hz est compatible avec du contrôle temps-réel sur hardware standard, là où les approches CEM nécessitaient des cycles bien trop longs pour un déploiement industriel. La séparation explicite entre prédiction sémantique lente (long horizon) et exécution haute fréquence (bas niveau) est une architecture qui se répand dans la robotique de précision, et DexFuture en fournit une validation quantitative significative sur benchmark public.
Le benchmark OakInk2 est une référence académique établie pour évaluer la manipulation d'outils à deux mains avec des mains anthropomorphes, couvrant des tâches réalistes de préhension, transfert et utilisation d'outils courants. Le champ des politiques visuomotrices pour mains dextres est en pleine effervescence : DexWM (world models pour la dextérité), Pi-0 de Physical Intelligence, et les approches VLA (Vision-Language-Action) de Google DeepMind et Figure AI poussent la généralisation vers des niveaux inédits. DexFuture se distingue en ciblant la cohérence dynamique de la trajectoire future sans supervision privilégiée, une contrainte plus réaliste que les méthodes supposant un accès complet à l'état du système. L'article n'annonce ni déploiement physique ni timeline commerciale : il s'agit d'un résultat de recherche fondamentale validé en simulation et sur données de démonstration. Les étapes naturelles seraient le passage à des mains physiques (sim-to-real), l'extension à des outils non vus à l'entraînement, et l'intégration dans des pipelines VLA pour des tâches de longue durée.
Dans nos dossiers




