
SeeTraceAct : planification latente par visibilité à partir de vidéos de démonstration multi-corps
Des chercheurs ont publié en juin 2026 SeeTraceAct, une architecture de politique robotique de type VLA (vision-language-action model) conçue pour exécuter des tâches inédites à partir d'une seule vidéo de démonstration, sans nécessiter de nouvelles données de téléopération spécifiques à la tâche. Le système conditionne la politique du robot sur cette unique vidéo de référence, puis génère de manière anticipée la trajectoire future de l'effecteur terminal en tenant compte de sa visibilité dans la scène, une technique baptisée "visibility-aware latent planning". Sur le benchmark RoboCasa-DC, que les auteurs publient en parallèle, SeeTraceAct obtient le meilleur taux de succès sur les quatre configurations testées. Sur un banc réel où un bras Franka Panda est guidé par des démonstrations humaines (cross-embodiment), le gain moyen atteint 12,5 points de pourcentage par rapport aux approches de référence.
Le problème central que SeeTraceAct cherche à résoudre est le "demo-to-execution gap" : les VLA bout-en-bout existants échouent fréquemment dès que la tâche exige de localiser précisément une petite zone cible, visser un bouchon, saisir un connecteur miniature, aligner un composant. En forçant le modèle à prédire explicitement la trace spatiale de l'effecteur avant d'agir, le framework impose un ancrage géométrique qui manque aux approches purement end-to-end. Le fait que cela fonctionne en cross-embodiment (démonstrations humaines → bras industriel) réduit concrètement la barrière à l'entrée pour les intégrateurs : pas besoin d'un opérateur expert pour collecter des données de téléopération sur chaque nouvelle variante de tâche, une vidéo de référence suffit.
RoboCasa-DC s'appuie sur RoboCasa, un simulateur de tâches domestiques développé à l'Université du Texas à Austin et publié fin 2024, étendu ici avec des vidéos humanoïdes appariées par épisode pour permettre une évaluation reproductible en cross-embodiment. SeeTraceAct s'inscrit dans une tendance de fond qui voit émerger des VLA généralisables, Pi-0 chez Physical Intelligence, GR00T N2 chez NVIDIA, OpenVLA à Berkeley, tous cherchant à réduire le coût de la collecte de données. La prochaine étape logique est l'extension à des manipulations multi-étapes et à des environnements moins contrôlés ; les auteurs ne mentionnent pas de déploiement industriel imminent, ce travail restant pour l'heure une contribution de recherche.
Dans nos dossiers




