WatchAct : un benchmark de manipulation robotique fondée sur le comportement
Une équipe de chercheurs a publié WatchAct (arXiv:2606.26443), un nouveau benchmark pour la manipulation robotique fondé sur l'observation du comportement humain. Contrairement aux évaluations existantes, qui associent une instruction textuelle à une image statique, WatchAct impose aux systèmes robotiques de raisonner à partir d'une vidéo montrant un humain accomplir une tâche, puis d'en déduire un plan d'action exécutable. Le benchmark comprend 3 000 instances réparties sur 14 tâches dans quatre domaines cognitifs : compréhension des événements (Event Grounding), récupération de la structure procédurale (Procedural Reasoning), inférence d'intentions implicites (Implicit Intent Inference) et suivi des modifications de scène (Episodic Reasoning). Chaque instance couple une vidéo réelle, une instruction en langue naturelle, une scène simulée dans le framework LIBERO et une tâche exécutable sur un robot Franka Research 3. Le meilleur pipeline testé, associant Gemini-3.1-Pro et le modèle π₀.₅ de Physical Intelligence, atteint seulement 16,3 % de taux de réussite en simulation et 14,0 % sur robot réel.
Ces chiffres révèlent un fossé considérable entre capacités humaines et systèmes actuels. Sur la seule composante de planification vidéo-vers-plan, Gemini-3.1-Pro obtient 36,8 % de Plan SR, contre 97,1 % pour les humains, soit un écart de plus de 60 points de pourcentage. Même avec un plan oracle fourni directement, sans recours à un VLM, π₀.₅ ne dépasse pas 21,5 % de Task SR, et chute à 10,6 % sur des scénarios hors domaine. Le protocole d'évaluation décomposé de WatchAct, qui mesure séparément le raisonnement VLM, l'exécution de la politique robotique et la performance bout-en-bout, est méthodologiquement précieux : il permet d'identifier précisément où chaque composant échoue, plutôt que d'observer un taux global difficile à interpréter. Pour les intégrateurs et les équipes R&D industrielles, ce résultat indique que ni les grands modèles vision-langage actuels ni les politiques de manipulation ne sont prêts pour des scénarios de collaboration humain-robot en environnement non structuré.
WatchAct s'inscrit dans une tendance de fond visant à dépasser les benchmarks « instruction + image unique » qui ne capturent pas la complexité temporelle du travail réel en atelier ou en logistique. Les évaluations existantes comme LIBERO (utilisé ici comme substrat de simulation), RoboSuite ou BridgeData évaluent principalement l'exécution sous contraintes statiques. WatchAct introduit une dimension de video-grounding qui rapproche l'évaluation des conditions réelles, où un robot doit comprendre ce qu'un collègue humain vient de faire pour enchaîner correctement. Le modèle π₀.₅ est développé par Physical Intelligence, l'une des startups VLA les plus suivies du secteur aux côtés de Figure AI, Agility Robotics et 1X Technologies. Aucun acteur européen n'est impliqué dans ce benchmark. Le dataset et le code sont disponibles publiquement ; les prochaines étapes naturelles incluent l'intégration de modèles de raisonnement vidéo plus récents et l'extension à des scénarios multi-agents.




