
Benchmark COIN : quand le raisonnement rencontre l'interaction incarnée
Une équipe de chercheurs a publié sur arXiv (2604.16886) COIN, pour Chain Of Interaction Benchmark, un nouveau protocole d'évaluation conçu pour mesurer la capacité des agents robotiques généralistes à raisonner et agir de manière interactive sur des tâches à horizon long. Le benchmark se structure en trois sous-ensembles : COIN-50, qui regroupe 50 tâches en environnement quotidien réaliste ; COIN-Primitive, consacré aux primitives d'action causalement dépendantes ; et COIN-Composition, de complexité intermédiaire, ciblant l'apprentissage et la généralisation de compétences. Pour constituer les données d'entraînement, les auteurs ont développé un système de télé-opération mobile en réalité augmentée à faible coût, permettant de collecter 1 000 démonstrations, 50 par tâche primitive. Trois familles d'approches ont été évaluées : CodeAsPolicy (génération de code exécutable par LLM), VLA (Vision-Language-Action models), et H-VLA (VLA hiérarchiques conditionnés au langage).
Les résultats révèlent des lacunes critiques dans l'état de l'art actuel. Tous les modèles testés échouent significativement sur les tâches nécessitant un raisonnement interactif séquentiel, par exemple, ouvrir plusieurs tiroirs successifs avant de localiser et saisir un objet sous observabilité partielle. Le fossé constaté ne se situe pas tant dans la compréhension visuelle que dans le passage à l'exécution motrice : les modèles peinent à mettre à jour leurs plans en temps réel en fonction des nouvelles informations acquises à chaque étape. Ce résultat pèse directement sur les prétentions des VLA à opérer en autonomie dans des environnements non contrôlés, un signal d'alarme pour les intégrateurs qui anticipent des déploiements industriels à court terme.
COIN s'inscrit dans une vague de benchmarks d'embodied AI cherchant à combler le manque de protocoles standardisés au-delà des tâches statiques de pick-and-place. Des travaux comme LIBERO, RLBench ou BEHAVIOR-1K ont posé des bases, mais aucun n'adressait explicitement la chaîne causale d'interactions sous observabilité partielle à cette granularité. La publication intervient alors que les laboratoires industriels, Physical Intelligence (pi) avec Pi-0, Google DeepMind avec RT-2 ou GR00T N2 de NVIDIA, multiplient les annonces sur la généralisation des VLA. COIN fournit un outil de comparaison indépendant, encore académique, dont l'adoption comme standard de facto dépendra de sa capacité à attirer des soumissions extérieures et à être intégré dans les pipelines d'évaluation des acteurs commerciaux.



