
CaP-X : un cadre pour évaluer et améliorer les agents de codage pour la manipulation robotique
Des chercheurs publient CaP-X, un framework open-access destiné à évaluer et améliorer les agents de type "Code-as-Policy" pour la manipulation robotique, selon un article déposé sur arXiv (2603.22435v2). Le système s'appuie sur CaP-Gym, un environnement interactif où des agents pilotent des robots en générant et exécutant du code combinant des primitives de perception et de contrôle. Sur cette base, les auteurs construisent CaP-Bench, un banc d'essai qui compare 12 modèles de langage et modèles vision-langage frontier selon différents niveaux d'abstraction, d'interaction et d'ancrage perceptif. Le travail aboutit à deux propositions concrètes : CaP-Agent0, un framework ne nécessitant aucun entraînement supplémentaire, et CaP-RL, une méthode d'apprentissage par renforcement avec récompenses vérifiables, testée en simulation puis transférée sur robots réels.
L'enjeu dépasse le simple exercice académique : l'approche "code comme politique de contrôle" est présentée comme un complément aux méthodes Vision-Language-Action (VLA), très gourmandes en données, qui dominent aujourd'hui la robotique humanoïde et industrielle. CaP-Bench met en évidence une faiblesse structurelle des agents actuels, leur performance chute nettement dès que les abstractions conçues par des humains sont retirées, ce qui révèle une dépendance excessive au travail d'ingénierie préalable plutôt qu'à une véritable autonomie de raisonnement. Pour les intégrateurs et décideurs industriels, ce résultat tempère l'idée que les grands modèles suffiraient seuls à piloter des bras ou des humanoïdes sans échafaudage logiciel dédié. À l'inverse, les auteurs montrent que multiplier les tours d'interaction, le retour d'exécution structuré, la différenciation visuelle et la synthèse automatique de compétences comble une grande partie de cet écart, même sur des primitives de bas niveau.
Ce travail s'inscrit dans le prolongement des recherches sur le "Code-as-Policy", initiées pour donner aux modèles de langage une interface exécutable vers le contrôle robotique, en alternative aux pipelines VLA de bout en bout. En documentant précisément où les agents actuels échouent et en ouvrant l'accès à son environnement de test, CaP-X vise à devenir une plateforme de référence pour comparer objectivement les approches futures, avant un possible passage à l'échelle sur des tâches de manipulation réelles plus complexes.
Dans nos dossiers




