Completion at the Boundary (CaB) : commutation déployable avec contrôle par complétion sous calibration limitée
Des agents vision-langage-action (VLA) peuvent aujourd'hui exécuter des instructions en langage naturel, mais les systèmes déployés butent sur un angle mort critique : savoir quand une instruction est terminée. Des chercheurs décrivent dans l'article arXiv:2606.00145 une méthode baptisée Completion at the Boundary (CaB), conçue pour résoudre ce problème de détection de complétion dans un régime dit "à faible calibration", c'est-à-dire sans réapprentissage à l'inférence et avec une seule règle de commutation calibrée une fois sur le jeu de développement, puis réutilisée telle quelle en test. Le problème est particulièrement aigu sur les instructions composites du type "fais A, puis B" : un passage de relais mal chronométré propage une erreur en cascade sur toutes les étapes suivantes. CaB modélise la complétion comme un objet local à l'événement, sous forme de Boundary-Phase Tokens (trois états : Before, Hit, After), préservant ainsi une preuve bilatérale autour de la frontière de transition plutôt que de la comprimer en un scalaire unique. Le module CaB-When exploite cet objet pour décider quand commuter, tandis que CaB-How le réutilise pour conditionner la génération d'actions et stabiliser le comportement pendant le handoff. Les auteurs évaluent CaB sur un benchmark VLA en vue subjective dans Minecraft, via un protocole E1/E2 tenant compte des interventions, et montrent une amélioration de l'exécution composite et de la qualité des transitions à capacité égale.
L'enjeu industriel est réel : la majorité des benchmarks VLA mesurent l'exécution d'une tâche atomique, mais les déploiements réels enchaînent des dizaines d'étapes. Sans mécanisme de complétion robuste, un agent peut dépasser sa cible, réexécuter une action terminée, ou passer au mauvais moment sur l'instruction suivante. Le choix d'un régime à faible calibration est significatif : il contraint la méthode à être directement déployable sans fine-tuning par site, ce qui est exactement ce que demande un intégrateur industriel. Le point faible identifié dans l'approche scalaire classique, la fragilité face aux "polarity shifts" entre tâches hétérogènes, est un problème concret que les praticiens connaissent bien mais rarement formalisent. À noter que les expériences restent sur Minecraft et non sur robot physique : le gap sim-to-real n'est pas adressé ici.
CaB s'inscrit dans un courant de recherche dense autour des VLA multi-étapes, porté notamment par pi-0 de Physical Intelligence (qui gère déjà des workflows longue durée), GR00T N2 de NVIDIA, et les travaux d'OpenVLA. Le problème de la détection de fin de tâche est connexe aux travaux sur la segmentation temporelle en imitation learning (skill boundaries, option termination dans les HRL). Minecraft est un benchmark établi pour les agents langage-action (cf. STEVE-1, Voyager), ce qui facilite les comparaisons mais éloigne de la manipulation physique. La suite logique serait une validation sur des manipulateurs réels avec des instructions composites de type pick-and-place, terrain où des acteurs comme Enchanted Tools ou Pollen Robotics en Europe pourraient trouver un intérêt direct à intégrer ce type de module de complétion dans leurs pipelines VLA.
Des acteurs européens comme Enchanted Tools et Pollen Robotics pourraient à terme intégrer un module de complétion de type CaB dans leurs pipelines VLA, mais le gap sim-to-real reste entier, les expériences se limitant à Minecraft sans validation sur manipulateur physique.




