
HAVE : un vérificateur sensible à l'historique qui raisonne sur les interactions passées
Des chercheurs présentent HAVE (History-Aware VErifier), une architecture de contrôle robotique publiée sur arXiv (2509.00271v2) et soumise à CoRL 2025. Le principe central est une dissociation explicite entre deux composants distincts : un générateur diffusif non conditionnel qui propose plusieurs actions candidates, et un vérificateur apprenant à sélectionner la meilleure action en raisonnant sur l'historique des interactions passées. Les expériences couvrent des environnements simulés et réels incluant des objets articulés, des portes à comportement multimodal (poussée ou tirée selon le contexte), et des scénarios de saisie d'objets sur surfaces inégales. Aucun chiffre de déploiement industriel ni de partenaire commercial n'est mentionné : il s'agit d'une contribution académique pure.
L'intérêt de HAVE réside dans son diagnostic du problème plutôt que dans la solution elle-même. Les modèles génératifs récents, y compris ceux conditionnés sur l'historique d'actions, peinent à résoudre les ambiguïtés visuelles lors de la manipulation : un objet dont l'état interne est incertain (tiroir bloqué, poignée bimode) génère des échecs répétés même avec des VLA sophistiqués. Séparer génération et vérification permet au vérificateur de capitaliser sur les tentatives précédentes, là où un seul réseau intégré lisse ces signaux. Les auteurs fournissent une analyse théorique montrant que l'ajout d'un vérificateur améliore statistiquement la qualité d'action espérée, ce qui est moins courant dans la littérature robotique que les seules validations empiriques. Pour un intégrateur industriel, cela suggère une voie pour traiter les cas limites sans collecter massivement de données étiquetées sur chaque configuration ambiguë.
HAVE s'inscrit dans la vague des politiques diffusives initiée par Diffusion Policy (Chi et al., 2023) et étendue par pi-0 de Physical Intelligence, qui applique ce paradigme aux robots humanoïdes. Face aux approches concurrentes comme GR00T N2 de NVIDIA ou OpenVLA, qui misent sur le conditionnement fort des transformeurs vision-langage-action, HAVE choisit une architecture modulaire où la vérification est un citoyen de première classe et non une post-correction. Aucun acteur européen ou français n'est impliqué dans cette publication. Les prochaines étapes naturelles seraient des tests sur des manipulateurs industriels en conditions non structurées et une intégration avec des modèles de fondation plus larges pour le raisonnement contextuel.




