
ProbeAct : récupération des échecs sans entraînement guidée par sonde dans les modèles vision-langage-action
Une équipe de recherche a publié sur arXiv (arXiv:2606.09740) ProbeAct, un framework d'intervention à l'exécution conçu pour détecter et corriger les échecs de saisie et de placement dans les modèles Vision-Language-Action (VLA) pré-entraînés, sans modifier leurs poids ni nécessiter de démonstrations supplémentaires. Le système repose sur trois composants couplés : une sonde légère sur les états cachés du modèle qui prédit les positions 3D des objets pertinents à partir des features intermédiaires du VLA (avec suivi d'identité par algorithme hongrois pour les scènes multi-objets) ; une machine à états cinématiques agnostique à l'objet qui détecte les défaillances de saisie, de transport et de placement via les signaux internes du préhenseur et la cinématique de l'effecteur terminal ; enfin, un filtre hiérarchique par Control Barrier Function (CBF) qui encode les zones d'échecs répétés comme contraintes soft sur l'ensemble de sécurité, corrigeant minimalement les actions du VLA sans altérer son comportement nominal. Évalué sur le benchmark LIBERO-plus, ProbeAct améliore le taux de succès d'OpenVLA-OFT de 69,6 % à 74,1 %.
Un gain de 4,5 points de taux de succès peut sembler modeste, mais il intervient sur un problème structurel bien identifié des VLA : leur fragilité hors distribution. Ces modèles échouent régulièrement face à des variations de luminosité, des changements de point de vue caméra, ou de légères variations d'état initial, autant de conditions triviales dans un déploiement industriel réel. L'intérêt de ProbeAct est précisément d'être plug-and-play, orthogonal aux pipelines d'entraînement existants, et applicable aussi bien aux modèles de base qu'aux versions fine-tunées. Pour un intégrateur, cela signifie un filet de sécurité superposable sur n'importe quel VLA sans coût de ré-entraînement, ce qui réduit concrètement le gap entre performance en benchmark et robustesse terrain.
Les VLA ont connu une accélération notable depuis 2023 avec des modèles comme RT-2 (Google DeepMind), OpenVLA (UC Berkeley) ou pi-0 (Physical Intelligence), mais leur fragilité aux perturbations reste un frein reconnu à la commercialisation. Les approches existantes pour y remédier passent généralement par de l'augmentation de données ou du fine-tuning ciblé, coûteux en temps et en annotations. ProbeAct s'inscrit dans une alternative émergente : la correction à l'inférence, sans toucher au modèle. Il s'agit pour l'instant d'un preprint arXiv, sans déploiement annoncé ni partenaire industriel mentionné ; les prochaines étapes naturelles seraient une validation sur hardware réel hors benchmark simulé.
Dans nos dossiers




