
INSIGHT : introspection de séquence au moment de l'inférence pour générer des déclencheurs d'aide dans les modèles VLA
Des chercheurs ont publié INSIGHT (INference-time Sequence Introspection for Generating Help Triggers), un framework d'apprentissage conçu pour doter les modèles Vision-Language-Action (VLA) d'un mécanisme d'introspection en temps réel. Construit sur π₀-FAST, le modèle de Physical Intelligence, INSIGHT extrait trois types de signaux d'incertitude au niveau du token : l'entropie, la log-probabilité, et des estimations bayésiennes de l'incertitude aléatoire et épistémique via une distribution de Dirichlet. Ces signaux sont ensuite injectés dans des classificateurs transformer compacts, entraînés à prédire le bon moment pour déclencher une demande d'aide vers un superviseur humain. Les auteurs ont comparé deux régimes de supervision : supervision forte (étiquettes denses, annotées finement) et supervision faible (étiquettes bruitées, plus scalables), en évaluant les deux sur des tâches in-distribution et out-of-distribution.
La contribution principale est d'ordre systémique : aujourd'hui, les VLA échouent silencieusement. Un robot guidé par ces modèles peut poursuivre une action mal engagée sans aucun signal d'alerte interne, ce qui est rédhibitoire pour un déploiement industriel réel. INSIGHT constitue la première évaluation systématique de l'introspection basée sur l'incertitude dans les VLA, et démontre qu'une modélisation temporelle des signaux token par token, via transformer, surpasse nettement les scores statiques agrégés sur la séquence entière. Le trade-off identifié est clair et opérationnellement utile : les labels forts produisent une détection plus précise des dynamiques d'incertitude fine, mais les labels faibles restent compétitifs lorsque les conditions d'entraînement et d'évaluation sont alignées, ouvrant une voie scalable là où l'annotation dense est impossible.
π₀ (pi-zero), développé par Physical Intelligence, est l'un des modèles VLA généraux les plus avancés publiquement disponibles, capable de contrôler des robots manipulateurs sur des tâches dextres variées. INSIGHT se positionne comme une couche de sécurité cognitive au-dessus de tels modèles, distincte des approches classiques de détection d'anomalie ou de confiance par seuillage de softmax. Les concurrents directs dans cet espace incluent les travaux sur le "robot asking for help" chez Google DeepMind (RT-2, SayCan) et les mécanismes de safe exploration en reinforcement learning. Les suites naturelles de ces travaux pointent vers l'active learning adaptatif et l'intervention humaine sélective en boucle fermée, deux problèmes ouverts critiques avant tout déploiement autonome à grande échelle en environnement non contrôlé.
Dans nos dossiers




