SAPS : autonomie partagée pour orienter la politique en combinant téléopération et VLA pré-entraîné
SAPS (Shared Autonomy for Policy Steering, arXiv:2606.15568) est un framework qui combine en temps réel les commandes d'un opérateur humain avec les actions d'un modèle Vision-Language-Action (VLA) préentraîné, au niveau de l'action elle-même. Sans réentraînement, sans modèle auxiliaire, sans modification architecturale, SAPS introduit trois stratégies d'arbitrage dont une basée sur la similarité cosinus: cet indice mesure l'accord géométrique entre la commande humaine et celle du modèle pour distribuer le contrôle de façon dynamique. Testé sur les benchmarks de simulation LIBERO, LIBERO-PRO et CALVIN, et sur du matériel réel, le framework améliore le taux de succès des tâches jusqu'à 82 % par rapport à l'exécution autonome seule, réduit les interventions humaines par rapport à la télé-opération pure, et raccourcit les temps de complétion dans les deux cas.
Ce résultat touche au défaut structurel des VLA généralistes: leur fragilité face aux perturbations hors-distribution, qu'il s'agisse d'un objet déplacé de quelques centimètres ou d'une scène atypique. SAPS n'exige pas de modifier le modèle existant, ce qui est l'argument commercial central pour un intégrateur industriel: le framework se greffe indifféremment sur Pi-0, GR00T N2, OpenVLA ou tout autre VLA disponible. La réduction de charge cognitive par rapport à la télé-opération pure est également significative pour des applications d'assistance aux personnes à mobilité réduite et pour la collecte de données d'imitation, où chaque heure d'opérateur est coûteuse. Les métriques présentées sont issues d'un preprint non relu par des pairs, et les vidéos de démonstration réelles restent à évaluer avec prudence.
L'autonomie partagée est un champ établi, mais son application agnostique au modèle au niveau action sur des VLA modernes est une voie distincte des approches concurrentes. Physical Intelligence (Pi-0), NVIDIA (GR00T N2) et HuggingFace (LeRobot) misent sur la robustification des politiques par distillation et augmentation de données; SAPS propose une couche d'intervention humaine plug-and-play plutôt qu'un meilleur modèle. Le preprint n'annonce ni déploiement industriel ni partenariat commercial. Les extensions naturelles visent les plateformes humanoïdes (Figure 03, Unitree G1) et un usage dans des boucles de fine-tuning continu. Aucun acteur français ou européen n'est impliqué dans ce travail.
Dans nos dossiers




