Aller au contenu principal
Quand agir, interroger ou apprendre : le pilotage de politique par gestion de l'incertitude
RecherchearXiv cs.RO6sem

Quand agir, interroger ou apprendre : le pilotage de politique par gestion de l'incertitude

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié sur arXiv (réf. 2602.22474) un cadre nommé UPS (Uncertainty-Aware Policy Steering), conçu pour adapter le comportement d'un robot au moment du déploiement sans nécessiter de réentraînement complet. Le "policy steering" consiste à utiliser un vérificateur appris qui analyse les échantillons d'actions proposés par une politique pré-entraînée (typiquement une diffusion policy) et ne retient que celles jugées conformes à la tâche. UPS utilise un Vision-Language Model (VLM) comme vérificateur général, mais y ajoute une calibration par prédiction conforme (conformal prediction) pour corriger le biais de surconfiance caractéristique de ces modèles. Le système distingue trois régimes de décision : exécuter une action avec haute confiance, demander une clarification en langage naturel si la consigne est ambiguë, ou solliciter une intervention humaine sur l'action lorsque la politique de base est jugée incapable d'exécuter la tâche. Des expériences ont été menées en simulation et sur plateforme physique.

Le problème de la surconfiance des VLMs est concret et rarement traité dans la littérature sur le déploiement robotique. En pratique, un vérificateur qui ne sait pas qu'il ne sait pas valide des actions incorrectes ou bloque des actions valides, dégradant directement la performance opérationnelle. UPS apporte une garantie statistique formelle sur le choix de stratégie, ce qui est significatif pour des intégrateurs industriels qui ont besoin de bornes de fiabilité chiffrées. La composante de residual learning permet au système de progresser à partir des interventions collectées en déploiement, avec un objectif explicite de minimiser le feedback humain coûteux. Cette combinaison calibration plus apprentissage continu différencie UPS des pipelines d'apprentissage actif classiques, qui ne pondèrent pas le coût réel des interruptions.

Le policy steering s'est accéléré avec la disponibilité de politiques pré-entraînées génériques comme la diffusion policy, ACT ou pi-0, et de VLMs capables de raisonnement visuel. Les approches précédentes (SayCan, inner-monologue, RT-2) traitaient généralement la planification de haut niveau et l'exécution de bas niveau comme des modules séparés, sans calibration jointe de l'incertitude. UPS tente de combler ce gap en traitant simultanément l'incertitude sémantique et l'incertitude d'action dans un seul cadre probabiliste avec garanties statistiques. Les concurrents directs incluent les frameworks human-in-the-loop comme TAMER ou les approches de gating robotique d'OpenVLA, qui s'appuient sur des heuristiques moins formelles pour décider quand escalader vers un opérateur. Les travaux sont portés par une équipe académique (site de démonstration : jessie-yuan.github.io/ups) ; aucun partenaire industriel ni calendrier de transfert n'est annoncé à ce stade.

Dans nos dossiers

À lire aussi

Quand les robots dorment : consolidation hors ligne des compétences pour l'apprentissage à politique partagée
1arXiv cs.RO 

Quand les robots dorment : consolidation hors ligne des compétences pour l'apprentissage à politique partagée

Des chercheurs ont publié mi-juin 2026 un article sur arXiv (réf. 2606.17493) présentant "Sleeping Robots", un framework d'apprentissage continu pour robots opérant sur de longues périodes. Le problème central visé est le suivant : lorsqu'un robot doit acquérir de nouvelles compétences séquentiellement, sans accès aux trajectoires ou aux fonctions de coût des tâches précédentes, les politiques partagées -- c'est-à-dire les contrôleurs unifiés sans têtes de décision ou adaptateurs spécifiques à chaque tâche -- tendent à se dégrader. Les auteurs mesurent une amélioration de 64 % du taux de succès moyen et un facteur x2,0 sur la fiabilité pairée par rapport à la meilleure baseline non-oracle sur le benchmark Meta-World MT5, composé de cinq tâches de manipulation. Des gains sont également rapportés sur SurgicAI, un benchmark de robotique chirurgicale. Ce travail adresse un angle mort structurel de la robotique déployée en conditions réelles : le "skill-coupling collapse". Ce phénomène, formalisé ici pour la première fois, désigne une pathologie subtile dans laquelle chaque compétence individuelle maintient un taux de succès acceptable, mais la fiabilité inter-tâches -- c'est-à-dire la capacité du robot à enchaîner ou alterner des tâches apparentées -- se détériore progressivement. Pour les intégrateurs industriels et les équipes R&D en robotique d'entrepôt ou chirurgicale, c'est une distinction critique : les métriques classiques de succès par tâche masquent une fragilité systémique qui ne se manifeste qu'en exploitation longue durée. La solution proposée, le cycle éveil-sommeil, apprend chaque nouvelle compétence en phase "wake" puis consolide hors-ligne la politique partagée en phase "sleep", en s'appuyant sur des "skill memories" gelées compactes -- des critiques gelés avec buffers d'états non ordonnés pour le renforcement, et des snapshots d'acteurs gelés avec buffers d'observations pour l'imitation. Les gradients issus de ces objectifs différentiables sont combinés via le théorème de négociation de Nash, avec ancrage adaptatif et excitabilité locale pour stabiliser la consolidation, ce qui représente une contribution algorithmique non triviale. L'apprentissage continu en robotique est un champ actif depuis plusieurs années, animé par la crainte du "catastrophic forgetting" documenté dans les réseaux de neurones depuis Kirkpatrick et al. (EWC, 2017). Les approches concurrentes incluent les méthodes à tête de décision par tâche (qui abandonnent l'idée d'une politique unifiée), le routage dynamique (mixture-of-experts), ou le rejeu d'expérience classique (Experience Replay) -- toutes supposant soit un accès aux données historiques, soit une architecture modulaire. Sleeping Robots se distingue en travaillant exclusivement avec des mémoires gelées compactes, sans accès aux données brutes passées, ce qui le rend compatible avec des contraintes de confidentialité ou de bande passante en déploiement embarqué. Côté acteurs, Google DeepMind (RT-2, SayCan), Physical Intelligence (Pi-0) et Figure (politique partagée sur Figure 02) travaillent tous sur des politiques générales multi-tâches, mais aucun n'a publié de mécanisme formalisé de consolidation hors-ligne comparable. Les prochaines étapes naturelles seraient une validation sur robots physiques réels (les résultats actuels sont en simulation) et un test sur des horizons temporels plus longs incluant des dizaines de tâches.

UEAucun acteur européen impliqué directement, mais les laboratoires EU (INRIA, CEA-List) et intégrateurs industriels travaillant sur des déploiements robotiques longue durée pourraient exploiter ce framework pour adresser la fragilité systémique inter-tâches non détectée par les métriques classiques.

RecherchePaper
1 source
Vérification visuelle : pilotage à l'inférence et amélioration autonome des politiques
2arXiv cs.RO 

Vérification visuelle : pilotage à l'inférence et amélioration autonome des politiques

Des chercheurs ont publié le 17 juin 2026 un preprint arXiv (2606.18247) présentant VERITAS, un cadre de type générateur-vérificateur destiné aux politiques robots généralistes. Le principe : une politique robot pré-entraînée joue le rôle de "générateur" et est couplée à un "vérificateur visuel" sans gradient qui évalue les actions produites au moment de l'inférence, c'est-à-dire pendant le déploiement réel. Les résultats rapportés indiquent que ce steering à l'inférence surpasse systématiquement la politique généraliste de base sans nécessiter de données de démonstration supplémentaires. Plus significatif encore, les trajectoires auto-générées et validées par le vérificateur servent ensuite de supervision pour un fine-tuning offline : selon les auteurs, ce post-training atteint une efficacité comparable à celle obtenue avec des démonstrations d'experts humains, et ce sans aucune intervention humaine dans la boucle. L'enjeu industriel est direct : l'un des freins majeurs au déploiement à grande échelle de robots généralistes est le coût d'annotation humaine pour maintenir ou améliorer les performances après mise en service. VERITAS propose un mécanisme d'auto-amélioration autonome où le robot apprend de sa propre pratique, ce qui, si les résultats se confirment sur du matériel physique à l'échelle, réduirait structurellement le coût d'intégration pour les opérateurs industriels et les intégrateurs. La distinction entre "steering à l'inférence" (amélioration immédiate sans retraining) et "amélioration offline" (fine-tuning asynchrone sur rollouts vérifiés) est pertinente pour les décideurs B2B qui doivent planifier des cycles de mise à jour. Il faut cependant noter que le papier ne documente pas de métriques de déploiement sur des sites de production réels, ce qui tempère les conclusions. Cette approche s'inscrit dans une tendance forte issue des LLMs : transposer le "test-time compute scaling" au domaine robotique. Des politiques généralistes comme pi-0 (Physical Intelligence), OpenVLA ou RT-2 (Google DeepMind) ont démontré la faisabilité du transfert multi-tâches, mais butent sur la dégradation en conditions réelles non vues à l'entraînement. VERITAS tente de combler ce fossé sans recourir à des méthodes coûteuses comme DAgger ou RLHF classique. Aucun partenaire industriel ni calendrier de validation sur plateforme physique n'est mentionné dans le preprint ; les prochaines étapes attendues sont une évaluation sur robots physiques (humanoïdes ou manipulateurs) dans des environnements non contrôlés.

RechercheOpinion
1 source
ReconVLA : un cadre VLA guidé par l'incertitude et la détection des défaillances pour le contrôle robotique
3arXiv cs.RO 

ReconVLA : un cadre VLA guidé par l'incertitude et la détection des défaillances pour le contrôle robotique

Des chercheurs ont mis en ligne en avril 2026 sur arXiv (référence 2604.16677) un framework nommé ReconVLA, conçu pour doter les modèles vision-langage-action (VLA) d'une capacité jusque-là absente : estimer leur propre degré de confiance avant d'agir. ReconVLA applique la prédiction conforme (conformal prediction) directement sur les tokens d'action produits par un VLA pré-entraîné, sans modification ni réentraînement du modèle. Cette couche génère des intervalles d'incertitude calibrés, corrélés à la qualité d'exécution et au taux de succès de la tâche. Le même mécanisme est étendu à l'espace d'état du robot pour détecter des configurations anormales avant qu'une défaillance ne survienne. L'évaluation couvre des tâches de manipulation variées en simulation et sur robot réel. L'absence de mesure de confiance calibrée est aujourd'hui l'un des principaux verrous à l'industrialisation des VLA. Un modèle comme Pi-0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA) peut produire une action avec une assurance apparente même lorsque la scène perçue sort de sa distribution d'entraînement. ReconVLA contourne ce problème sans toucher au modèle sous-jacent : les intégrateurs peuvent envelopper n'importe quel VLA existant avec cette surcouche de sécurité. En pratique, le framework réduit les erreurs catastrophiques et fournit un signal exploitable par les superviseurs humains ou les systèmes de fail-safe industriels. Il convient de souligner que les résultats présentés restent à l'échelle laboratoire, sans validation sur des lignes de production réelles. La prédiction conforme est une méthode statistique bien établie dans la communauté du machine learning certifié, mais son application aux VLA robotiques reste émergente. Ces architectures ont connu une accélération notable depuis 2023 avec RT-2 (Google DeepMind), puis OpenVLA, Pi-0 et GR00T N2, chacune promettant un contrôle généraliste sans garantie formelle de comportement hors distribution. ReconVLA s'inscrit dans une tendance visant à rendre ces modèles auditables et déployables dans des contextes à risque industriel ou réglementé. Les prochaines étapes naturelles incluent l'intégration avec des pipelines temps réel et la validation sur des horizons de tâches plus longs, domaines où la calibration de l'incertitude devient critique pour les décideurs industriels.

UEImpact indirect : si validé à l'échelle industrielle, ce framework faciliterait le déploiement de VLA dans des environnements réglementés européens (AI Act, sécurité machines), sans nécessiter de réentraînement des modèles existants.

RechercheOpinion
1 source
PO-PDDL : apprentissage de POMDP symboliques à partir de démonstrations visuelles pour la planification robotique sous incertitude
4arXiv cs.RO 

PO-PDDL : apprentissage de POMDP symboliques à partir de démonstrations visuelles pour la planification robotique sous incertitude

Des chercheurs ont proposé PO-PDDL (arXiv:2606.15654, juin 2026), une formulation symbolique des processus de décision markoviens partiellement observables (POMDP) pour la planification robotique en conditions réelles. Le système étend PDDL, standard de facto en planification symbolique depuis les années 1990, en y intégrant explicitement l'observabilité partielle, la stochasticité des actions et la gestion des croyances (beliefs). Un pipeline d'apprentissage reconstruit automatiquement les trajectoires d'état symbolique latentes à partir de vidéos d'exécution de robot réel, détecte les incohérences entre états inférés et observations visuelles pour localiser les zones d'incertitude perceptive, puis apprend les modèles de transition et d'observation stochastiques correspondants. Les domaines générés sont réutilisables entre tâches et permettent une planification en ligne dans l'espace des croyances. Testée sur des tâches de manipulation longue durée (long-horizon) en environnement physique réel, la méthode surpasse les approches existantes d'apprentissage de modèles PDDL et POMDP, avec un coût de planification significativement réduit. L'apport concret pour les intégrateurs robotiques est de supprimer l'effort d'ingénierie lié à la construction manuelle des modèles POMDP, traditionnellement l'un des verrous de la planification symbolique déployable. Apprendre depuis des vidéos de robots réels plutôt que depuis des simulateurs contourne partiellement le gap sim-to-real qui fragilise nombre d'approches d'apprentissage. La syntaxe PDDL préservée ouvre une voie d'intégration avec des LLM pour la spécification de tâches, un axe actif en recherche (voir LLM+P, ProgPrompt). Le fait que les domaines soient réutilisables et que la planification opère en temps réel sous incertitude perceptive et d'exécution représente un pas vers des architectures neuro-symboliques exploitables hors laboratoire. La planification symbolique butte depuis longtemps sur la difficulté de paramétrer les POMDP pour des environnements physiques réels. Des travaux antérieurs comme FAMA ou LOCM ont progressé sur l'apprentissage de modèles PDDL déterministes, sans traiter simultanément stochasticité et observabilité partielle depuis des observations visuelles brutes. PO-PDDL se positionne aussi face aux politiques de bout en bout (VLA, politiques de diffusion) qui absorbent l'incertitude dans le réseau sans la modéliser explicitement. La lisibilité et débuggabilité du formalisme symbolique restent un argument différenciant pour le déploiement industriel. Il s'agit pour l'instant d'un preprint non évalué par les pairs ; les prochaines étapes naturelles incluent l'évaluation sur des manipulations plus complexes et l'intégration dans des stacks open-source comme ROS 2.

RecherchePaper
1 source