Aller au contenu principal
VASO : des compétences formellement vérifiables et auto-évolutives pour agents d'IA physique
RecherchearXiv cs.RO2h

VASO : des compétences formellement vérifiables et auto-évolutives pour agents d'IA physique

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (identifiant 2606.05395) un framework nommé VASO, pour "Verification-guided Self-evolution of LLM-generated robot skill contracts", qui vise à rendre les compétences robotiques générées par des grands modèles de langage à la fois réutilisables et formellement vérifiables. L'idée centrale : chaque compétence n'est plus un simple script exécutable mais un contrat sémantique à double interface, une interface formelle qui aligne états du robot, observations et commandes de contrôle avec des propositions logiques pour le model checking, et une interface orientée planificateur qui guide la génération de comportements exécutables. Lorsqu'un plan généré échoue à la vérification, VASO traduit la trace de contre-exemple en un gradient textuel qui met à jour le contrat de compétence réutilisable, sans toucher aux poids du modèle de fondation. Sur des plateformes Clearpath Jackal et PX4 (quadrocoptère), le framework atteint 97,2 % de conformité aux spécifications temporelles formelles en moins de 100 échantillons d'optimisation, surpassant les baselines de feedback d'exécution, d'optimisation de prompt et de fine-tuning.

Le problème adressé est précis et rarement traité : les boucles d'évolution de compétences existantes, retour d'exécution, tests unitaires, récompenses d'environnement, auto-critique LLM, ne fournissent que des preuves au niveau de la trace. Elles montrent qu'une compétence a fonctionné sur des exécutions échantillonnées, pas qu'elle satisfait des contrats de sécurité temporelle dans des conditions non testées. Pour un intégrateur ou un COO industriel, c'est la différence entre une démo convaincante en lab et un déploiement certifiable en production. Le fait que VASO maintienne les poids du modèle gelés est également notable sur le plan économique : pas de fine-tuning, pas de GPU dédié à la mise à jour du modèle.

Ce travail s'inscrit dans la tendance des "physical AI agents" où les LLM orchestrent des comportements robotiques à long horizon depuis des instructions en langage naturel. Les compétences réutilisables sont devenues les unités de base de ces architectures, mais leur fiabilité formelle reste un angle mort notable. Des approches concurrentes comme les VLA (Vision-Language-Action models) ou les frameworks d'optimisation de prompts comme OPRO ne ferment pas cette boucle vérification-évolution. VASO affirme être le premier à le faire explicitement. Il s'agit néanmoins d'un preprint sans validation industrielle publiée, et les résultats obtenus sur deux plateformes relativement simples devront être confirmés sur des environnements plus complexes et des chaînes de compétences plus longues avant d'envisager un déploiement en conditions réelles.

À lire aussi

Héritage lamarckien en environnements dynamiques : comment les variables clés influencent la dynamique évolutive
1arXiv cs.RO 

Héritage lamarckien en environnements dynamiques : comment les variables clés influencent la dynamique évolutive

Une équipe de chercheurs en robotique évolutionnaire a publié en mai 2025 sur arXiv (2605.15769) une étude clarifiant les conditions dans lesquelles l'héritage lamarckien améliore ou dégrade les performances d'un système de co-optimisation corps-cerveau. L'expérience repose sur des robots mous virtuels dont la morphologie évolue par algorithme évolutionnaire, tandis que le contrôleur est optimisé en cours de vie par apprentissage, soit par optimisation bayésienne, soit par apprentissage par renforcement. L'héritage lamarckien consiste ici à transférer directement les paramètres de contrôle appris par un parent à sa descendance, à la différence de l'héritage darwinien classique qui ne transmet que le génome structurel. Les auteurs font varier deux dimensions de l'environnement dynamique : le niveau de conflit entre les changements environnementaux et le comportement optimal du robot, et la prévisibilité de ces changements pour l'agent. Résultat : l'héritage lamarckien n'est inférieur à l'approche darwinienne que dans le seul cas où les changements sont à la fois conflictuels et imprévisibles. L'ajout d'un capteur permettant de détecter les transitions environnementales restaure les bénéfices lamarckiens même dans les environnements conflictuels, en donnant à l'agent les moyens d'anticiper un changement de comportement nécessaire. Ce résultat réconcilie une littérature jusque-là contradictoire. La théorie évolutionnaire classique considère l'héritage lamarckien comme neutre ou négatif à long terme, tandis que plusieurs travaux récents en robotique évolutionnaire rapportaient des gains de performance. Cette étude suggère que les comparaisons précédentes omettaient de contrôler conjointement la conflictualité et la prévisibilité des perturbations, deux variables qui interagissent de façon non-linéaire. Pour les praticiens du morpho-evolution, domaine qui cherche à co-optimiser forme et contrôle pour des robots adaptatifs industriels ou de terrain, cela pose un cadre d'analyse actionnable : le bon mécanisme d'héritage dépend du profil statistique de l'environnement opérationnel, pas d'un choix dogmatique. La co-optimisation morphologie-contrôleur est un problème ouvert depuis les travaux fondateurs de Karl Sims dans les années 1990, et reste un défi majeur en conception de robots autonomes. La robotique douce (soft robotics) sert ici de banc d'essai car ses espaces morphologiques continus amplifient la sensibilité aux stratégies d'héritage. Ce preprint n'est pas encore évalué par les pairs et les résultats reposent exclusivement sur simulation, le transfert sim-to-real reste à démontrer. Parmi les acteurs qui travaillent sur des approches similaires figurent des laboratoires comme le Vermont Complex Systems Center ou le groupe Kriegman, ainsi que des initiatives industrielles en conception générative de robots. La prochaine étape naturelle est une validation sur morphologies physiques dans des environnements dont les statistiques sont connues et contrôlées.

RecherchePaper
1 source
Agent à base d'affordances : orchestration de compétences avec vérification intégrée
2arXiv cs.RO 

Agent à base d'affordances : orchestration de compétences avec vérification intégrée

Un préprint publié sur arXiv le 1er mai 2026 (identifiant 2605.00663) présente l'Affordance Agent Harness, un système d'orchestration de modules d'IA conçu pour résoudre l'un des problèmes les plus coriaces de la robotique de manipulation : l'affordance grounding, c'est-à-dire la capacité d'un agent à identifier précisément où et comment interagir avec un objet dans une scène réelle. Le défi est que les zones d'action pertinentes sont souvent petites, partiellement occultées, réfléchissantes ou visuellement ambiguës. L'architecture proposée est un système en boucle fermée qui chaîne plusieurs modules spécialisés, détection, segmentation, imagination d'interaction, via un composant baptisé Router, capable de sélectionner et de paramétrer dynamiquement les modules selon la difficulté de chaque instance. Un module Verifier évalue ensuite la fiabilité des preuves accumulées à partir de trois critères : cohérence interne du système, stabilité multi-échelle, et suffisance des évidences. Si ces seuils ne sont pas atteints, des tentatives ciblées sont relancées avant qu'un module final fusionne l'ensemble pour produire la prédiction. Les expériences sur plusieurs benchmarks d'affordance montrent une meilleure frontière de Pareto précision-coût que les pipelines fixes, avec moins d'appels de modules et une latence réduite, bien que l'article ne fournisse pas de chiffres absolus dans le résumé. L'intérêt de cette approche tient à son principe de vérification avant engagement : là où les pipelines fixes traitent toutes les images de la même façon et accumulent les erreurs en cascade, l'Affordance Agent Harness décide en temps réel si les preuves collectées sont suffisantes pour se commettre. C'est une réponse directe au problème dit du "demo-to-reality gap" en robotique : les systèmes qui fonctionnent bien en conditions contrôlées échouent face à l'ambiguïté réelle. La mémoire épisodique intégrée permet en outre de capitaliser sur les objets récurrents, ce qui est pertinent dans des environnements industriels répétitifs. Pour un intégrateur ou un COO industriel, cela signifie moins d'interventions humaines pour les cas limites et un coût d'inférence maîtrisé, deux contraintes centrales pour le passage à l'échelle. Ce travail s'inscrit dans une tendance forte depuis 2024 : combiner des modèles fondationnels de vision (VLMs, SAM-type pour la segmentation) dans des architectures d'agents modulaires pour la perception robotique. Des systèmes concurrents comme RoboPoint, SpatialVLM ou les approches VLA (Vision-Language-Action) de Physical Intelligence (Pi-0) cherchent également à résoudre l'ancrage spatial pour la manipulation. La différence revendiquée ici est le contrôle explicite du coût d'inférence et la capacité de récupération ciblée en cas d'erreur intermédiaire, plutôt qu'un modèle bout-en-bout. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans ce préprint, il s'agit à ce stade d'une contribution de recherche, avec une page projet publique. Les prochaines étapes naturelles seraient une validation sur des robots physiques en conditions non structurées, ce que l'article ne documente pas encore.

RecherchePaper
1 source
Politique de contrainte de surface pour l'apprentissage de compétences robotiques contraintes et dynamiquement réalisables
3arXiv cs.RO 

Politique de contrainte de surface pour l'apprentissage de compétences robotiques contraintes et dynamiquement réalisables

Des chercheurs ont déposé en mai 2026 sur arXiv (identifiant 2605.31321) un article présentant la Surface Constraint Policy (SCP), une méthode destinée à améliorer la fiabilité des robots dans des tâches de manipulation dextre impliquant des contraintes de surface complexes et de forme libre. L'approche encode la géométrie de surface à partir de démonstrations humaines via une fonction noyau gaussien pondérée en deux dimensions. Sur cette base, une politique de diffusion infère des intentions d'action à partir d'entrées multimodales (observations visuelles et retour d'état du robot), qui sont ensuite transformées en primitives de mouvement dynamique contraintes à la surface (DMPs, Dynamic Movement Primitives) via une méthode de mapping par similarité. Ce pipeline produit des trajectoires à la fois géométriquement admissibles et dynamiquement réalisables. Les auteurs font état de taux de succès et d'une stabilité de contact supérieurs aux méthodes comparées, sans que le résumé ne détaille les métriques précises ni les benchmarks utilisés. Ce travail pointe un angle mort persistant des approches actuelles d'apprentissage par imitation à base de diffusion : les politiques classiques génèrent des actions de manière stochastique, sans modéliser explicitement la géométrie de la surface de contact. En pratique, cela se traduit par des glissements, des décrochages ou des trajectoires physiquement inadmissibles, problèmes rédhibitoires pour des applications industrielles comme le polissage, l'assemblage surfacique ou le soudage. L'originalité de SCP tient à l'intégration des contraintes géométriques dès la génération d'action, couplée à des DMPs qui garantissent la faisabilité dynamique. Pour les intégrateurs et les équipes R&D, cette approche représente un pas concret vers la répétabilité requise en production, là où la stabilité du contact prime sur la généralisation toutes-tâches. Ce travail s'inscrit dans une vague de recherche intense autour des politiques de diffusion pour la manipulation robotique, initiée par Diffusion Policy (Chi et al., 2023, Columbia University) et accélérée par des acteurs comme Physical Intelligence avec pi0, Google DeepMind avec RT-2, ou encore ACT de Stanford. Les primitives de mouvement dynamique mobilisées ici sont un outil classique de la robotique depuis les travaux de Schaal dans les années 2000, mais leur couplage avec un pipeline de diffusion moderne pour gérer des contraintes surfaciques constitue l'apport original de la méthode. Les limitations pointées par les auteurs sont partagées par la plupart des architectures VLA actuelles, ce qui signale un axe de recherche pertinent pour quiconque vise le déploiement industriel. Les prochaines étapes naturelles incluraient une validation sur des surfaces déformables ou en mouvement, ainsi qu'un test de passage à l'échelle avec une plus grande diversité de tâches et de morphologies robotiques.

RecherchePaper
1 source
Évolution supervisée des capacités des agents incarnés : mise à niveau sûre, vérification de compatibilité et retour arrière en temps réel
4arXiv cs.RO 

Évolution supervisée des capacités des agents incarnés : mise à niveau sûre, vérification de compatibilité et retour arrière en temps réel

Une équipe de chercheurs a formalisé dans un preprint arXiv (réf. 2604.08059) un cadre de mise à jour sécurisée pour les modules de capacités d'agents embarqués. Le problème est concret: lorsqu'un robot améliore ses capacités via des mises à jour de modules logiciels, comment garantir que ces déploiements ne violent pas les contraintes de sécurité, les hypothèses d'exécution ou les mécanismes de récupération? Le framework introduit quatre vérifications de compatibilité (interface, politique, comportementale, récupération) organisées en pipeline séquentiel: validation du candidat, évaluation sandbox, déploiement shadow, activation contrôlée, monitoring en ligne et rollback. Sur 6 cycles de mise à jour avec 15 graines aléatoires, une mise à jour naïve atteint 72,9% de succès sur les tâches mais génère 60% d'activations non sécurisées au dernier cycle; le framework gouverné maintient 67,4% de succès avec zéro activation non sécurisée sur l'ensemble des cycles (test de Wilcoxon, p=0,003). Le shadow deployment détecte 40% des régressions invisibles à la sandbox seule, et le rollback réussit dans 79,8% des scénarios de dérive post-activation. Pour les intégrateurs de systèmes robotiques et les décideurs B2B, ce résultat répond à une question stratégique: peut-on industrialiser la mise à jour continue d'un robot en production sans requalification complète du système? La démonstration montre que c'est faisable, la perte de performance étant limitée à 5,5 points de taux de succès en échange d'une garantie de sécurité absolue. La découverte clé porte sur le shadow deployment: 40% des régressions n'apparaissent pas en environnement sandbox, invalidant les workflows de qualification qui s'y arrêtent. Cela pose les bases d'un CI/CD robotique viable, à condition d'inclure une étape shadow en environnement réel. Les travaux antérieurs avaient étudié séparément le packaging modulaire, l'évolution des capacités et la gouvernance à l'exécution, sans les assembler en pipeline cohérent. Cette publication formalise la "governed capability evolution" comme problème de systèmes de premier ordre, directement pertinent pour les architectures à base de VLA (Vision-Language-Action models) qui évoluent rapidement sur des plateformes comme Figure 03, Optimus Gen 3 ou GR00T N2. L'article reste un travail de recherche évalué en simulation, sans déploiement commercial cité; les prochaines étapes attendues sont une validation sur plateformes physiques réelles et une intégration dans des pipelines MLOps robotiques.

RecherchePaper
1 source