VASO : des compétences formellement vérifiables…

Du numérique au physique : des agents numériques comme coachs autonomes de l'intelligence physique

42

1arXiv cs.RO

Du numérique au physique : des agents numériques comme coachs autonomes de l'intelligence physique

Des chercheurs ont publié EmboCoach-Bench, un benchmark évaluant la capacité d'agents LLM à automatiser l'ingénierie de politiques pour systèmes robotiques incarnés. Présenté sur arXiv (arXiv:2501.21570), le cadre couvre 32 tâches conçues par des experts en apprentissage par renforcement (RL) et apprentissage par imitation (IL), avec le code exécutable comme interface universelle entre l'agent et l'environnement de simulation. Plutôt que de générer des solutions statiques, les agents opèrent en boucle fermée: ils proposent du code, l'exécutent dans le simulateur, analysent le retour d'environnement, puis itèrent pour corriger et optimiser. Les tâches couvrent des aspects allant de la conception de fonctions de récompense informées par la physique aux architectures de politiques avancées, notamment les diffusion policies. Les résultats quantitatifs méritent attention: les agents autonomes ont surpassé les baselines conçues manuellement par des humains de 26,5% en taux de succès moyen, contestant l'hypothèse selon laquelle l'expertise humaine en reward shaping serait difficilement substituable pour les politiques incarnées. Deuxième enseignement: le workflow agentique avec retour d'environnement réduit substantiellement l'écart de performance entre modèles open-source et propriétaires, ce qui suggère que la boucle de feedback itératif est plus déterminante que le modèle sous-jacent. Enfin, les agents démontrent une capacité de self-correction sur des cas pathologiques d'ingénierie, récupérant des tâches en quasi-échec total via un débogage itératif en simulation. Pour les équipes robotiques, cela représente une voie potentielle pour réduire le temps ingénieur consacré au tuning manuel des hyperparamètres et à la conception artisanale de fonctions de récompense. Ce travail s'inscrit dans une tendance plus large: l'application des workflows agentiques LLM, prouvés dans l'automatisation logicielle et la découverte scientifique, au domaine de l'IA incarnée. Le goulot d'étranglement identifié, à savoir la supervision manuelle intensive pour le réglage des simulations, est un problème structurel bien connu des équipes travaillant sur Optimus (Tesla), GR00T N2 (NVIDIA) ou les systèmes de Figure AI. La contribution différenciante d'EmboCoach-Bench est de proposer un cadre d'évaluation standardisé pour mesurer ce que les agents LLM peuvent réellement automatiser, plutôt que des démos ciblées. Les extensions naturelles incluent l'intégration à des backends hétérogènes (Isaac Lab, MuJoCo, Genesis) et la validation sim-to-real pour confirmer si ces gains en simulation se transfèrent aux systèmes physiques, ce qui reste le test décisif pour une adoption industrielle.

RecherchePaper

1 source

ASPIRE : découverte de compétences à base d'agents pour la robotique

38

2arXiv cs.RO

ASPIRE : découverte de compétences à base d'agents pour la robotique

ASPIRE (Agentic Skill Programming through Iterative Robot Exploration) est un nouveau système d'apprentissage continu pour la robotique, décrit dans un article publié sur arXiv (2607.00272) début juillet 2026. Contrairement à la programmation robotique traditionnelle, qui impose de coder manuellement la perception multimodale, la gestion des contacts physiques et la diversité des échecs d'exécution, ASPIRE écrit et corrige lui-même ses programmes de contrôle selon le paradigme "code-as-policy", puis capitalise chaque correction validée dans une bibliothèque de compétences réutilisables. Le système s'appuie sur trois briques : un moteur d'exécution en boucle fermée qui expose des traces multimodales fines pour diagnostiquer les échecs et synthétiser des réparations ; une bibliothèque de compétences qui s'enrichit en continu de correctifs transférables ; et une recherche évolutionnaire qui génère des séquences de tâches et des programmes de contrôle variés, au-delà du simple raffinement trajectoire par trajectoire. Sur les bancs d'essai simulés, ASPIRE dépasse les méthodes précédentes de 77% sur les manipulations perturbées de LIBERO-Pro, 72% sur les transferts bimanuels de Robosuite, et 32% sur les tâches ménagères longues de BEHAVIOR-1K. Ce travail s'attaque directement à un point de friction connu du secteur : la difficulté à faire generaliser des politiques de contrôle robotique au-delà de la tâche pour laquelle elles ont été conçues, sans réentraînement lourd à chaque nouvelle configuration. La bibliothèque cumulative d'ASPIRE permet une généralisation zero-shot à des tâches longues jamais vues : 31% de réussite sur LIBERO-Pro Long, contre seulement 4% pour les meilleures méthodes concurrentes, qui pourtant s'appuient sur du raisonnement et des tentatives répétées au moment de l'exécution. Pour les intégrateurs et décideurs robotique, c'est un signal encourageant sur la viabilité de bibliothèques de compétences auto-construites plutôt que de politiques VLA monolithiques entraînées une fois pour toutes, mais les auteurs restent prudents : ils ne parlent que de "premières preuves" de transfert simulation-vers-réel, pas d'un problème résolu. Ce résultat s'inscrit dans la lignée des travaux récents sur les politiques de contrôle générées ou affinées par des grands modèles de langage, où l'enjeu principal est de dépasser le stade de la démonstration isolée pour atteindre une robustesse répétable en conditions réelles. Contrairement aux approches par apprentissage par renforcement pur ou aux VLA entraînés de bout en bout (type Pi-0 ou GR00T), ASPIRE mise sur l'exploration itérative et la mémoire de compétences pour réduire l'effort de programmation à chaque nouvel embodiment ou API robotique. Les auteurs annoncent vouloir approfondir la validation du transfert sim-to-real sur des plateformes physiques variées, une étape encore à venir puisque l'article ne documente pour l'instant que des résultats en simulation.

RecherchePaper

1 source

Héritage lamarckien en environnements dynamiques : comment les variables clés influencent la dynamique évolutive

35

3arXiv cs.RO

Héritage lamarckien en environnements dynamiques : comment les variables clés influencent la dynamique évolutive

Une équipe de chercheurs en robotique évolutionnaire a publié en mai 2025 sur arXiv (2605.15769) une étude clarifiant les conditions dans lesquelles l'héritage lamarckien améliore ou dégrade les performances d'un système de co-optimisation corps-cerveau. L'expérience repose sur des robots mous virtuels dont la morphologie évolue par algorithme évolutionnaire, tandis que le contrôleur est optimisé en cours de vie par apprentissage, soit par optimisation bayésienne, soit par apprentissage par renforcement. L'héritage lamarckien consiste ici à transférer directement les paramètres de contrôle appris par un parent à sa descendance, à la différence de l'héritage darwinien classique qui ne transmet que le génome structurel. Les auteurs font varier deux dimensions de l'environnement dynamique : le niveau de conflit entre les changements environnementaux et le comportement optimal du robot, et la prévisibilité de ces changements pour l'agent. Résultat : l'héritage lamarckien n'est inférieur à l'approche darwinienne que dans le seul cas où les changements sont à la fois conflictuels et imprévisibles. L'ajout d'un capteur permettant de détecter les transitions environnementales restaure les bénéfices lamarckiens même dans les environnements conflictuels, en donnant à l'agent les moyens d'anticiper un changement de comportement nécessaire. Ce résultat réconcilie une littérature jusque-là contradictoire. La théorie évolutionnaire classique considère l'héritage lamarckien comme neutre ou négatif à long terme, tandis que plusieurs travaux récents en robotique évolutionnaire rapportaient des gains de performance. Cette étude suggère que les comparaisons précédentes omettaient de contrôler conjointement la conflictualité et la prévisibilité des perturbations, deux variables qui interagissent de façon non-linéaire. Pour les praticiens du morpho-evolution, domaine qui cherche à co-optimiser forme et contrôle pour des robots adaptatifs industriels ou de terrain, cela pose un cadre d'analyse actionnable : le bon mécanisme d'héritage dépend du profil statistique de l'environnement opérationnel, pas d'un choix dogmatique. La co-optimisation morphologie-contrôleur est un problème ouvert depuis les travaux fondateurs de Karl Sims dans les années 1990, et reste un défi majeur en conception de robots autonomes. La robotique douce (soft robotics) sert ici de banc d'essai car ses espaces morphologiques continus amplifient la sensibilité aux stratégies d'héritage. Ce preprint n'est pas encore évalué par les pairs et les résultats reposent exclusivement sur simulation, le transfert sim-to-real reste à démontrer. Parmi les acteurs qui travaillent sur des approches similaires figurent des laboratoires comme le Vermont Complex Systems Center ou le groupe Kriegman, ainsi que des initiatives industrielles en conception générative de robots. La prochaine étape naturelle est une validation sur morphologies physiques dans des environnements dont les statistiques sont connues et contrôlées.

RecherchePaper

1 source

Agent à base d'affordances : orchestration de compétences avec vérification intégrée

37

4arXiv cs.RO

Agent à base d'affordances : orchestration de compétences avec vérification intégrée

Un préprint publié sur arXiv le 1er mai 2026 (identifiant 2605.00663) présente l'Affordance Agent Harness, un système d'orchestration de modules d'IA conçu pour résoudre l'un des problèmes les plus coriaces de la robotique de manipulation : l'affordance grounding, c'est-à-dire la capacité d'un agent à identifier précisément où et comment interagir avec un objet dans une scène réelle. Le défi est que les zones d'action pertinentes sont souvent petites, partiellement occultées, réfléchissantes ou visuellement ambiguës. L'architecture proposée est un système en boucle fermée qui chaîne plusieurs modules spécialisés, détection, segmentation, imagination d'interaction, via un composant baptisé Router, capable de sélectionner et de paramétrer dynamiquement les modules selon la difficulté de chaque instance. Un module Verifier évalue ensuite la fiabilité des preuves accumulées à partir de trois critères : cohérence interne du système, stabilité multi-échelle, et suffisance des évidences. Si ces seuils ne sont pas atteints, des tentatives ciblées sont relancées avant qu'un module final fusionne l'ensemble pour produire la prédiction. Les expériences sur plusieurs benchmarks d'affordance montrent une meilleure frontière de Pareto précision-coût que les pipelines fixes, avec moins d'appels de modules et une latence réduite, bien que l'article ne fournisse pas de chiffres absolus dans le résumé. L'intérêt de cette approche tient à son principe de vérification avant engagement : là où les pipelines fixes traitent toutes les images de la même façon et accumulent les erreurs en cascade, l'Affordance Agent Harness décide en temps réel si les preuves collectées sont suffisantes pour se commettre. C'est une réponse directe au problème dit du "demo-to-reality gap" en robotique : les systèmes qui fonctionnent bien en conditions contrôlées échouent face à l'ambiguïté réelle. La mémoire épisodique intégrée permet en outre de capitaliser sur les objets récurrents, ce qui est pertinent dans des environnements industriels répétitifs. Pour un intégrateur ou un COO industriel, cela signifie moins d'interventions humaines pour les cas limites et un coût d'inférence maîtrisé, deux contraintes centrales pour le passage à l'échelle. Ce travail s'inscrit dans une tendance forte depuis 2024 : combiner des modèles fondationnels de vision (VLMs, SAM-type pour la segmentation) dans des architectures d'agents modulaires pour la perception robotique. Des systèmes concurrents comme RoboPoint, SpatialVLM ou les approches VLA (Vision-Language-Action) de Physical Intelligence (Pi-0) cherchent également à résoudre l'ancrage spatial pour la manipulation. La différence revendiquée ici est le contrôle explicite du coût d'inférence et la capacité de récupération ciblée en cas d'erreur intermédiaire, plutôt qu'un modèle bout-en-bout. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans ce préprint, il s'agit à ce stade d'une contribution de recherche, avec une page projet publique. Les prochaines étapes naturelles seraient une validation sur des robots physiques en conditions non structurées, ce que l'article ne documente pas encore.

RecherchePaper

1 source

VASO : des compétences formellement vérifiables et auto-évolutives pour agents d'IA physique

À lire aussi

Du numérique au physique : des agents numériques comme coachs autonomes de l'intelligence physique

ASPIRE : découverte de compétences à base d'agents pour la robotique

Héritage lamarckien en environnements dynamiques : comment les variables clés influencent la dynamique évolutive

Agent à base d'affordances : orchestration de compétences avec vérification intégrée