Aller au contenu principal
AEROS : une architecture mono-agent avec modules de capacités incarnées
RecherchearXiv cs.RO7sem

AEROS : une architecture mono-agent avec modules de capacités incarnées

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (2604.07039) une architecture logicielle baptisée AEROS, Agent Execution Runtime Operating System, qui propose de modéliser chaque robot comme un unique agent intelligent persistant, dont les capacités sont étendues via des modules installables appelés ECMs (Embodied Capability Modules). Chaque ECM encapsule des compétences exécutables, des modèles et des outils, tandis qu'un runtime à politique séparée gère les contraintes d'exécution et les garanties de sécurité. L'évaluation a été conduite en simulation PyBullet avec un bras manipulateur Franka Panda à 7 degrés de liberté, sur huit types d'expériences couvrant la replanification, la récupération d'échec, l'application de politiques, la généralisation inter-tâches et le hot-swapping d'ECM. Sur 100 essais randomisés par condition, AEROS atteint 100 % de succès sur trois tâches distinctes, contre 92-93 % pour des architectures de type BehaviorTree.CPP et ProgPrompt, et seulement 67-73 % pour les pipelines plats. La couche de politique bloque 100 % des actions invalides sans aucun faux positif.

Ces résultats sont pertinents pour les intégrateurs et décideurs industriels pour deux raisons. D'abord, l'écart de performance face aux pipelines plats (jusqu'à 33 points) illustre le coût concret de l'absence d'architecture cohérente dans les systèmes robotiques actuels. Ensuite, la capacité de hot-swapping, charger des ECMs à la volée sans redémarrage, ouvre la voie à des robots reconfigurables en production selon la tâche, sans intervention matérielle. La couche de politique séparée est également notable : elle fournit des garanties de sécurité systémiques sans imposer de retuning par tâche, ce qui répond à un besoin réel dans les déploiements industriels où la certification de sécurité est un verrou.

Le problème qu'AEROS adresse est structurel : les approches existantes soit couplent les compétences dans des architectures monolithiques rigides, soit les distribuent en multi-agents mal coordonnés, sans modèle cohérent d'identité et d'autorité de contrôle. AEROS emprunte aux systèmes d'exploitation traditionnels le concept de packages installables et l'applique aux agents incarnés. Ses concurrents académiques directs incluent ProgPrompt (CMU, planification via LLM) et les frameworks multi-agents comme AutoGen. Une limite importante à signaler : l'évaluation reste entièrement en simulation PyBullet, aucun déploiement physique n'est rapporté dans la publication. Le sim-to-real gap, problème structurel de la robotique, n'est pas adressé ici, ce qui rend prématurée toute conclusion sur la valeur opérationnelle réelle du système.

Dans nos dossiers

À lire aussi

Apprendre sans perdre son identité : l'évolution des capacités des agents incarnés
1arXiv cs.RO 

Apprendre sans perdre son identité : l'évolution des capacités des agents incarnés

Des chercheurs ont publié sur arXiv (arXiv:2604.07799) un cadre baptisé "capability-centric evolution paradigm" qui permet aux agents robotiques incarnés d'acquérir continuellement de nouvelles compétences sans modifier leur architecture centrale. Le concept pivot est celui des Embodied Capability Modules (ECMs): des unités modulaires et versionnées de fonctionnalité, qui peuvent être apprises, affinées et composées indépendamment de l'identité cognitive de l'agent. Le processus fonctionne en boucle fermée -- exécution de tâche, collecte d'expérience, raffinement du modèle, mise à jour du module -- le tout supervisé par une couche d'exécution (runtime layer) appliquant en permanence les contraintes de sécurité. En simulation, le taux de réussite des tâches est passé de 32,4% à 91,3% en 20 itérations, avec zéro dérive de politique et zéro violation de sécurité signalées. Le problème adressé est concret: dans les systèmes robotiques à longue durée de vie (entrepôts, manufactures, logistique hospitalière), chaque mise à jour du modèle risque de dégrader des comportements précédemment validés -- un frein majeur au déploiement à l'échelle. En découplant l'identité de l'agent de l'évolution de ses capacités, l'approche ECM ouvre la voie à des mises à jour incrémentales et auditables sans régression. Les performances annoncées surpassent SPiRL et SkiMo, deux méthodes de référence en apprentissage de compétences. Il faut cependant souligner que l'ensemble des résultats est obtenu en simulation uniquement: le franchissement du sim-to-real gap, défi central de la robotique incarnée, n'est pas démontré dans ce travail. Cette recherche s'inscrit dans un courant plus large autour du lifelong learning et de la modularité en robotique, en réponse directe aux limites du fine-tuning de politique classique et du prompt engineering, qui induisent ce que les auteurs nomment une "instabilité d'identité" dans les systèmes durables. Elle dialogue avec les travaux sur les VLA (Vision-Language-Action models) comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, où la question de la mise à jour continue sans régression est également ouverte. Pour les intégrateurs et les décideurs industriels, la prochaine étape déterminante sera la validation sur hardware réel, en environnements non contrôlés, avant toute considération de déploiement.

RecherchePaper
1 source
IA incarnée et capacités extensibles grâce aux outils
2arXiv cs.RO 

IA incarnée et capacités extensibles grâce aux outils

Des chercheurs ont publié le 27 mai 2026 sur arXiv (2605.26637v1) une architecture pour les systèmes d'intelligence incarnée (embodied AI) appelée Embodied Tool Protocol, ou ETP. Le principe central, qualifié de "capability externalization", consiste à découpler perception, raisonnement, planification et contrôle moteur plutôt que de les fondre dans un seul modèle paramétrique bout-en-bout. Chaque capacité devient un outil indépendant, optimisé séparément et invoqué dynamiquement à l'inférence. L'équipe a constitué une base de plus de 100 outils validés couvrant quatre domaines : perception, cognition, raisonnement et exécution. Sur cette base, ils ont construit EmbodiedToolBench, un benchmark évaluant quatre dimensions de l'usage des outils : reconnaissance de la nécessité, sélection, exécution et composition de chaînes. Les expériences, menées en simulation et sur des plateformes physiques, affichent un gain moyen de 31 % sur EB-ALFRED et de 36 % sur EB-Navigation par rapport aux baselines sans augmentation d'outils. Ces chiffres sont pertinents pour un secteur où l'architecture VLA (Vision-Language-Action) bout-en-bout s'est imposée comme paradigme dominant depuis 2023. L'apport le plus concret est l'identification d'une asymétrie forte : la cognition et la perception bénéficient substantiellement de l'externalisation, tandis que les capacités d'exécution motrice restent peu améliorées par l'ajout d'outils externes. Pour un intégrateur ou un COO industriel, ce signal est utile : l'orchestration modulaire semble mature pour les couches décisionnelles et perceptuelles, mais le contrôle bas niveau conserve des contraintes structurelles que l'augmentation d'outils ne résout pas. L'article pointe également un goulot d'étranglement persistant sur tous les modèles testés : savoir quand, lequel et comment invoquer un outil, ce que les auteurs nomment "embodied tool competence". Le travail s'inscrit dans une tendance qui cherche à dépasser les limites de la politique monolithique, notamment la difficulté de généralisation hors distribution. Les approches concurrentes incluent les architectures hiérarchiques classiques (planificateur global + contrôleur bas niveau), les agents LLM à outils dans la lignée de ToolFormer, et des frameworks comme SayCan (Google DeepMind). Ni le code ni les outils ne semblent encore disponibles publiquement selon le texte du preprint, ce qui limite l'évaluation indépendante des gains annoncés. L'adoption d'EmbodiedToolBench comme référentiel commun dépendra de la qualité de la release publique. Les suites logiques seraient de tester la robustesse de la composition de chaînes d'outils dans des environnements non contrôlés, et d'étendre le protocole ETP à des plateformes hardware existantes comme les humanoïdes Figure, Unitree ou les bras manipulateurs industriels.

RechercheOpinion
1 source
Analyse des capacités incarnées dans les modèles de langage multimodaux par évaluation et diagnostic par compétences
3arXiv cs.RO 

Analyse des capacités incarnées dans les modèles de langage multimodaux par évaluation et diagnostic par compétences

Une équipe de chercheurs a publié BEAR (Benchmark for Embodied Abilities and Reasoning), un cadre d'évaluation qui décompose les tâches robotiques en 14 compétences atomiques pour diagnostiquer les failles des grands modèles de langage multimodaux (MLLMs) embarqués. Le benchmark regroupe 4 469 échantillons entrelacés image-vidéo-texte couvrant 6 catégories, de la perception bas niveau jusqu'à la planification de haut niveau. Soumis à 20 MLLMs dont GPT-5, il révèle deux résultats principaux : les capacités perceptuelles constituent le principal goulot d'étranglement derrière les échecs de raisonnement, et les modèles présentent une modélisation spatiotemporelle instable qui restait invisible dans les benchmarks précédents. En réponse, les auteurs proposent BEAR-Agent, un agent multimodal augmenté d'outils de raisonnement visuel et spatial, qui obtient une amélioration relative de 17,5 % sur GPT-5 par rapport au modèle de base, avec des gains confirmés en simulation et en robotique réelle. L'intérêt de ce travail tient à la granularité du diagnostic. Les benchmarks existants mesurent si un agent réussit une tâche sans expliquer pourquoi. BEAR révèle que les modèles n'échouent pas d'abord sur le raisonnement abstrait, mais sur la perception : identifier des objets dans une scène, interpréter une séquence vidéo, localiser un élément dans l'espace. Ce résultat contredit l'hypothèse répandue selon laquelle les LLMs auraient comblé le déficit de compréhension scénique grâce à leur préentraînement massif. La découverte sur l'instabilité spatiotemporelle est particulièrement significative pour les intégrateurs déployant des VLA (Vision-Language-Action models) en environnement industriel : elle suggère que les performances observées en démonstration vidéo curatée ne reflètent pas la fiabilité opérationnelle réelle. Ce preprint arXiv (version 2, 2025) s'inscrit dans un effort plus large pour structurer l'évaluation des agents embarqués, là où des benchmarks comme EgoSchema ou OpenEQA traitent la compréhension incarnée sans diagnostiquer les sous-compétences. BEAR se distingue par ses expériences en environnements robotiques réels, contrairement aux approches purement simulées comme EmbodiedScan. Aucun acteur français ou européen n'est directement impliqué dans cette publication académique, qui émane vraisemblablement d'équipes universitaires asiatiques ou nord-américaines au vu de la page projet associée. La prochaine étape logique serait l'adoption de BEAR comme protocole standard dans les pipelines d'évaluation VLA avant tout déploiement physique.

RecherchePaper
1 source
Simplifier les contrôleurs ROS2 grâce à une architecture modulaire pour la génération de références indépendante du robot
4arXiv cs.RO 

Simplifier les contrôleurs ROS2 grâce à une architecture modulaire pour la génération de références indépendante du robot

Des chercheurs ont publié sur arXiv (référence 2601.08514v2) une architecture modulaire pour ROS2 qui sépare explicitement la logique de gestion des références de celle des lois de contrôle. Le composant central, baptisé Reference Generator, reçoit des références depuis des noeuds externes (planificateurs de trajectoire, operateurs humains) sous forme de points isolés ou de trajectoires complètes, puis écrit des références point-à-point à la période d'échantillonnage du contrôleur via le mécanisme de chaînage existant de ros2control. Deux générateurs de références ont été implémentés : un pour l'espace articulaire (joint-space) et un pour les références cartésiennes. Trois nouveaux contrôleurs accompagnent l'architecture : un contrôleur PD avec compensation de gravité, un contrôleur de pose cartésienne, et un contrôleur d'admittance. La validation a été conduite en simulation et sur du matériel réel, avec des manipulateurs Universal Robots et Franka Emika. L'enjeu n'est pas anodin pour les intégrateurs robotiques : aujourd'hui, chaque contrôleur ros2control qui veut gérer des trajectoires doit embarquer sa propre logique d'acquisition, de validation et d'interpolation de références, ce qui génère du code dupliqué difficile à maintenir et à faire évoluer. L'architecture proposée factorise ce code en un composant réutilisable et robot-agnostique, ce qui simplifie la construction de pipelines de contrôle complexes (par exemple, chaîner un contrôleur d'admittance en aval d'un planificateur cartésien). Les résultats montrent un suivi fiable des références dans tous les scénarios testés, sans dégradation des performances de contrôle, ce qui valide l'approche sur des plateformes industrielles courantes plutôt que sur du matériel expérimental. Le contexte est celui de la maturité croissante de l'écosystème ros2control, devenu le standard de fait pour le contrôle de manipulateurs sous ROS2. Universal Robots (UR3, UR5, UR10) et Franka Emika (Panda/FR3) sont les deux références canoniques du marché des cobots de recherche et d'intégration légère, ce qui donne à cette validation une portée pratique immédiate. L'approche s'inscrit dans une tendance plus large vers des architectures de contrôle composables, comparable aux efforts du projet ros2control community et aux frameworks comme mcrtc (CNRS/AIST). Les auteurs ne mentionnent pas de timeline de contribution upstream ni de release packagée, et il reste à voir si ce Reference Generator sera proposé en merge request dans le dépôt officiel ros2control.

UELa validation sur des cobots Universal Robots (danois) et Franka Emika (allemand), standards de l'intégration robotique européenne, et la parenté avec mcrtc (CNRS/AIST) rendent cette architecture directement applicable aux intégrateurs FR/EU travaillant sous ROS2.

RecherchePaper
1 source