Aller au contenu principal
EvolvingAgent : un agent à curriculum auto-évolutif avec modèle du monde continu pour les tâches à long horizon
RecherchearXiv cs.RO6sem

EvolvingAgent : un agent à curriculum auto-évolutif avec modèle du monde continu pour les tâches à long horizon

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs propose EvolvingAgent, un agent incarné conçu pour accomplir des tâches à horizon long (Long-Horizon, LH) dans des mondes ouverts, sans intervention humaine. Publié sur arXiv (2502.05907, version 3), le système repose sur trois modules en boucle fermée : un planificateur de tâches piloté par les expériences accumulées, qui utilise un LLM pour décomposer une tâche complexe en sous-tâches exécutables ; un contrôleur d'actions guidé par un World Model (WM) continu, chargé de générer les actions de bas niveau et de mettre à jour automatiquement la base d'expériences multimodales via un mécanisme de vérification interne ; et un réflecteur fondé sur l'apprentissage par curriculum (Curriculum Learning, CL) en deux étapes, qui sélectionne les expériences pertinentes pour adapter le WM à chaque nouvelle tâche. Les expériences ont été conduites principalement sur Minecraft, environnement de référence pour les agents incarnés. Résultats revendiqués : +111,74 % de taux de succès moyen par rapport aux approches existantes, réduction d'un facteur supérieur à 6 des actions inefficaces, et généralisation à l'environnement Atari avec des performances comparables au niveau humain.

L'apport central d'EvolvingAgent est de s'attaquer simultanément à deux limitations bien documentées dans la littérature : la dépendance aux curricula et données créés par l'humain, et l'oubli catastrophique lors de l'exposition à de nouvelles tâches. La boucle planificateur-contrôleur-réflecteur permet une mise à jour autonome des connaissances du monde sans réentraînement explicite. Pour les chercheurs en IA incarnée et les équipes travaillant sur des agents opérationnels en environnement dynamique (robotique industrielle, systèmes autonomes), cela représente un pas vers une adaptabilité continue sans supervision humaine permanente. Le gain de +111,74 % est néanmoins à contextualiser : il s'appuie sur Minecraft, un sandbox 3D simulé, et les vidéos ou démonstrations n'ont pas été publiées en open access à ce stade.

Les travaux sur les agents LH en monde ouvert ont connu une accélération notable depuis Voyager (2023, Microsoft/UT Austin, GPT-4), DEPS, et les approches basées sur des planificateurs symboliques. EvolvingAgent s'inscrit dans ce courant en remplaçant la supervision humaine par une boucle d'auto-amélioration multimodale. Côté concurrent, des systèmes comme GROOT (vidéo-conditionné) ou les agents Minecraft basés sur MineRL continuent de servir de baseline. L'article reste à ce stade un preprint arXiv (v3, sans revue par les pairs confirmée), et aucun déploiement industriel ni partenariat n'est annoncé. Les prochaines étapes naturelles seraient une validation sur des environnements physiques simulés (Isaac Sim, MuJoCo) ou des robots réels, pour mesurer le sim-to-real gap de l'approche.

À lire aussi

Modélisation monde-ego pour l'évolution à long horizon dans les tâches hybrides incarnées
1arXiv cs.RO 

Modélisation monde-ego pour l'évolution à long horizon dans les tâches hybrides incarnées

Des chercheurs ont publié sur arXiv en mai 2026 (arXiv:2605.19957) un nouveau paradigme appelé World-Ego Modeling, accompagné d'une implémentation concrète, le World-Ego Model (WEM). Le problème ciblé : les world models actuels prédisent l'évolution de la scène et du robot dans un flux unique, confondant deux dynamiques de nature différente, les régularités persistantes de l'environnement d'un côté et la dynamique propre à l'agent conditionnée par ses instructions de l'autre. Ce couplage dégrade les performances sur les tâches hybrides longue horizon, où navigation autonome et manipulation d'objets s'entrelacent. WEM sépare explicitement ces deux composantes via un planificateur implicite dual, couplé à un générateur de diffusion CP-MoE (cascade-parallel mixture-of-experts). Les auteurs publient également HTEWorld, présenté comme le premier benchmark dédié à ce type de tâches, avec 125 000 clips vidéo totalisant plus de 4,5 millions de frames et 300 trajectoires multi-tours représentant plus de 2 000 instructions. WEM atteint l'état de l'art sur HTEWorld et reste compétitif sur les benchmarks de manipulation seule. L'enjeu touche directement les systèmes de manipulation mobile : robots logistiques à bras, humanoïdes polyvalents, AMR avec capacités de saisie. La majorité des world models sont entraînés soit sur de la navigation pure, soit sur de la manipulation fixe, rarement sur des séquences hybrides longues où l'agent doit enchaîner déplacement, identification et manipulation sans intervention humaine. WEM formalise la désambiguation monde-ego et propose trois stratégies de désenchevêtrement (post-, pré- et complet), ouvrant un cadre de comparaison structuré pour les futures architectures VLA ; la création d'HTEWorld comble simultanément un manque concret, l'absence de référence commune pour les tâches hybrides rendant jusqu'ici les comparaisons entre approches difficiles à établir. Ce travail s'inscrit dans l'effervescence autour des world models incarnés, aux côtés de projets comme UniSim (Google DeepMind) ou Genie, et en parallèle des efforts des constructeurs d'humanoïdes comme Figure AI, Agility Robotics et NVIDIA (GR00T N2) sur la planification longue horizon. WEM reste un résultat académique : la validation sur robot réel n'est pas documentée dans l'article, et le code ainsi que les données HTEWorld n'étaient pas encore disponibles à la date de dépôt. Les suites naturelles sont l'évaluation sim-to-real et l'intégration avec des VLA à grande échelle comme pi-0 (Physical Intelligence) ou GR00T N2.

RechercheOpinion
1 source
Apprentissage auto-régressif forcé : vers un modèle du monde pour la navigation robotique à long horizon
2arXiv cs.RO 

Apprentissage auto-régressif forcé : vers un modèle du monde pour la navigation robotique à long horizon

Une équipe de chercheurs (arXiv:2605.31314, mai 2026) propose AR Forcing, une stratégie d'entraînement autorégressive pour les world models de navigation robotique basés sur la diffusion. Le problème adressé est un écart de distribution persistant : ces modèles sont entraînés avec une supervision parallèle, mais exécutent une inférence autorégressive au moment du planning de trajectoire. Cette asymétrie déstabilise les prédictions sur des horizons longs. AR Forcing l'attaque à la source en intégrant la fonction de perte diffusion standard dans la boucle autorégressive : à chaque étape, le modèle utilise ses propres prédictions pour mettre à jour le contexte et optimiser l'objectif de prédiction de bruit pas à pas. Les expériences ont été menées sur quatre jeux de données multi-domaines couvrant des environnements variés : RECON et SCAND (navigation urbaine et extérieure), HuRoN (interactions humain-robot) et TartanDrive (tout-terrain). L'intérêt pratique de cette approche tient à sa sobriété architecturale : AR Forcing ne requiert ni discriminateur supplémentaire, ni fonction de distribution-matching, et conserve le framework diffusion d'origine ainsi que son sampler. Pour les équipes développant des robots mobiles autonomes (AMR) ou des systèmes de navigation vision-only, cela signifie une intégration sans refonte de pipeline. Les résultats déclarés montrent une meilleure cohérence des images générées sur de longs horizons temporels et une amélioration de la précision des trajectoires prédites, y compris dans des environnements inconnus. Le bémol habituel s'applique ici : les métriques sont évaluées sur des datasets publics en conditions contrôlées, et le gap sim-to-real sur du hardware réel reste à démontrer. Les world models pour la navigation robotique constituent un axe de recherche actif, en lien direct avec les VLA (Vision-Language-Action models) et des travaux comme DreamerV3 ou UniSim. La dérive cumulative sur les horizons longs est précisément le verrou historique que AR Forcing tente de lever, là où les approches concurrentes recourent souvent à des mécanismes d'ancrage externes plus lourds. Le code source doit être publié prochainement selon les auteurs, ce qui permettra à la communauté de valider les résultats sur ses propres domaines applicatifs. Ce papier est un preprint arXiv non encore évalué par les pairs, sans financement industriel déclaré ni déploiement annoncé.

RecherchePaper
1 source
EA-WM : modèles du monde sensibles aux événements pour la manipulation à long horizon
3arXiv cs.RO 

EA-WM : modèles du monde sensibles aux événements pour la manipulation à long horizon

Des chercheurs ont soumis EA-WM (Event-Aware World Model) sur arXiv le 12 juin 2026 (arXiv:2606.13053), un cadre de planification robotique pour la manipulation à long horizon. Le système articule deux couches : une dynamique en espace de caractéristiques visuelles gelée (pretrained visual features) sur laquelle vient se greffer un module de prédiction et vérification d'événements ancré dans la spécification de tâche. EA-WM déroule des futurs candidats dans cet espace, les décode en états d'événements structurés (objet déplacé, état de contact changé, prédicat de placement satisfait), puis les score selon quatre critères : progression de la tâche, cohérence sémantique, faisabilité physique et incertitude. Le vérificateur guide l'exploration par échantillonnage et filtre les actions candidates. Dans le benchmark LIBERO, scénario wine-rack sensible aux contacts, il sélectionne parmi des propositions générées par PPO (Proximal Policy Optimization). Les évaluations couvrent navigation, manipulation d'objets déformables, contraintes murales et instructions en langage naturel. L'apport principal est de combler un angle mort structurel des modèles du monde visuels : prédire un futur visuellement plausible ne garantit pas qu'il satisfasse des conditions relationnelles de tâche (prédicats du type "le tiroir est ouvert", "l'objet est posé à l'emplacement cible"). En ajoutant une vérification explicite au niveau événementiel, EA-WM rend les modèles du monde en espace latent à la fois plus interprétables et mieux alignés avec la progression réelle des tâches, sans exiger de nouvelles données de démonstration massives. Pour un intégrateur ou un ingénieur robotique, cela ouvre un potentiel de planification robuste sans dépendre exclusivement de politiques bout-en-bout coûteuses à entraîner. Les modèles du monde en robotique connaissent une accélération depuis DreamerV3 (Google DeepMind) et les architectures VLA comme pi0 de Physical Intelligence ou GR00T N2 de NVIDIA. EA-WM se positionne dans un créneau intermédiaire : il ne remplace pas les politiques d'action mais renforce la phase de planification amont, en s'appuyant sur LIBERO comme benchmark multi-tâches désormais standard dans la communauté. À noter que ces résultats restent entièrement en simulation ; la validation sur du matériel réel et le sim-to-real transfer, points encore ouverts dans le domaine, constitueraient l'étape suivante naturelle pour démontrer une applicabilité industrielle effective.

RechercheOpinion
1 source
Évolution continue des compétences dans un modèle vision-langage-action (VLA)
4arXiv cs.RO 

Évolution continue des compétences dans un modèle vision-langage-action (VLA)

Des chercheurs ont publié Stellar VLA (arXiv:2511.18085v3), un cadre d'apprentissage continu par imitation (continual imitation learning, CIL) pour les modèles Vision-Langage-Action (VLA). La méthode propose deux variantes progressives : T-Stellar, fondée sur une modélisation plate centrée sur les tâches, et TS-Stellar, organisée en structure hiérarchique tâche-compétence. Les expériences menées sur le benchmark LIBERO, référence standard pour les tâches de manipulation robotique, montrent que les deux variantes surpassent les baselines VLA et CIL actuelles, avec seulement 1 % de rejeu de données. Une validation en conditions réelles sur une plateforme bi-bras, avec des configurations de scènes et d'embodiments distincts, confirme que le transfert de connaissances entre tâches reste effectif au-delà du simulateur. Le principal apport de Stellar VLA est d'adresser un frein structurel au déploiement des grands modèles VLA : les méthodes CIL existantes nécessitent des paramètres additionnels ou des modules externes, ce qui les rend difficilement scalables lorsque le modèle de base est déjà massif. En optimisant conjointement des représentations de tâches et un espace de connaissances partagé, Stellar VLA introduit un mécanisme de routage expert guidé par la sémantique, sélectionnant les K embeddings les plus proches pour orienter le modèle vers la compétence pertinente, sans alourdir l'architecture. Pour les équipes qui déploient des robots polyvalents en production, cela ouvre la voie à l'apprentissage incrémental de nouvelles tâches avec un coût de fine-tuning réduit. TS-Stellar se distingue notamment sur les manipulations hiérarchiques complexes, et les visualisations publiées illustrent une rétention robuste des compétences acquises ainsi qu'une capacité de découverte automatique de nouvelles tâches. Les VLA constituent un axe de recherche en accélération depuis 2023, portés par Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA), OpenVLA (UC Berkeley) ou encore RT-2 (Google DeepMind), qui cherchent à généraliser la manipulation robotique via un préentraînement multimodal massif. La question du catastrophic forgetting, c'est-à-dire la perte des compétences antérieures lors de l'apprentissage d'une nouvelle tâche, reste un verrou non résolu à l'échelle industrielle. Stellar VLA se positionne comme une surcouche légère applicable à des VLA existants, sans retraining complet. Le projet est documenté sur stellarvla.github.io ; aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans la publication, qui reste à ce stade un travail de recherche académique.

RechercheOpinion
1 source