Aller au contenu principal
Modélisation monde-ego pour l'évolution à long horizon dans les tâches hybrides incarnées
RecherchearXiv cs.RO6sem

Modélisation monde-ego pour l'évolution à long horizon dans les tâches hybrides incarnées

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv en mai 2026 (arXiv:2605.19957) un nouveau paradigme appelé World-Ego Modeling, accompagné d'une implémentation concrète, le World-Ego Model (WEM). Le problème ciblé : les world models actuels prédisent l'évolution de la scène et du robot dans un flux unique, confondant deux dynamiques de nature différente, les régularités persistantes de l'environnement d'un côté et la dynamique propre à l'agent conditionnée par ses instructions de l'autre. Ce couplage dégrade les performances sur les tâches hybrides longue horizon, où navigation autonome et manipulation d'objets s'entrelacent. WEM sépare explicitement ces deux composantes via un planificateur implicite dual, couplé à un générateur de diffusion CP-MoE (cascade-parallel mixture-of-experts). Les auteurs publient également HTEWorld, présenté comme le premier benchmark dédié à ce type de tâches, avec 125 000 clips vidéo totalisant plus de 4,5 millions de frames et 300 trajectoires multi-tours représentant plus de 2 000 instructions. WEM atteint l'état de l'art sur HTEWorld et reste compétitif sur les benchmarks de manipulation seule.

L'enjeu touche directement les systèmes de manipulation mobile : robots logistiques à bras, humanoïdes polyvalents, AMR avec capacités de saisie. La majorité des world models sont entraînés soit sur de la navigation pure, soit sur de la manipulation fixe, rarement sur des séquences hybrides longues où l'agent doit enchaîner déplacement, identification et manipulation sans intervention humaine. WEM formalise la désambiguation monde-ego et propose trois stratégies de désenchevêtrement (post-, pré- et complet), ouvrant un cadre de comparaison structuré pour les futures architectures VLA ; la création d'HTEWorld comble simultanément un manque concret, l'absence de référence commune pour les tâches hybrides rendant jusqu'ici les comparaisons entre approches difficiles à établir.

Ce travail s'inscrit dans l'effervescence autour des world models incarnés, aux côtés de projets comme UniSim (Google DeepMind) ou Genie, et en parallèle des efforts des constructeurs d'humanoïdes comme Figure AI, Agility Robotics et NVIDIA (GR00T N2) sur la planification longue horizon. WEM reste un résultat académique : la validation sur robot réel n'est pas documentée dans l'article, et le code ainsi que les données HTEWorld n'étaient pas encore disponibles à la date de dépôt. Les suites naturelles sont l'évaluation sim-to-real et l'intégration avec des VLA à grande échelle comme pi-0 (Physical Intelligence) ou GR00T N2.

À lire aussi

SWITCH : évaluation de la modélisation et manipulation d'interfaces tangibles dans des scénarios incarnés à long horizon
1arXiv cs.RO 

SWITCH : évaluation de la modélisation et manipulation d'interfaces tangibles dans des scénarios incarnés à long horizon

Une équipe de chercheurs a publié SWITCH (arXiv:2511.17649), un benchmark conçu pour évaluer la capacité des agents IA à interagir avec ce que les auteurs appellent des interfaces de contrôle tangibles (TCIs) : panneaux d'appareils électroménagers, télécommandes, ascenseurs, interfaces graphiques embarquées. Le jeu de données comprend 1 170 vidéos temporellement interactives, annotées de manière structurée avec instructions, actions, transitions d'état, résultats et comportements de récupération en cas d'erreur. La spécificité de SWITCH est d'évaluer le raisonnement en boucle fermée : l'agent doit percevoir, agir, vérifier le résultat, et corriger si nécessaire, dans une séquence continue. Le benchmark inclut également une évaluation des modèles de génération vidéo sur des tâches centrées sur l'interaction, combinant jugement automatique par LLM et évaluation humaine. L'intérêt de SWITCH réside dans ce qu'il révèle : les modèles multimodaux de frontier, propriétaires comme open source, présentent des faiblesses persistantes en perception visuo-temporelle fine, en vérification des résultats et en récupération d'erreur. La plupart des benchmarks existants se limitent à la perception en boucle ouverte ou à l'exécution d'une seule action, ce qui masque précisément les défaillances qui apparaissent dans des scénarios d'horizon long, là où l'agent doit maintenir un état interne et détecter un échec non anticipé. Pour les équipes travaillant sur des robots de service ou des agents embarqués destinés à des environnements industriels ou domestiques, ce constat est directement opérationnel : les modèles actuels ne sont pas encore fiables dès qu'une interaction nécessite un retour d'état et une correction. SWITCH s'inscrit dans un effort plus large de la communauté embodied AI pour combler le fossé entre les capacités de perception statique et l'agentivité réelle en environnement physique. Les benchmarks précédents comme SQA3D, EmbodiedScan ou OpenEQA avaient posé des jalons en compréhension 3D et en questions-réponses situées, mais sans capturer la dimension corrective de l'interaction. SWITCH adresse explicitement ce manque via des scénarios égocentrés. L'étude ne mentionne pas de partenariat industriel ni de déploiement applicatif immédiat : il s'agit d'un outil académique, non d'un produit. Les suites probables concernent l'intégration du benchmark dans les pipelines d'entraînement de VLA (Vision-Language-Action models) et l'extension à des environnements 3D interactifs.

RecherchePaper
1 source
Anticipation-VLA : résolution de tâches incarnées à long horizon par génération de sous-objectifs
2arXiv cs.RO 

Anticipation-VLA : résolution de tâches incarnées à long horizon par génération de sous-objectifs

Une équipe de chercheurs a publié le 5 mai 2026 sur arXiv (référence 2605.01772) un modèle de contrôle robotique baptisé Anticipation-VLA, conçu pour résoudre les tâches à long horizon en robotique incarnée. Le système repose sur un composant appelé Anticipation Model, qui génère de manière adaptive et récursive des sous-objectifs intermédiaires au fil de l'exécution d'une tâche. L'architecture est hiérarchique : un Unified Multimodal Model (UMM) affiné gère la planification de haut niveau en produisant ces sous-objectifs, tandis qu'une politique VLA (Vision-Language-Action) conditionnée sur ces cibles pilote l'exécution motrice à bas niveau. Les expériences couvrent des environnements simulés et des tâches robotiques réelles. Les auteurs affirment des gains de robustesse significatifs par rapport aux approches antérieures, sans toutefois publier de métriques quantitatives précises dans l'abstract, ce qui limite la comparaison directe avec l'état de l'art. Le problème adressé est central dans la robotique d'apprentissage : les modèles VLA accumulent des erreurs sur les tâches longues, chaque décision imparfaite amplifiant les erreurs suivantes. Les approches existantes décomposent les tâches en sous-tâches de granularité fixe, ce qui les rend rigides face aux variations de complexité des états d'exécution. La contribution clé d'Anticipation-VLA est d'ajuster dynamiquement les sous-objectifs en fonction de l'évolution réelle de la situation, une avancée dans le contrôle hiérarchique adaptatif. Pour les intégrateurs et décideurs B2B, ce type de système ouvre la voie à des robots capables d'exécuter des séquences complexes en environnement industriel sans supervision constante, un verrou majeur dans le déploiement à grande échelle des bras manipulateurs. Le domaine des VLA est en pleine effervescence depuis la publication de RT-2 (Google DeepMind, 2023), puis d'OpenVLA, Pi-0 (Physical Intelligence) et GR00T N2 (NVIDIA). La recherche sur la planification hiérarchique se heurte systématiquement au "demo-reality gap" : les résultats en simulation ne se transfèrent pas toujours au monde réel. Anticipation-VLA revendique une validation sur tâches réelles, signal positif, bien que l'absence de benchmarks standardisés tels que RLBench ou LIBERO dans la publication rende difficile le positionnement précis face à la concurrence. Les prochaines étapes probables incluent des évaluations comparatives sur ces benchmarks et une extension vers des plateformes mobiles manipulatrices, segment où des acteurs comme Physical Intelligence et Boston Dynamics intensifient leurs travaux.

RechercheOpinion
1 source
EvolvingAgent : un agent à curriculum auto-évolutif avec modèle du monde continu pour les tâches à long horizon
3arXiv cs.RO 

EvolvingAgent : un agent à curriculum auto-évolutif avec modèle du monde continu pour les tâches à long horizon

Une équipe de chercheurs propose EvolvingAgent, un agent incarné conçu pour accomplir des tâches à horizon long (Long-Horizon, LH) dans des mondes ouverts, sans intervention humaine. Publié sur arXiv (2502.05907, version 3), le système repose sur trois modules en boucle fermée : un planificateur de tâches piloté par les expériences accumulées, qui utilise un LLM pour décomposer une tâche complexe en sous-tâches exécutables ; un contrôleur d'actions guidé par un World Model (WM) continu, chargé de générer les actions de bas niveau et de mettre à jour automatiquement la base d'expériences multimodales via un mécanisme de vérification interne ; et un réflecteur fondé sur l'apprentissage par curriculum (Curriculum Learning, CL) en deux étapes, qui sélectionne les expériences pertinentes pour adapter le WM à chaque nouvelle tâche. Les expériences ont été conduites principalement sur Minecraft, environnement de référence pour les agents incarnés. Résultats revendiqués : +111,74 % de taux de succès moyen par rapport aux approches existantes, réduction d'un facteur supérieur à 6 des actions inefficaces, et généralisation à l'environnement Atari avec des performances comparables au niveau humain. L'apport central d'EvolvingAgent est de s'attaquer simultanément à deux limitations bien documentées dans la littérature : la dépendance aux curricula et données créés par l'humain, et l'oubli catastrophique lors de l'exposition à de nouvelles tâches. La boucle planificateur-contrôleur-réflecteur permet une mise à jour autonome des connaissances du monde sans réentraînement explicite. Pour les chercheurs en IA incarnée et les équipes travaillant sur des agents opérationnels en environnement dynamique (robotique industrielle, systèmes autonomes), cela représente un pas vers une adaptabilité continue sans supervision humaine permanente. Le gain de +111,74 % est néanmoins à contextualiser : il s'appuie sur Minecraft, un sandbox 3D simulé, et les vidéos ou démonstrations n'ont pas été publiées en open access à ce stade. Les travaux sur les agents LH en monde ouvert ont connu une accélération notable depuis Voyager (2023, Microsoft/UT Austin, GPT-4), DEPS, et les approches basées sur des planificateurs symboliques. EvolvingAgent s'inscrit dans ce courant en remplaçant la supervision humaine par une boucle d'auto-amélioration multimodale. Côté concurrent, des systèmes comme GROOT (vidéo-conditionné) ou les agents Minecraft basés sur MineRL continuent de servir de baseline. L'article reste à ce stade un preprint arXiv (v3, sans revue par les pairs confirmée), et aucun déploiement industriel ni partenariat n'est annoncé. Les prochaines étapes naturelles seraient une validation sur des environnements physiques simulés (Isaac Sim, MuJoCo) ou des robots réels, pour mesurer le sim-to-real gap de l'approche.

RecherchePaper
1 source
IA incarnée sûre pour les tâches à long horizon : une analyse multi-couches de la manipulation robotique
4arXiv cs.RO 

IA incarnée sûre pour les tâches à long horizon : une analyse multi-couches de la manipulation robotique

Une équipe de chercheurs publie sur arXiv (identifiant 2606.05660, juin 2026) une revue systématique de la sécurité dans les systèmes d'IA incarnée (embodied AI) appliqués à la manipulation robotique à long horizon. Ce survey structure la littérature selon trois niveaux d'intervention : la sécurité au stade de la planification (planning-time), au niveau de la politique de contrôle (policy-time) et pendant l'exécution (execution-time). Les auteurs identifient quatre vecteurs de risque pouvant s'accumuler dans un même système en boucle fermée : le misgrounding sémantique (l'agent interprète mal l'instruction de haut niveau), la propagation d'erreur entre sous-tâches, la dérive d'exécution (execution drift) et les risques physiques liés aux contacts. Ils distinguent par ailleurs trois catégories de garanties dans la littérature existante : formelles, statistiques et heuristiques empiriques, et concluent que les preuves formelles font défaut à chaque couche. L'enjeu est direct pour les intégrateurs et les décideurs industriels. Un bras robotique déployé en entrepôt ou en ligne de production enchaîne des dizaines d'actions sur des horizons temporels étendus, et chaque sous-tâche peut propager silencieusement une erreur vers les suivantes. Or le survey révèle que la sécurité au niveau de la politique de contrôle, au coeur même des modèles VLA (Vision-Language-Action) comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, est la couche la moins documentée empiriquement. Les mécanismes d'intervention déclenchés par l'incertitude (uncertainty-triggered intervention) restent immatures, et les benchmarks spécifiques à la sécurité en manipulation longue durée sont quasi-inexistants, ce qui rend toute validation rigoureuse avant déploiement aujourd'hui difficile. Ce travail paraît dans un contexte d'accélération industrielle : Figure AI, Boston Dynamics, Unitree et Physical Intelligence multiplient les démonstrations de manipulation dextère, souvent en conditions semi-contrôlées, alimentant un écart potentiel entre annonces marketing et réalité opérationnelle. Il convient de souligner que ce papier est une analyse critique de l'existant, pas un nouveau système ou algorithme. Ses recommandations prioritaires portent sur trois axes : des assurances cross-couche cohérentes de la planification jusqu'à l'exécution physique, des benchmarks dédiés à la sécurité en manipulation longue durée, et des protocoles de déploiement progressifs pour les agents robotiques en environnements réels. En creux, le constat est que les capacités du secteur progressent plus vite que les outils pour en évaluer la sécurité.

UEL'absence de benchmarks formels de sécurité pour la manipulation longue durée concerne directement les industriels européens déployant des bras robotisés, et pourrait alimenter les exigences de validation dans le cadre de l'AI Act pour les systèmes robotiques à haut risque.

RecherchePaper
1 source