RePlan-Bot : replanification à plusieurs niveaux pour le suivi d'instructions par IA incarnée
Une équipe de recherche a publié fin mai 2026 un preprint arXiv (2605.25851) présentant RePlan-Bot, un agent conçu pour l'exécution d'instructions en langage naturel dans des environnements 3D interactifs, un champ désigné sous le terme Embodied Instruction Following (EIF). Le système repose sur trois couches complémentaires : un auditeur de haut niveau basé sur un LLM, qui ajuste dynamiquement les sous-objectifs en fonction des retours de l'environnement ; un mécanisme de recherche guidé par le sens commun, s'appuyant sur une carte d'instances multi-couches pour localiser précisément les objets ; et un correcteur léger basé sur un Vision Transformer (ViT), chargé de détecter et corriger les actions bas niveau à risque avant qu'elles ne causent des erreurs irréversibles. Évalué sur le benchmark ALFRED (Action Learning From Realistic Environments and Directives), RePlan-Bot revendique des performances à l'état de l'art dans les environnements vus et non vus, bien que l'abstract ne fournisse aucun chiffre précis de taux de succès ni comparaisons numériques explicites.
L'intérêt de cette architecture pour les équipes d'IA embarquée réside dans sa gestion du replanning continu face aux changements d'état irréversibles, un point de défaillance classique des systèmes de planification hiérarchique. En robotique de service ou en manipulation d'objets, une action mal exécutée (déplacer un objet au mauvais endroit, ouvrir un conteneur prématurément) peut invalider l'ensemble du plan en cours. RePlan-Bot adresse ce problème via un audit permanent pendant l'exécution, ce qui le distingue des approches plan-then-execute qui supposent un environnement statique. La combinaison LLM haute-décision et ViT basse-exécution reflète une tendance structurante dans les architectures VLA (Vision-Language-Action) actuelles : déléguer la supervision sémantique à un modèle de langage, et la correction réactive à un modèle vision plus léger et plus rapide.
Le benchmark ALFRED, publié par l'Allen Institute for AI en 2020, reste la référence dominante pour l'EIF en simulation (environnement iTHOR), mais son écart avec les conditions réelles (manipulation physique, bruit sensoriel, variabilité des objets) est bien documenté dans la littérature. RePlan-Bot s'inscrit dans un champ de recherche concurrentiel qui inclut des travaux comme FILM et HLSM, ainsi que des approches VLA plus récentes comme OpenVLA ou Pi-0 de Physical Intelligence. Aucun déploiement matériel ni partenariat industriel n'est mentionné dans le preprint : il s'agit d'une contribution académique en environnement simulé, et la question du transfert sim-to-real, centrale pour tout intégrateur, reste entière.
Dans nos dossiers




