Aller au contenu principal
RecherchearXiv cs.RO3h

RePlan-Bot : replanification à plusieurs niveaux pour le suivi d'instructions par IA incarnée

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de recherche a publié fin mai 2026 un preprint arXiv (2605.25851) présentant RePlan-Bot, un agent conçu pour l'exécution d'instructions en langage naturel dans des environnements 3D interactifs, un champ désigné sous le terme Embodied Instruction Following (EIF). Le système repose sur trois couches complémentaires : un auditeur de haut niveau basé sur un LLM, qui ajuste dynamiquement les sous-objectifs en fonction des retours de l'environnement ; un mécanisme de recherche guidé par le sens commun, s'appuyant sur une carte d'instances multi-couches pour localiser précisément les objets ; et un correcteur léger basé sur un Vision Transformer (ViT), chargé de détecter et corriger les actions bas niveau à risque avant qu'elles ne causent des erreurs irréversibles. Évalué sur le benchmark ALFRED (Action Learning From Realistic Environments and Directives), RePlan-Bot revendique des performances à l'état de l'art dans les environnements vus et non vus, bien que l'abstract ne fournisse aucun chiffre précis de taux de succès ni comparaisons numériques explicites.

L'intérêt de cette architecture pour les équipes d'IA embarquée réside dans sa gestion du replanning continu face aux changements d'état irréversibles, un point de défaillance classique des systèmes de planification hiérarchique. En robotique de service ou en manipulation d'objets, une action mal exécutée (déplacer un objet au mauvais endroit, ouvrir un conteneur prématurément) peut invalider l'ensemble du plan en cours. RePlan-Bot adresse ce problème via un audit permanent pendant l'exécution, ce qui le distingue des approches plan-then-execute qui supposent un environnement statique. La combinaison LLM haute-décision et ViT basse-exécution reflète une tendance structurante dans les architectures VLA (Vision-Language-Action) actuelles : déléguer la supervision sémantique à un modèle de langage, et la correction réactive à un modèle vision plus léger et plus rapide.

Le benchmark ALFRED, publié par l'Allen Institute for AI en 2020, reste la référence dominante pour l'EIF en simulation (environnement iTHOR), mais son écart avec les conditions réelles (manipulation physique, bruit sensoriel, variabilité des objets) est bien documenté dans la littérature. RePlan-Bot s'inscrit dans un champ de recherche concurrentiel qui inclut des travaux comme FILM et HLSM, ainsi que des approches VLA plus récentes comme OpenVLA ou Pi-0 de Physical Intelligence. Aucun déploiement matériel ni partenariat industriel n'est mentionné dans le preprint : il s'agit d'une contribution académique en environnement simulé, et la question du transfert sim-to-real, centrale pour tout intégrateur, reste entière.

À lire aussi

TravExplorer : exploration incarnée inter-niveaux par planification 3D sensible à la traversabilité
1arXiv cs.RO 

TravExplorer : exploration incarnée inter-niveaux par planification 3D sensible à la traversabilité

Des chercheurs proposent TravExplorer, un framework de navigation autonome multi-étages publié en mai 2026 sur arXiv (arXiv:2605.19958). Le système s'attaque à la navigation zero-shot par objets (ZSON, Zero-Shot Object Navigation), soit la capacité à localiser une cible désignée en langage naturel dans un environnement inconnu, sans carte préalable. Validé sur 4 195 épisodes simulés dans les benchmarks HM3D (Habitat-Matterport 3D) et Matterport3D (MP3D), puis sur 50 essais réels avec un robot quadrupède Unitree Go2, TravExplorer opère sur escaliers, paliers et espaces à chevauchements verticaux. Le système maintient une carte volumétrique unifiée distinguant structures occupées et surfaces accessibles au robot, extrait des frontières traversables sur sols, escaliers et paliers, et s'appuie sur un planificateur hiérarchique couplant une recherche 3D guidée par points d'appui (foothold-guided) à une optimisation de trajectoire localement contrainte en vertical. Presque tous les systèmes ZSON existants supposent un environnement mono-étage et une représentation plane, une hypothèse qui casse dans tout bâtiment réel comportant escaliers ou mezzanines. TravExplorer comble ce fossé avec deux apports concrets : un module sémantique allégé qui aligne une carte d'instances probabiliste (segmentation open-vocabulary en ligne) avec une carte de valeur spatiale via image-to-text rapide, réduisant la latence de raisonnement ; et une stratégie de perception active FOV-aware pour résoudre les zones partiellement observées lors des transitions d'étages. Les résultats sur HM3D et MP3D sont supérieurs aux baselines ObjectNav de référence, et les 50 essais sur Go2 sans carte ni intervention humaine constituent une validation sim-to-real concrète, même si elle reste limitée à une seule plateforme et à des intérieurs contraints. Le champ du ZSON multi-étages émerge dans un contexte plus large d'ambition robotique pour les environnements non structurés. HM3D (Meta) et MP3D sont les benchmarks standards du domaine ; y surpasser les méthodes ObjectNav actuelles est un signal de maturité technique. Le Unitree Go2, quadrupède de recherche commercialisé autour de 8 700 euros, est devenu une plateforme de référence en navigation académique. Le code source sera mis à disposition sur GitHub. Les extensions logiques incluent des bâtiments plus complexes, des espaces semi-ouverts et l'intégration sur robots humanoïdes ou à roues. Aucun acteur européen n'est impliqué dans cette publication.

RecherchePaper
1 source
Planification de la manipulation pour des activités de construction répétitives
2arXiv cs.RO 

Planification de la manipulation pour des activités de construction répétitives

Une équipe de chercheurs a publié mi-mai 2026 sur arXiv un framework de planification de manipulation robotique destiné aux tâches de construction répétitives, comme la pose de briques ou l'installation de dalles de plafond. L'approche repose sur un environnement de démonstration en réalité virtuelle (VR) : un opérateur humain réalise une seule démonstration du geste à apprendre, que le système capture puis décompose en une séquence de mouvements à vis constants (screw motions) via la géométrie des vis. À partir de cette représentation, deux algorithmes, la Screw Linear Interpolation (ScLERP) et le Resolved Motion Rate Control (RMRC), génèrent automatiquement les plans de mouvement articulaire pour chaque instance répétée de la tâche. Les expériences ont été conduites sur un bras à 7 degrés de liberté (7-DoF), d'abord en simulation puis sur robot physique, avec deux scénarios concrets : construction de murs de briques en configurations arbitraires et pose de multiples dalles de plafond, chacun déclenché depuis une unique démonstration. Le résultat le plus significatif est la généralisation one-shot à des séquences de longueur arbitraire, un mur peut contenir autant de briques que nécessaire sans nouvelle démonstration. C'est un point directement pertinent pour les intégrateurs industriels : en construction, la variabilité de l'environnement (dimensions de chantier, positions relatives des éléments) est précisément ce qui freine le déploiement des robots. Ici, la représentation par vis capture la structure géométrique du mouvement de façon compacte, ce qui permet une extrapolation robuste plutôt qu'une simple répétition mémorisée. La validation hardware réduit partiellement le sim-to-real gap souvent invoqué pour relativiser les démonstrations purement simulées, bien que les conditions expérimentales (charge utile, tolérance dimensionnelle, matériaux réels) ne soient pas précisément détaillées dans le préprint. La robotique de construction est un secteur en accélération : Hilti, Hadrian X (Fastbrick Robotics), ou encore Dusty Robotics adressent des tâches spécifiques de chantier, mais la plupart restent sur des pipelines hautement programmés et peu flexibles. L'approche par démonstration VR + géométrie des vis s'inscrit dans un courant plus large de Learning from Demonstration (LfD) qui tente de réduire le coût d'intégration sur des tâches manuelles qualifiées. La prochaine étape naturelle serait de tester la robustesse face aux perturbations réelles du chantier (vibrations, tolérances matériaux, occlusions) et d'étendre à des tâches multi-bras ou à manipulation bimane, deux lacunes que le papier ne couvre pas encore.

RecherchePaper
1 source
PRISM : planification et raisonnement intentionnel dans des environnements simulés à IA incarnée
3arXiv cs.RO 

PRISM : planification et raisonnement intentionnel dans des environnements simulés à IA incarnée

Des chercheurs ont publié PRISM (Planning and Reasoning with Intent in Simulated Embodied Environments) sur arXiv en mai 2026, un benchmark de diagnostic pour agents incarnés basés sur des LLM. Là où les benchmarks actuels se limitent à un taux de succès global, PRISM identifie quel module cognitif est responsable d'un échec. Le dispositif repose sur cinq appartements multi-pièces photoréalistes (4 à 8 pièces chacun) et 300 tâches validées par des humains, organisées en trois niveaux de capacité : Basic Ability (ancrage perception-action), Reasoning Ability (résolution d'intentions implicites) et Long-horizon Ability (coordination multi-étapes soutenue). L'API d'évaluation est agnostique au type d'agent, couvrant LLM, VLM, planificateurs symboliques, politiques RL et systèmes hybrides dans le même protocole. Des expériences sur sept LLM contemporains montrent que les modèles légers s'effondrent à 20 % de succès sur les tâches long-horizon tout en consommant davantage de tokens que les modèles frontier, un phénomène que les auteurs nomment sur-raisonnement compensatoire. Ce résultat contredit une hypothèse dominante dans l'IA incarnée : en conditions de perception oracle (sans erreur de détection), l'ancrage spatial n'est pas le principal facteur limitant. C'est la résolution d'intentions implicites qui constitue le goulot d'étranglement commun à toutes les familles de modèles testées, y compris les plus puissantes. Pour les intégrateurs et décideurs B2B, la découverte du sur-raisonnement compensatoire est un signal d'alerte concret : un modèle léger déployé en edge peut afficher une activité de raisonnement apparente (volume de tokens élevé) tout en échouant massivement sur des tâches complexes. PRISM offre ainsi un protocole de qualification plus fin que le simple taux de complétion, permettant de cibler les investissements entre perception, mémoire et planification. PRISM s'inscrit dans un mouvement de benchmarking plus rigoureux des agents incarnés, aux côtés de référentiels comme ALFRED ou ScienceWorld qui agrègent les résultats sans en décomposer les causes. La publication intervient alors que DeepMind, Google, Meta et des startups comme Physical Intelligence (auteure de pi0) investissent massivement dans les architectures VLA (Vision-Language-Action) pour la robotique domestique et industrielle. L'API publique et agnostique à l'agent est conçue pour une adoption communautaire large. Il s'agit cependant d'un preprint académique : aucun pilote industriel ni timeline de déploiement ne sont annoncés à ce stade.

RecherchePaper
1 source
L'utilisation des LLM pour la planification en IA incarnée introduit des risques de sécurité systématiques
4arXiv cs.RO 

L'utilisation des LLM pour la planification en IA incarnée introduit des risques de sécurité systématiques

Des chercheurs ont publié le 24 avril 2026 sur arXiv (arXiv:2604.18463) un benchmark nommé DESPITE, conçu pour évaluer systématiquement la sécurité des grands modèles de langage (LLM) utilisés comme planificateurs robotiques. Le jeu de données comprend 12 279 tâches couvrant à la fois des dangers physiques (collisions, manipulation de charges) et normatifs (violation de règles de sécurité industrielles), avec une validation entièrement déterministe. Testé sur 23 modèles, le résultat le plus frappant est le suivant : le meilleur modèle en termes de planification n'échoue à produire un plan valide que dans 0,4 % des cas, mais génère des plans dangereux dans 28,3 % des situations. Parmi les 18 modèles open-source évalués, allant de 3 milliards à 671 milliards de paramètres, la capacité de planification s'améliore fortement avec la taille (de 0,4 % à 99,3 % de réussite), tandis que la conscience du danger reste remarquablement plate (38 à 57 %). Trois modèles propriétaires dotés de capacités de raisonnement explicite atteignent des niveaux de sécurité nettement supérieurs, entre 71 % et 81 %, alors que les modèles propriétaires sans raisonnement et les modèles open-source restent sous le seuil des 57 %. Ces résultats contredisent directement l'hypothèse, implicite dans de nombreux projets d'intégration, selon laquelle un modèle plus capable est automatiquement plus sûr. Les auteurs identifient une relation multiplicative entre capacité de planification et conscience du danger : un LLM qui planifie mieux complète davantage de tâches en toute sécurité, mais uniquement parce qu'il génère plus de plans valides, pas parce qu'il évite mieux les situations à risque. Pour un intégrateur robotique ou un COO industriel qui envisage de déployer un LLM comme cerveau d'un AMR ou d'un bras manipulateur, cela signifie concrètement que la saturation des performances de planification, déjà proche pour les modèles frontier, déplace le goulot d'étranglement vers la sécurité, un axe que les recettes de scaling habituelles ne résolvent pas. Ce travail s'inscrit dans un débat actif autour des architectures VLA (Vision-Language-Action) et de l'utilisation des LLM comme planificateurs de haut niveau dans des systèmes comme ceux développés par Physical Intelligence (pi0), Figure AI ou Boston Dynamics. Le benchmark DESPITE comble un vide méthodologique : jusqu'ici, les évaluations de sécurité reposaient sur des scénarios ad hoc ou des métriques de performance générale. L'absence de tout modèle open-source dépassant les 57 % de conscience du danger soulève des questions directes pour les acteurs européens qui misent sur des modèles ouverts pour des raisons de souveraineté ou de coût, notamment dans les secteurs logistique et manufacturier. Les prochaines étapes logiques incluent l'intégration de DESPITE dans les pipelines de fine-tuning orientés sécurité et la collaboration avec des organismes de normalisation comme l'ISO ou l'IEC pour ancrer ces métriques dans des référentiels de certification robotique.

UELes acteurs européens qui misent sur des modèles open-source pour des raisons de souveraineté se retrouvent plafonnés à 57 % de conscience du danger, bien en dessous des modèles propriétaires à raisonnement explicite (71–81 %), ce qui fragilise directement les déploiements LLM-as-planner dans la logistique et le manufacturier européens.

RechercheOpinion
1 source