RecherchearXiv cs.RO6sem

RePlan-Bot : replanification à plusieurs niveaux pour le suivi d'instructions par IA incarnée

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Une équipe de recherche a publié fin mai 2026 un preprint arXiv (2605.25851) présentant RePlan-Bot, un agent conçu pour l'exécution d'instructions en langage naturel dans des environnements 3D interactifs, un champ désigné sous le terme Embodied Instruction Following (EIF). Le système repose sur trois couches complémentaires : un auditeur de haut niveau basé sur un LLM, qui ajuste dynamiquement les sous-objectifs en fonction des retours de l'environnement ; un mécanisme de recherche guidé par le sens commun, s'appuyant sur une carte d'instances multi-couches pour localiser précisément les objets ; et un correcteur léger basé sur un Vision Transformer (ViT), chargé de détecter et corriger les actions bas niveau à risque avant qu'elles ne causent des erreurs irréversibles. Évalué sur le benchmark ALFRED (Action Learning From Realistic Environments and Directives), RePlan-Bot revendique des performances à l'état de l'art dans les environnements vus et non vus, bien que l'abstract ne fournisse aucun chiffre précis de taux de succès ni comparaisons numériques explicites.

L'intérêt de cette architecture pour les équipes d'IA embarquée réside dans sa gestion du replanning continu face aux changements d'état irréversibles, un point de défaillance classique des systèmes de planification hiérarchique. En robotique de service ou en manipulation d'objets, une action mal exécutée (déplacer un objet au mauvais endroit, ouvrir un conteneur prématurément) peut invalider l'ensemble du plan en cours. RePlan-Bot adresse ce problème via un audit permanent pendant l'exécution, ce qui le distingue des approches plan-then-execute qui supposent un environnement statique. La combinaison LLM haute-décision et ViT basse-exécution reflète une tendance structurante dans les architectures VLA (Vision-Language-Action) actuelles : déléguer la supervision sémantique à un modèle de langage, et la correction réactive à un modèle vision plus léger et plus rapide.

Le benchmark ALFRED, publié par l'Allen Institute for AI en 2020, reste la référence dominante pour l'EIF en simulation (environnement iTHOR), mais son écart avec les conditions réelles (manipulation physique, bruit sensoriel, variabilité des objets) est bien documenté dans la littérature. RePlan-Bot s'inscrit dans un champ de recherche concurrentiel qui inclut des travaux comme FILM et HLSM, ainsi que des approches VLA plus récentes comme OpenVLA ou Pi-0 de Physical Intelligence. Aucun déploiement matériel ni partenariat industriel n'est mentionné dans le preprint : il s'agit d'une contribution académique en environnement simulé, et la question du transfert sim-to-real, centrale pour tout intégrateur, reste entière.

Dans nos dossiers

IA physique & VLA Physical Intelligence — π0 OpenVLA / RT-X arXiv cs.RO

À lire aussi

1arXiv cs.RO

TravExplorer : exploration incarnée inter-niveaux par planification 3D sensible à la traversabilité

Des chercheurs proposent TravExplorer, un framework de navigation autonome multi-étages publié en mai 2026 sur arXiv (arXiv:2605.19958). Le système s'attaque à la navigation zero-shot par objets (ZSON, Zero-Shot Object Navigation), soit la capacité à localiser une cible désignée en langage naturel dans un environnement inconnu, sans carte préalable. Validé sur 4 195 épisodes simulés dans les benchmarks HM3D (Habitat-Matterport 3D) et Matterport3D (MP3D), puis sur 50 essais réels avec un robot quadrupède Unitree Go2, TravExplorer opère sur escaliers, paliers et espaces à chevauchements verticaux. Le système maintient une carte volumétrique unifiée distinguant structures occupées et surfaces accessibles au robot, extrait des frontières traversables sur sols, escaliers et paliers, et s'appuie sur un planificateur hiérarchique couplant une recherche 3D guidée par points d'appui (foothold-guided) à une optimisation de trajectoire localement contrainte en vertical. Presque tous les systèmes ZSON existants supposent un environnement mono-étage et une représentation plane, une hypothèse qui casse dans tout bâtiment réel comportant escaliers ou mezzanines. TravExplorer comble ce fossé avec deux apports concrets : un module sémantique allégé qui aligne une carte d'instances probabiliste (segmentation open-vocabulary en ligne) avec une carte de valeur spatiale via image-to-text rapide, réduisant la latence de raisonnement ; et une stratégie de perception active FOV-aware pour résoudre les zones partiellement observées lors des transitions d'étages. Les résultats sur HM3D et MP3D sont supérieurs aux baselines ObjectNav de référence, et les 50 essais sur Go2 sans carte ni intervention humaine constituent une validation sim-to-real concrète, même si elle reste limitée à une seule plateforme et à des intérieurs contraints. Le champ du ZSON multi-étages émerge dans un contexte plus large d'ambition robotique pour les environnements non structurés. HM3D (Meta) et MP3D sont les benchmarks standards du domaine ; y surpasser les méthodes ObjectNav actuelles est un signal de maturité technique. Le Unitree Go2, quadrupède de recherche commercialisé autour de 8 700 euros, est devenu une plateforme de référence en navigation académique. Le code source sera mis à disposition sur GitHub. Les extensions logiques incluent des bâtiments plus complexes, des espaces semi-ouverts et l'intégration sur robots humanoïdes ou à roues. Aucun acteur européen n'est impliqué dans cette publication.

RecherchePaper

1 source

2arXiv cs.RO

Infrastructure de simulation cloud-native évolutive, reproductible et en boucle fermée pour l'IA incarnée

Des chercheurs ont déposé le 27 juin 2026 sur arXiv (arXiv:2606.27962) un framework d'infrastructure de simulation cloud-native pour l'intelligence embarquée, conçu pour unifier en une seule plateforme la génération d'environnements de simulation, l'exécution de tâches, la collecte de trajectoires, l'évaluation de modèles et la gestion de données. L'architecture s'articule en quatre couches fonctionnelles et intègre quatre systèmes représentatifs : D-VLA, RL-VLA3, Sword et Pre-VLA, couvrant respectivement la simulation scalable, la planification dynamique des ressources, l'augmentation visuelle et le filtrage de données en temps réel. Le tout repose sur des technologies cloud-native telles que l'ordonnancement élastique des ressources et la simulation conteneurisée, pour gérer des workloads multi-modèles et multi-tâches à grande échelle. L'enjeu sous-jacent touche directement au goulot d'étranglement qui freine les modèles VLA (Vision-Language-Action) : la collecte de données réelles est coûteuse, peu reproductible et difficile à scaler. Ce framework propose une réponse systémique en substituant ou en complétant les données terrain par de la simulation industrialisée, avec une boucle fermée (closed-loop) permettant d'optimiser les données de façon itérative. Si les composants comme Pre-VLA (filtrage temps réel) et RL-VLA3 (apprentissage par renforcement sur architecture VLA) tiennent leurs promesses à l'échelle, cela pourrait réduire significativement le sim-to-real gap qui reste l'obstacle majeur pour déployer des robots génériques en environnement industriel réel. Il faut toutefois noter que la publication reste au stade de preprint sans benchmarks indépendants validés, et les performances sur robots physiques ne sont pas documentées dans ce papier. Ce travail s'inscrit dans une compétition internationale intense autour des infrastructures de simulation pour l'IA incarnée. NVIDIA pousse Isaac Sim avec l'écosystème Isaac Lab pour l'entraînement par renforcement, tandis que Genesis (dévoilé en 2024, affilié MIT) et MuJoCo Playground ciblent eux aussi la simulation GPU-accélérée à grande échelle. L'approche présentée ici se distingue par son orientation service (SOA) et sa couche de gestion de données unifiée, pensée pour des déploiements multi-équipes plutôt qu'un usage chercheur individuel. Les auteurs ne précisent pas d'affiliation institutionnelle clairement identifiable ni de calendrier de mise à disposition publique du code, deux points qui limiteront concrètement l'adoption tant qu'ils resteront non documentés.

RechercheOpinion

1 source

3arXiv cs.RO

Planification de la manipulation pour des activités de construction répétitives

Une équipe de chercheurs a publié mi-mai 2026 sur arXiv un framework de planification de manipulation robotique destiné aux tâches de construction répétitives, comme la pose de briques ou l'installation de dalles de plafond. L'approche repose sur un environnement de démonstration en réalité virtuelle (VR) : un opérateur humain réalise une seule démonstration du geste à apprendre, que le système capture puis décompose en une séquence de mouvements à vis constants (screw motions) via la géométrie des vis. À partir de cette représentation, deux algorithmes, la Screw Linear Interpolation (ScLERP) et le Resolved Motion Rate Control (RMRC), génèrent automatiquement les plans de mouvement articulaire pour chaque instance répétée de la tâche. Les expériences ont été conduites sur un bras à 7 degrés de liberté (7-DoF), d'abord en simulation puis sur robot physique, avec deux scénarios concrets : construction de murs de briques en configurations arbitraires et pose de multiples dalles de plafond, chacun déclenché depuis une unique démonstration. Le résultat le plus significatif est la généralisation one-shot à des séquences de longueur arbitraire, un mur peut contenir autant de briques que nécessaire sans nouvelle démonstration. C'est un point directement pertinent pour les intégrateurs industriels : en construction, la variabilité de l'environnement (dimensions de chantier, positions relatives des éléments) est précisément ce qui freine le déploiement des robots. Ici, la représentation par vis capture la structure géométrique du mouvement de façon compacte, ce qui permet une extrapolation robuste plutôt qu'une simple répétition mémorisée. La validation hardware réduit partiellement le sim-to-real gap souvent invoqué pour relativiser les démonstrations purement simulées, bien que les conditions expérimentales (charge utile, tolérance dimensionnelle, matériaux réels) ne soient pas précisément détaillées dans le préprint. La robotique de construction est un secteur en accélération : Hilti, Hadrian X (Fastbrick Robotics), ou encore Dusty Robotics adressent des tâches spécifiques de chantier, mais la plupart restent sur des pipelines hautement programmés et peu flexibles. L'approche par démonstration VR + géométrie des vis s'inscrit dans un courant plus large de Learning from Demonstration (LfD) qui tente de réduire le coût d'intégration sur des tâches manuelles qualifiées. La prochaine étape naturelle serait de tester la robustesse face aux perturbations réelles du chantier (vibrations, tolérances matériaux, occlusions) et d'étendre à des tâches multi-bras ou à manipulation bimane, deux lacunes que le papier ne couvre pas encore.

RecherchePaper

1 source

4arXiv cs.RO

Uni-LaViRA : traduction d'actions langage-vision-robot pour une navigation incarnée unifiée

Des chercheurs présentent Uni-LaViRA (Language-Vision-Robot Actions Translation), une architecture de navigation incarnée publiée le 28 mai 2026 sur arXiv (2605.27582), capable de piloter quatre types de robots distincts, robots à roues, quadrupèdes, humanoïdes et un drone à voilure fixe construit sur mesure, sans aucun entraînement spécifique sur des trajectoires robot. Le système s'appuie sur des grands modèles multimodaux de langage préentraînés (MLLMs) pour décomposer la navigation en deux types de commandes : une commande directionnelle sémantique en langage naturel, et une cible visuelle au niveau pixel. En mode zéro-shot, Uni-LaViRA atteint 60,7 % de taux de succès sur VLN-CE R2R, 51,3 % sur VLN-CE RxR, 77,7 % sur HM3D-v2, 60,0 % sur HM3D-OVON, 54,7 % sur MP3D-EQA et 40,0 % sur OpenUAV. Deux mécanismes structurent la boucle d'agent : le TODO List Memory (TDM), qui maintient une liste de sous-objectifs mise à jour à chaque pas et réinjectée dans la fenêtre d'attention du modèle, et le Second Chance Backtrack (SCB), qui ramène le robot à son état précédant une erreur et force le replanning à partir de la sous-trajectoire échouée. Ce résultat interpelle directement le paradigme dominant des VLA à grande échelle, qui réclame des millions de trajectoires et des milliers d'heures GPU pour atteindre des niveaux de performance comparables. Si les chiffres se confirment en environnements non contrôlés, Uni-LaViRA suggère qu'une partie du problème de généralisation en navigation peut être résolue structurellement, via un raisonnement sur la géométrie de l'action, plutôt que par accumulation de données. Pour les intégrateurs robotiques, cela réduit potentiellement le coût d'adaptation à de nouveaux sites ou morphologies de robots, deux points de friction majeurs dans les déploiements industriels. La capacité à unifier wheeled AMR, quadrupèdes et humanoïdes sous une même architecture sans fine-tuning est particulièrement notable. L'article s'inscrit dans un contexte de compétition intense autour des architectures VLA : Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, et les approches OpenVLA ou RoboFlamingo ont chacun nécessité des pipelines de collecte de données coûteux. Uni-LaViRA ne cherche pas à remplacer ces modèles sur des tâches de manipulation précise, mais positionne le raisonnement structuré comme alternative crédible pour la navigation. Les benchmarks utilisés (HM3D, MP3D, R2R) sont des standards académiques en simulation ; la validation sur robots réels reste limitée aux quatre plateformes de l'étude, et les performances en conditions industrielles non contrôlées restent à démontrer. Aucune timeline de déploiement ni partenariat industriel n'est mentionné.

RechercheOpinion

1 source