RecherchearXiv cs.RO 16 juin 2026

Quand un robot doit-il replaner ? Planification mise à jour guidée par le regret dans les MDP à variation temporelle

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs publient sur arXiv (réf. 2606.16972, juin 2026) un cadre formel pour décider quand, et non comment, un robot doit recalculer sa politique de navigation dans un environnement à dynamiques changeantes. La contrainte centrale est le budget embarqué : énergie et calcul sont finis, chaque cycle de ré-estimation d'état suivi d'une replanification coûte des ressources. Les auteurs modélisent le problème comme un processus de décision markovien à dynamiques variables (TVMDP) avec une borne connue sur le taux de dérive des transitions, puis proposent un schéma dit "skip-update" : à des instants choisis, le robot estime le noyau de transition par maximum de vraisemblance et recalcule une politique finie ; entre ces mises à jour, il propage son estimation d'état et réutilise la politique courante. La règle de déclenchement est guidée par le regret dynamique accumulé, quantifiant l'écart entre politique actuelle et politique optimale. Validé sur un rover simulé sur Mars (dynamiques de glissement variables) et un quadrotor Crazyflie en environnement intérieur (champs d'obstacles), l'allocation adaptative surpasse les stratégies à intervalle fixe dans les deux cas.

La contribution principale n'est pas algorithmique mais posturale : la littérature en planification robotique s'attarde principalement sur la façon de replanner efficacement, rarement sur le moment où ce coût computationnel se justifie. Disposer d'une règle traçable et fondée théoriquement pour déclencher les mises à jour a des implications directes pour les robots déployés en conditions réelles : AMR industriels sur sol contaminé ou à trafic variable, drones d'inspection en vol prolongé, sondes spatiales où les cycles CPU et la batterie constituent des ressources critiques non renouvelables. L'approche permet de délester le calculateur embarqué sans sacrifier les performances de navigation dans des environnements non-stationnaires, ce qui répond à un compromis jusqu'ici géré de façon heuristique dans la majorité des implémentations terrain.

Le sim-to-real et la robustesse aux dynamiques changeantes figurent parmi les défis ouverts de la robotique de terrain depuis plusieurs années, en lien direct avec les travaux sur le contrôle adaptatif et le MPC (model predictive control). L'utilisation du Crazyflie, plateforme quadrotor open-source standard dans la recherche académique (ETH Zurich, CMU), et d'une simulation Mars-rover constitue des benchmarks reconnus, sans déploiement industriel annoncé ni partenaire commercial mentionné. Les auteurs ne fournissent ni timeline produit ni métriques de performance absolues sur du matériel embarqué réel, ce qui limite la portée immédiate des résultats. Les suites logiques incluent l'extension multi-robots et la validation sur calculateurs embarqués contraints, terrains où des acteurs comme l'ESA ou des équipes françaises spécialisées telles que le LAAS-CNRS (Toulouse) pourraient trouver des applications directes dans leurs programmes de robotique spatiale et de terrain.

Impact France/UE

Le LAAS-CNRS (Toulouse) et l'ESA sont identifiés comme bénéficiaires potentiels naturels pour leurs programmes de robotique spatiale et de terrain autonome, sans implication directe à ce stade.

Dans nos dossiers

arXiv cs.RO

À lire aussi

1arXiv cs.RO

Robot humanoïde : planification dynamique de tâches guidée par LLM et logique temporelle hiérarchique pour le transfert d'objets

Des chercheurs proposent un nouveau cadre neuro-symbolique pour piloter des tâches de transfert d'objets (handover) entre plusieurs robots en présence d'humains, en combinant modèles de langage (LLM) et logique temporelle formelle. Le système traduit une instruction humaine en langage naturel en spécifications hiérarchiques de type LTLf (Linear Temporal Logic sur traces finies), puis résout un problème conjoint d'allocation de tâches et de planification, appelé STAP (Simultaneous Task Allocation and Planning). Contrairement aux approches statiques classiques, l'architecture intègre une boucle de planification à horizon glissant (receding horizon planning) couplée à une perception en temps réel, ce qui lui permet de réajuster dynamiquement les plans lorsque l'environnement change, par exemple si une personne se déplace ou modifie sa consigne. Les auteurs rapportent des expériences menées à la fois en simulation et sur des robots réels. Ce travail s'attaque à un problème central pour l'industrie robotique : les LLM permettent aujourd'hui à des non-experts de formuler des tâches complexes en langage naturel, mais les plans générés restent souvent cinématiquement infaisables ou inefficaces sur des horizons longs, faute de garanties formelles. À l'inverse, les méthodes de logique temporelle offrent des garanties de correction et d'optimalité, mais fonctionnent généralement hors-ligne et passent mal à l'échelle. En démontrant un gain mesurable de taux de réussite, de fluidité d'interaction et une réduction du surcoût de replanification par rapport à des méthodes de référence, cette approche illustre une piste concrète pour fiabiliser les systèmes multi-robots collaboratifs en environnement partagé avec des humains, un enjeu direct pour les intégrateurs qui cherchent à dépasser le stade de la démonstration contrôlée. Le papier s'inscrit dans la lignée des travaux cherchant à combiner l'expressivité des LLM avec la rigueur des méthodes formelles de planification, un axe de recherche actif face aux limites connues des architectures purement neuronales de type VLA (vision-language-action) pour les tâches longues et critiques en sécurité. Il s'agit d'une republication (replace) sur arXiv, signe d'une révision par les auteurs ; le texte ne précise pas d'affiliation industrielle ni de calendrier de déploiement commercial, ce qui en fait une contribution de recherche plutôt qu'une annonce produit.

RecherchePaper

1 source

2arXiv cs.RO

Système de tâches et de planification min-max regret pour un robot multi-hétérogène en environnement partiellement connu

Une nouvelle étude publiée sur arXiv (2607.13403) propose un cadre de planification pour l'allocation de tâches dans des systèmes multi-robots hétérogènes (HMRS) évoluant en environnement partiellement connu. Le problème est formulé comme une optimisation min-max regret, avec une nouvelle représentation appelée Region-Binding Atomic Proposition (RbAP), qui encode directement l'incertitude sur les ressources dans la structure de l'automate utilisé pour exprimer les contraintes logiques temporelles des tâches. Pour résoudre ce problème, les auteurs introduisent un Extended Planning Decision Tree (E-PDT), couplé à une stratégie de Branch-and-Bound basée sur le regret (Regret-based BnB) qui élague dynamiquement les politiques sous-optimales. Contrairement aux approches classiques qui s'appuient sur des probabilités a priori ou une analyse de pire cas, cette méthode ajuste en continu l'arbitrage entre exploration des zones incertaines et exploitation des ressources déjà connues. L'équipe affirme une scalabilité quasi linéaire par rapport au nombre de robots et de types de robots, avec des gains significatifs en qualité de solution et en temps de calcul face à des méthodes de référence basées sur la programmation linéaire en nombres entiers mixtes (MILP), validés par des expériences numériques et des essais physiques. L'enjeu principal est la complexité exponentielle qui bloque aujourd'hui le déploiement de flottes de robots hétérogènes à grande échelle dès que les tâches impliquent des contraintes logiques complexes en environnement mal cartographié, un scénario courant en logistique, entrepôt ou intervention en zone partiellement explorée. Si les résultats se confirment au-delà du cadre académique, cela réduirait le compromis habituel entre robustesse théorique et coût de calcul, un frein connu pour les intégrateurs qui cherchent à faire monter en charge des flottes AMR mixtes sans tout recalculer à chaque mise à jour de la carte. Il faut toutefois noter que l'article reste un preprint arXiv de type recherche, sans indication du nombre de robots testés en conditions physiques réelles ni de partenaire industriel identifié, donc la portée pratique du gain de scalabilité annoncé reste à confirmer en dehors du banc d'essai des auteurs. Ce travail s'inscrit dans la lignée des recherches sur la planification multi-robots sous logique temporelle linéaire (LTL), un domaine où les méthodes MILP servent traditionnellement de référence malgré leur coût de calcul croissant avec la taille de la flotte. L'apport revendiqué ici est de sortir du dilemme entre méthodes probabilistes, qui nécessitent des priors souvent invérifiables sur le terrain, et méthodes pire-cas, jugées trop conservatrices. Les auteurs annoncent une preuve théorique de faisabilité et de complétude de leur approche, mais l'article ne précise pas de calendrier de suivi, de code source public ou de collaboration industrielle pour une validation à plus grande échelle.

RecherchePaper

1 source

3arXiv cs.RO

KGLAMP : un modèle de langage guidé par graphe de connaissances pour la planification multi-robot adaptative

Des chercheurs ont publié KGLAMP (Knowledge Graph-guided Language Model for Adaptive Multi-robot Planning and Replanning), un framework de planification combinant graphes de connaissances et grands modèles de langage pour coordonner des équipes de robots hétérogènes sur des missions longues. La contribution centrale est une architecture en deux couches : un graphe de connaissances structuré encode en temps réel les relations entre objets, la portée spatiale de chaque robot et leurs capacités spécifiques, tandis qu'un LLM s'appuie sur ce graphe pour générer automatiquement des spécifications PDDL (Planning Domain Definition Language) correctes. Quand l'environnement évolue, un obstacle déplacé, un robot en panne, le graphe détecte l'incohérence et déclenche un replanification automatique. Sur le benchmark MAT-THOR (un environnement simulé de type habitat domestique conçu pour tester la coordination multi-agents), KGLAMP surpasse de 25,3 % au minimum les deux approches de référence : planificateurs PDDL classiques seuls et LLM seuls. Ce résultat est significatif parce qu'il attaque un problème structurel bien documenté dans la littérature : les planificateurs symboliques PDDL exigent des modèles du monde construits manuellement, coûteux à maintenir dans des environnements dynamiques, tandis que les LLM utilisés seuls tendent à ignorer l'hétérogénéité des agents et à produire des plans invalides face à l'incertitude. KGLAMP propose une mémoire persistante et mise à jour dynamiquement qui sert d'interface entre perception et raisonnement symbolique. Pour un intégrateur déployant des flottes mixtes (AMR, bras manipulateurs, drones), la promesse d'un replanning automatique sans re-modélisation manuelle représente un gain opérationnel concret, notamment dans les entrepôts à géométrie variable ou la logistique hospitalière. L'article s'inscrit dans la tendance des approches dites "neuro-symboliques" qui tentent de corriger les faiblesses des LLM par des représentations explicites du monde. Les travaux concurrents incluent SayPlan (Rana et al., 2023) et les variantes LLM+PDDL de Meta AI, Google DeepMind ou CMU. Il reste à noter que les expériences sont conduites exclusivement en simulation sur MAT-THOR : aucune validation physique n'est rapportée, ce qui laisse ouverte la question du sim-to-real gap pour des flottes réelles. La prochaine étape naturelle serait un déploiement sur des plateformes matérielles hétérogènes pour mesurer la robustesse du graphe de connaissances face au bruit sensoriel du monde réel.

RecherchePaper

1 source

4arXiv cs.RO

RePlan-Bot : replanification à plusieurs niveaux pour le suivi d'instructions par IA incarnée

Une équipe de recherche a publié fin mai 2026 un preprint arXiv (2605.25851) présentant RePlan-Bot, un agent conçu pour l'exécution d'instructions en langage naturel dans des environnements 3D interactifs, un champ désigné sous le terme Embodied Instruction Following (EIF). Le système repose sur trois couches complémentaires : un auditeur de haut niveau basé sur un LLM, qui ajuste dynamiquement les sous-objectifs en fonction des retours de l'environnement ; un mécanisme de recherche guidé par le sens commun, s'appuyant sur une carte d'instances multi-couches pour localiser précisément les objets ; et un correcteur léger basé sur un Vision Transformer (ViT), chargé de détecter et corriger les actions bas niveau à risque avant qu'elles ne causent des erreurs irréversibles. Évalué sur le benchmark ALFRED (Action Learning From Realistic Environments and Directives), RePlan-Bot revendique des performances à l'état de l'art dans les environnements vus et non vus, bien que l'abstract ne fournisse aucun chiffre précis de taux de succès ni comparaisons numériques explicites. L'intérêt de cette architecture pour les équipes d'IA embarquée réside dans sa gestion du replanning continu face aux changements d'état irréversibles, un point de défaillance classique des systèmes de planification hiérarchique. En robotique de service ou en manipulation d'objets, une action mal exécutée (déplacer un objet au mauvais endroit, ouvrir un conteneur prématurément) peut invalider l'ensemble du plan en cours. RePlan-Bot adresse ce problème via un audit permanent pendant l'exécution, ce qui le distingue des approches plan-then-execute qui supposent un environnement statique. La combinaison LLM haute-décision et ViT basse-exécution reflète une tendance structurante dans les architectures VLA (Vision-Language-Action) actuelles : déléguer la supervision sémantique à un modèle de langage, et la correction réactive à un modèle vision plus léger et plus rapide. Le benchmark ALFRED, publié par l'Allen Institute for AI en 2020, reste la référence dominante pour l'EIF en simulation (environnement iTHOR), mais son écart avec les conditions réelles (manipulation physique, bruit sensoriel, variabilité des objets) est bien documenté dans la littérature. RePlan-Bot s'inscrit dans un champ de recherche concurrentiel qui inclut des travaux comme FILM et HLSM, ainsi que des approches VLA plus récentes comme OpenVLA ou Pi-0 de Physical Intelligence. Aucun déploiement matériel ni partenariat industriel n'est mentionné dans le preprint : il s'agit d'une contribution académique en environnement simulé, et la question du transfert sim-to-real, centrale pour tout intégrateur, reste entière.

RechercheOpinion

1 source