Aller au contenu principal
Planification des tâches et des mouvements robotiques par invite hiérarchique à double module LLM
RecherchearXiv cs.RO6sem

Planification des tâches et des mouvements robotiques par invite hiérarchique à double module LLM

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié le 12 mai 2026 sur arXiv (référence 2605.08330) un framework de planification tâche-et-mouvement pour robots de service, reposant sur deux modules LLM distincts organisés en hiérarchie. Le premier module, dit "agent de haut niveau", interprète des commandes en langage naturel et génère des séquences d'actions via un prompt de style ReAct, en s'appuyant sur des outils de perception et de manipulation (pick, place, release). Le second module, dédié au raisonnement spatial de bas niveau, prend en charge les instructions de placement précis, par exemple "pose la tasse à côté de l'assiette", en calculant les positions 3D à partir de la géométrie des objets et de la configuration de la scène. La détection d'objets et l'estimation de pose sont assurées par YOLOX-GDRNet. Sur 24 scénarios de test couvrant des commandes spatiales simples, des instructions de haut niveau et des requêtes infaisables, le système affiche un taux de succès global de 86 %.

Cette architecture en deux étages répond à un problème bien connu en robotique de service : un LLM généraliste gère mal simultanément la logique séquentielle des tâches et le raisonnement géométrique fin. Séparer ces deux fonctions réduit la surface d'erreur et rend le système plus robuste aux ambiguïtés spatiales, un point de friction majeur dans les scénarios d'assistance à domicile ou hospitaliers. Le taux de 86 % est encourageant, mais il convient de nuancer : 24 scénarios constituent une base d'évaluation très réduite, et les conditions de test en laboratoire restent éloignées de la variabilité d'un environnement réel non structuré. Aucun robot physique n'est mentionné, le module d'exécution motrice étant décrit comme un "stub", ce qui signifie que les résultats restent pour l'instant purement simulés ou partiellement maquettés.

Ce travail s'inscrit dans le prolongement des approches LLM-to-robot popularisées par SayCan de Google (2022) et les travaux RT-2 et OpenVLA, qui ont démontré qu'un modèle de langage peut servir de planificateur de haut niveau pour un robot. La spécificité ici est le découplage explicite du raisonnement spatial dans un sous-module dédié, plutôt que de tout faire porter au modèle principal, une direction cohérente avec les limites documentées des VLA (Vision-Language-Action models) sur les tâches de placement précis. Aucun partenaire industriel ni calendrier de déploiement n'est communiqué ; l'étape suivante logique serait une validation sur robot réel dans un contexte de service structuré.

Dans nos dossiers

À lire aussi

Planification de mouvement multi-robots à grande échelle par décomposition hiérarchique de l'espace de travail
1arXiv cs.RO 

Planification de mouvement multi-robots à grande échelle par décomposition hiérarchique de l'espace de travail

Une équipe de chercheurs a déposé en mai 2026 sur arXiv (réf. 2605.20395) une méthode de planification de mouvement pour flottes de robots mobiles qui revendique un gain de temps de calcul allant jusqu'à un ordre de grandeur par rapport aux solveurs existants. Le goulot central du domaine, l'explosion combinatoire de l'espace de configuration joint dont la dimension croît exponentiellement avec le nombre de robots N, est contourné par une recherche discrète dans une décomposition de l'espace de travail (workspace decomposition). Contrairement aux approches antérieures qui fusionnent les robots dans cet espace joint dès la détection d'un conflit, la méthode affine itérativement cette décomposition pour ne résoudre que des sous-problèmes à espaces de configuration découplés et de taille réduite, d'où le terme de hierarchical subproblem expansion dans l'intitulé. Pour les intégrateurs de systèmes multi-robots en entrepôt ou en usine, une latence de planification divisée par 10 ouvre concrètement la porte à une replanification quasi-temps-réel sur des flottes de plusieurs dizaines de robots, un seuil difficile à franchir aujourd'hui avec les solveurs MAPF (multi-agent pathfinding) classiques tels que CBS (Conflict-Based Search) et ses variantes ECBS ou BCBS. L'approche par décomposition itérative de l'espace de travail suggère également une meilleure adaptabilité aux environnements dynamiques, où obstacles ou priorités de mission changent en cours d'exécution. Prudence cependant : il s'agit d'un preprint non encore évalué par les pairs, et l'abstract disponible ne détaille pas les conditions expérimentales précises, notamment la densité de robots testée, la topologie des environnements ou les horizons de planification retenus. La planification multi-robots est un champ structuré depuis deux décennies autour de deux familles antagonistes : méthodes couplées, qui garantissent l'optimalité mais à coût prohibitif, et méthodes découplées, rapides mais sous-optimales. CBS et ses dérivés constituent aujourd'hui la référence académique dominante. Dans l'industrie, des acteurs comme Exotec (Croix, Nord, déployé dans plus de 10 pays avec plus de 600 clients) ou Locus Robotics ont intégré des planificateurs propriétaires à leurs flottes AMR. Ce travail ne mentionne ni partenariat industriel ni calendrier de transfert technologique ; la prochaine étape naturelle serait une validation sur plateforme réelle ou dans un simulateur de référence tel qu'Isaac Sim ou MoveIt 2.

UEDes acteurs français comme Exotec, dont les flottes AMR sont déployées dans plus de 10 pays, pourraient bénéficier d'une replanification quasi-temps-réel si cette méthode est validée et transférée en production.

RecherchePaper
1 source
HOLO-MPPI : planification de mouvement multi-scénarios par optimisation de politique hiérarchique
2arXiv cs.RO 

HOLO-MPPI : planification de mouvement multi-scénarios par optimisation de politique hiérarchique

Des chercheurs ont publié en juin 2026 sur arXiv (référence 2606.16480) HOLO-MPPI (High-level Offline, Low-level Online MPPI), un framework de planification de mouvement conçu pour que des robots opèrent dans des scénarios variés sans recalibrage par scénario. L'architecture repose sur deux niveaux : hors ligne, une politique haut niveau apprend à proposer des plans robustes dans un espace d'actions abstrait, avec un modèle du monde appris pour la simulation interne ; en ligne, cette politique sert de prior adaptatif pour paramétrer l'algorithme MPPI (Model Predictive Path Integral), qui optimise en temps réel les séquences de contrôle bas niveau face aux perturbations locales. Le système a été instancié et évalué sur des tâches de conduite autonome, avec des architectures de modèles et un espace d'actions haut niveau conçus spécifiquement pour ce domaine. Ce travail attaque une limite concrète du déploiement robotique : un système ne doit pas nécessiter de retuning manuel dès qu'il change d'environnement. L'apprentissage par renforcement de bout en bout peut généraliser, mais se révèle fragile face aux décalages de distribution, aux récompenses mal spécifiées et aux interactions stochastiques. MPPI seul offre un raffinement temps réel efficace sans gradients, mais sa performance dépend d'un prior d'échantillonnage bien construit, ce qui ne passe pas à l'échelle multi-scénarios. HOLO-MPPI résout cette tension : les expériences montrent qu'il surpasse les baselines MPPI pur et RL de bout en bout sur l'ensemble des scénarios de conduite testés, en maintenant des contraintes de contrôle temps réel. MPPI est une méthode de contrôle optimal stochastique établie depuis les travaux de Williams et al. à Georgia Tech (2016-2018), répandue en robotique mobile et conduite autonome. L'hybridation avec des politiques apprises s'inscrit dans une tendance concurrente des approches VLA (Vision-Language-Action) comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui visent une généralisation entièrement apprise. HOLO-MPPI choisit une voie intermédiaire, structurellement plus vérifiable et potentiellement plus attractive pour des intégrateurs industriels soucieux d'explicabilité. Le papier étant un preprint arXiv non encore relu par les pairs, les performances annoncées restent à confirmer sur des benchmarks standardisés ou en conditions réelles.

RecherchePaper
1 source
RoboGPT-R1 améliore la planification des tâches robotiques grâce à l'apprentissage par renforcement
3arXiv cs.RO 

RoboGPT-R1 améliore la planification des tâches robotiques grâce à l'apprentissage par renforcement

Des chercheurs ont publié RoboGPT-R1, un framework d'entraînement en deux étapes conçu pour améliorer la planification de tâches des agents robotiques incarnés, présenté dans un preprint arXiv (2510.14828, version 3). Le système repose sur une séquence supervisée classique, qui ancre les connaissances fondamentales via des démonstrations expertes, suivie d'un apprentissage par renforcement (RL) ciblé sur les lacunes en compréhension visuo-spatiale et en raisonnement multi-étapes. Le modèle de base choisi est Qwen2.5-VL-3B, un vision-language model open-source de 3 milliards de paramètres. Les résultats publiés sur le benchmark EmbodiedBench montrent que RoboGPT-R1 dépasse GPT-4o-mini de 21,33 points de pourcentage, et surclasse d'autres approches entraînées sur Qwen2.5-VL-7B de 20,33 points, ce dernier disposant pourtant de plus du double de paramètres. Le cœur technique du framework est une fonction de récompense basée sur des règles qui prend en compte simultanément les performances à long horizon et les contraintes d'action dans l'environnement physique simulé. Ces résultats viennent étayer une thèse qui s'impose progressivement dans la communauté robotique : le fine-tuning supervisé seul génère des agents fragiles hors distribution, en particulier pour les tâches de manipulation longue séquence dans des environnements non contrôlés. RoboGPT-R1 démontre qu'un modèle compact peut surpasser des architectures significativement plus grandes dès lors que le RL est utilisé pour affiner la compréhension physique et la cohérence des séquences d'actions. Pour les équipes d'intégration et les responsables techniques, cela pointe vers une trajectoire viable vers des solutions embarquables sur hardware contraint, sans sacrifier les capacités de planification complexe. Un écart de 21 points sur un benchmark spécialisé par rapport à GPT-4o-mini indique que la spécialisation domaine via RL compense largement le désavantage de taille brute. RoboGPT-R1 s'inscrit dans une dynamique post-SFT amplifiée depuis fin 2024, en large partie accélérée par les travaux DeepSeek-R1 qui ont popularisé le RL comme levier de raisonnement pour les LLMs. Dans le champ robotique, Physical Intelligence avec Pi-0 et Pi-0.5, Google DeepMind avec GR00T N2 et RT-X, ou encore OpenVLA, explorent des trajectoires d'alignement vision-language-action (VLA) comparables. RoboGPT-R1 se distingue par son positionnement sur la planification symbolique de haut niveau plutôt que le contrôle moteur bas niveau, et par sa base Qwen2.5-VL open-source qui favorise la reproductibilité. Important à noter : il s'agit à ce stade exclusivement d'une validation sur EmbodiedBench, un benchmark simulé. Aucun déploiement physique n'est annoncé et le sim-to-real gap, question centrale pour tout passage en production, reste une problématique que l'article ne traite pas.

RechercheOpinion
1 source
LLM-Flax : planification robotique généralisable par approches neuro-symboliques et grands modèles de langage
4arXiv cs.RO 

LLM-Flax : planification robotique généralisable par approches neuro-symboliques et grands modèles de langage

Des chercheurs ont publié LLM-Flax (arXiv 2604.26569v1), un framework en trois étapes conçu pour automatiser le déploiement de planificateurs de tâches neuro-symboliques sans expertise manuelle ni données d'entraînement. Le système prend en entrée uniquement un LLM hébergé localement et un fichier PDDL décrivant le domaine : l'étape 1 génère les règles de relaxation par prompting structuré avec auto-correction, l'étape 2 pilote la récupération sur échec via une politique de budget de latence, et l'étape 3 remplace entièrement le réseau GNN par un scoring d'objets zero-shot. Évalué sur le benchmark MazeNamo en grilles 10x10, 12x12 et 15x15 (8 benchmarks au total), LLM-Flax atteint un taux de succès moyen de 0,945 contre 0,828 pour la baseline manuelle, soit un gain de +0,117. Sur la configuration 12x12 Expert, où le planificateur manuel échoue complètement (SR 0,000), LLM-Flax atteint SR 0,733 ; sur 15x15 Hard, il obtient SR 1,000 contre 0,900 pour l'approche de référence. Le principal verrou adressé est le coût de transfert de domaine : adapter un planificateur symbolique à une nouvelle cellule robotique mobilise aujourd'hui des centaines de problèmes d'entraînement et l'intervention d'un expert métier, ce qui rend le déploiement à l'échelle industrielle prohibitif. La politique de budget de latence de l'étape 2, qui réserve explicitement une enveloppe d'appels LLM avant chaque séquence de récupération sur échec, adresse un problème pratique rarement traité dans la littérature : les boucles de fallback infinies qui paralysent les systèmes en production. L'étape 3 démontre la faisabilité du zero-shot avec SR 0,720 sur 12x12 Hard sans aucune donnée d'entraînement, mais bute sur la fenêtre de contexte à grande échelle, que les auteurs identifient eux-mêmes comme le principal défi ouvert. LLM-Flax s'inscrit dans la lignée des travaux combinant PDDL et LLMs pour la robotique, après SayCan (Google, 2022), Code as Policies (Google DeepMind) et ProgPrompt. Cette approche neuro-symbolique reste distinctement différente des architectures VLA end-to-end comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) : elle préserve un module de raisonnement explicite et auditable, ce qui peut constituer un avantage dans les environnements industriels certifiables. Le benchmark MazeNamo demeure un environnement de navigation 2D simplifié, éloigné des scénarios de manipulation réels ; aucun déploiement terrain n'est annoncé à ce stade, et les auteurs indiquent l'extension à des environnements multi-objets complexes comme prochaine étape.

RecherchePaper
1 source