Aller au contenu principal
LLM-Flax : planification robotique généralisable par approches neuro-symboliques et grands modèles de langage
RecherchearXiv cs.RO6sem

LLM-Flax : planification robotique généralisable par approches neuro-symboliques et grands modèles de langage

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié LLM-Flax (arXiv 2604.26569v1), un framework en trois étapes conçu pour automatiser le déploiement de planificateurs de tâches neuro-symboliques sans expertise manuelle ni données d'entraînement. Le système prend en entrée uniquement un LLM hébergé localement et un fichier PDDL décrivant le domaine : l'étape 1 génère les règles de relaxation par prompting structuré avec auto-correction, l'étape 2 pilote la récupération sur échec via une politique de budget de latence, et l'étape 3 remplace entièrement le réseau GNN par un scoring d'objets zero-shot. Évalué sur le benchmark MazeNamo en grilles 10x10, 12x12 et 15x15 (8 benchmarks au total), LLM-Flax atteint un taux de succès moyen de 0,945 contre 0,828 pour la baseline manuelle, soit un gain de +0,117. Sur la configuration 12x12 Expert, où le planificateur manuel échoue complètement (SR 0,000), LLM-Flax atteint SR 0,733 ; sur 15x15 Hard, il obtient SR 1,000 contre 0,900 pour l'approche de référence.

Le principal verrou adressé est le coût de transfert de domaine : adapter un planificateur symbolique à une nouvelle cellule robotique mobilise aujourd'hui des centaines de problèmes d'entraînement et l'intervention d'un expert métier, ce qui rend le déploiement à l'échelle industrielle prohibitif. La politique de budget de latence de l'étape 2, qui réserve explicitement une enveloppe d'appels LLM avant chaque séquence de récupération sur échec, adresse un problème pratique rarement traité dans la littérature : les boucles de fallback infinies qui paralysent les systèmes en production. L'étape 3 démontre la faisabilité du zero-shot avec SR 0,720 sur 12x12 Hard sans aucune donnée d'entraînement, mais bute sur la fenêtre de contexte à grande échelle, que les auteurs identifient eux-mêmes comme le principal défi ouvert.

LLM-Flax s'inscrit dans la lignée des travaux combinant PDDL et LLMs pour la robotique, après SayCan (Google, 2022), Code as Policies (Google DeepMind) et ProgPrompt. Cette approche neuro-symbolique reste distinctement différente des architectures VLA end-to-end comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) : elle préserve un module de raisonnement explicite et auditable, ce qui peut constituer un avantage dans les environnements industriels certifiables. Le benchmark MazeNamo demeure un environnement de navigation 2D simplifié, éloigné des scénarios de manipulation réels ; aucun déploiement terrain n'est annoncé à ce stade, et les auteurs indiquent l'extension à des environnements multi-objets complexes comme prochaine étape.

À lire aussi

Apprentissage de politiques robotiques structurées à partir de modèles vision-langage par supervision neuro-symbolique synthétique
1arXiv cs.RO 

Apprentissage de politiques robotiques structurées à partir de modèles vision-langage par supervision neuro-symbolique synthétique

Une équipe de recherche publie sur arXiv (référence 2604.02812) une approche neuro-symbolique permettant à un modèle de langage vision (VLM) de générer automatiquement des politiques robotiques exécutables sous forme d'arbres de comportement (Behavior Trees, BTs), à partir d'observations visuelles, d'instructions en langage naturel et de spécifications système structurées. La contribution centrale est un pipeline entièrement automatisé qui produit un jeu de données synthétique multimodal : des scènes à randomisation de domaine sont générées procéduralement, chacune associée à des exemples instruction-politique produits par un modèle fondamental. Un modèle de 12 milliards de paramètres est ensuite entraîné exclusivement sur ces données synthétiques, sans annotation humaine. Les expériences physiques, conduites sur deux manipulateurs robotiques hétérogènes, confirment un transfert zéro-shot vers des environnements réels. L'enjeu industriel est direct : la grande majorité des politiques visuomotrices actuelles reposent sur des architectures end-to-end opaques, difficilement auditables ou certifiables pour un déploiement en production. En produisant des BTs, cette méthode offre interprétabilité, modularité et exécution réactive, trois propriétés que les intégrateurs industriels exigent mais que les approches VLA classiques (Pi-0, GR00T N2, OpenVLA) ne garantissent pas nativement. Le fait que le transfert sim-to-real soit obtenu sans aucune donnée réelle lors de l'entraînement contredit l'hypothèse persistante selon laquelle le gap simulation-réalité rendrait ce type d'approche impraticable pour la manipulation. C'est sur ce point que les résultats méritent attention, même si les auteurs ne détaillent pas la complexité des scènes testées ni les métriques de robustesse sur longues séquences. Les Behavior Trees sont un standard hérité du jeu vidéo et de la robotique classique, adoptés notamment dans ROS 2 via BehaviorTree.CPP, précisément pour leur lisibilité et leur capacité de reprise sur erreur. La tension entre contrôle symbolique et apprentissage end-to-end est au coeur des débats actuels, avec des acteurs comme 1X, Physical Intelligence ou Boston Dynamics cherchant des compromis différents. Cette recherche positionne les VLMs non plus comme générateurs de mouvements bruts, mais comme compilateurs de plans structurés, une distinction architecturale qui pourrait orienter les prochains cycles de développement vers des systèmes hybrides plus auditables. La prochaine étape naturelle serait de valider l'approche sur des manipulateurs commerciaux dans des environnements non contrôlés et sur des horizons de tâches plus longs.

RechercheOpinion
1 source
Planification des tâches et des mouvements robotiques par invite hiérarchique à double module LLM
2arXiv cs.RO 

Planification des tâches et des mouvements robotiques par invite hiérarchique à double module LLM

Des chercheurs ont publié le 12 mai 2026 sur arXiv (référence 2605.08330) un framework de planification tâche-et-mouvement pour robots de service, reposant sur deux modules LLM distincts organisés en hiérarchie. Le premier module, dit "agent de haut niveau", interprète des commandes en langage naturel et génère des séquences d'actions via un prompt de style ReAct, en s'appuyant sur des outils de perception et de manipulation (pick, place, release). Le second module, dédié au raisonnement spatial de bas niveau, prend en charge les instructions de placement précis, par exemple "pose la tasse à côté de l'assiette", en calculant les positions 3D à partir de la géométrie des objets et de la configuration de la scène. La détection d'objets et l'estimation de pose sont assurées par YOLOX-GDRNet. Sur 24 scénarios de test couvrant des commandes spatiales simples, des instructions de haut niveau et des requêtes infaisables, le système affiche un taux de succès global de 86 %. Cette architecture en deux étages répond à un problème bien connu en robotique de service : un LLM généraliste gère mal simultanément la logique séquentielle des tâches et le raisonnement géométrique fin. Séparer ces deux fonctions réduit la surface d'erreur et rend le système plus robuste aux ambiguïtés spatiales, un point de friction majeur dans les scénarios d'assistance à domicile ou hospitaliers. Le taux de 86 % est encourageant, mais il convient de nuancer : 24 scénarios constituent une base d'évaluation très réduite, et les conditions de test en laboratoire restent éloignées de la variabilité d'un environnement réel non structuré. Aucun robot physique n'est mentionné, le module d'exécution motrice étant décrit comme un "stub", ce qui signifie que les résultats restent pour l'instant purement simulés ou partiellement maquettés. Ce travail s'inscrit dans le prolongement des approches LLM-to-robot popularisées par SayCan de Google (2022) et les travaux RT-2 et OpenVLA, qui ont démontré qu'un modèle de langage peut servir de planificateur de haut niveau pour un robot. La spécificité ici est le découplage explicite du raisonnement spatial dans un sous-module dédié, plutôt que de tout faire porter au modèle principal, une direction cohérente avec les limites documentées des VLA (Vision-Language-Action models) sur les tâches de placement précis. Aucun partenaire industriel ni calendrier de déploiement n'est communiqué ; l'étape suivante logique serait une validation sur robot réel dans un contexte de service structuré.

RechercheOpinion
1 source
Saisie guidée par le langage via planification neuro-symbolique avec boîtes englobantes comme objectifs
3arXiv cs.RO 

Saisie guidée par le langage via planification neuro-symbolique avec boîtes englobantes comme objectifs

Une équipe de recherche a publié en juin 2026 un preprint arXiv (2606.12910) présentant GRASP (Grounded Reasoning and Symbolic Planning), un framework de manipulation tabulaire à vocabulaire ouvert pour robots. Le système repose sur un Vision-Language Model (VLM) pré-entraîné qui traduit des requêtes en langage naturel -- par exemple "pose l'objet sur l'étagère du haut" -- en états-buts neuro-symboliques, ancrés dans l'espace physique via un pipeline de détection par bounding boxes. Sur 90 essais en conditions réelles, à trois niveaux de difficulté progressifs, GRASP atteint un taux de succès global de 73,3 %. Aucun entraînement spécifique à la tâche n'est requis : le modèle fonctionne en zero-shot, sans fine-tuning. Ce résultat interpelle parce qu'il propose une alternative crédible aux deux approches dominantes en Task and Motion Planning (TAMP) piloté par VLM : les pipelines lourds computationnellement (type SayCan ou RT-2) et les méthodes data-hungry qui exigent des milliers de démonstrations supervisées. En substituant des coordonnées de bounding boxes à des listes de couleurs codées en dur ou à des repères fixes, GRASP permet d'interpréter des concepts spatiaux abstraits sans recalibrage. Pour un intégrateur industriel ou un laboratoire travaillant sur des cobots, la valeur est directe : réduire le coût d'onboarding d'une nouvelle tâche de manipulation non structurée. Le 73,3 % reste un chiffre à contextualiser -- les auteurs ne détaillent pas les temps de cycle ni les types d'objets testés, et les vidéos de démonstration sélectionnées dans les preprints arXiv ne constituent pas une validation déployée en production. Le contexte de cette publication s'inscrit dans une course dense autour des VLA (Vision-Language-Action models) et du grounding symbolique. Des travaux concurrents comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou les architectures Open-X-Embodiment misent sur l'entraînement à grande échelle pour généraliser ; GRASP parie à l'inverse sur la légèreté architecturale et la planification symbolique. Aucune entreprise industrielle n'est associée à ce preprint, qui semble issu d'un groupe académique non encore identifié publiquement. Les prochaines étapes naturelles seraient une extension au-delà de la manipulation tabulaire (scènes 3D complexes, objets articulés), une évaluation comparative rigoureuse face aux baselines VLA actuelles, et une validation sur des plateformes robotiques standardisées comme le Franka Research 3 ou le UR5.

RechercheOpinion
1 source
Fonctions de navigation neuronales pour une planification de mouvement généralisable sans apprentissage préalable
4arXiv cs.RO 

Fonctions de navigation neuronales pour une planification de mouvement généralisable sans apprentissage préalable

Des chercheurs présentent en juin 2026 (arXiv 2606.03756) Neural Navigation Functions (Neural-NF), un planificateur réactif conçu pour opérer en transfert zéro-shot sur des géométries d'environnements jamais vus. La méthode intègre l'apprentissage dans un planificateur elliptique structuré : les features dérivées du Laplacien intrinsèque de la géométrie cible sont converties en coefficients locaux d'une équation aux dérivées partielles (EDP), dont la résolution produit une fonction de valeur globalement cohérente sur le domaine cible. Par construction, le comportement est garanti sans collision, avec descente monotone et minimum global unique à l'objectif, pour tout modèle admissible. Empiriquement, Neural-NF surpasse les planificateurs appris à prédiction directe de fonction de valeur d'un facteur allant jusqu'à 5, sur un ensemble de géométries variées. L'enjeu est la combinaison rare de garanties formelles et de capacité de généralisation. La quasi-totalité des planificateurs appris abandonnent les preuves de convergence pour s'adapter à de nouvelles géométries ; à l'inverse, les navigation functions classiques de Koditschek et Rimon offrent des garanties mathématiques mais sur des classes de géométries fixées à l'avance. En encapsulant l'apprentissage dans la structure PDE plutôt qu'en laissant le réseau prédire librement la sortie, Neural-NF préserve ces garanties par construction. Pour un intégrateur robotique ou un COO industriel, cela signifie un planificateur qui n'a pas besoin d'être ré-entraîné à chaque nouveau site de déploiement, tout en maintenant une trajectoire certifiée sans collision. Le facteur 5 annoncé mérite toutefois d'être nuancé : il est mesuré contre une famille spécifique de planificateurs à prédiction directe, et non contre l'état de l'art global de la planification de mouvement. La navigation function remonte aux travaux fondateurs de Koditschek et Rimon publiés dans l'International Journal of Robotics Research entre 1990 et 1992, qui établissaient des garanties de convergence dans des espaces à obstacles sphériques. Neural-NF s'inscrit dans l'effort actuel de généralisation à des géométries arbitraires, en concurrence avec les approches par champs de distances signées, représentations NeRF, ou planificateurs par diffusion. L'article reste un preprint non encore revu par les pairs, sans affiliation industrielle ni plan de commercialisation mentionné. Les prochaines étapes naturelles seraient une validation sur des benchmarks 3D partagés tels que Habitat ou MuJoCo, pour situer Neural-NF face aux planificateurs MPPI, par diffusion, et aux VLA appliqués à la navigation.

RecherchePaper
1 source