Aller au contenu principal
Saisie guidée par le langage via planification neuro-symbolique avec boîtes englobantes comme objectifs
RecherchearXiv cs.RO1j

Saisie guidée par le langage via planification neuro-symbolique avec boîtes englobantes comme objectifs

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de recherche a publié en juin 2026 un preprint arXiv (2606.12910) présentant GRASP (Grounded Reasoning and Symbolic Planning), un framework de manipulation tabulaire à vocabulaire ouvert pour robots. Le système repose sur un Vision-Language Model (VLM) pré-entraîné qui traduit des requêtes en langage naturel -- par exemple "pose l'objet sur l'étagère du haut" -- en états-buts neuro-symboliques, ancrés dans l'espace physique via un pipeline de détection par bounding boxes. Sur 90 essais en conditions réelles, à trois niveaux de difficulté progressifs, GRASP atteint un taux de succès global de 73,3 %. Aucun entraînement spécifique à la tâche n'est requis : le modèle fonctionne en zero-shot, sans fine-tuning.

Ce résultat interpelle parce qu'il propose une alternative crédible aux deux approches dominantes en Task and Motion Planning (TAMP) piloté par VLM : les pipelines lourds computationnellement (type SayCan ou RT-2) et les méthodes data-hungry qui exigent des milliers de démonstrations supervisées. En substituant des coordonnées de bounding boxes à des listes de couleurs codées en dur ou à des repères fixes, GRASP permet d'interpréter des concepts spatiaux abstraits sans recalibrage. Pour un intégrateur industriel ou un laboratoire travaillant sur des cobots, la valeur est directe : réduire le coût d'onboarding d'une nouvelle tâche de manipulation non structurée. Le 73,3 % reste un chiffre à contextualiser -- les auteurs ne détaillent pas les temps de cycle ni les types d'objets testés, et les vidéos de démonstration sélectionnées dans les preprints arXiv ne constituent pas une validation déployée en production.

Le contexte de cette publication s'inscrit dans une course dense autour des VLA (Vision-Language-Action models) et du grounding symbolique. Des travaux concurrents comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou les architectures Open-X-Embodiment misent sur l'entraînement à grande échelle pour généraliser ; GRASP parie à l'inverse sur la légèreté architecturale et la planification symbolique. Aucune entreprise industrielle n'est associée à ce preprint, qui semble issu d'un groupe académique non encore identifié publiquement. Les prochaines étapes naturelles seraient une extension au-delà de la manipulation tabulaire (scènes 3D complexes, objets articulés), une évaluation comparative rigoureuse face aux baselines VLA actuelles, et une validation sur des plateformes robotiques standardisées comme le Franka Research 3 ou le UR5.

À lire aussi

V-VLAPS : planification guidée par valeur pour les modèles vision-langage-action (VLA)
1arXiv cs.RO 

V-VLAPS : planification guidée par valeur pour les modèles vision-langage-action (VLA)

Des chercheurs proposent V-VLAPS (Value-Guided Vision-Language-Action Planning and Search), une méthode qui augmente les modèles VLA (Vision-Language-Action) d'un signal de valeur appris pour améliorer la planification en manipulation robotique. Les VLA encodent perception visuelle, langage et commande motrice pour générer des actions, mais leur comportement purement réactif se dégrade hors distribution d'entraînement ou sur des tâches à horizon long. V-VLAPS ajoute une tête de valeur légère (value head), entraînée sur des trajectoires hors-ligne (offline rollouts), qui prédit les retours Monte Carlo et guide un MCTS (Monte Carlo Tree Search) vers les branches de plus haute valeur. Sur les cinq suites du benchmark LIBERO, V-VLAPS égale la baseline sans valeur au budget de recherche standard ; avec un budget élargi, il la dépasse dans toutes les suites, avec +6 points de pourcentage sur LIBERO-Object et +4 points sur LIBERO-10. L'apport central est de démontrer que les représentations internes des VLA encodent non seulement des informations sur l'échec d'une trajectoire (déjà documenté dans la littérature), mais peuvent aussi estimer la valeur pendant la planification. Cela ouvre une voie pragmatique pour les intégrateurs : renforcer des politiques VLA existantes sans réentraînement complet, par simple ajout d'une tête de valeur et d'un budget de recherche accru. L'analyse révèle toutefois une limite claire : la majorité des échecs durs sont des timeouts au niveau racine, là où les valeurs prédites restent peu différenciées, ce qui plafonne le gain observé et indique que le signal de valeur est encore insuffisamment discriminant en début de trajectoire. Ce travail (préprint arXiv, janvier 2026) s'inscrit dans une série de méthodes cherchant à coupler la puissance générative des VLA modernes (RT-2, OpenVLA, Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA) avec des mécanismes de planification structurée, face aux approches concurrentes par world models et diffusion planifiante. Les résultats sont obtenus uniquement en simulation sur LIBERO et ne sont pas encore validés sur robot réel, limite classique de ce type de contribution arxiv. La prochaine étape naturelle est une évaluation sim-to-real pour vérifier si le signal de valeur appris se transfère hors simulation, notamment sur des tâches à contacts complexes ou en environnement non structuré.

RechercheOpinion
1 source
LLM-Flax : planification robotique généralisable par approches neuro-symboliques et grands modèles de langage
2arXiv cs.RO 

LLM-Flax : planification robotique généralisable par approches neuro-symboliques et grands modèles de langage

Des chercheurs ont publié LLM-Flax (arXiv 2604.26569v1), un framework en trois étapes conçu pour automatiser le déploiement de planificateurs de tâches neuro-symboliques sans expertise manuelle ni données d'entraînement. Le système prend en entrée uniquement un LLM hébergé localement et un fichier PDDL décrivant le domaine : l'étape 1 génère les règles de relaxation par prompting structuré avec auto-correction, l'étape 2 pilote la récupération sur échec via une politique de budget de latence, et l'étape 3 remplace entièrement le réseau GNN par un scoring d'objets zero-shot. Évalué sur le benchmark MazeNamo en grilles 10x10, 12x12 et 15x15 (8 benchmarks au total), LLM-Flax atteint un taux de succès moyen de 0,945 contre 0,828 pour la baseline manuelle, soit un gain de +0,117. Sur la configuration 12x12 Expert, où le planificateur manuel échoue complètement (SR 0,000), LLM-Flax atteint SR 0,733 ; sur 15x15 Hard, il obtient SR 1,000 contre 0,900 pour l'approche de référence. Le principal verrou adressé est le coût de transfert de domaine : adapter un planificateur symbolique à une nouvelle cellule robotique mobilise aujourd'hui des centaines de problèmes d'entraînement et l'intervention d'un expert métier, ce qui rend le déploiement à l'échelle industrielle prohibitif. La politique de budget de latence de l'étape 2, qui réserve explicitement une enveloppe d'appels LLM avant chaque séquence de récupération sur échec, adresse un problème pratique rarement traité dans la littérature : les boucles de fallback infinies qui paralysent les systèmes en production. L'étape 3 démontre la faisabilité du zero-shot avec SR 0,720 sur 12x12 Hard sans aucune donnée d'entraînement, mais bute sur la fenêtre de contexte à grande échelle, que les auteurs identifient eux-mêmes comme le principal défi ouvert. LLM-Flax s'inscrit dans la lignée des travaux combinant PDDL et LLMs pour la robotique, après SayCan (Google, 2022), Code as Policies (Google DeepMind) et ProgPrompt. Cette approche neuro-symbolique reste distinctement différente des architectures VLA end-to-end comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) : elle préserve un module de raisonnement explicite et auditable, ce qui peut constituer un avantage dans les environnements industriels certifiables. Le benchmark MazeNamo demeure un environnement de navigation 2D simplifié, éloigné des scénarios de manipulation réels ; aucun déploiement terrain n'est annoncé à ce stade, et les auteurs indiquent l'extension à des environnements multi-objets complexes comme prochaine étape.

RecherchePaper
1 source
Planification neuro-symbolique à base d'agents et mise en service pour la robotique industrielle avec humain dans la boucle et jumeaux numériques
3arXiv cs.RO 

Planification neuro-symbolique à base d'agents et mise en service pour la robotique industrielle avec humain dans la boucle et jumeaux numériques

Une équipe de chercheurs publie sur arXiv (2606.08214) un cadre neuro-symbolique agentique pour la robotique industrielle avec supervision humaine en boucle. Le système hybride confie aux grands modèles de langage (LLM) uniquement les tâches de compréhension du langage naturel et de raisonnement contextuel, tandis que la vérification des contraintes physiques, le séquençage des actions et l'exécution restent entièrement déterministes. L'architecture, baptisée Specifier-Designer-Inspector (SDI), adapte le patron logiciel Planner-Generator-Evaluator (PGE) à la robotique industrielle et s'appuie sur LangGraph pour le routage dynamique en cas d'échec. Un mécanisme de récupération à deux niveaux distingue les échecs structurels (replanification contextuelle) des échecs géométriques à l'exécution (primitives déterministes de correction). Un jumeau numérique sous Unity3D permet à l'opérateur d'inspecter, modifier et valider le plan avant tout déploiement physique. Testé sur des commandes en langage naturel face à dix systèmes de référence, le framework SDI obtient le meilleur taux de réussite sur l'ensemble des niveaux de difficulté évalués. L'intérêt industriel de cette approche tient à son pragmatisme architectural : plutôt que de confier aux LLM la garantie de faisabilité physique d'une trajectoire, le système délègue cette responsabilité à des composants symboliques vérifiables et auditables. C'est une réponse directe au "demo-to-reality gap" qui fragilise de nombreux projets fondés sur des VLA (Vision-Language-Action models) ou des politiques neurales pures. Pour les intégrateurs et les COO industriels, la présence du jumeau numérique comme étape obligatoire de validation avant exécution réduit concrètement le risque opérationnel lors du commissionnement de nouvelles cellules robotiques, en donnant à l'opérateur un droit de regard explicite sur chaque plan généré. Ce travail prolonge une tradition de planification neuro-symbolique héritée de STRIPS et des HTN (Hierarchical Task Networks), en y intégrant les LLM pour l'interprétation des intentions opérateur. Il se positionne en contrepied des approches end-to-end actuellement dominantes, notamment pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, ou Helix de Figure AI, qui misent sur des politiques entraînées en imitation ou en renforcement sans couche symbolique intermédiaire. La publication reste un preprint non encore évalué par les pairs, ce qui invite à la prudence sur les benchmarks annoncés : aucune métrique de temps de cycle en conditions industrielles réelles n'est fournie, et les commandes testées restent dans un cadre expérimental contrôlé. Aucun déploiement commercial ni partenariat industriel n'est annoncé à ce stade.

RecherchePaper
1 source
PIGEON : navigation vers des objets guidée par un modèle vision-langage via la sélection de points d'intérêt
4arXiv cs.RO 

PIGEON : navigation vers des objets guidée par un modèle vision-langage via la sélection de points d'intérêt

Des chercheurs ont publié PIGEON (Point of Interest Guided Exploration for Object Navigation), un cadre de navigation robotique pour localiser des objets dans des espaces intérieurs inconnus. L'approche repose sur des modèles vision-langage (VLM), mais résout leur principal obstacle opérationnel : l'inférence dense image par image est trop coûteuse pour un usage embarqué temps réel. PIGEON introduit des Points d'Intérêt (PoI), unités de décision visuelles couplant waypoints géométriques et observations égocentriques brutes, que le VLM utilise pour sélectionner parmi des destinations candidates : frontières d'exploration, objets suspectés, escaliers franchissables, résumés de niveau sol. Un planificateur bas niveau exécute les trajectoires continues entre ces points. Le système intègre un pipeline RLVR (Reinforcement Learning with Verifiable Rewards) permettant d'affiner des VLM locaux sans annotations Chain-of-Thought manuelles. Sur le benchmark Habitat ObjectNav, référence standard en navigation simulée, PIGEON affiche les meilleures performances zero-shot publiées à ce jour et se transfère à la tâche Active Embodied Question Answering par simple modification du prompt. Des déploiements sur robots physiques sont documentés dans le papier (arXiv 2511.13207). L'enjeu central est l'efficacité computationnelle des VLM dans des boucles de contrôle robotique. Les approches concurrentes utilisent soit les VLM comme contrôleurs denses (coûteux), soit pour un simple ranking de frontières d'exploration (sémantiquement appauvri). PIGEON propose un compromis : décisions rares mais ancrées dans les observations brutes, rendant chaque choix vérifiable et compatible avec l'apprentissage par renforcement sans supervision humaine. La réduction de la dépendance aux données annotées est un avantage concret pour des équipes robotiques sans large budget d'annotation. La progression des performances avec la taille du modèle de fondation (scaling) indique une architecture alignée avec les tendances génératives actuelles. La navigation d'objets en environnement inconnu est un benchmark actif en robotique cognitive, avec des systèmes concurrents comme ESC, SG-Nav ou OpenFMNav exploitant également des LLM pour la planification sémantique. PIGEON se différencie par son mode zero-shot strict, sans réentraînement spécifique à l'environnement cible. Habitat, le simulateur d'intérieur de Meta AI Research, reste la plateforme d'évaluation de référence pour ce type de tâche. Ce résultat est académique : aucun partenariat commercial ni déploiement industriel n'est mentionné, et la robustesse en environnements réels dynamiques non contrôlés reste à valider à plus grande échelle. Les prochaines étapes naturelles incluent des tests en milieux variés et l'adaptation à des VLM embarqués contraints en ressources.

RechercheOpinion
1 source