Aller au contenu principal
GaLa : des modèles vision-langage guidés par hypergraphe pour la planification procédurale
RecherchearXiv cs.RO6sem

GaLa : des modèles vision-langage guidés par hypergraphe pour la planification procédurale

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié sur arXiv (arXiv:2604.17241) un nouveau framework vision-langage baptisé GaLa, conçu pour améliorer la planification procédurale dans les systèmes d'IA incarnée. Le système repose sur une représentation par hypergraphe : chaque objet détecté dans une scène devient un nœud, tandis que des hyper-arêtes agrègent ces objets selon leurs attributs fonctionnels et leur sémantique pour former des régions cohérentes. GaLa intègre également un encodeur baptisé TriView HyperGraph Encoder, qui impose une cohérence sémantique entre trois niveaux de représentation (vue nœud, vue zone, vue association nœud-zone) via apprentissage contrastif. Les expériences menées sur les benchmarks ActPlan1K et ALFRED montrent des gains significatifs sur le taux de succès d'exécution, le score LCS (Longest Common Subsequence) et la correction des plans générés, sans que les auteurs ne publient de chiffres absolus précis dans le résumé disponible.

Ce travail cible un problème bien documenté dans la robotique d'interaction : les VLMs (Vision-Language Models) actuels raisonnent correctement sur du langage et de l'image de façon isolée, mais peinent à saisir les relations spatiales implicites et la hiérarchie fonctionnelle d'une scène réelle. Pour un robot devant exécuter une séquence de tâches domestiques (préparer un repas, ranger des objets), comprendre que le plan de travail et le réfrigérateur appartiennent à la même région fonctionnelle change radicalement la qualité du plan généré. GaLa propose une couche de structuration explicite en amont du raisonnement VLM, ce qui réduit la dépendance aux capacités d'inférence implicite des modèles de fondation et ouvre la voie à une meilleure généralisation sur des scènes non vues.

Le benchmark ALFRED, développé par Allen AI, est devenu la référence standard pour évaluer la planification procédurale en environnement simulé domestique, et ActPlan1K cible des scénarios procéduraux plus complexes. La tendance actuelle dans ce sous-domaine consiste à enrichir les VLMs généralistes (GPT-4o, LLaVA, InternVL) avec des modules de représentation structurée, une approche que GaLa pousse plus loin que les travaux précédents via l'hypergraphe. Les concurrents directs incluent des travaux comme SQA3D, EmbodiedScan ou les pipelines VLA (Vision-Language-Action) de Physical Intelligence (pi0) et de Google DeepMind, qui cherchent eux aussi à réduire le gap simulation-réel. GaLa reste pour l'instant un résultat de recherche académique sans déploiement physique annoncé.

À lire aussi

V-VLAPS : planification guidée par valeur pour les modèles vision-langage-action (VLA)
1arXiv cs.RO 

V-VLAPS : planification guidée par valeur pour les modèles vision-langage-action (VLA)

Des chercheurs proposent V-VLAPS (Value-Guided Vision-Language-Action Planning and Search), une méthode qui augmente les modèles VLA (Vision-Language-Action) d'un signal de valeur appris pour améliorer la planification en manipulation robotique. Les VLA encodent perception visuelle, langage et commande motrice pour générer des actions, mais leur comportement purement réactif se dégrade hors distribution d'entraînement ou sur des tâches à horizon long. V-VLAPS ajoute une tête de valeur légère (value head), entraînée sur des trajectoires hors-ligne (offline rollouts), qui prédit les retours Monte Carlo et guide un MCTS (Monte Carlo Tree Search) vers les branches de plus haute valeur. Sur les cinq suites du benchmark LIBERO, V-VLAPS égale la baseline sans valeur au budget de recherche standard ; avec un budget élargi, il la dépasse dans toutes les suites, avec +6 points de pourcentage sur LIBERO-Object et +4 points sur LIBERO-10. L'apport central est de démontrer que les représentations internes des VLA encodent non seulement des informations sur l'échec d'une trajectoire (déjà documenté dans la littérature), mais peuvent aussi estimer la valeur pendant la planification. Cela ouvre une voie pragmatique pour les intégrateurs : renforcer des politiques VLA existantes sans réentraînement complet, par simple ajout d'une tête de valeur et d'un budget de recherche accru. L'analyse révèle toutefois une limite claire : la majorité des échecs durs sont des timeouts au niveau racine, là où les valeurs prédites restent peu différenciées, ce qui plafonne le gain observé et indique que le signal de valeur est encore insuffisamment discriminant en début de trajectoire. Ce travail (préprint arXiv, janvier 2026) s'inscrit dans une série de méthodes cherchant à coupler la puissance générative des VLA modernes (RT-2, OpenVLA, Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA) avec des mécanismes de planification structurée, face aux approches concurrentes par world models et diffusion planifiante. Les résultats sont obtenus uniquement en simulation sur LIBERO et ne sont pas encore validés sur robot réel, limite classique de ce type de contribution arxiv. La prochaine étape naturelle est une évaluation sim-to-real pour vérifier si le signal de valeur appris se transfère hors simulation, notamment sur des tâches à contacts complexes ou en environnement non structuré.

RechercheOpinion
1 source
KGLAMP : un modèle de langage guidé par graphe de connaissances pour la planification multi-robot adaptative
2arXiv cs.RO 

KGLAMP : un modèle de langage guidé par graphe de connaissances pour la planification multi-robot adaptative

Des chercheurs ont publié KGLAMP (Knowledge Graph-guided Language Model for Adaptive Multi-robot Planning and Replanning), un framework de planification combinant graphes de connaissances et grands modèles de langage pour coordonner des équipes de robots hétérogènes sur des missions longues. La contribution centrale est une architecture en deux couches : un graphe de connaissances structuré encode en temps réel les relations entre objets, la portée spatiale de chaque robot et leurs capacités spécifiques, tandis qu'un LLM s'appuie sur ce graphe pour générer automatiquement des spécifications PDDL (Planning Domain Definition Language) correctes. Quand l'environnement évolue, un obstacle déplacé, un robot en panne, le graphe détecte l'incohérence et déclenche un replanification automatique. Sur le benchmark MAT-THOR (un environnement simulé de type habitat domestique conçu pour tester la coordination multi-agents), KGLAMP surpasse de 25,3 % au minimum les deux approches de référence : planificateurs PDDL classiques seuls et LLM seuls. Ce résultat est significatif parce qu'il attaque un problème structurel bien documenté dans la littérature : les planificateurs symboliques PDDL exigent des modèles du monde construits manuellement, coûteux à maintenir dans des environnements dynamiques, tandis que les LLM utilisés seuls tendent à ignorer l'hétérogénéité des agents et à produire des plans invalides face à l'incertitude. KGLAMP propose une mémoire persistante et mise à jour dynamiquement qui sert d'interface entre perception et raisonnement symbolique. Pour un intégrateur déployant des flottes mixtes (AMR, bras manipulateurs, drones), la promesse d'un replanning automatique sans re-modélisation manuelle représente un gain opérationnel concret, notamment dans les entrepôts à géométrie variable ou la logistique hospitalière. L'article s'inscrit dans la tendance des approches dites "neuro-symboliques" qui tentent de corriger les faiblesses des LLM par des représentations explicites du monde. Les travaux concurrents incluent SayPlan (Rana et al., 2023) et les variantes LLM+PDDL de Meta AI, Google DeepMind ou CMU. Il reste à noter que les expériences sont conduites exclusivement en simulation sur MAT-THOR : aucune validation physique n'est rapportée, ce qui laisse ouverte la question du sim-to-real gap pour des flottes réelles. La prochaine étape naturelle serait un déploiement sur des plateformes matérielles hétérogènes pour mesurer la robustesse du graphe de connaissances face au bruit sensoriel du monde réel.

RecherchePaper
1 source
VLA-Pro : transfert de mémoire procédurale entre tâches pour les modèles vision-langage-action (VLA)
3arXiv cs.RO 

VLA-Pro : transfert de mémoire procédurale entre tâches pour les modèles vision-langage-action (VLA)

Une équipe de chercheurs a publié en mai 2026 VLA-Pro, un framework « plug-and-play » destiné à améliorer la généralisation inter-tâches des modèles Vision-Language-Action (VLA) en robotique manipulatoire. Le principe repose sur le stockage d'adaptateurs LoRA (Low-Rank Adaptation) comme mémoires procédurales paramétriques pendant la phase d'entraînement. À l'inférence, le système récupère dynamiquement les mémoires les plus pertinentes en fonction du contexte multimodal courant (image, langage, contexte scène), puis les fusionne pour générer le prochain action chunk. Les expériences ont été conduites sur trois benchmarks : RoboTwin, RLBench (simulation), et des tâches de manipulation en environnement réel. Le gain en simulation atteint jusqu'à 207 % d'amélioration relative selon les backbones testés. Sur les tâches réelles, le taux de succès passe de 5,8 % à 65,0 %, soit un facteur d'environ onze. Ce résultat pointe un problème structurel des VLA actuels : leur incapacité à transférer une expérience acquise vers une tâche inédite, même lorsque les objets ou les gestes impliqués sont similaires. Le bond de 5,8 % à 65,0 % en monde réel est notable, bien que l'absence de détails sur la sélection et la difficulté des tâches testées invite à interpréter ces chiffres avec prudence. L'atout principal de VLA-Pro pour les intégrateurs est sa modularité : compatible avec plusieurs backbones existants, il s'insère sans refonte du pipeline d'entraînement. Pour un décideur industriel, cela réduit concrètement le coût de requalification d'un robot lors d'un changement de tâche en production. Les modèles VLA constituent aujourd'hui le front principal de la recherche en manipulation généraliste, avec Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA), OpenVLA (Berkeley) et RT-2 (Google DeepMind) comme références majeures. Leur talon d'Achille commun reste la généralisation out-of-distribution, que VLA-Pro tente d'adresser via un mécanisme de mémoire inspiré des systèmes cognitifs. L'utilisation des LoRA comme vecteurs de mémoire est pragmatique, ces adaptateurs étant déjà présents dans la majorité des pipelines de fine-tuning actuels. Le papier ne mentionne ni partenariat industriel ni déploiement annoncé : il s'agit pour l'instant d'une contribution académique prometteuse dont la validation à l'échelle industrielle reste à démontrer.

RechercheOpinion
1 source
Modèle World-Value-Action : planification implicite pour les systèmes vision-langage-action (VLA)
4arXiv cs.RO 

Modèle World-Value-Action : planification implicite pour les systèmes vision-langage-action (VLA)

Des chercheurs ont publié le 21 avril 2026 un article sur arXiv (2604.14732) présentant le modèle WAV (World-Value-Action), une architecture unifiée destinée à améliorer les capacités de planification des systèmes Vision-Language-Action (VLA). Les VLA sont des modèles qui ancrent la perception visuelle et les instructions en langage naturel dans des commandes motrices directes, une approche devenue centrale dans la robotique généraliste ces deux dernières années. Le problème ciblé par WAV est précis : la majorité des VLA actuels prédisent les actions de manière directe (un état visuel + une instruction = une action), sans modéliser les conséquences à long terme de leurs décisions. Le modèle WAV introduit à la place une représentation latente structurée des trajectoires futures, conditionnée sur les observations visuelles et les instructions. Un modèle de monde (world model) prédit les états futurs, tandis qu'une fonction de valeur de trajectoire (trajectory value function) évalue leur utilité à horizon long. La génération d'action est ensuite formulée comme une inférence dans cet espace latent, où le modèle concentre progressivement la masse de probabilité sur les trajectoires à haute valeur et dynamiquement réalisables. L'apport théorique central est démontré formellement : planifier directement dans l'espace des actions entraîne une décroissance exponentielle de la probabilité de trajectoires réalisables à mesure que l'horizon s'allonge, un obstacle fondamental pour toute tâche nécessitant plusieurs étapes enchaînées. L'inférence dans l'espace latent restructure la distribution de recherche vers des régions réalisables, ce qui rend la planification à long horizon tractable. En pratique, WAV surpasse les méthodes de l'état de l'art en simulation et dans des expériences réelles, avec des gains mesurables sur le taux de succès des tâches, la capacité de généralisation et la robustesse, notamment dans les scénarios compositionnels et à horizon long. Pour les intégrateurs industriels et les équipes de robotique, cela signifie potentiellement un meilleur comportement dans les tâches en plusieurs étapes, assemblage, manipulation séquentielle, sans avoir à pré-programmer des graphes de tâches explicites. Les VLA ont connu une accélération notable depuis fin 2023, avec des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA (Berkeley) qui ont validé l'approche d'un modèle fondationnel pour la manipulation robotique. La plupart de ces architectures partagent le défaut que WAV cherche à corriger : l'absence de raisonnement causal sur les conséquences des actions. Des approches concurrentes comme SWIM (Sequential World Inference Models) ou les travaux de Dreamer appliqués à la robotique explorent des pistes similaires via des world models explicites, mais WAV tente d'intégrer planning implicite et génération d'action dans un seul cadre d'entraînement. Le code est disponible publiquement sur GitHub (Win-commit/WAV). Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans l'article, il s'agit pour l'instant d'une publication académique, sans produit shipped ni pilote annoncé.

RechercheActu
1 source