Aller au contenu principal
Planification VLA à horizon étendu par conditionnement sur traces
IA physiquearXiv cs.RO6sem

Planification VLA à horizon étendu par conditionnement sur traces

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié en avril 2026 LoHo-Manip (arXiv:2604.21924), un cadre modulaire conçu pour étendre les politiques VLA (vision-language-action) aux tâches de manipulation longue durée. Le coeur du système repose sur une architecture découplée : un VLM gestionnaire de tâches et un VLA exécuteur distincts. Le gestionnaire opère selon un principe de planification à horizon glissant (receding-horizon) : à chaque étape, il prédit un plan résiduel combinant une séquence de sous-tâches avec une séparation explicite "fait / restant" comme mémoire légère en langage naturel, et une trace visuelle, une trajectoire 2D de points-clés indiquant au bras où se déplacer et quel objet approcher. L'exécuteur VLA est ensuite conditionné sur cette trace rendue pour produire ses commandes motrices. Les expériences couvrent la planification incarnée, le raisonnement longue portée, la prédiction de trajectoire et la manipulation bout-en-bout, à la fois en simulation et sur un robot Franka réel, avec des gains annoncés en taux de succès, robustesse et généralisation hors distribution. Les métriques précises ne sont pas communiquées dans le préprint.

Ce qui distingue LoHo-Manip des approches VLA classiques, c'est le bouclage implicite sans logique de récupération codée en dur : lorsqu'une sous-tâche échoue, elle reste dans le plan résiduel prédit au pas suivant, et la trace visuelle se met à jour automatiquement. Les modèles VLA actuels comme pi0 (Physical Intelligence) ou OpenVLA peinent sur les séquences multi-étapes en raison de l'accumulation d'erreurs d'exécution ; LoHo-Manip traite ce problème en transformant la prise de décision longue portée en une série de contrôles locaux guidés par trace. Pour un intégrateur industriel, cela ouvre la voie à des chaînes de manipulation complexes (assemblage séquentiel, tri multi-objets) sans reprogrammation manuelle à chaque point de défaillance, ce que les approches purement symboliques ne permettent pas sans pipeline rigide.

Le problème de la manipulation longue portée est un obstacle structurel de la robotique VLA depuis l'émergence des modèles fondationnels en action, notamment après les travaux RT-2 de Google DeepMind (2023) et pi0 de Physical Intelligence (2024). La plupart des solutions actuelles combinent un planificateur symbolique haut niveau avec des primitives de bas niveau, au prix d'une rigidité importante face aux perturbations. LoHo-Manip adopte une voie intermédiaire en ancrant le plan dans une modalité visuelle légère (la trace 2D) plutôt que dans des primitives figées, ce qui est comparable dans l'esprit aux travaux de trajecto-conditioned diffusion de chez Nvidia (GR00T) ou de Cobot Magic. Il s'agit pour l'instant d'un preprint non relu par les pairs, validé sur un seul robot académique (Franka 7 DOF), sans déploiement industriel ni pilote annoncé. Les prochaines étapes crédibles passeraient par une validation sur des manipulateurs à plus haute redondance et des environnements moins structurés.

À lire aussi

PRTS : un système de raisonnement et de planification primitifs via des représentations contrastives
1arXiv cs.RO 

PRTS : un système de raisonnement et de planification primitifs via des représentations contrastives

PRTS (Primitive Reasoning and Tasking System) est un modèle fondation Vision-Langage-Action (VLA) présenté dans un preprint arXiv (réf. 2604.27472, avril 2026). Il reformule le préentraînement des VLA en substituant le clonage comportemental supervisé classique par de l'apprentissage par renforcement conditionné sur des objectifs (Goal-Conditioned Reinforcement Learning, GCRL). Chaque instruction en langage naturel est traitée comme un but à atteindre : PRTS apprend un espace d'embedding unifié où le produit scalaire entre vecteurs état-action et vecteur objectif approxime la log-probabilité actualisée d'atteindre cet objectif depuis l'état courant, une quantité appelée log-discounted goal occupancy. Ce signal de supervision dense est extrait directement de trajectoires offline sans annotation de récompense, puis injecté dans le backbone multimodal via un masque causal adaptatif (role-aware causal mask), avec un surcoût computationnel marginal. Le modèle est préentraîné sur 167 milliards de tokens couvrant des données de manipulation et de raisonnement embodied. Il atteint l'état de l'art sur les benchmarks LIBERO, LIBERO-Pro, LIBERO-Plus et SimplerEnv, ainsi que sur une suite de 14 tâches physiques réelles, avec des gains particulièrement nets sur les tâches longue-horizon, riches en contacts, et sur les instructions zero-shot inédites. L'enjeu est structurant pour le domaine des politiques robotiques générales. Les VLA actuels les plus avancés, notamment Pi-0 et Pi-0.5 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA, reposent tous sur une logique de clonage comportemental : le modèle imite des démonstrations sans représentation explicite du progrès vers un objectif. PRTS introduit une conscience intrinsèque de l'atteignabilité des buts (goal reachability awareness), ce qui se traduit par des améliorations précisément là où les VLA peinent le plus en déploiement réel : planification longue-horizon, robustesse aux contacts et généralisation zéro-shot. Si ces résultats se confirment indépendamment, l'approche contrastive GCRL pourrait redéfinir le paradigme de préentraînement dominant dans le domaine. Le contexte compétitif est celui d'une convergence accélérée vers des fondations VLA à grande échelle capables de généralisation zéro-shot. Physical Intelligence, NVIDIA Robotics, Google DeepMind (RT-2, Octo) et de nombreuses équipes académiques travaillent simultanément sur ce segment. La contribution de PRTS est avant tout méthodologique : en n'exigeant aucune annotation de récompense et en tirant sa supervision de trajectoires offline déjà disponibles, l'approche est potentiellement reproductible avec des ressources plus modestes. Il s'agit toutefois d'un résultat de recherche à ce stade, non d'un déploiement commercial : les évaluations physiques portent sur 14 tâches dont les conditions expérimentales restent à vérifier indépendamment, et aucune timeline de productisation n'est mentionnée.

IA physiqueOpinion
1 source
AnySlot : politiques vision-langage-action conditionnées par objectif pour le placement zéro-shot par emplacement
2arXiv cs.RO 

AnySlot : politiques vision-langage-action conditionnées par objectif pour le placement zéro-shot par emplacement

Des chercheurs ont publié sur arXiv (référence 2604.10432v3) un framework baptisé AnySlot, conçu pour permettre à des politiques de contrôle robotique de type Vision-Language-Action (VLA) de placer des objets avec précision dans des emplacements discrets, dits "slots", à partir d'instructions en langage naturel. L'approche introduit un objectif visuel intermédiaire : plutôt que de passer directement de la commande textuelle au mouvement moteur, le système génère d'abord un marqueur spatial rendu sur l'image, indiquant l'emplacement cible exact, puis confie l'exécution à une politique VLA conditionnée par ce but visuel. Cette architecture hiérarchique découple la compréhension sémantique de l'instruction et la précision géométrique de l'exécution. Les auteurs introduisent également SlotBench, un benchmark de simulation structuré autour de neuf catégories de tâches, destiné à évaluer le raisonnement spatial dans des scénarios de placement à l'échelle centimétrique. Les expériences montrent qu'AnySlot surpasse les baselines VLA plates et les méthodes de grounding modulaire en conditions zero-shot. Ce travail s'attaque à l'un des verrous les plus concrets des VLA généralistes : la précision de placement sous contraintes compositionnelles. Les politiques end-to-end peinent à combiner compréhension du langage et précision millimétrique, ce qui freine leur utilisation dans des applications industrielles comme l'assemblage, le tri ou la mise en casier. L'introduction d'un "but visuel" explicite comme couche intermédiaire est une réponse architecturale directe au gap sémantique-géométrique, et les résultats zero-shot suggèrent une meilleure généralisation que les approches purement end-to-end ou modulaires. Pour un intégrateur ou un COO industriel, cela signifie potentiellement réduire le coût de spécification des tâches de placement sans sacrifier la fiabilité. Le contexte est celui d'une intense activité autour des VLA depuis les travaux fondateurs de RT-2 (Google DeepMind, 2023) et des politiques récentes comme pi0 de Physical Intelligence ou OpenVLA. La difficulté du slot-level placement restait un angle mort de ces approches, qui performent mieux sur des tâches de saisie que de dépose précise. AnySlot ne provient pas d'un labo académique nommé explicitement dans l'abstract, et les résultats sont pour l'instant limités à la simulation via SlotBench, sans validation sur robot réel publiée. Les prochaines étapes naturelles seraient des expériences physiques et une comparaison avec des systèmes comme RoboPoint ou SpatialVLA, qui explorent des approches proches du grounding spatial. Ce preprint restera à suivre avant toute intégration industrielle.

IA physiqueOpinion
1 source
PLanAR : raisonnement à base d'agents ancré dans la planification et le langage pour la manipulation robotique
3arXiv cs.RO 

PLanAR : raisonnement à base d'agents ancré dans la planification et le langage pour la manipulation robotique

Des chercheurs ont présenté PLanAR (Planning-Language-Grounded Agentic Reasoning), un framework agent pour la manipulation robotique long-horizon en environnements ouverts, publié sous forme de préprint arXiv (2602.01662v4). Le système utilise des modèles vision-langage (VLMs) comme moteur de raisonnement, mais les contraint via une interface de planification symbolique structurée en trois composants : des prédicats d'objets encodant l'état de la scène, des schémas d'action définissant les compétences du robot avec leurs préconditions et effets attendus, et des plans symboliques servant de représentations intermédiaires exécutables. Après chaque action, PLanAR vérifie si les effets symboliques attendus ont été atteints via les observations embarquées, ce qui lui permet de détecter les échecs et de replanifier en cas de déviation. Les évaluations couvrent plusieurs morphologies de robots et backends VLM sur des tâches allant de l'empilement d'objets à la résolution de mots croisés, en passant par des séquences cuisine long-horizon. La manipulation long-horizon reste un défi majeur de la robotique incarnée : les architectures VLA (Vision-Language-Action) pures, comme Pi-0 (Physical Intelligence) ou OpenVLA, échouent souvent lorsque les séquences s'allongent et que les conditions d'exécution changent. PLanAR adresse ce problème en introduisant une boucle de vérification étape par étape qui sépare explicitement raisonnement et exécution, une propriété absente des approches end-to-end. Cette architecture hybride neurosymbolique est directement pertinente pour les intégrateurs industriels travaillant en environnements non contrôlés, car elle permet au robot de détecter et corriger ses propres erreurs sans intervention humaine. Les auteurs reconnaissent eux-mêmes que PLanAR révèle des limitations importantes dans le raisonnement incarné des VLMs actuels, une posture analytique rare dans la littérature récente. PLanAR s'inscrit dans une longue tradition d'approches TAMP (Task and Motion Planning) cherchant à combiner planification symbolique et exécution motrice, aux côtés de SayCan (Google DeepMind, 2022), Code as Policies (2023) et GR00T N2 (NVIDIA, 2025) qui intègre également un module de raisonnement symbolique. La distinction clé réside dans l'interface de planification formelle imposée au VLM, qui réduit l'espace de recherche au prix d'une expressivité moindre. Le preprint ne mentionne ni partenariat industriel ni timeline de déploiement, et les expériences restent en laboratoire : le passage à l'échelle en conditions réelles demeure la question ouverte centrale pour valider l'approche au-delà du benchmark académique.

IA physiqueOpinion
1 source
Afford-VLA : planification visuelle alignée sur les actions via l'affordance internalisée
4arXiv cs.RO 

Afford-VLA : planification visuelle alignée sur les actions via l'affordance internalisée

Une équipe de chercheurs publie Afford-VLA (arXiv:2605.24203, mai 2026), un cadre unifié pour améliorer le raisonnement spatial des modèles vision-langage-action (VLA) appliqués à la manipulation robotique. Le problème ciblé est précis : les VLA actuels peinent à déterminer où interagir dans des scènes visuelles complexes, une lacune qui limite leur généralisation sur des tâches de manipulation réelle. Afford-VLA internalise l'affordance conditionnée par la tâche comme interface de planification visuelle explicite au sein du modèle lui-même : des tokens apprenables interrogent les régions d'interaction pertinentes, des masques d'affordance sont décodés depuis les représentations multimodales, puis convertis en embeddings compacts qui conditionnent directement la prédiction d'action. Le système est évalué sur LIBERO, LIBERO-Plus et SimplerEnv, trois bancs de test simulés standards en manipulation, ainsi que sur des expériences en conditions réelles. Les auteurs revendiquent des performances état-de-l'art sur ces benchmarks, sans toutefois détailler les métriques précises dans l'abstract. L'intérêt architectural réside dans le couplage serré entre perception et action : contrairement aux approches existantes qui génèrent des signaux visuels intermédiaires de manière externe ou recourent à des représentations symboliques faiblement reliées au contrôle moteur, Afford-VLA génère et consomme l'affordance au sein du même pipeline. Ce choix évite le découplage habituel entre planification visuelle et prédiction d'action, un problème récurrent dans les VLA de première génération. Pour un intégrateur ou un COO industriel, le message pratique est que la localisation explicite et locale du point d'interaction, plutôt qu'un raisonnement global sur la scène, pourrait réduire le sim-to-real gap sur des tâches de pick-and-place ou d'assemblage en environnement non structuré. Le domaine VLA est aujourd'hui très actif : Physical Intelligence (Pi-0), NVIDIA (GR00T N2), Figure AI (Helix) et de nombreux laboratoires académiques ont chacun leur approche de la planification visuelle pour la manipulation généraliste. Ce preprint s'inscrit dans une vague de travaux cherchant à combler la faiblesse spatiale des VLA après les premières générations de modèles de type RT-2 ou OpenVLA. Aucun déploiement industriel n'est annoncé et aucun partenaire opérationnel n'est mentionné : il s'agit d'un papier de recherche préliminaire non encore évalué par les pairs, dont les résultats reels devront être confirmés dans des conditions de production.

IA physiqueOpinion
1 source