Aller au contenu principal
Suivre le flux : modèles comportementaux de Koopman comme pseudo-planificateurs pour la dextérité visuomotrice
RecherchearXiv cs.RO4h

Suivre le flux : modèles comportementaux de Koopman comme pseudo-planificateurs pour la dextérité visuomotrice

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont soumis sur arXiv (arXiv:2602.07413v3) un framework nommé Unified Behavioral Models (UBMs) pour améliorer la dextérité visuo-motrice des manipulateurs robotiques. L'approche, instanciée sous le nom Koopman-UBM (K-UBM), modélise les compétences dextères comme des systèmes dynamiques couplés : les caractéristiques visuelles de l'environnement (visual flow) et les états proprioceptifs du robot (action flow) co-évoluent dans un espace latent linéaire structuré via l'opérateur de Koopman. Évalué sur sept tâches en simulation et quatre en conditions réelles, K-UBM égale ou dépasse les méthodes de référence tout en offrant une inférence plus rapide et une robustesse aux occlusions partielles.

L'enjeu est structurel : les architectures actuelles à base de diffusion et de transformers modélisent les compétences comme des mappings réactifs, et s'appuient sur un action chunking à horizon fixe, créant un compromis rigide entre cohérence temporelle et réactivité. K-UBM contourne ce problème en garantissant la cohérence par construction via la dynamique du système. Son mécanisme de replanning en ligne automatique surveille l'exécution en temps réel et redémarre une planification dès que le visual flow prédit diverge de l'observé au-delà d'un seuil configuré. Pour un intégrateur industriel, cela se traduit par moins de données d'entraînement requises, une robustesse accrue aux perturbations et occlusions partielles, et une latence d'inférence réduite, trois freins identifiés au déploiement des manipulateurs dextres en production.

La dextérité multi-doigts reste l'un des verrous les plus documentés de la robotique de manipulation : les architectures dominantes comme Diffusion Policy, ACT, ou Pi-0 de Physical Intelligence fonctionnent sur des tâches structurées mais peinent à s'adapter à des perturbations fines en temps réel. L'opérateur de Koopman, issu de la théorie des systèmes dynamiques non-linéaires, linéarise un espace d'état non-linéaire dans un espace latent de haute dimension, rendant le système analytiquement tractable. Ce papier est une contribution de recherche fondamentale : aucun partenaire industriel ni calendrier de déploiement n'est mentionné. Les suites naturelles incluent des évaluations sur davantage de tâches réelles en conditions non contrôlées et une intégration potentielle dans des frameworks ouverts comme Lerobot, développé par HuggingFace (Paris).

À lire aussi

Planification de mouvement "suivre le chef" par échantillonnage pour robots continus montés sur manipulateur
1arXiv cs.RO 

Planification de mouvement "suivre le chef" par échantillonnage pour robots continus montés sur manipulateur

Des chercheurs du Continuum Robotics Lab (Université de Toronto) ont publié en mai 2025 sur arXiv (arXiv:2605.11618) un planificateur de mouvement par échantillonnage pour robots continuums (CR) montés sur bras manipulateurs. Le principe exploité, dit "follow-the-leader" (FTL), consiste à faire retracer au corps du robot la trajectoire exacte de son extrémité distale, permettant de naviguer dans des espaces confinés sans collision. L'innovation clé est de découpler la recherche de forme globale du calcul de pose de base via une construction géométrique analytique fermée, éliminant toute optimisation itérative en ligne. Validé sur 120 chemins simulés répartis en trois classes de test, le système atteint 0 % d'erreur d'extrémité distale, 1,9 % d'écart de forme moyen (normalisé par la longueur du robot) et 100 % de taux de succès. Une validation matérielle sur un CR à tendons de 6 DOF monté sur manipulateur série confirme la faisabilité pratique. L'apport principal est de lever un verrou structurel : toutes les méthodes FTL antérieures supposaient une base fixe ou un mécanisme d'insertion à un seul DOF. En autorisant une pose de base pleinement actionnée dans SE(3), le problème devient couplé et combinatoirement difficile. En déportant la majorité du calcul hors ligne, l'approche permet une planification en quasi-temps réel sur des plateformes industrielles réelles. Les garanties théoriques formelles (complétude de la recherche de forme, convergence du suivi de waypoints) facilitent la certification de sécurité, ce qui intéresse directement les intégrateurs en robotique chirurgicale ou en inspection d'infrastructures. Bémol notable : les temps de planification effectifs ne sont pas rapportés dans l'abstract, et la généralisation au-delà des trois classes de chemins testés reste à démontrer. Les robots continuums, structures flexibles sans articulations rigides discrètes, sont étudiés depuis les années 2000 pour la chirurgie minimalement invasive, l'inspection de turbines et l'exploration de conduits étroits. Le Continuum Robotics Lab compte parmi les équipes de référence mondiales, aux côtés du groupe Webster III (Vanderbilt) et de l'Université de Leeds. En Europe, des acteurs comme Surgivisio et des projets ANR autour des cathéters robotisés contribuent également au domaine. Ce travail s'inscrit dans la tendance d'intégration des CR sur bras polyarticulés pour dépasser les limitations des plateformes à base fixe. Le code source et les visualisations sont publiés en open source sur la page du laboratoire, facilitant la réplication indépendante.

UELes intégrateurs européens en robotique chirurgicale, dont la startup française Surgivisio et les projets ANR sur cathéters robotisés, pourraient exploiter ce planificateur open source pour franchir le verrou de la base mobile sur leurs plateformes de développement.

RecherchePaper
1 source
V-VLAPS : planification guidée par valeur pour les modèles vision-langage-action (VLA)
2arXiv cs.RO 

V-VLAPS : planification guidée par valeur pour les modèles vision-langage-action (VLA)

Des chercheurs proposent V-VLAPS (Value-Guided Vision-Language-Action Planning and Search), une méthode qui augmente les modèles VLA (Vision-Language-Action) d'un signal de valeur appris pour améliorer la planification en manipulation robotique. Les VLA encodent perception visuelle, langage et commande motrice pour générer des actions, mais leur comportement purement réactif se dégrade hors distribution d'entraînement ou sur des tâches à horizon long. V-VLAPS ajoute une tête de valeur légère (value head), entraînée sur des trajectoires hors-ligne (offline rollouts), qui prédit les retours Monte Carlo et guide un MCTS (Monte Carlo Tree Search) vers les branches de plus haute valeur. Sur les cinq suites du benchmark LIBERO, V-VLAPS égale la baseline sans valeur au budget de recherche standard ; avec un budget élargi, il la dépasse dans toutes les suites, avec +6 points de pourcentage sur LIBERO-Object et +4 points sur LIBERO-10. L'apport central est de démontrer que les représentations internes des VLA encodent non seulement des informations sur l'échec d'une trajectoire (déjà documenté dans la littérature), mais peuvent aussi estimer la valeur pendant la planification. Cela ouvre une voie pragmatique pour les intégrateurs : renforcer des politiques VLA existantes sans réentraînement complet, par simple ajout d'une tête de valeur et d'un budget de recherche accru. L'analyse révèle toutefois une limite claire : la majorité des échecs durs sont des timeouts au niveau racine, là où les valeurs prédites restent peu différenciées, ce qui plafonne le gain observé et indique que le signal de valeur est encore insuffisamment discriminant en début de trajectoire. Ce travail (préprint arXiv, janvier 2026) s'inscrit dans une série de méthodes cherchant à coupler la puissance générative des VLA modernes (RT-2, OpenVLA, Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA) avec des mécanismes de planification structurée, face aux approches concurrentes par world models et diffusion planifiante. Les résultats sont obtenus uniquement en simulation sur LIBERO et ne sont pas encore validés sur robot réel, limite classique de ce type de contribution arxiv. La prochaine étape naturelle est une évaluation sim-to-real pour vérifier si le signal de valeur appris se transfère hors simulation, notamment sur des tâches à contacts complexes ou en environnement non structuré.

RechercheOpinion
1 source
Mémoire spatiale pour la manipulation hors champ de vision dans les modèles VLA
3arXiv cs.RO 

Mémoire spatiale pour la manipulation hors champ de vision dans les modèles VLA

Une équipe de chercheurs a publié en mai 2026 (arXiv:2605.22283) SOMA, un framework de mémoire spatiale conçu pour résoudre un angle mort structurel des modèles Vision-Language-Action (VLA) : leur incapacité à manipuler des objets hors du champ visuel. Le système s'appuie sur une caméra de tête mobile pour acquérir des observations multi-vues, qu'il agrège en une représentation spatiale et sémantique persistante. SOMA repose sur trois modules : une construction de mémoire spatiale par balayage angulaire, un raffinement dynamique pour maintenir la cohérence globale au fil du temps, et une récupération contextuelle qui active les indices spatiaux pertinents à l'instruction en cours d'exécution. Les chercheurs l'ont évalué sur cinq tâches réelles de manipulation hors champ, incluant des scénarios multi-étapes et à deux bras où les objets cibles sont initialement invisibles. Les résultats montrent une amélioration du taux de succès, une localisation plus rapide des cibles, moins de recherche de point de vue, et un comportement proche du "one-shot grasping" en conditions d'observabilité partielle. Des expériences complémentaires sur les benchmarks RoboCasa GR1 et SimplerEnv confirment l'efficacité du design mémoire en contexte pleinement observable. Ce travail s'attaque à un verrou souvent ignoré dans la littérature VLA : l'hypothèse implicite que tous les objets pertinents sont dans le champ de vision au moment de l'action. Cette hypothèse rend les systèmes actuels fragiles dès qu'on sort des configurations de démonstration. Le fait que SOMA induise des comportements qualitativement différents, et non de simples gains de score, est notable : une localisation en quasi-une-passe sous observabilité partielle est un résultat concret pour tout intégrateur robotique travaillant en environnement non structuré. Cela suggère que la mémoire spatiale persistante peut s'ajouter comme couche modulaire à un VLA existant, sans refonte complète de l'architecture, ce qui abaisse le seuil d'adoption. Les VLAs ont émergé comme approche dominante en robotique de manipulation depuis fin 2023, portés par Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, et OpenVLA issu de Stanford et Berkeley. Ces modèles héritent de l'architecture vision-langage mais restent fondamentalement réactifs : ils traitent un flux visuel instantané sans mémoire de scène. Des travaux parallèles sur la mémoire épisodique existent en navigation mobile (méthodes SLAM-like, NeRF tactique), mais leur intégration dans des pipelines VLA de manipulation reste peu explorée. SOMA comble ce gap sur une plateforme à bras réel. Le code n'est pas encore disponible au moment de la publication, ce qui limite la reproductibilité immédiate ; son déploiement sur d'autres plateformes humanoïdes, au-delà de GR1, constituera l'étape de validation industrielle clé.

RechercheOpinion
1 source
Modèle World-Value-Action : planification implicite pour les systèmes vision-langage-action (VLA)
4arXiv cs.RO 

Modèle World-Value-Action : planification implicite pour les systèmes vision-langage-action (VLA)

Des chercheurs ont publié le 21 avril 2026 un article sur arXiv (2604.14732) présentant le modèle WAV (World-Value-Action), une architecture unifiée destinée à améliorer les capacités de planification des systèmes Vision-Language-Action (VLA). Les VLA sont des modèles qui ancrent la perception visuelle et les instructions en langage naturel dans des commandes motrices directes, une approche devenue centrale dans la robotique généraliste ces deux dernières années. Le problème ciblé par WAV est précis : la majorité des VLA actuels prédisent les actions de manière directe (un état visuel + une instruction = une action), sans modéliser les conséquences à long terme de leurs décisions. Le modèle WAV introduit à la place une représentation latente structurée des trajectoires futures, conditionnée sur les observations visuelles et les instructions. Un modèle de monde (world model) prédit les états futurs, tandis qu'une fonction de valeur de trajectoire (trajectory value function) évalue leur utilité à horizon long. La génération d'action est ensuite formulée comme une inférence dans cet espace latent, où le modèle concentre progressivement la masse de probabilité sur les trajectoires à haute valeur et dynamiquement réalisables. L'apport théorique central est démontré formellement : planifier directement dans l'espace des actions entraîne une décroissance exponentielle de la probabilité de trajectoires réalisables à mesure que l'horizon s'allonge, un obstacle fondamental pour toute tâche nécessitant plusieurs étapes enchaînées. L'inférence dans l'espace latent restructure la distribution de recherche vers des régions réalisables, ce qui rend la planification à long horizon tractable. En pratique, WAV surpasse les méthodes de l'état de l'art en simulation et dans des expériences réelles, avec des gains mesurables sur le taux de succès des tâches, la capacité de généralisation et la robustesse, notamment dans les scénarios compositionnels et à horizon long. Pour les intégrateurs industriels et les équipes de robotique, cela signifie potentiellement un meilleur comportement dans les tâches en plusieurs étapes, assemblage, manipulation séquentielle, sans avoir à pré-programmer des graphes de tâches explicites. Les VLA ont connu une accélération notable depuis fin 2023, avec des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA (Berkeley) qui ont validé l'approche d'un modèle fondationnel pour la manipulation robotique. La plupart de ces architectures partagent le défaut que WAV cherche à corriger : l'absence de raisonnement causal sur les conséquences des actions. Des approches concurrentes comme SWIM (Sequential World Inference Models) ou les travaux de Dreamer appliqués à la robotique explorent des pistes similaires via des world models explicites, mais WAV tente d'intégrer planning implicite et génération d'action dans un seul cadre d'entraînement. Le code est disponible publiquement sur GitHub (Win-commit/WAV). Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans l'article, il s'agit pour l'instant d'une publication académique, sans produit shipped ni pilote annoncé.

RechercheActu
1 source