Aller au contenu principal
GeneralVLA-2 : reconstruction géométrique et mémoire structurée pour la planification robotique
RecherchearXiv cs.RO3h

GeneralVLA-2 : reconstruction géométrique et mémoire structurée pour la planification robotique

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de recherche affiliée au groupe AIGeeks a publié le 17 juin 2026 sur arXiv (2506.17480) GeneralVLA-2, une version améliorée de son système généraliste vision-langage-action (VLA) pour la planification de trajectoires robotiques. L'architecture de base, GeneralVLA, convertit des instructions en langage naturel et des observations RGB-D en chemins 3D pour l'effecteur terminal d'un robot. GeneralVLA-2 apporte deux contributions distinctes: GeoFuse-MV3D, une branche de reconstruction 3D multi-vues guidée par des a priori géométriques, qui remplace la reconstruction monoculaire SAM3D sujette aux hallucinations de pose; et une refonte du KnowledgeBank en système de mémoire à long terme avec métadonnées explicites de qualité, confiance, cycle de vie et détection de conflits. Sur le benchmark GSO-30, GeoFuse-MV3D réduit la Chamfer Distance de 2,20 % et le LPIPS de 2,02 % par rapport à la baseline MV-SAM3D, tout en améliorant PSNR et SSIM de respectivement 2,36 % et 1,03 %. Le KnowledgeBank gouverné gagne 4,53 points sur Terminal-Bench SR et 3,73 points sur SWE-Bench Verified par rapport à ReasoningBank, tout en réduisant les erreurs d'assertion (AS) de 4,95 % et 5,65 %.

Ces améliorations s'attaquent à deux verrous concrets du pipeline VLA industriel: la qualité des représentations 3D d'objets en manipulation, et la fiabilité de la mémoire épisodique pour la réutilisation d'expériences. La reconstruction 3D monoculaire reste un point de défaillance majeur dans les déploiements réels, car une pose hallucinée en amont se propage directement en erreur de préhension. L'approche multi-vues avec fusion géométrique ciblée (visual-hull, raffinement axial, préservation de l'apparence) adresse ce problème de façon plus contrôlée. Les gains restent cependant modestes sur les métriques reportées, et il convient de noter qu'il s'agit d'un preprint sans peer review, avec des évaluations sur benchmarks laboratoire sans validation sur robot physique dans des conditions industrielles.

GeneralVLA-1 avait posé l'interface hiérarchique langage-to-trajectory comme abstraction centrale pour les systèmes généralistes; cette version 2 consolide les fondations plutôt que d'étendre le périmètre. Dans l'espace VLA, les travaux concurrents incluent Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA), et OpenVLA (Berkeley), qui ciblent eux aussi le sim-to-real et la généralisation multi-tâche. La publication du code sur GitHub suggère une démarche de recherche ouverte, sans annonce de déploiement industriel ni partenariat opérationnel associé. Les prochaines étapes naturelles seraient une validation sur robot réel et des benchmarks de manipulation comparables à ceux de RoboMimic ou LIBERO.

À lire aussi

Représentations sémantiques et géométriques des tâches pour la manipulation bimanuelles : des démonstrations humaines à la planification robotique
1arXiv cs.RO 

Représentations sémantiques et géométriques des tâches pour la manipulation bimanuelles : des démonstrations humaines à la planification robotique

Des chercheurs ont publié une approche pour apprendre des représentations structurées de tâches bimanuelles directement à partir de démonstrations humaines, sans annotation manuelle des actions. Le système, baptisé représentation sémantique-géométrique par graphe, combine un encodeur de type Message Passing Neural Network (MPNN) avec un décodeur Transformer. L'encodeur opère sur un graphe de scène temporel : il capture les identités des objets, leurs relations sémantiques mutuelles et l'historique de leurs mouvements. Le décodeur, conditionné par le contexte d'action, prédit l'action suivante, les objets impliqués et leurs trajectoires. L'ensemble a été évalué sur onze tâches bimanuelles issues de deux jeux de données distincts, et déployé avec succès sur deux tâches réelles en boucle fermée, via un planificateur couplant les prédictions à des Probabilistic Movement Primitives (ProDMP). L'apport principal réside dans le découplage entre encodeur et décodeur : l'encodeur produit des représentations dites agnostiques à la tâche, réutilisables sur différents robots via un simple fine-tuning du décodeur sur un petit dataset robot. En pratique, cela réduit significativement le coût de ré-entraînement lors d'un changement de plateforme ou d'effecteur. Les résultats montrent que le bénéfice des représentations sémantiques-géométriques sur les modèles séquentiels plus simples s'accentue avec la variabilité des tâches : plus l'ordre des actions et les objets impliqués varient d'une exécution à l'autre, plus l'avantage est marqué. Le système surpasse des baselines incluant un Transformer pur, un décodeur seul, et des modèles vision-langage fine-tunés (VLM), ce qui est notable même si les benchmarks utilisés restent internes aux auteurs et non standardisés dans la communauté. Ce travail s'inscrit dans un effort plus large visant à combler le fossé entre manipulation bimanuelle en laboratoire et déploiement industriel, là où la reproductibilité d'exécutions variables reste un verrou. Il fait écho à des approches concurrentes comme les Vision-Language-Action models (VLA) de Google DeepMind ou les travaux sur les graphes de tâches de l'ETH Zurich, mais se distingue par son orientation vers le transfert inter-robots à faible coût de données. Les auteurs n'annoncent pas de partenaire industriel ni de timeline de déploiement commercial ; il s'agit d'un résultat académique, présenté en version révisée sur arXiv (v2, janvier 2026), dont les suites probables incluent une extension à des scènes plus encombrées et à des horizons de planification plus longs.

RecherchePaper
1 source
RoboEval : un cadre structuré et extensible pour évaluer la manipulation robotique
2arXiv cs.RO 

RoboEval : un cadre structuré et extensible pour évaluer la manipulation robotique

Une équipe de chercheurs a publié RoboEval (arXiv:2507.00435), un cadre d'évaluation structuré et un benchmark dédié à la manipulation robotique. L'outil propose huit tâches bimanuelles assorties de variantes systématiquement contrôlées, plus de trois mille démonstrations expertes, et une plateforme de simulation modulaire conçue pour garantir la reproductibilité des expériences. Chaque tâche est instrumentée avec des métriques standardisées couvrant l'efficacité d'exécution, la coordination entre les deux bras, et la stabilité ou sécurité du mouvement. Le cadre inclut également des mesures de progression par étapes qui permettent de localiser précisément où et pourquoi une politique échoue, plutôt que de simplement enregistrer un échec global. Les expériences ont été conduites sur des politiques visuomotrices de l'état de l'art, en évaluant la stabilité des métriques face aux variations de conditions et leur pouvoir discriminant entre politiques affichant des taux de succès similaires. L'enjeu est méthodologique autant qu'industriel. Aujourd'hui, la majorité des benchmarks de manipulation robotique réduisent la performance à un comptage binaire succès/échec, ce qui efface les différences réelles de qualité d'exécution. Deux politiques peuvent afficher le même taux de réussite tout en présentant des comportements radicalement différents en termes de fluidité, de robustesse aux perturbations, ou de coordination interdigitale. Pour un intégrateur ou un décideur industriel qui doit choisir entre plusieurs VLA (Vision-Language-Action policies) pour déployer un robot en production, cette granularité est critique. RoboEval tente de combler ce fossé en fournissant des métriques intermédiaires qui corrèlent avec le succès final mais révèlent aussi la structure des défaillances, un prérequis pour itérer efficacement sur l'entraînement. Ce travail s'inscrit dans une dynamique plus large de maturation de l'évaluation en robotique apprenable, un domaine qui souffre depuis des années d'une fragmentation des protocoles. Des initiatives comparables comme LIBERO ou RoboVerse ont tenté de standardiser les conditions expérimentales, mais restaient souvent limitées aux tâches unimanuelles ou aux métriques de haut niveau. RoboEval se distingue par son focus bimanuel, directement pertinent pour les applications industrielles d'assemblage ou de logistique, et par la richesse de ses métriques comportementales. La page projet est accessible sur robo-eval.github.io. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné : il s'agit pour l'instant d'une contribution académique, sans validation en environnement réel annoncée.

UEContribution académique ouverte utilisable par tout labo ou intégrateur européen souhaitant évaluer et comparer des politiques VLA bimanuelles sans dépendre de benchmarks propriétaires.

RecherchePaper
1 source
Des politiques de mouvement géométrique sûres et pilotables pour la manipulation dextérique robotique
3arXiv cs.RO 

Des politiques de mouvement géométrique sûres et pilotables pour la manipulation dextérique robotique

Des chercheurs de Stanford (TML, Tamara Manipulation Lab) ont publié sur arXiv (arXiv:2605.21811) un cadre mathématique baptisé SafePBDS (Safe Pullback Bundle Dynamical Systems) destiné à la manipulation dextre robotique. Le système opère sur des espaces géométriques hétérogènes simultanément : une configuration en R^7 pour le bras, des poses d'effecteur en SE(3), et des marges d'évitement d'obstacles en R. Validé sur une plateforme Franka Panda avec main Allegro à 23 degrés de liberté, SafePBDS atteint 92,5 % de succès sur 120 essais de saisie couvrant 20 objets du quotidien. Une interface d'action permet en outre d'exclure n'importe quel doigt de la préhension via une action unidimensionnelle, avec 94,4 % de succès en saisie à trois doigts sur 36 essais. Plus significatif encore : les auteurs revendiquent la première réorientation in-hand palm-down entièrement actionnée et basée sur un modèle, atteignant plus de 360° de rotation en lacet dans les deux sens, sous différents poids d'objet et mouvements de poignet. La contribution centrale de SafePBDS est double. D'abord, une construction de "pullback control barrier function" qui convertit les conditions de sécurité définies sur n'importe quelle variété tâche en contraintes linéaires sur les accélérations en espace de configuration, ce qui permet des garanties de sécurité certifiables, pas seulement empiriques. Ensuite, une interface d'action qui laisse une politique de haut niveau (un VLA, un planificateur, un opérateur humain) injecter des résidus de mouvement de faible dimension, sans jamais violer les contraintes de sécurité. Entrée nulle = comportement autonome préservé. Ce découplage entre planification stratégique et contrôle précis répond à un problème récurrent des architectures VLA : la difficulté à garantir formellement la sécurité physique lors de la phase d'exploration en monde réel. Le travail s'inscrit dans une tradition de dynamical systems pour la manipulation, prolongeant des approches comme les DS-based motion policies de l'EPFL et les travaux de Riemannian motion policies (RMP). Les concurrents directs incluent les méthodes d'apprentissage par imitation avec contraintes CBF (type Berkeley Humanoid, Physical Intelligence pi0) et les architectures modèle-libre qui sacrifient les garanties formelles à la généralisation. SafePBDS reste pour l'instant un résultat de laboratoire sur preprint non relu par les pairs, validé en simulation et sur banc de test mono-robot. Les prochaines étapes annoncées pointent vers l'intégration avec des politiques d'apprentissage de haut niveau et la généralisation à d'autres morphologies de mains.

RecherchePaper
1 source
Planification robotique et gestion de situations par perception active
4arXiv cs.RO 

Planification robotique et gestion de situations par perception active

Des chercheurs présentent dans un preprint arXiv (réf. 2604.26988, mai 2026) un cadre logiciel baptisé VAP-TAMP, pour Vision-language model-based Active Perception for Task And Motion Planning, conçu pour doter les robots d'une capacité de détection et de gestion des situations imprévues en cours d'exécution de tâches. Le système cible des perturbations concrètes : une porte coincée, un objet tombé au sol, une modification de l'environnement due à une activité humaine. VAP-TAMP exploite une base de connaissances sur les actions du robot pour formuler dynamiquement des requêtes vers des modèles vision-langage (VLA/VLM), sélectionner activement des points de vue pertinents, puis évaluer la situation. En parallèle, il construit et interroge des graphes de scène pour assurer la planification intégrée des tâches et des mouvements. Le framework a été évalué sur des tâches de service en simulation et sur une plateforme réelle de manipulation mobile. L'enjeu est structurant pour toute démarche d'autonomie longue durée en robotique de service ou industrielle. L'un des verrous majeurs identifiés par les intégrateurs et les équipes R&D n'est pas la planification initiale, les planificateurs TAMP existants s'en sortent bien, mais la résilience à l'exécution : un robot qui échoue silencieusement ou se bloque face à un impondérable n'est pas déployable en production. VAP-TAMP propose une réponse architecturale à ce point de friction en couplant perception active (choix du meilleur angle de vue pour comprendre la situation) et raisonnement symbolique via graphes de scène, deux approches généralement traitées séparément. Si les résultats se confirment sur des scénarios plus variés, cela allège significativement la charge d'ingénierie pour les équipes qui construisent des pipelines de manipulation autonome. Le travail s'inscrit dans une dynamique de recherche intense autour de l'intégration VLM-TAMP, un champ qui a explosé depuis 2023 avec les travaux de Google DeepMind sur SayCan, de Physical Intelligence (Pi-0) et des équipes de Carnegie Mellon sur la planification par LLM. VAP-TAMP se positionne sur le maillon "récupération d'erreur" plutôt que sur la génération de plan initiale, ce qui le différencie d'approches comme Code-as-Policies ou Inner Monologue. Le preprint ne mentionne pas de partenariat industriel ni de calendrier de transfert technologique : il s'agit à ce stade d'une contribution académique, sans déploiement annoncé. Les prochaines étapes naturelles seraient une validation sur un spectre plus large de perturbations et une comparaison quantitative avec des baselines de récupération existantes.

RecherchePaper
1 source