Agir sur ce que l'on voit : vers une navigation…

L'affinage des modèles vision-langage-action (VLA) nécessite moins de couches qu'on ne le pense

47

1arXiv cs.RO

L'affinage des modèles vision-langage-action (VLA) nécessite moins de couches qu'on ne le pense

Des chercheurs ont publié le 19 juin 2026 (arXiv:2606.20246) une méthode de compression structurelle pour les modèles VLA (Vision-Language-Action) tels que pi-0 (Physical Intelligence) et GR00T N1.5 (NVIDIA). Le constat de départ : ces architectures de plusieurs milliards de paramètres, pré-entraînées sur de vastes corpus vidéo-robot, imposent des coûts de calcul prohibitifs lors du fine-tuning et de l'inférence temps-réel. La méthode proposée est entièrement sans entraînement (training-free) : un unique passage forward via la Centered Kernel Alignment (CKA) suffit à identifier les couches redondantes du backbone VLM et de la tête de contrôle continu. En supprimant ces "couches jumelles", le pipeline compresse la profondeur du modèle jusqu'à 50 %. Les gains mesurés sont de 40 à 50 % sur le temps de fine-tuning et jusqu'à 30 % sur la vitesse d'inférence, tout en conservant des performances équivalentes ou supérieures au modèle complet. Les validations couvrent trois benchmarks de simulation (LIBERO, RoboCasa, SimplerEnv) et dix tâches de manipulation réelle sur quatre embodiments robotiques distincts. Ce résultat remet en question un présupposé structurant du domaine : la profondeur des VLA serait proportionnelle à leurs capacités. Démontrer qu'une redondance massive existe dans ces architectures malgré un entraînement sur des trajectoires physiques diversifiées est non trivial. Pour les intégrateurs et les équipes MLOps industrielles, l'impact pratique est direct : des cycles de fine-tuning deux fois plus courts réduisent le coût d'adaptation à de nouveaux environnements, nouveaux grippers ou nouvelles tâches, sans matériel supplémentaire. L'absence d'entraînement dans la phase de compression est particulièrement critique : les méthodes concurrentes (distillation, token pruning dynamique) exigent de charger le modèle complet, ce qui reste un goulot d'étranglement sur GPU A100/H100. Les VLA comme pi-0 (Physical Intelligence, fondée en 2023 par d'anciens de Google, DeepMind et Stanford) et GR00T N1.5 (NVIDIA, annoncé en mars 2025) représentent actuellement la frontière technique des politiques de manipulation généraliste. La compression de modèles pour robots est un axe de recherche actif : des travaux récents explorent la distillation (OpenVLA-OFT), la quantification et le pruning à la volée. Cette approche se distingue par sa simplicité opérationnelle : aucun dataset de calibration étendu, aucune phase d'optimisation. Les auteurs ne mentionnent pas de partenaire industriel ni de pipeline de déploiement à l'échelle, ce qui en fait pour l'instant une contribution de recherche prometteuse plutôt qu'un produit prêt à l'intégration.

💬 La moitié des couches de pi-0 ou GR00T seraient redondantes, et une seule passe forward suffit à les identifier : c'est le genre de résultat qui va faire mal aux équipes qui ont commandé des clusters H100 pour du fine-tuning robotique. Sans phase d'entraînement, sans dataset de calibration, juste une analyse de similarité entre couches (la CKA, si tu veux creuser). Reste à voir si ça tient hors benchmarks de simulation, mais l'idée que la profondeur des VLA soit largement du gras plutôt que du muscle, c'est une vraie remise en question du consensus actuel.

IA physiqueActu

1 source

Vers un raisonnement par trace spatiale dans les modèles vision-langage pour la robotique

45

2arXiv cs.RO

Vers un raisonnement par trace spatiale dans les modèles vision-langage pour la robotique

Une équipe de chercheurs présente RoboTracer, un modèle de vision-langage (VLM) 3D permettant aux robots de tracer des trajectoires dans l'espace physique en raisonnant sur des mesures métriques concrètes. Publié en version 3 sur arXiv (2512.13660, décembre 2025), le système combine référencement spatial 3D et mesure de distance via un encodeur universel et un décodeur à supervision par régression, affiné d'abord en apprentissage supervisé (SFT) puis par renforcement (RFT) avec des récompenses intermédiaires sensibles aux métriques. Le dataset d'entraînement TraceSpatial regroupe 30 millions de paires question-réponse sur scènes intérieures, extérieures et de manipulation, avec des chaînes de raisonnement atteignant 9 étapes. Sur le benchmark TraceSpatial-Bench introduit par les auteurs, RoboTracer atteint 79,1 % de taux de succès moyen et dépasse Gemini-2.5-Pro de 36 points de précision. Le système a été validé sur bras UR5 (Universal Robots) et humanoïde G1 (Unitree) dans des scènes réelles encombrées. La contribution principale tient dans le raisonnement métrique, une capacité absente des VLM classiques : décrire une scène en langage naturel ne suffit pas pour estimer qu'un obstacle se trouve à 0,47 m à gauche, information nécessaire à toute trajectoire exécutable. L'approche RFT avec récompenses de processus supervise les étapes perceptuelles intermédiaires et non uniquement le résultat final, ce qui réduit concrètement l'écart entre compréhension sémantique et exécution physique (le demo-to-reality gap). Pour un intégrateur ou un COO industriel, cela signifie un robot capable d'opérer dans des espaces non cartographiés à l'avance. L'avance de 36 % sur Gemini-2.5-Pro est notable, même si ce modèle n'est pas conçu pour la robotique embarquée. RoboTracer s'inscrit dans la compétition autour des modèles VLA (Vision-Language-Action), aux côtés de Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et OpenVLA, qui cherchent tous à unifier perception, raisonnement et action dans un modèle unique. Sa spécificité est l'accent sur la conscience métrique plutôt que sur le contrôle moteur fin, niche où Pi-0 reste dominant. Le choix des plateformes UR5 (bras industriel 6 axes, référence en intégration industrielle) et G1 (humanoïde Unitree, 43 degrés de liberté, environ 35 000 $) renforce la crédibilité de la généralisation multi-robots. À ce stade, il s'agit d'un résultat de recherche sans déploiement commercial annoncé ; la publication du dataset TraceSpatial et du benchmark ouvert constitue en revanche une infrastructure réutilisable directement par la communauté robotique.

UELe dataset TraceSpatial et le benchmark ouvert sont librement accessibles aux laboratoires européens de robotique, mais aucun acteur ou déploiement européen n'est impliqué dans cette contribution.

IA physiqueOpinion

1 source

VeriSpace : une méthode de vérification spatiale des actions pour les modèles vision-langage-action

42

3arXiv cs.RO

VeriSpace : une méthode de vérification spatiale des actions pour les modèles vision-langage-action

Un préprint déposé sur arXiv le 10 juin 2026 (identifiant 2606.10568) présente VeriSpace, un vérificateur d'actions tridimensionnel conçu pour renforcer la fiabilité des modèles VLA (Vision-Language-Action) en robotique de manipulation. Ces modèles interprètent une scène visuelle et un objectif en langage naturel pour générer des commandes motrices, mais souffrent d'une limite structurelle : la prédiction se fait en un seul coup, sans réévaluation avant exécution. La moindre imprécision sur la position de préhension peut provoquer un échec de saisie, une collision ou une progression erronée dans la tâche. VeriSpace propose une vérification au moment du test (test-time verification) : le système génère plusieurs actions candidates que le vérificateur évalue avant d'en sélectionner une pour exécution. Il s'appuie sur deux composants : un encodage de scène à double chemin intégrant la géométrie 3D explicite (Dual-Path 3D-Injected Scene Encoding), et un raisonnement spatial sur les relations géométriques, la validité de chaque action et sa progression attendue vers l'objectif. Les expériences couvrent des benchmarks publics et des tâches de manipulation réelles, avec des gains rapportés en distribution et hors distribution, bien que les valeurs précises ne figurent pas dans le résumé du preprint. Cette approche répond à une fragilité bien documentée : les VLA, malgré les progrès de modèles comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA), restent vulnérables dès que la scène présente une ambiguïté géométrique subtile. La vérification au test-time n'est pas une idée nouvelle, mais VeriSpace la rend opérationnelle sur des scènes 3D réelles, là où les approches précédentes peinent à distinguer des actions candidates géométriquement proches aux conséquences pourtant très différentes. Son mode d'intégration plug-in, compatible avec les politiques VLA existantes sans modification, facilite l'adoption dans des pipelines déjà déployés. Pour les équipes robotique industrielle, c'est un mécanisme potentiellement utile pour réduire les taux d'échec sans requalifier les modèles sous-jacents. Le contexte est celui d'une compétition intense autour de la robustesse des VLA. Physical Intelligence, Google DeepMind (RT-2), NVIDIA et plusieurs équipes académiques de Berkeley, Stanford et CMU investissent massivement dans la généralisation et la réduction du sim-to-real gap. La vérification d'actions au test-time est une direction en émergence, distincte du fine-tuning continu ou de l'augmentation de données d'entraînement. VeriSpace reste pour l'instant au stade de préprint académique, sans annonce de déploiement industriel ni partenariat commercial associé. Les prochaines étapes naturelles seraient une évaluation chiffrée sur des benchmarks standardisés comme RoboSuite ou Open X-Embodiment, et une intégration dans des pipelines open-source pour validation par la communauté.

IA physiqueOpinion

1 source

AT-VLA : injection tactile adaptative pour une meilleure réactivité dans les modèles vision-langage-action

41

4arXiv cs.RO

AT-VLA : injection tactile adaptative pour une meilleure réactivité dans les modèles vision-langage-action

Une équipe de chercheurs a publié en mai 2026 sur arXiv (référence 2605.07308) une architecture baptisée AT-VLA, pour Adaptive Tactile Vision-Language-Action. L'objectif est d'intégrer le retour tactile dans les modèles VLA préentraînés sans dégrader leurs capacités existantes, tout en atteignant une latence de réponse en boucle fermée de 0,04 seconde. Le système repose sur deux mécanismes distincts : un module d'injection tactile adaptative, qui détermine dynamiquement à quel moment et à quels endroits du réseau injecter les signaux tactiles, et un double flux de traitement qui sépare la perception visuelle-langagière basse fréquence du contrôle tactile haute fréquence. L'enjeu est significatif pour les intégrateurs et les équipes de recherche en manipulation robotique. Les modèles VLA actuels, comme Pi-0 de Physical Intelligence ou OpenVLA, excellent dans les tâches générales mais peinent dès que la manipulation implique des contacts précis : insertion de connecteurs, assemblage de pièces, manipulation d'objets fragiles. Le problème n'est pas seulement l'absence de capteurs tactiles, mais l'incompatibilité structurelle entre la lenteur d'inférence des VLA et le besoin de réactivité en temps réel que requiert le retour haptique. AT-VLA propose une réponse architecturale à ce goulot d'étranglement, en découplant explicitement les deux temporalités de traitement. Les expériences en conditions réelles rapportées dans l'article valident l'approche sur des tâches de manipulation à contact riche, bien que le périmètre exact des benchmarks ne soit pas détaillé dans l'abstract. Les VLA représentent depuis 2023 le paradigme dominant en robotique de manipulation polyvalente, portés par des travaux comme RT-2 de Google DeepMind, puis Pi-0, Octo, et plus récemment GR00T N2 de NVIDIA pour les humanoïdes. L'intégration du toucher dans ces architectures est un problème ouvert reconnu : la modalité tactile est quasi absente des datasets de préentraînement massifs, ce qui rend le finetuning délicat. Plusieurs groupes travaillent sur ce sujet en parallèle, notamment autour des capteurs GelSight et des gants haptiques. AT-VLA est pour l'instant un preprint non évalué par les pairs, sans déploiement industriel annoncé; la prochaine étape probable est une soumission en conférence (CoRL, ICRA ou RSS) accompagnée de la mise à disposition du code via la page projet.

IA physiqueOpinion

1 source

Agir sur ce que l'on voit : vers une navigation sociale sûre dans les modèles vision-langage-action (VLA)

À lire aussi

L'affinage des modèles vision-langage-action (VLA) nécessite moins de couches qu'on ne le pense

Vers un raisonnement par trace spatiale dans les modèles vision-langage pour la robotique

VeriSpace : une méthode de vérification spatiale des actions pour les modèles vision-langage-action

AT-VLA : injection tactile adaptative pour une meilleure réactivité dans les modèles vision-langage-action