IA physiquearXiv cs.RO 11 juin 2026

Combler le fossé morphologique : adapter les modèles VLA à la manipulation dextérique par ajustement conditionné par l'intention

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (référence 2506.12109) un travail présentant InDex, un cadre d'adaptation permettant d'appliquer des modèles Vision-Language-Action (VLA) pré-entraînés aux mains dextres multi-doigts à haut degré de liberté (high-DoF), sans recourir à de larges volumes de données de démonstration. Le problème central adressé est le "morphology gap" : les VLA existants comme Pi-0, RT-2 ou OpenVLA sont presque exclusivement entraînés avec des préhenseurs parallèles à faible degré de liberté (1-DoF), alors que les mains dextres industrielles opèrent avec 12 à 24 DoF ou davantage. Adapter directement ces modèles par fine-tuning bout-en-bout sur mains multi-digitales provoque deux problèmes critiques : l'oubli catastrophique du raisonnement spatial acquis lors du pré-entraînement, et un effondrement de l'espace d'action causé par la rareté des données de démonstration. InDex y répond via une architecture découplée en deux étapes : la première aligne efficacement le backbone VLA pour prédire des trajectoires de bras et une intention de préhension scalaire continue ; la seconde fige ce backbone et utilise une tête de débruitage par diffusion, conditionnée sur cette intention, pour décoder les articulations fines des doigts. Tous les résultats présentés sont des benchmarks en simulation sur des tâches multi-étapes à contact riche, où InDex surpasse les baselines monolithiques.

Ce travail identifie une limite structurelle des pipelines VLA que l'industrie commence à percevoir concrètement : passer d'un gripper à pince vers une main dextre n'est pas un simple problème de données supplémentaires, c'est une rupture topologique dans l'espace de contrôle. L'approche par héritage sémantique cross-morphologie réutilise le signal de préhension 1-DoF comme proxy macroscopique d'intention plutôt que de le jeter, ce qui préserve les priors spatiaux acquis. Pour un intégrateur ou un responsable R&D, la promesse est celle d'un fine-tuning efficace en données sur des end-effectors complexes sans repartir de zéro. Une réserve s'impose cependant : l'absence totale de résultats sur hardware réel laisse entière la question du sim-to-real transfer pour des contacts précis au niveau des phalanges, un défi encore non résolu dans le domaine.

Le contexte dans lequel s'inscrit InDex est celui de la montée en puissance des VLA comme couche universelle de planification motrice. Physical Intelligence avec Pi-0 et Pi-0.5, Google DeepMind avec RT-2, et NVIDIA avec GR00T N2 ont chacun démontré des capacités de généralisation remarquables en manipulation générale, mais systématiquement avec des grippers standards. Côté mains dextres, les fabricants Shadow Robot, Inspire Robots ou Schunk disposent d'hardware performant sans politiques visuomotrices généralisables. Des approches concurrentes tentent l'adaptation par apprentissage par renforcement ou par réseaux de diffusion dédiés, mais InDex parie sur la réutilisation maximale des priors VLA existants. La prochaine étape logique serait une validation sur robot réel avec des benchmarks normalisés comme DEXART ou Bi-DexHands ; en l'état, l'article reste une contribution théoriquement solide en simulation, prometteuse mais non encore validée en conditions industrielles.

Dans nos dossiers

NVIDIA GR00T Physical Intelligence — π0 OpenVLA / RT-X Manipulation robotique

À lire aussi

1Pandaily

PHANES AI intègre le toucher aux modèles fondation de robots : TouchWorld, un modèle tactile pour la manipulation dextérique

PHANES AI, start-up fondée par Yang Shuo, professeur à l'Institut de technologie de Harbin (campus de Shenzhen), a publié un nouveau modèle de fondation tactile baptisé TouchWorld, conçu pour la manipulation dextre en robotique. L'objectif est de combler une faille des modèles vision-langage-action (VLA) actuels: ceux-ci peuvent voir qu'un doigt robotique touche un bouton, mais ne peuvent pas savoir s'il a réellement été enfoncé. TouchWorld attribue au toucher un double rôle. En mode prédictif, avant d'exécuter une action, le modèle anticipe non seulement l'image visuelle attendue en fin de sous-tâche, mais aussi une carte tactile précisant quel doigt devrait ressentir une pression, à quel endroit et avec quelle intensité, une référence physique que la vision seule ne peut fournir. En mode réactif, une fois le contact établi, le modèle lit en continu les signaux tactiles et l'état des articulations pour appliquer des micro-corrections de position, de force de préhension et d'angle du poignet, sans nécessiter une replanification par la politique de haut niveau. Sur six tâches réelles (arrosage de plantes, nettoyage de table, insertion de prise, insertion de tasse, récurage de poêle, prise de mouchoir), TouchWorld atteint 65,0% de réussite en conditions normales et 57,2% en présence de perturbations comme le déplacement de la cible ou une interférence de préhension, soit 15,7 et 16,0 points de plus que la meilleure référence testée. Chaque tâche a été entraînée sur 200 trajectoires de téléopération et évaluée sur 100 essais robotiques réels. Cette approche répond à un problème concret pour l'industrie: les modèles VLA actuels échouent souvent en silence lorsqu'un contact physique ne se passe pas comme prévu, un angle mort critique pour des applications comme l'assemblage de précision ou la manipulation d'objets fragiles. En traitant le signal tactile comme un flux séparé plutôt que comme une modalité fondue dans le pipeline visuel, PHANES AI défend l'idée que la densité d'information et la vitesse de traitement du toucher sont trop différentes de celles de la vision pour partager une même architecture sans que le signal tactile ne soit noyé. Si les résultats se confirment à plus grande échelle, ce découplage pourrait devenir un standard pour les robots humanoïdes ou les bras industriels appelés à manipuler des objets déformables ou mal positionnés, un domaine où la démonstration en laboratoire peine souvent à se traduire en fiabilité réelle. Yang Shuo, né en 1998, est déjà professeur titulaire et directeur de thèse à HIT Shenzhen, l'un des plus jeunes professeurs titulaires de Chine. Lauréat de la bourse doctorale Google (un des neuf récipiendaires mondiaux) et finaliste du prix du meilleur article à ICLR, il est rentré en Chine à 26 ans pour fonder PHANES AI, qui réunit désormais une équipe couvrant les données, la modélisation, le contrôle robotique et le matériel. L'entreprise s'inscrit dans une compétition mondiale sur les modèles de fondation pour la manipulation dextre, aux côtés d'acteurs comme les équipes derrière Pi-0 ou GR00T N2, avec pour différenciation affichée le traitement natif du signal tactile plutôt qu'un simple ajout de capteurs.

IA physiqueActu

1 source

2arXiv cs.RO

Event-VLA : fusion d'événements conditionnée par l'action pour un modèle VLA robuste

Des chercheurs ont publié sur arXiv (référence 2606.29384) Event-VLA, un framework combinant des caméras événementielles avec des modèles Vision-Language-Action (VLA) pour rendre la manipulation robotique robuste dans des conditions d'éclairage dégradées. L'approche repose sur l'intégration de flux d'événements, une modalité de capteur neuromorphique qui encode les variations de luminosité pixel par pixel avec une résolution temporelle de l'ordre de la microseconde, contrairement aux caméras RGB classiques qui acquièrent des images complètes à fréquence fixe. L'architecture introduit un mécanisme de routage par requêtes d'action : des requêtes apprenantes extraient la sémantique pertinente à la tâche depuis le raisonnement VLA, puis agrègent sélectivement les tokens événementiels via une cross-attention à portes (gated cross-attention), produisant des représentations d'action sensibles aux conditions lumineuses. Les expériences couvrent des scénarios de simulation et de déploiement réel en faible luminosité, voire en quasi-obscurité. Ce travail s'attaque à une faille structurelle des VLA actuels, Pi-0, OpenVLA, GR00T N2 ou Helix inclus, qui sont entraînés et évalués quasi-exclusivement dans des environnements d'intérieur bien éclairés et stables. Le sim-to-real gap se double ici d'un lighting-to-real gap rarement quantifié dans les benchmarks publiés. Event-VLA démontre qu'on peut greffer une modalité événementielle sans détruire les priors sémantiques RGB-langage préentraînés, ce qui est non trivial : la plupart des fusions multimodales naïves dégradent la performance en conditions normales pour gagner en robustesse marginale. Le fait que le gain soit mesuré sans régression sur éclairage standard constitue le résultat le plus solide à retenir pour les intégrateurs industriels envisageant des déploiements en entrepôt, en extérieur ou en environnement à éclairage variable. Les caméras événementielles (Prophesee, inivation, Sony IMX636) restent onéreuses et peu présentes dans les pipelines robotiques commerciaux, ce qui limite la portée immédiate du framework. Le travail s'inscrit dans un mouvement plus large d'hybridation sensorielle pour les VLA, en parallèle d'approches tactiles (GelSight) ou proprioceptives. Côté concurrent, Boston Dynamics, Figure et Agility travaillent sur la robustesse des politiques en conditions réelles mais publient peu sur la gestion de l'éclairage. Aucun acteur européen n'est mentionné dans ce papier. Les auteurs ne précisent pas de pipeline de déploiement à l'échelle ni de timeline industrielle : il s'agit d'un résultat de recherche, pas d'un produit shipé.

UEProphesee, fabricant français de caméras événementielles, est explicitement cité comme fournisseur matériel clé, ce qui positionne l'écosystème européen du capteur neuromorphique comme brique potentielle des futurs pipelines VLA industriels robustes.

IA physiqueActu

1 source

3arXiv cs.RO

CAC-VLA : un conditionnement d'action contrôlé par le contexte pour les modèles vision-langage-action

Des chercheurs proposent CAC-VLA (Context-Gated Action Conditioning), une nouvelle architecture pour les modèles vision-langage-action (VLA), la famille de systèmes qui pilote de plus en plus de bras et robots humanoïdes generalistes. Le problème identifié: dans les VLA classiques, les représentations visuelles et langagières ne sont pas pensées pour guider directement le contrôle moteur, ce qui laisse à «l'expert action» (le module qui génère la trajectoire) la charge de combler cet écart. Des méthodes récentes tentent de corriger cela avec des modules de raisonnement d'action séparés, mais elles nécessitent des architectures dédiées supplémentaires. CAC-VLA prend une autre voie: il entraîne le modèle vision-langage lui-même à prédire des actions latentes, des représentations compactes encodées à partir de segments d'action futurs, du grossier au fin, puis utilise une «porte de contexte» pour doser en temps réel l'influence de ce signal sur l'expert d'action. Sur les bancs d'essai LIBERO et LIBERO-Plus, la méthode atteint respectivement 98,3% et 89,5% de taux de réussite moyen. Pour l'industrie robotique, l'enjeu dépasse le simple gain de quelques points de benchmark. Le goulot d'étranglement entre compréhension multimodale et motricité précise est l'un des obstacles centraux à la généralisation des VLA au-delà de tâches scriptées, un sujet suivi de près par les équipes qui travaillent sur des systèmes comme π0, GR00T N2 ou Helix. Une interface qui intègre le raisonnement d'action directement dans le VLM, sans framework de génération séparé, simplifierait l'entraînement et le déploiement de ces piles logicielles chez les intégrateurs, réduisant la complexité d'ingénierie souvent invoquée comme frein à la mise en production. Ces résultats restent toutefois obtenus en simulation, sur des suites de tâches standardisées et non sur du matériel réel en usine ou en entrepôt, une nuance importante alors que le secteur multiplie les annonces de percées en manipulation générale. LIBERO et sa variante LIBERO-Plus servent de référence commune pour comparer les approches d'action-conditioning, et la prochaine étape logique pour valider l'intérêt de CAC-VLA sera sa transposition sur des robots physiques et des tâches de manipulation en conditions réelles.

IA physiqueActu

1 source

4arXiv cs.RO

LaST-R1 : renforcement de l'action par raisonnement latent physique adaptatif pour les modèles VLA

Des chercheurs ont publié le 29 avril 2026 sur arXiv (2604.28192) un nouveau cadre pour les modèles Vision-Langage-Action (VLA) baptisé LaST-R1, accompagné d'un algorithme d'apprentissage par renforcement inédit appelé LAPO (Latent-to-Action Policy Optimization). Le système atteint un taux de succès moyen de 99,8 % sur le benchmark de manipulation robotique LIBERO, après un unique épisode d'imitation supervisée en guise d'amorçage. En déploiement réel sur quatre tâches complexes, dont des configurations monobranche et bras-double, LAPO améliore les performances de 44 % par rapport à la politique issue de cet amorçage initial. L'apport central de LaST-R1 est de relier explicitement le raisonnement sur la physique à la génération d'actions, là où les approches existantes traitaient ces deux étapes séparément. Les VLA actuels raisonnent soit en langage naturel (coûteux en latence et discret), soit dans un espace latent continu, mais dans les deux cas par imitation statique, sans capacité d'adaptation par essais-erreurs. LAPO co-optimise simultanément le processus de raisonnement latent et la production d'actions via du renforcement en ligne, ce qui améliore la modélisation du monde physique et la robustesse en environnement interactif. Un mécanisme de "latent Chain-of-Thought adaptatif" permet en outre au modèle d'ajuster dynamiquement son horizon de raisonnement selon la complexité de la situation, sans coût fixe à chaque pas. Il s'agit d'une annonce académique sous forme de preprint, pas encore d'un produit embarqué sur robot commercial. Ce travail s'inscrit dans la course à la généralisation des VLA, portée ces derniers mois par des modèles comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA. L'un des verrous récurrents du secteur est l'écart simulation-réalité (sim-to-real gap) et la difficulté à faire converger rapidement un modèle en conditions réelles sans millions d'épisodes supervisés. LaST-R1 revendique une convergence significativement accélérée grâce à l'optimisation jointe du raisonnement latent, une piste que suivent aussi des équipes européennes travaillant sur l'apprentissage par renforcement pour la manipulation, notamment dans l'orbite des laboratoires universitaires français. Les prochaines étapes naturelles seront la validation sur des benchmarks plus diversifiés (AgiBot World, RLBench) et l'intégration dans des plateformes matérielles commerciales.

UELes laboratoires français et européens travaillant sur la manipulation robotique par apprentissage par renforcement peuvent s'appuyer sur l'approche LAPO pour réduire leur dépendance aux grandes quantités de données supervisées, accélérant potentiellement leurs cycles de recherche.

IA physiqueOpinion

1 source