Aller au contenu principal
RecherchearXiv cs.RO4h

CLAW : un cadre vision-langage-action (VLA) pour la préhension robotique adaptée au poids

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE
CLAW : un cadre vision-langage-action (VLA) pour la préhension robotique adaptée au poids
▶ Voir sur YouTube

Des chercheurs ont publié sur arXiv (arXiv:2509.14143) un framework baptisé CLAW (CLIP-Language-Action for Weight), conçu pour permettre à un robot de saisir des objets en respectant des seuils de poids définis en langage naturel. L'architecture repose sur deux composants distincts : un modèle CLIP affiné qui joue le rôle de générateur de directives symboliques en lisant en continu l'affichage numérique d'une balance, et le modèle VLA π₀ (Pi-zéro), une politique à base de flux développée par Physical Intelligence, qui intègre ces directives avec des observations caméras multi-vues pour produire des commandes motrices continues. Le système a été validé sur trois configurations expérimentales couvrant la saisie d'objets uniques et des tâches mixtes nécessitant une manipulation bi-bras. Dans toutes les conditions, CLAW surpasse à la fois π₀ brut et π₀ affiné sans le module de surveillance, sans que les auteurs ne précisent les marges de performance ni les volumes de données d'entraînement utilisés.

L'enjeu central que CLAW cherche à résoudre est une limitation structurelle des VLA actuels : entraînés de façon bout-en-bout, ces modèles peinent à respecter des contraintes numériques précises comme "arrête-toi quand le poids dépasse 500 grammes", car leur mapping observation-action est implicitement façonné par les données d'entraînement et ne dispose d'aucun mécanisme explicite de surveillance de conditions. En découplant l'évaluation de condition (symbolique, légère) de la génération d'action (continue, haute fréquence), CLAW ouvre une voie pour intégrer une logique de contrôle de procédé dans des pipelines VLA, ce qui est directement pertinent pour des applications industrielles comme le tri pondéral, le conditionnement, ou l'assemblage qualifié par masse. C'est une réponse concrète au "demo-to-reality gap" : les vidéos de démos de manipulation VLA sont souvent réalisées dans des conditions contrôlées sans contraintes mesurables ; CLAW introduit un critère d'arrêt objectif et vérifiable.

π₀ est le modèle phare de Physical Intelligence (Pi), startup fondée en 2023 par Sergey Levine et d'anciens chercheurs de Google Brain et DeepMind, qui a levé 400 millions de dollars en 2024. Le choix de π₀ comme base n'est pas anodin : c'est l'un des rares modèles VLA publiquement documentés capables de manipulation dextre généraliste. CLAW s'inscrit dans une tendance plus large de travaux qui cherchent à hybrider des couches symboliques légères avec des politiques neuronales denses, à l'image des travaux de Physical Intelligence sur le grounding multi-modal ou des approches modulaires comme OpenVLA. Aucun déploiement industriel n'est annoncé ; le travail reste au stade de la preuve de concept académique avec des setups de laboratoire, et une vidéo de démonstration est disponible sur YouTube. Les prochaines étapes naturelles seraient une évaluation sur des capteurs variés (au-delà de la balance numérique) et une généralisation à d'autres contraintes métriques comme la force ou la température.

À lire aussi

Modèles vision-langage-action (VLA) conditionnés par l'état de santé pour un contrôle robotique sensible aux pannes
1arXiv cs.RO 

Modèles vision-langage-action (VLA) conditionnés par l'état de santé pour un contrôle robotique sensible aux pannes

Une équipe de recherche publie sur arXiv (référence 2605.16056) un modèle VLA (Vision-Language-Action) capable d'adapter son comportement à la dégradation physique d'un robot, une problématique distincte des pannes de tâches habituellement ciblées par la littérature. L'approche repose sur l'injection d'un module "Health Projector" dans l'architecture VLA-Adapter : le modèle reçoit en entrée un vecteur de santé encodant l'amplitude articulaire et le couple disponible pour chaque joint. Entraîné sur 128 épisodes téléopérés collectés dans l'environnement de simulation LIBERO (benchmark Libero-Spatial), il parvient à compléter des tâches de manipulation spatiale avec des configurations de joints dégradés où le modèle de référence VLA-Adapter Libero-Spatial-Pro échoue systématiquement. Le code et le jeu de données seront prochainement disponibles sur GitHub (h-arslan/health-aware-vla). L'intérêt industriel est réel : dans les déploiements terrain, les robots accumulent des dégradations mécaniques progressives (usure articulaire, perte de couple, grippage de préhenseur) sans nécessairement déclencher d'alarme critique. Un contrôleur aveugle à cet état physique maintient ses consignes nominales et accumule les erreurs ; un modèle conditionné à la santé peut recalculer ses trajectoires à la volée. La modification proposée est présentée comme légère, ce qui suggère une intégration possible dans des pipelines VLA existants sans refonte complète. Cependant, les résultats restent limités à la simulation LIBERO avec 128 épisodes seulement, un jeu de données particulièrement restreint, et aucune validation sur robot physique n'est présentée, laissant le gap sim-to-real entièrement ouvert. Ce travail s'inscrit dans l'expansion rapide des VLA depuis 2023, portée par des modèles comme pi0 (Physical Intelligence), OpenVLA ou la famille RoboVLMs. VLA-Adapter, utilisé comme base ici, est une variante qui réduit les coûts de fine-tuning en gelant le backbone visio-langagier pour n'entraîner qu'un adaptateur léger. La résilience robotique est jusqu'ici majoritairement traitée côté contrôle bas niveau (détection de fautes, compensation par redondance articulaire) plutôt qu'au niveau de la politique visuo-langagière, ce qui rend l'angle de cette recherche original. Aucun acteur européen n'est impliqué dans cette publication. La prochaine étape logique serait une validation sur hardware réel avec des dégradations induites mécaniquement et un dataset substantiellement élargi pour crédibiliser le passage à l'échelle.

RechercheOpinion
1 source
PAPO-VLA : une optimisation de politique adaptée à la planification pour les modèles vision-langage-action
2arXiv cs.RO 

PAPO-VLA : une optimisation de politique adaptée à la planification pour les modèles vision-langage-action

Des chercheurs ont publié en mai 2026 sur arXiv (2605.19580) PAPO-VLA, une méthode d'optimisation pour les modèles Vision-Language-Action (VLA) appliqués à la manipulation robotique guidée par le langage naturel. L'observation centrale est qu'une politique VLA opère en boucle fermée : chaque action modifie l'état de la scène et conditionne toutes les décisions suivantes, ce qui rend une erreur de planification particulièrement coûteuse. Les auteurs distinguent donc deux rôles dans une politique VLA : le planificateur, qui prend des décisions orientées tâche susceptibles de rediriger l'exécution, et l'exécuteur, qui les traduit en actions continues denses. PAPO-VLA identifie les "actions de planification" en croisant variation d'action et issue de trajectoire, estime leur importance causale via deux critères formels (suffisance et nécessité causales), puis intègre ces poids dans l'estimation d'avantage du GRPO (Group Relative Policy Optimization), de sorte que les moments critiques reçoivent une emphase d'optimisation plus forte sans abandonner le signal de trajectoire globale. Des améliorations sont rapportées sur plusieurs benchmarks de manipulation robotique, sans chiffres précis disponibles dans le résumé public. L'apport clé est de combler un angle mort des approches existantes : l'imitation de trajectoires et l'optimisation par retour de trajectoire entière traitent toutes les actions avec la même importance, alors que certains instants de décision ont un impact causal disproportionné sur le succès de la tâche. Quantifier cet impact via des métriques causales formelles plutôt qu'heuristiques est une avancée méthodologique notable. Pour les équipes déployant des VLA en environnement réel, sur des plateformes comme pi-0 (Physical Intelligence), OpenVLA (Berkeley) ou GR00T N2 (NVIDIA), la méthode promet d'améliorer la fiabilité sans données de démonstration supplémentaires. Depuis RT-2 (Google DeepMind, 2023), le secteur des VLA cherche à combler l'écart entre performance en démonstration contrôlée et robustesse en déploiement réel. Le GRPO, popularisé par DeepSeek-R1 pour le raisonnement en LLM, est ici adapté à la robotique via une pondération causale des actions, dans un axe de recherche croissant autour du renforcement causal appliqué aux robots. PAPO-VLA est un preprint non encore revu par les pairs ; la validation expérimentale complète, avec benchmarks précis et comparaisons contrôlées, reste à confirmer via publication.

RechercheOpinion
1 source
RotVLA : action latente de rotation pour les modèles vision-langage-action (VLA)
3arXiv cs.RO 

RotVLA : action latente de rotation pour les modèles vision-langage-action (VLA)

Un groupe de chercheurs a publié en mai 2026 RotVLA (arXiv:2605.13403), un framework Vision-Language-Action (VLA) qui substitue la quantification discrète des modèles d'action latente (LAM) existants par une représentation continue dans l'espace de rotation SO(n). Entraîné sur plus de 1 700 heures de données robotiques multi-embodiment et de vidéos humaines, le modèle compte 1,7 milliard de paramètres. Son architecture associe un backbone de modèle vision-langage et une tête d'action par flow-matching, étendue en aval en un "action expert" unifié qui dénoise simultanément actions latentes et actions robot. Sur LIBERO, RotVLA atteint 98,2 % de taux de succès ; sur RoboTwin2.0, il obtient 89,6 % en configuration propre et 88,5 % en configuration randomisée, surpassant les modèles VLA antérieurs dans les deux cas. Des expériences sur des tâches de manipulation réelle confirment ces résultats hors simulation. L'enjeu est architectural : les LAMs actuels, basés sur des pipelines VQ-VAE ou similaires, induisent une reconstruction de frames souvent triviale et n'imposent aucune contrainte géométrique cohérente avec la physique du mouvement. En modélisant les actions latentes comme des éléments de SO(n), RotVLA garantit continuité et compositionnalité absentes des espaces discrets, avec un triplet frame learning qui force une dynamique temporelle non dégénérée. Pour les équipes d'intégration robotique, cela ouvre la voie à un modèle de fondation plus robuste au sim-to-real, l'un des goulots d'étranglement centraux des VLAs en conditions industrielles. L'approche suggère que la structure géométrique de l'espace d'action peut compter autant que l'échelle des données d'entraînement. Le domaine des politiques robotiques généralistes a été structuré par Pi-0 (Physical Intelligence, 2024) et GR00T N2 (NVIDIA, 2025), qui misaient sur des corpus cross-embodiment massifs pour entraîner des politiques généralisables. RotVLA s'inscrit dans cette lignée mais parie sur une représentation latente géométriquement structurée plutôt que sur le volume brut de paramètres, avec 1,7B contre plusieurs dizaines de milliards pour les modèles concurrents les plus ambitieux. Les scores LIBERO et RoboTwin2.0 sont des benchmarks académiques standardisés ; leur transposition sur des cellules industrielles réelles (bras collaboratifs, tri et picking) reste à démontrer. Aucun partenaire de déploiement ni calendrier commercial ne figure dans la publication : RotVLA est, à ce stade, une contribution de recherche.

RechercheOpinion
1 source
ManiSoft : vers la manipulation vision-langage pour la robotique souple à continuum
4arXiv cs.RO 

ManiSoft : vers la manipulation vision-langage pour la robotique souple à continuum

Des chercheurs du laboratoire CoLa de l'université BUAA (Beijing University of Aeronautics and Astronautics) ont publié ManiSoft, un benchmark conçu pour évaluer la manipulation vision-langage sur des bras robotiques souples à continuum. Le jeu de données comprend 6 300 scènes générées automatiquement avec leurs trajectoires expertes correspondantes, réparties en quatre tâches progressives allant de la coordination basique de l'effecteur terminal jusqu'à l'évitement d'obstacles dans des environnements encombrés. Le simulateur développé pour l'occasion couple une dynamique de corps déformables réaliste avec des interactions riches en contact, grâce à une contrainte de force élastique. Le pipeline de génération de trajectoires fonctionne en deux étages : un planificateur de haut niveau décompose chaque tâche en séquences de waypoints, puis une politique d'apprentissage par renforcement de bas niveau génère les commandes de couple pour suivre ces waypoints. ManiSoft s'attaque à un angle mort réel de la recherche en manipulation robotique : la quasi-totalité des travaux sur les modèles vision-langage (VLA) cible des bras rigides à morphologie fixe, qui montrent leurs limites dans les espaces confinés ou encombrés. Les bras souples offrent une déformabilité naturellement adaptée à ces contextes, mais ils posent deux problèmes fondamentaux que le benchmark met en évidence : la proprioception peu fiable (le robot ne sait pas précisément où se trouve son propre corps) et l'actuation distribuée à bas niveau, incompatible avec les abstractions classiques des VLA. Les trois architectures de politiques évaluées obtiennent des résultats corrects en scènes propres, mais accusent une chute de performance significative dès que la randomisation des scènes augmente, ce qui souligne que le sim-to-real gap reste ouvert pour cette catégorie de robots. La robotique souple à continuum reste un domaine de recherche académique, loin des déploiements industriels à grande échelle qu'occupent les bras rigides de Fanuc, KUKA ou Universal Robots. Du côté des acteurs émergents, des startups comme Festo (avec ses bionics) ou des laboratoires européens explorent ces morphologies pour des applications chirurgicales et d'inspection en milieux contraints. ManiSoft ne vise pas pour l'instant à combler directement ce fossé industriel, mais à fournir une base d'évaluation reproductible pour comparer les approches. Le code et les données sont disponibles publiquement, ce qui devrait faciliter l'adoption par la communauté académique. Les prochaines étapes logiques seraient un transfert sim-to-real sur hardware physique et l'intégration de retour haptique pour corriger les dérives proprioceptives identifiées.

RechercheActu
1 source