CLAW : un cadre vision-langage-action (VLA) pour la préhension robotique adaptée au poids

Des chercheurs ont publié sur arXiv (arXiv:2509.14143) un framework baptisé CLAW (CLIP-Language-Action for Weight), conçu pour permettre à un robot de saisir des objets en respectant des seuils de poids définis en langage naturel. L'architecture repose sur deux composants distincts : un modèle CLIP affiné qui joue le rôle de générateur de directives symboliques en lisant en continu l'affichage numérique d'une balance, et le modèle VLA π₀ (Pi-zéro), une politique à base de flux développée par Physical Intelligence, qui intègre ces directives avec des observations caméras multi-vues pour produire des commandes motrices continues. Le système a été validé sur trois configurations expérimentales couvrant la saisie d'objets uniques et des tâches mixtes nécessitant une manipulation bi-bras. Dans toutes les conditions, CLAW surpasse à la fois π₀ brut et π₀ affiné sans le module de surveillance, sans que les auteurs ne précisent les marges de performance ni les volumes de données d'entraînement utilisés.
L'enjeu central que CLAW cherche à résoudre est une limitation structurelle des VLA actuels : entraînés de façon bout-en-bout, ces modèles peinent à respecter des contraintes numériques précises comme "arrête-toi quand le poids dépasse 500 grammes", car leur mapping observation-action est implicitement façonné par les données d'entraînement et ne dispose d'aucun mécanisme explicite de surveillance de conditions. En découplant l'évaluation de condition (symbolique, légère) de la génération d'action (continue, haute fréquence), CLAW ouvre une voie pour intégrer une logique de contrôle de procédé dans des pipelines VLA, ce qui est directement pertinent pour des applications industrielles comme le tri pondéral, le conditionnement, ou l'assemblage qualifié par masse. C'est une réponse concrète au "demo-to-reality gap" : les vidéos de démos de manipulation VLA sont souvent réalisées dans des conditions contrôlées sans contraintes mesurables ; CLAW introduit un critère d'arrêt objectif et vérifiable.
π₀ est le modèle phare de Physical Intelligence (Pi), startup fondée en 2023 par Sergey Levine et d'anciens chercheurs de Google Brain et DeepMind, qui a levé 400 millions de dollars en 2024. Le choix de π₀ comme base n'est pas anodin : c'est l'un des rares modèles VLA publiquement documentés capables de manipulation dextre généraliste. CLAW s'inscrit dans une tendance plus large de travaux qui cherchent à hybrider des couches symboliques légères avec des politiques neuronales denses, à l'image des travaux de Physical Intelligence sur le grounding multi-modal ou des approches modulaires comme OpenVLA. Aucun déploiement industriel n'est annoncé ; le travail reste au stade de la preuve de concept académique avec des setups de laboratoire, et une vidéo de démonstration est disponible sur YouTube. Les prochaines étapes naturelles seraient une évaluation sur des capteurs variés (au-delà de la balance numérique) et une généralisation à d'autres contraintes métriques comme la force ou la température.
Dans nos dossiers




