Aller au contenu principal
IA physiquearXiv cs.RO2h

LACY : cycle langage-action à base de modèle vision-langage pour la manipulation robotique auto-améliorante

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (arXiv:2511.02239) LACY, un cadre unifié reposant sur un modèle vision-langage (VLM) qui introduit une cartographie bidirectionnelle entre instructions textuelles et actions robotiques. Contrairement aux architectures VLA classiques qui se limitent à traduire du langage vers des actions (L2A), LACY entraîne simultanément trois tâches complémentaires : la génération d'actions paramétrées à partir d'une instruction (L2A), l'explication en langage naturel d'une action observée (A2L), et la vérification de cohérence sémantique entre deux descriptions (L2C). Le système a été évalué sur des tâches de pick-and-place en simulation et en environnement réel, où il améliore le taux de succès de 56,46 % en moyenne par rapport aux baselines. Un mécanisme d'augmentation active cible les cas à faible confiance pour générer et filtrer automatiquement de nouvelles données d'entraînement, sans annotation humaine supplémentaire.

L'intérêt principal de LACY pour les intégrateurs et les équipes R&D tient à sa boucle auto-améliorante : le robot ne se contente plus d'exécuter, il peut rationaliser ses propres gestes, ce qui enrichit les représentations internes et réduit la dépendance aux datasets labellisés manuellement. La capacité A2L constitue une avancée pour la supervision et le débogage en production, car un système capable d'expliquer ses actions facilite la validation humaine. Sur le plan de la généralisation, le signal L2C fonctionne comme un filtre de cohérence sémantique qui élimine les augmentations bruyantes, un problème récurrent dans l'entraînement sim-to-real. Cela dit, les expériences restent limitées au pick-and-place, tâche canonique mais peu représentative de la complexité des workflows industriels réels.

LACY s'inscrit dans une vague de travaux VLA post-RT-2 qui cherchent à dépasser le paradigme unidirectionnel : Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA explorent des espaces proches mais n'intègrent pas de branche A2L explicite. La page projet (vla2026.github.io/LACY) laisse entrevoir des extensions vers des tâches de manipulation plus complexes. L'absence de données sur les temps de cycle, les charges utiles ou les plateformes matérielles testées rend difficile toute évaluation directe pour un déploiement industriel, et le saut de 56,46 % mérite d'être lu avec prudence tant que les conditions expérimentales complètes ne sont pas publiées.

À lire aussi

OA-WAM : un modèle du monde à adressage par objet pour la manipulation robotique robuste
1arXiv cs.RO 

OA-WAM : un modèle du monde à adressage par objet pour la manipulation robotique robuste

OA-WAM (Object-Addressable World Action Model), soumis sur arXiv en mai 2025 (arXiv:2605.06481), propose une politique vision-langage-action (VLA) qui décompose chaque frame en N+1 "slots" d'état : un slot robot et N slots objets. Chaque slot combine un vecteur d'adresse persistant (identifiant stable de l'objet) et un vecteur de contenu variable décrivant son état courant. Ces représentations sont fusionnées avec des tokens textuels, visuels, proprioceptifs et d'actions dans une séquence causale par blocs, alimentant une tête "monde" (prédiction du frame suivant) et une tête d'action par flow-matching (chunk de 16 actions continues). Le modèle atteint 97,8 % de succès sur le benchmark LIBERO et 79,3 % sur SimplerEnv. Un test de "causal slot-intervention" mesure un cosinus de binding de 0,87 contre un maximum de 0,09 pour les baselines holistes, un écart difficile à ignorer. Le problème central est le "scene entanglement" : quand une politique représente l'évolution du monde comme une image globale ou des tokens vidéo, le décodeur d'action peine à cibler un objet précis dès que la scène varie (distracteurs, occlusions, changements d'éclairage). En séparant explicitement "quel objet" (l'adresse) de "comment il est" (le contenu), et en routant l'attention cross-slot via des clés d'adresse uniquement, l'architecture maintient l'identité des objets sous perturbations contextuelles sans surcoût en tokens. Pour un intégrateur B2B ou un COO industriel, c'est un argument concret vers des politiques robotiques stables face aux variations de ligne de production, sans retraining systématique à chaque changement de contexte. Les WAMs (World Action Models) sont une extension récente des VLA classiques (π0 de Physical Intelligence, OpenVLA, RT-2 de Google DeepMind) qui ajoutent une prédiction de scène en boucle fermée pour contraindre les décisions d'action. OA-WAM s'inscrit dans la lignée des modèles à slots (SAVi, IODINE) transposés au contrôle robot. Il s'agit d'un preprint académique : toutes les évaluations sont conduites en simulation (LIBERO, SimplerEnv), sans validation sur robot physique mentionnée. Aucun déploiement ni partenariat industriel n'est annoncé à ce stade. La prochaine étape logique sera la validation sim-to-real sur manipulateurs réels et l'extension à des tâches de manipulation longue durée.

IA physiqueOpinion
1 source
PhysMem : mise à l'échelle de la mémoire physique pour la manipulation robotique
2arXiv cs.RO 

PhysMem : mise à l'échelle de la mémoire physique pour la manipulation robotique

PhysMem, un cadre mémoire présenté sur arXiv (identifiant 2502.20323, version 5 actualisée au printemps 2026), propose une approche permettant aux planificateurs robotiques basés sur des modèles vision-langage (VLM) d'acquérir des connaissances physiques au moment de l'exécution, sans modifier les paramètres du modèle. Le système enregistre les interactions, génère des hypothèses sur les propriétés physiques observées, les soumet à vérification par des gestes ciblés, puis n'intègre que les hypothèses validées pour guider les décisions futures. Évalué sur trois tâches de manipulation réelle et des benchmarks de simulation avec quatre architectures VLM distinctes, PhysMem atteint 76 % de succès sur une tâche contrôlée d'insertion de brique, contre 23 % pour une récupération directe d'expérience. Sur des sessions de déploiement de 30 minutes, les performances progressent de façon consistante au fil du temps. L'apport central de PhysMem réside dans la séparation entre récupération et vérification. Les approches classiques de mémoire épisodique supposent que les expériences passées s'appliquent directement à la situation courante, ce qui produit des échecs dès que les conditions physiques changent, même marginalement. PhysMem brise ce cycle en testant activement chaque hypothèse avant de l'exploiter, une propriété critique pour les environnements industriels où surfaces, matériaux et tolérances varient d'un poste à l'autre. Pour les intégrateurs et les décideurs B2B, cela ouvre la voie à des robots capables de s'adapter à de nouveaux objets ou environnements sans cycle de réentraînement coûteux. L'écart de 53 points de pourcentage entre les deux modes illustre que le problème n'est pas la mémoire en soi, mais la rigidité de son application directe. Les VLM comme planificateurs robotiques ont été popularisés par des travaux comme SayCan (Google DeepMind), Code as Policies, ou plus récemment pi0 de Physical Intelligence, qui ont démontré une capacité de raisonnement abstrait sur les tâches. Leur limite persistante reste l'incapacité à modéliser les propriétés physiques spécifiques d'objets particuliers, un obstacle majeur à la généralisation hors laboratoire. PhysMem s'inscrit dans un mouvement plus large vers le test-time adaptation en robotique, distinct du fine-tuning classique et complémentaire des approches VLA (Vision-Language-Action). À noter: les résultats publiés portent sur des tâches de laboratoire contrôlées, et aucun déploiement industriel n'est annoncé à ce stade. Les suites logiques incluent des tests sur des horizons de déploiement plus longs et des tâches impliquant des objets déformables ou des matériaux à comportement incertain, là où les hypothèses physiques sont les plus difficiles à abstraire.

IA physiquePaper
1 source
RoVLA : des contraintes de cohérence multiple pour des modèles vision-langage-action (VLA) robustes
3arXiv cs.RO 

RoVLA : des contraintes de cohérence multiple pour des modèles vision-langage-action (VLA) robustes

Une équipe du HCPLab de l'Université Sun Yat-sen (SYSU, Chine) a déposé fin mai 2026 sur arXiv (réf. 2605.19678) RoVLA, un cadre d'entraînement pour renforcer la robustesse des modèles Vision-Language-Action (VLA). Ces modèles, qui couplent perception visuelle, compréhension du langage et génération d'actions pour la manipulation robotique, sont reconnus pour leur fragilité face aux variations d'instructions ou aux perturbations visuelles. RoVLA introduit trois contraintes de cohérence appliquées lors de l'entraînement end-to-end : la cohérence instructionnelle (IC), qui stabilise l'ancrage sémantique sous des reformulations équivalentes d'une même commande ; la cohérence évolutive (EC), qui maintient une intention d'action consistante tout au long de la génération de trajectoire ; et la cohérence observationnelle (OC), qui force des prédictions stables avant et après perturbations visuelles ou proprioceptives. Les expériences sont conduites sur les benchmarks LIBERO-Plus et RoboTwin 2.0, ainsi que sur des tâches de manipulation réelles, avec des performances supérieures aux baselines testées. L'enjeu est bien documenté : les VLA actuels, qu'il s'agisse de pi0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA, souffrent d'un gap de robustesse distributionnelle avéré. Dès que les conditions visuelles changent, les instructions sont paraphrasées ou les perturbations s'accumulent, les performances chutent significativement, bloquant le déploiement dans des environnements industriels non contrôlés comme l'assemblage ou la logistique d'entrepôt. RoVLA propose une réponse architecturale en forçant explicitement l'invariance pendant l'entraînement, plutôt que d'augmenter le volume de données ou d'adapter post-hoc, deux stratégies courantes mais insuffisantes pour garantir la stabilité en conditions réelles. Si les résultats se confirment à plus grande échelle, cette approche pourrait réduire concrètement le sim-to-real gap pour des politiques incarnées en production. Ce travail s'inscrit dans une compétition dense entre laboratoires académiques et industriels autour de la robustesse des VLA. Google DeepMind (RT-2, RT-X), Physical Intelligence et NVIDIA ont tous investi massivement dans des architectures à grande échelle sans traiter explicitement l'invariance en cours d'entraînement, ce que RoVLA tente précisément de corriger. Le projet reste pour l'instant un article de recherche académique : aucun déploiement commercial n'est annoncé, et le code sera publié sur GitHub sous le compte HCPLab-SYSU/RoVLA. La prochaine étape crédible serait une validation sur robots physiques en environnement industriel non contrôlé, que les premiers résultats en manipulation réelle esquissent sans encore l'établir à l'échelle.

UELes équipes R&D françaises et européennes spécialisées en manipulation robotique industrielle pourront évaluer cette approche lors de la publication du code (HCPLab-SYSU/RoVLA), mais aucun acteur européen n'est impliqué directement.

IA physiqueOpinion
1 source
VILAS : une architecture bas coût intégrant un modèle VLA avec préhension souple pour la manipulation robotique
4arXiv cs.RO 

VILAS : une architecture bas coût intégrant un modèle VLA avec préhension souple pour la manipulation robotique

VILAS (arXiv 2605.02037) est une plateforme de manipulation robotique modulaire à faible coût conçue pour déployer des modèles vision-language-action (VLA) sur du matériel accessible. Le système associe un bras collaboratif Fairino FR5, un préhenseur électrique Jodell RG52-50 et un module de perception à deux caméras, coordonnés via une architecture ZMQ unifiant téleopération, collecte de données et exécution de politiques dans un pipeline unique. Pour saisir des objets fragiles sans capteur de force dédié, les auteurs ont développé une extension de préhenseur souple fondée sur le kirigami, une technique de découpe structurée qui induit une déformation contrôlée sous charge compressive, garantissant un contact doux et répétable. Trois modèles VLA ont été comparés sur cette plateforme : pi0 et pi0.5 de Physical Intelligence, et GR00T N1.6 de NVIDIA, chacun fine-tuné depuis des checkpoints publics sur un jeu de démonstrations identique collecté via le pipeline de téleopération. La tâche de validation retenue est la saisie de raisins, cas représentatif de la manipulation d'objets déformables et fragiles. Ce préprint de recherche démontre que des politiques VLA compétitives peuvent être entraînées et déployées sur du matériel grand public, sans infrastructure coûteuse ni retour d'effort. Pour les intégrateurs et les équipes de R&D à budget contraint, c'est un signal clair : le goulot d'étranglement n'est plus le hardware mais le pipeline de données et le fine-tuning. La comparaison des trois modèles dans des conditions strictement identiques (même bras, même dataset, même tâche) constitue un benchmark pratique rare, la littérature évaluant généralement les VLA sur des plateformes propriétaires difficilement reproductibles. Le fait que GR00T N1.6, conçu initialement pour les humanoïdes de NVIDIA, soit ici testé sur un cobot bas de gamme éclaire aussi la portabilité réelle de ces modèles généralistes, au-delà des démonstrations sur hardware maison. Ce travail s'inscrit dans le mouvement de démocratisation de la robotique apprenante porté notamment par LeRobot de Hugging Face ou les travaux autour d'ACT (Action Chunking with Transformers). Le Fairino FR5 se positionne dans la gamme des cobots abordables, face au Lite6 d'UFactory ou au CR5 de Dobot. Pi0 et pi0.5 sont issus de Physical Intelligence (Pi), startup californienne fondée en 2023 et financée entre autres par Bezos Expeditions, tandis que GR00T N1.6 est le modèle de fondation robotique de NVIDIA présenté en 2025 pour ses partenaires humanoïdes. Les suites naturelles de cette plateforme incluent l'extension à des tâches bi-manuelles, l'élargissement du catalogue d'objets, et potentiellement la publication du dataset de démonstrations pour faciliter la reproductibilité.

IA physiqueOpinion
1 source