Aller au contenu principal
PhysMem : mise à l'échelle de la mémoire physique pour la manipulation robotique
IA physiquearXiv cs.RO6sem

PhysMem : mise à l'échelle de la mémoire physique pour la manipulation robotique

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

PhysMem, un cadre mémoire présenté sur arXiv (identifiant 2502.20323, version 5 actualisée au printemps 2026), propose une approche permettant aux planificateurs robotiques basés sur des modèles vision-langage (VLM) d'acquérir des connaissances physiques au moment de l'exécution, sans modifier les paramètres du modèle. Le système enregistre les interactions, génère des hypothèses sur les propriétés physiques observées, les soumet à vérification par des gestes ciblés, puis n'intègre que les hypothèses validées pour guider les décisions futures. Évalué sur trois tâches de manipulation réelle et des benchmarks de simulation avec quatre architectures VLM distinctes, PhysMem atteint 76 % de succès sur une tâche contrôlée d'insertion de brique, contre 23 % pour une récupération directe d'expérience. Sur des sessions de déploiement de 30 minutes, les performances progressent de façon consistante au fil du temps.

L'apport central de PhysMem réside dans la séparation entre récupération et vérification. Les approches classiques de mémoire épisodique supposent que les expériences passées s'appliquent directement à la situation courante, ce qui produit des échecs dès que les conditions physiques changent, même marginalement. PhysMem brise ce cycle en testant activement chaque hypothèse avant de l'exploiter, une propriété critique pour les environnements industriels où surfaces, matériaux et tolérances varient d'un poste à l'autre. Pour les intégrateurs et les décideurs B2B, cela ouvre la voie à des robots capables de s'adapter à de nouveaux objets ou environnements sans cycle de réentraînement coûteux. L'écart de 53 points de pourcentage entre les deux modes illustre que le problème n'est pas la mémoire en soi, mais la rigidité de son application directe.

Les VLM comme planificateurs robotiques ont été popularisés par des travaux comme SayCan (Google DeepMind), Code as Policies, ou plus récemment pi0 de Physical Intelligence, qui ont démontré une capacité de raisonnement abstrait sur les tâches. Leur limite persistante reste l'incapacité à modéliser les propriétés physiques spécifiques d'objets particuliers, un obstacle majeur à la généralisation hors laboratoire. PhysMem s'inscrit dans un mouvement plus large vers le test-time adaptation en robotique, distinct du fine-tuning classique et complémentaire des approches VLA (Vision-Language-Action). À noter: les résultats publiés portent sur des tâches de laboratoire contrôlées, et aucun déploiement industriel n'est annoncé à ce stade. Les suites logiques incluent des tests sur des horizons de déploiement plus longs et des tâches impliquant des objets déformables ou des matériaux à comportement incertain, là où les hypothèses physiques sont les plus difficiles à abstraire.

À lire aussi

Filtrage de l'information par régularisation variationnelle pour la manipulation robotique
1arXiv cs.RO 

Filtrage de l'information par régularisation variationnelle pour la manipulation robotique

Des chercheurs ont publié sur arXiv (référence 2601.21926v3) une étude portant sur un défaut structurel des politiques visuomotrices par diffusion appliquées à la manipulation robotique. Ces architectures, fondées sur des représentations visuelles 3D et un décodeur de débruitage, sont aujourd'hui parmi les plus performantes pour apprendre des comportements complexes à un bras robotique. L'équipe identifie un problème précis : dans les architectures U-Net et DiT (Diffusion Transformer), les blocs intermédiaires du décodeur contiennent des features parasites, sans rapport avec la tâche à exécuter. La preuve expérimentale est frappante, masquer aléatoirement les features du backbone U-Net ou sauter des couches intermédiaires du DiT pendant l'inférence, sans aucune modification de l'entraînement, améliore les performances. Pour corriger cela, les auteurs proposent un module baptisé Variational Regularization (VR) : un composant plug-and-play qui impose une distribution gaussienne conditionnée au contexte sur les features bruitées, et applique un régulariseur KL-divergence formant un goulot d'information adaptatif. Les évaluations couvrent trois benchmarks de simulation, RoboTwin2.0, Adroit et MetaWorld, et des tests en conditions réelles. Ce travail remet en cause une hypothèse tacite du domaine : augmenter la capacité du modèle de débruitage améliore mécaniquement les résultats. Les auteurs montrent que c'est faux, et que la redondance dans les features intermédiaires est une source active de dégradation. L'approche VR, combinée aux architectures DP3-UNet et DP3-DiT, établit de nouveaux résultats état de l'art sur l'ensemble des benchmarks testés. Pour les intégrateurs et équipes R&D travaillant sur des politiques d'imitation ou de reinforcement learning pour la manipulation, l'intérêt est double : le module est réutilisable sans réentraînement complet, et le diagnostic (tester le masquage aléatoire à l'inférence) est immédiatement applicable pour auditer ses propres architectures. Ce type de recherche s'inscrit dans la lignée des travaux sur les diffusion policies initiés par Chi et al. (2023) et leur extension 3D (DP3), qui ont rapidement supplanté les approches behavior cloning classiques sur les tâches de manipulation fine. Sur ce terrain, les concurrents directs incluent les politiques basées sur les transformers de vision-action comme ACT (Action Chunking with Transformers) ou les approches Flow Matching comme Pi-0 de Physical Intelligence. La contribution ici n'est pas une nouvelle architecture de bout en bout, mais un correctif ciblé sur un problème de capacité mal calibrée, un angle plus susceptible d'être intégré rapidement dans des pipelines existants que de remplacer l'ensemble de la stack.

IA physiqueOpinion
1 source
LACY : cycle langage-action à base de modèle vision-langage pour la manipulation robotique auto-améliorante
2arXiv cs.RO 

LACY : cycle langage-action à base de modèle vision-langage pour la manipulation robotique auto-améliorante

Des chercheurs ont publié sur arXiv (arXiv:2511.02239) LACY, un cadre unifié reposant sur un modèle vision-langage (VLM) qui introduit une cartographie bidirectionnelle entre instructions textuelles et actions robotiques. Contrairement aux architectures VLA classiques qui se limitent à traduire du langage vers des actions (L2A), LACY entraîne simultanément trois tâches complémentaires : la génération d'actions paramétrées à partir d'une instruction (L2A), l'explication en langage naturel d'une action observée (A2L), et la vérification de cohérence sémantique entre deux descriptions (L2C). Le système a été évalué sur des tâches de pick-and-place en simulation et en environnement réel, où il améliore le taux de succès de 56,46 % en moyenne par rapport aux baselines. Un mécanisme d'augmentation active cible les cas à faible confiance pour générer et filtrer automatiquement de nouvelles données d'entraînement, sans annotation humaine supplémentaire. L'intérêt principal de LACY pour les intégrateurs et les équipes R&D tient à sa boucle auto-améliorante : le robot ne se contente plus d'exécuter, il peut rationaliser ses propres gestes, ce qui enrichit les représentations internes et réduit la dépendance aux datasets labellisés manuellement. La capacité A2L constitue une avancée pour la supervision et le débogage en production, car un système capable d'expliquer ses actions facilite la validation humaine. Sur le plan de la généralisation, le signal L2C fonctionne comme un filtre de cohérence sémantique qui élimine les augmentations bruyantes, un problème récurrent dans l'entraînement sim-to-real. Cela dit, les expériences restent limitées au pick-and-place, tâche canonique mais peu représentative de la complexité des workflows industriels réels. LACY s'inscrit dans une vague de travaux VLA post-RT-2 qui cherchent à dépasser le paradigme unidirectionnel : Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA explorent des espaces proches mais n'intègrent pas de branche A2L explicite. La page projet (vla2026.github.io/LACY) laisse entrevoir des extensions vers des tâches de manipulation plus complexes. L'absence de données sur les temps de cycle, les charges utiles ou les plateformes matérielles testées rend difficile toute évaluation directe pour un déploiement industriel, et le saut de 56,46 % mérite d'être lu avec prudence tant que les conditions expérimentales complètes ne sont pas publiées.

💬 La boucle auto-améliorante, c'est le vrai truc ici : le robot cible ses propres points faibles et génère de nouvelles données sans qu'on ait à labelliser quoi que ce soit. Le +56% de succès sonne bien, bon, il faut lire les conditions expérimentales complètes avant de s'emballer. Et la capacité A2L (le robot qui explique ses propres gestes en langage naturel) va vraiment servir en prod, pas juste dans les démos.

IA physiqueOpinion
1 source
PLanAR : raisonnement à base d'agents ancré dans la planification et le langage pour la manipulation robotique
3arXiv cs.RO 

PLanAR : raisonnement à base d'agents ancré dans la planification et le langage pour la manipulation robotique

Des chercheurs ont présenté PLanAR (Planning-Language-Grounded Agentic Reasoning), un framework agent pour la manipulation robotique long-horizon en environnements ouverts, publié sous forme de préprint arXiv (2602.01662v4). Le système utilise des modèles vision-langage (VLMs) comme moteur de raisonnement, mais les contraint via une interface de planification symbolique structurée en trois composants : des prédicats d'objets encodant l'état de la scène, des schémas d'action définissant les compétences du robot avec leurs préconditions et effets attendus, et des plans symboliques servant de représentations intermédiaires exécutables. Après chaque action, PLanAR vérifie si les effets symboliques attendus ont été atteints via les observations embarquées, ce qui lui permet de détecter les échecs et de replanifier en cas de déviation. Les évaluations couvrent plusieurs morphologies de robots et backends VLM sur des tâches allant de l'empilement d'objets à la résolution de mots croisés, en passant par des séquences cuisine long-horizon. La manipulation long-horizon reste un défi majeur de la robotique incarnée : les architectures VLA (Vision-Language-Action) pures, comme Pi-0 (Physical Intelligence) ou OpenVLA, échouent souvent lorsque les séquences s'allongent et que les conditions d'exécution changent. PLanAR adresse ce problème en introduisant une boucle de vérification étape par étape qui sépare explicitement raisonnement et exécution, une propriété absente des approches end-to-end. Cette architecture hybride neurosymbolique est directement pertinente pour les intégrateurs industriels travaillant en environnements non contrôlés, car elle permet au robot de détecter et corriger ses propres erreurs sans intervention humaine. Les auteurs reconnaissent eux-mêmes que PLanAR révèle des limitations importantes dans le raisonnement incarné des VLMs actuels, une posture analytique rare dans la littérature récente. PLanAR s'inscrit dans une longue tradition d'approches TAMP (Task and Motion Planning) cherchant à combiner planification symbolique et exécution motrice, aux côtés de SayCan (Google DeepMind, 2022), Code as Policies (2023) et GR00T N2 (NVIDIA, 2025) qui intègre également un module de raisonnement symbolique. La distinction clé réside dans l'interface de planification formelle imposée au VLM, qui réduit l'espace de recherche au prix d'une expressivité moindre. Le preprint ne mentionne ni partenariat industriel ni timeline de déploiement, et les expériences restent en laboratoire : le passage à l'échelle en conditions réelles demeure la question ouverte centrale pour valider l'approche au-delà du benchmark académique.

IA physiqueOpinion
1 source
ST-π : VLA spatio-temporel structuré pour la manipulation robotique
4arXiv cs.RO 

ST-π : VLA spatio-temporel structuré pour la manipulation robotique

Une équipe de chercheurs a publié fin avril 2026 ST-π (ST-pi), un modèle vision-langage-action (VLA) conçu pour améliorer la manipulation robotique fine en introduisant une planification spatiotemporelle explicitement structurée. Contrairement aux VLA classiques qui projettent directement les observations visuelles vers des actions step-by-step, ST-π décompose la tâche en deux niveaux distincts : un VLM spatiotemporel qui encode des observations 4D (vidéo + profondeur) et génère une séquence ordonnée de "prompts d'action" au niveau chunk, incluant sous-tâches, ancrage spatial et ancrage temporel ; puis un "action expert" conditionné sur ces prompts, qui utilise un mécanisme de double générateur pour modéliser conjointement les dépendances spatiales et la causalité temporelle, produisant in fine les paramètres d'action step-level. Les auteurs ont également constitué un dataset réel avec annotations spatiotemporelles structurées pour le fine-tuning. Le code source est disponible sur GitHub (chuanhaoma/ST-pi). L'intérêt de cette approche réside dans l'explicitation du raisonnement spatiotemporal, un point aveugle documenté des VLA actuels. Les modèles existants comme Pi-0 (Physical Intelligence), OpenVLA ou RT-2 encodent implicitement ce raisonnement dans les représentations visuelles et d'action, ce qui les rend fragiles face à des séquences comportementales multiples avec des frontières temporelles précises, typiquement les tâches d'assemblage, de tri ou de manipulation en plusieurs étapes que les intégrateurs industriels cherchent à automatiser. ST-π propose une architecture où le VLM planifie globalement et l'action expert raffine localement, ce qui est une séparation de responsabilités plus proche de la façon dont les ingénieurs roboticiens structurent eux-mêmes les programmes de manipulation. Ce travail s'inscrit dans une dynamique de recherche active sur le sim-to-real et la généralisation des VLA, portée notamment par Physical Intelligence, Google DeepMind (avec GR00T N2 côté NVIDIA) et des laboratoires académiques en Chine. ST-π est un preprint arXiv (2604.17880), pas encore évalué en peer review, et les métriques de performance annoncées restent à confronter à des benchmarks indépendants comme LIBERO ou RLBench. Aucun partenaire industriel ni déploiement terrain n'est mentionné à ce stade, il s'agit d'une contribution de recherche, pas d'un produit commercialisé. Les prochaines étapes naturelles seraient une évaluation comparative sur des benchmarks standardisés et un test sur des robots réels en dehors du dataset des auteurs.

IA physiqueOpinion
1 source