Modèle d'action géométrique pour l'apprentissage…

ActionMap : apprentissage de politiques robotiques par carte de chaleur voxel

43

1arXiv cs.RO

ActionMap : apprentissage de politiques robotiques par carte de chaleur voxel

Une équipe du ShowLab publie sur arXiv (2606.06904, juin 2026) ActionMap, une tête d'action basée sur des heatmaps voxéliques destinée à remplacer le décodeur d'action natif des modèles vision-langage-action (VLA). Là où les décodeurs existants (régression L1, bins autoregressifs, flow-matching) traitent l'espace d'action comme une structure plate sans géométrie, ActionMap prédit pour chaque commande une heatmap 3D dans cet espace, chaque voxel stockant directement la probabilité de l'action correspondante. Validé sur le benchmark de simulation LIBERO (quatre suites de tâches) et en manipulation réelle sur bras Franka, le module affiche +8,2 points de pourcentage sur la moyenne des quatre suites LIBERO face à la tête L1 d'OpenVLA-OFT, avec une convergence comparable ou plus rapide, et une efficacité données nettement meilleure en faible volume d'entraînement. Ce résultat a deux implications directes. ActionMap s'insère comme module drop-in dans tout VLA existant sans modifier le backbone ni la recette d'entraînement : les équipes ayant déjà investi dans OpenVLA ou des architectures similaires peuvent en bénéficier immédiatement. Plus significatif : les gains sont constants sur deux backbones architecturalement distincts, ce qui isole la représentation de l'action comme levier de performance indépendant de la mise à l'échelle du backbone ou des données. Pour un intégrateur ou un décideur industriel, cela signifie qu'on peut améliorer la précision des politiques robotiques sans augmenter les volumes de données ni la puissance de calcul. Depuis 2023, les VLA ont progressé rapidement côté backbone (Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, OpenVLA de Berkeley) et côté données (Open X-Embodiment, DROID), mais le décodeur d'action est resté l'angle mort du domaine. ActionMap propose d'exploiter la structure géométrique de l'espace d'action via une représentation voxélique probabiliste, en complément des têtes à diffusion (flow-matching, DDPM) déjà explorées dans la littérature. Le projet, avec code et page publique disponibles sur showlab.github.io/ActionMap, reste dans le registre de la recherche fondamentale : aucun partenariat industriel ni timeline de déploiement n'est annoncé à ce stade.

IA physiqueOpinion

1 source

Apprentissage de la continuation native pour les politiques de flux par découpage d'actions

44

2arXiv cs.RO

Apprentissage de la continuation native pour les politiques de flux par découpage d'actions

Des chercheurs ont publié sur arXiv (arXiv:2602.12978v2) une méthode d'entraînement baptisée Legato, conçue pour éliminer un problème structurel des politiques robotiques de type VLA (Vision Language Action) : les discontinuités aux jonctions de blocs d'actions prédits. Les modèles VLA actuels découpent leurs séquences en "chunks" pour s'exécuter en temps réel, mais ce découpage provoque des à-coups mécaniques quand le robot transite d'un bloc au suivant. La solution dominante jusqu'ici, le Real-Time Chunking (RTC), traite ce problème en aval, hors du modèle, en lissant post-hoc les transitions. Legato prend le chemin inverse : il intègre la continuité directement dans la phase d'entraînement, en initialisant le débruitage (denoising) à partir d'un mélange pondéré d'actions déjà connues et de bruit, selon un calendrier (schedule) appris. La méthode restructure également la dynamique de flux pour garantir la cohérence entre entraînement et inférence, et utilise des conditions de schedule aléatoires pour s'adapter à des délais variables. Sur cinq tâches de manipulation en conditions réelles, Legato surpasse RTC avec environ 10 % de gain sur la fluidité de trajectoire et le temps de complétion de tâche. Ce chiffre de 10 % mérite d'être mis en contexte : il est mesuré en conditions réelles, non en simulation, ce qui lui confère un poids pratique que les benchmarks purement virtuels ne peuvent pas revendiquer. Le problème de fond que Legato résout, le "spurious multimodal switching", soit le comportement hésitant du robot coincé entre plusieurs configurations valides à chaque frontière de chunk, est un verrou concret pour les déploiements industriels. Le RTC, en tant que couche externe, introduit précisément ces changements de mode intempestifs parce qu'il ne connaît pas l'intention du modèle. En internalisant la régularité dans l'entraînement, Legato produit des trajectoires dont le comportement à l'inférence est cohérent avec ce qui a été appris, ce qui simplifie la validation en production. Pour les intégrateurs qui cherchent à fiabiliser des cellules de manipulation, la prévisibilité du mouvement est souvent aussi critique que sa vitesse. L'action chunking a été popularisé par ACT (Action Chunked Transformer, Stanford/UC Berkeley, 2023) et repris dans des architectures flow-based comme pi0 de Physical Intelligence. La prolifération des VLA en manipulation, portée par Physical Intelligence, Google DeepMind (RT-2), 1X Technologies, et des laboratoires académiques, a rendu ce problème de frontière de chunk de plus en plus visible hors simulation. Legato s'inscrit dans un courant actif visant à réconcilier la génération par blocs, nécessaire pour la latence temps réel, avec la continuité motrice, nécessaire pour la précision. La méthode (version v2, 2025) n'est pas encore associée à un déploiement industriel annoncé, mais ses résultats sur hardware réel en font un candidat crédible à l'intégration dans les pipelines de fine-tuning VLA existants. Les suites naturelles incluent des tests sur architectures diffusion plus larges et une évaluation sur des plateformes bi-manuelles.

IA physiqueOpinion

1 source

Apprentissage de dynamiques transférables : des modèles d'action aux modèles du monde

41

3arXiv cs.RO

Apprentissage de dynamiques transférables : des modèles d'action aux modèles du monde

Des chercheurs ont publié en juin 2026 un préprint arXiv (2606.29501) décrivant A2World, un modèle de monde diffusion multi-vues conditionné par les actions, pré-entraîné sur de larges volumes de données de manipulation robotique avec annotations d'actions réelles. L'idée centrale est que prédire comment une action modifie visuellement une scène, plutôt que simplement générer des vidéos plausibles, force le modèle à capturer des dynamiques d'interaction réutilisables. Ce pré-entraînement produit ce que les auteurs appellent des "priors de dynamiques transférables". À partir des mêmes poids pré-entraînés, deux variantes sont dérivées : A2World-sim, adapté en simulateur spécialisé par tâche ou environnement, et A2World-policy, un modèle de prédiction jointe vidéo-action conditionné par des instructions visuelles. Les expériences sont validées sur des benchmarks de simulation et en conditions réelles, sans que les auteurs ne publient de métriques quantitatives précises dans le résumé. L'enjeu concret pour les équipes de robotique industrielle est le coût des données de rollout réel : A2World-sim vise à remplacer les passages physiques sur robot par des déroulements dans le modèle de monde, permettant une évaluation de politique à grande échelle et des analyses contrefactuelles ("que se passerait-il si...") sans mobiliser de hardware. C'est le noeud dur du problème sim-to-real : les simulateurs classiques (Isaac Sim, MuJoCo) échouent sur la fidélité visuelle et de contact, tandis qu'un modèle de monde appris sur des données réelles devrait, en théorie, hériter de la physique implicite du monde réel. A2World-policy s'inscrit dans la lignée des VLA (Vision-Language-Action models) comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, en conditionnant la prédiction d'action sur le flux visuel et des instructions en langage naturel. Il s'agit toutefois d'un préprint non revu par les pairs, et les métriques présentées (benchmarks de simulation) restent à confirmer sur des déploiements réels à l'échelle. Ce travail s'inscrit dans une dynamique de recherche active sur les modèles de monde pour la robotique, portée depuis 2023-2024 par des approches comme UniSim (Google), RoboDreamer, ou Genie, qui toutes cherchent à découpler l'apprentissage de politique du coût de la collecte de données physiques. Physical Intelligence (pi-0, pi-0.5), Figure AI (Figure 02/03) et 1X Technologies misent sur des architectures VLA similaires pour la généralisation multi-tâches. La contribution spécifique d'A2World est de partager les poids pré-entraînés entre le simulateur et le modèle de politique, plutôt que de les traiter comme deux systèmes distincts. Les prochaines étapes attendues dans ce type de travaux sont la publication de benchmarks ouverts, une comparaison directe contre des rollouts réels, et, pour les acteurs industriels, la question de savoir si ces approches tiennent sur des environnements non structurés hors laboratoire.

IA physiqueOpinion

1 source

G³VLA : biais inductif géométrique pour les modèles vision-langage-action (VLA)

45

4arXiv cs.RO

G³VLA : biais inductif géométrique pour les modèles vision-langage-action (VLA)

Un preprint arXiv déposé fin juin 2026 présente G³VLA, un module géométrique plug-in pour les modèles VLA (Vision-Language-Action), conçu pour corriger un angle mort structurel de ces architectures : leurs tokens visuels sont encodés en coordonnées image 2D, sans exploiter la géométrie calibrée des caméras du robot. Dans les configurations multi-caméras, où intrinsèques et extrinsèques sont pourtant parfaitement connus, les vues sont traitées comme des images indépendantes, effaçant toute information de profondeur et de position relative. G³VLA injecte cette géométrie calibrée via trois composantes : des ray embeddings conditionnés sur les paramètres intrinsèques, un encodage positionnel projectif baptisé PRoPE, et une fusion cross-view bidirectionnelle. Aucun capteur de profondeur n'est requis : la supervision géométrique s'appuie soit sur des point maps ground-truth, soit sur des prédictions du modèle π³X filtrées par seuil de confiance. Le module a été instancié sur π₀ (Physical Intelligence) puis validé sur π₀.₅ et GR00T 1.5 de NVIDIA, avec des évaluations sur les suites LIBERO, RoboCasa24, RoboTwin2.0 et sur robot réel. Les gains obtenus sont réguliers sur l'ensemble des benchmarks, les améliorations les plus prononcées concernant les tâches dites spatialement sensibles : manipulation d'objets proches, désambiguïsation de positions relatives, réponse à des instructions impliquant des relations 3D précises. Pour un intégrateur ou un décideur industriel, le point central est la compatibilité : G³VLA s'ajoute sans modifier l'espace d'action ni l'objectif d'imitation du VLA hôte, le rendant portable vers des systèmes existants sans réentraînement complet. L'analyse comparative sur GR00T 1.5 livre un enseignement architectural : le transfert de géométrie est maximal quand les tokens géométriques ont accès direct au pathway de génération d'actions, et non positionnés en périphérie du flux. G³VLA s'inscrit dans la recherche post-RT-2 autour des VLA généralistes, portée par Physical Intelligence avec π₀ (2024) et NVIDIA avec la famille GR00T (N1, N2, 1.5). Ces modèles ont prouvé une généralisation hors distribution convaincante, mais leur faiblesse reconnue reste la précision spatiale fine, là où les réseaux end-to-end apprennent des heuristiques visuelles sans véritable compréhension 3D. Des travaux concurrents comme SpatialVLA (2025) explorent des voies similaires d'injection de géométrie. Du côté européen, des acteurs spécialisés dans la manipulation de précision, comme Enchanted Tools ou Wandercraft, pourraient tirer parti de ce type de module si intégré dans des VLAs open-source. Le code source n'est pas encore disponible, mais une page projet en ligne laisse anticiper une publication prochaine.

UEDes équipes françaises spécialisées en manipulation de précision, comme Enchanted Tools ou Wandercraft, pourraient intégrer ce module géométrique dans leurs pipelines VLA open-source pour améliorer la précision spatiale fine de leurs robots, dès la publication du code source.

💬 Les VLA passent à côté d'informations géométriques que les caméras calibrées donnent pourtant gratuitement, et ça se paie en précision spatiale. G³VLA corrige ça en plug-in, sans modifier l'espace d'action ni forcer un réentraînement, ce qui le rend applicable à des systèmes déjà en production. Reste à voir si Enchanted Tools ou Wandercraft suivent dès que le code sort.

IA physiqueOpinion

1 source

Modèle d'action géométrique pour l'apprentissage de politiques robotiques

À lire aussi

ActionMap : apprentissage de politiques robotiques par carte de chaleur voxel

Apprentissage de la continuation native pour les politiques de flux par découpage d'actions

Apprentissage de dynamiques transférables : des modèles d'action aux modèles du monde

G³VLA : biais inductif géométrique pour les modèles vision-langage-action (VLA)