Aller au contenu principal
Flash-WAM : distillation sensible aux modalités pour les modèles monde-action
RecherchearXiv cs.RO2h

Flash-WAM : distillation sensible aux modalités pour les modèles monde-action

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié Flash-WAM (arXiv:2606.05254v1), une méthode de distillation conçue pour accélérer les "world-action models" (WAMs), des architectures de diffusion qui génèrent simultanément une prédiction vidéo du futur et les commandes robot associées. Le verrou que Flash-WAM tente de lever : ces modèles nécessitent des dizaines de passes de débruitage par chunk d'actions, aboutissant à une latence de 8,1 secondes par chunk sur GPU NVIDIA L40S, ce qui exclut tout contrôle en temps réel. En compressant l'inférence à une seule étape par modalité via une distillation par consistance adaptée, Flash-WAM ramène cette latence à 348 ms, soit un facteur 23x. Appliqué au modèle LingBot-VA, il atteint 85,5% de succès sur le benchmark RoboTwin 2.0, 95,7% sur LIBERO, et 60% en moyenne sur un humanoïde réel Unitree G1.

L'originalité de Flash-WAM réside dans le traitement asymétrique des deux modalités. Le flux action et le flux vidéo dans un WAM opèrent sur des schedules de bruit fondamentalement différents (SNR-shifted noise schedules) : appliquer une seule paramétrisation à l'ensemble dégrade les performances de façon sévère, la distillation naïve par consistance chutant à 24% de succès en conditions réelles. Flash-WAM contourne ce problème avec une paramétrisation linéaire à gradient scalé pour le flux action (régime faible bruit) et une paramétrisation variance-preserving pour le flux vidéo (régime fort bruit). Ce résultat valide l'idée qu'un robot peut boucler en temps réel sur ses prédictions de monde sans matériel exotique, à condition d'adapter la distillation à la nature propre de chaque signal.

Les WAMs s'inscrivent dans une tendance récente fusionnant prédiction vidéo et politique robot dans un modèle de diffusion unifié, une approche portée par des travaux comme GR00T N2 de NVIDIA, Pi-0.5 de Physical Intelligence, ou les VLAs (vision-language-action models) au sens large. LingBot-VA est l'un de ces modèles joints récents sur lequel Flash-WAM est instancié. Le sim-to-real gap demeure visible dans les résultats (60% en réel contre 85,5% en simulation sur RoboTwin 2.0), mais le gain de 36 points sur la distillation naïve confirme la pertinence de l'approche pour des déploiements futurs sur manipulateurs industriels ou humanoïdes à usage général.

À lire aussi

SANTS : un planificateur adaptatif à l'état pour les modèles d'action du monde
1arXiv cs.RO 

SANTS : un planificateur adaptatif à l'état pour les modèles d'action du monde

Des chercheurs proposent SANTS (State-Adaptive Noise Trajectory Scheduler), un scheduler léger pour les politiques de diffusion vidéo-vers-action dans les World Action Models (WAMs). Soumis sur arXiv (2605.27947) le 28 mai 2026, le travail part d'un constat empirique : dans les WAMs pixel-space, débruiter complètement la vidéo future n'optimise pas toujours la qualité de l'action produite. Au-delà d'un seuil dépendant de l'état du robot, le raffinement supplémentaire sature ou dégrade la performance. SANTS lit la représentation vidéo-état courante et le niveau de bruit, prédit un point d'arrêt adaptatif, et est entraîné par post-training avec une récompense sur la qualité finale de l'action (et non sur la fidélité de la vidéo intermédiaire). Résultats annoncés : 94,4 % de succès sur RoboTwin 2.0, 73,1 % sur sept tâches réelles, avec une réduction de latence de 81,7 % et 79,0 % respectivement par rapport au débruitage complet. L'enjeu opérationnel est la fréquence de contrôle : les WAMs souffrent d'une latence d'inférence élevée qui limite leur déploiement dans des boucles de contrôle rapides. Diviser par cinq ce coût d'inférence sans perte majeure de performance valide l'idée que la représentation future n'a pas besoin d'être parfaitement rendue pour conditionner efficacement l'action, une hypothèse implicite des architectures WAM qui n'était pas encore démontrée à cette échelle. Cela dit, le papier reste un preprint non relu par les pairs, et sept tâches réelles constituent un set de validation étroit pour prétendre à une généralisation industrielle. Les WAMs ont émergé comme alternative aux politiques VLA classiques en intégrant une prédiction vidéo du futur pour guider la génération d'actions. SANTS se positionne comme une surcouche d'optimisation compatible avec les designs existants, sans modifier la branche action du modèle de base. Dans l'écosystème actuel, Physical Intelligence (pi0), NVIDIA (GR00T N2) et Figure (Figure 03) développent des politiques de diffusion pour la manipulation, où la réduction de la latence d'inférence devient un facteur de compétitivité commerciale. Les prochaines étapes naturelles seraient une validation sur des benchmarks plus larges comme DROID ou Open X-Embodiment, et la mise à disposition publique des poids et du code.

RechercheOpinion
1 source
RotVLA : action latente de rotation pour les modèles vision-langage-action (VLA)
2arXiv cs.RO 

RotVLA : action latente de rotation pour les modèles vision-langage-action (VLA)

Un groupe de chercheurs a publié en mai 2026 RotVLA (arXiv:2605.13403), un framework Vision-Language-Action (VLA) qui substitue la quantification discrète des modèles d'action latente (LAM) existants par une représentation continue dans l'espace de rotation SO(n). Entraîné sur plus de 1 700 heures de données robotiques multi-embodiment et de vidéos humaines, le modèle compte 1,7 milliard de paramètres. Son architecture associe un backbone de modèle vision-langage et une tête d'action par flow-matching, étendue en aval en un "action expert" unifié qui dénoise simultanément actions latentes et actions robot. Sur LIBERO, RotVLA atteint 98,2 % de taux de succès ; sur RoboTwin2.0, il obtient 89,6 % en configuration propre et 88,5 % en configuration randomisée, surpassant les modèles VLA antérieurs dans les deux cas. Des expériences sur des tâches de manipulation réelle confirment ces résultats hors simulation. L'enjeu est architectural : les LAMs actuels, basés sur des pipelines VQ-VAE ou similaires, induisent une reconstruction de frames souvent triviale et n'imposent aucune contrainte géométrique cohérente avec la physique du mouvement. En modélisant les actions latentes comme des éléments de SO(n), RotVLA garantit continuité et compositionnalité absentes des espaces discrets, avec un triplet frame learning qui force une dynamique temporelle non dégénérée. Pour les équipes d'intégration robotique, cela ouvre la voie à un modèle de fondation plus robuste au sim-to-real, l'un des goulots d'étranglement centraux des VLAs en conditions industrielles. L'approche suggère que la structure géométrique de l'espace d'action peut compter autant que l'échelle des données d'entraînement. Le domaine des politiques robotiques généralistes a été structuré par Pi-0 (Physical Intelligence, 2024) et GR00T N2 (NVIDIA, 2025), qui misaient sur des corpus cross-embodiment massifs pour entraîner des politiques généralisables. RotVLA s'inscrit dans cette lignée mais parie sur une représentation latente géométriquement structurée plutôt que sur le volume brut de paramètres, avec 1,7B contre plusieurs dizaines de milliards pour les modèles concurrents les plus ambitieux. Les scores LIBERO et RoboTwin2.0 sont des benchmarks académiques standardisés ; leur transposition sur des cellules industrielles réelles (bras collaboratifs, tri et picking) reste à démontrer. Aucun partenaire de déploiement ni calendrier commercial ne figure dans la publication : RotVLA est, à ce stade, une contribution de recherche.

RechercheOpinion
1 source
Modèles vision-langage-action (VLA) conditionnés par l'état de santé pour un contrôle robotique sensible aux pannes
3arXiv cs.RO 

Modèles vision-langage-action (VLA) conditionnés par l'état de santé pour un contrôle robotique sensible aux pannes

Une équipe de recherche publie sur arXiv (référence 2605.16056) un modèle VLA (Vision-Language-Action) capable d'adapter son comportement à la dégradation physique d'un robot, une problématique distincte des pannes de tâches habituellement ciblées par la littérature. L'approche repose sur l'injection d'un module "Health Projector" dans l'architecture VLA-Adapter : le modèle reçoit en entrée un vecteur de santé encodant l'amplitude articulaire et le couple disponible pour chaque joint. Entraîné sur 128 épisodes téléopérés collectés dans l'environnement de simulation LIBERO (benchmark Libero-Spatial), il parvient à compléter des tâches de manipulation spatiale avec des configurations de joints dégradés où le modèle de référence VLA-Adapter Libero-Spatial-Pro échoue systématiquement. Le code et le jeu de données seront prochainement disponibles sur GitHub (h-arslan/health-aware-vla). L'intérêt industriel est réel : dans les déploiements terrain, les robots accumulent des dégradations mécaniques progressives (usure articulaire, perte de couple, grippage de préhenseur) sans nécessairement déclencher d'alarme critique. Un contrôleur aveugle à cet état physique maintient ses consignes nominales et accumule les erreurs ; un modèle conditionné à la santé peut recalculer ses trajectoires à la volée. La modification proposée est présentée comme légère, ce qui suggère une intégration possible dans des pipelines VLA existants sans refonte complète. Cependant, les résultats restent limités à la simulation LIBERO avec 128 épisodes seulement, un jeu de données particulièrement restreint, et aucune validation sur robot physique n'est présentée, laissant le gap sim-to-real entièrement ouvert. Ce travail s'inscrit dans l'expansion rapide des VLA depuis 2023, portée par des modèles comme pi0 (Physical Intelligence), OpenVLA ou la famille RoboVLMs. VLA-Adapter, utilisé comme base ici, est une variante qui réduit les coûts de fine-tuning en gelant le backbone visio-langagier pour n'entraîner qu'un adaptateur léger. La résilience robotique est jusqu'ici majoritairement traitée côté contrôle bas niveau (détection de fautes, compensation par redondance articulaire) plutôt qu'au niveau de la politique visuo-langagière, ce qui rend l'angle de cette recherche original. Aucun acteur européen n'est impliqué dans cette publication. La prochaine étape logique serait une validation sur hardware réel avec des dégradations induites mécaniquement et un dataset substantiellement élargi pour crédibiliser le passage à l'échelle.

RechercheOpinion
1 source
Distillation de simulation : pré-entraîner des modèles du monde en simulation pour une adaptation rapide au réel
4arXiv cs.RO 

Distillation de simulation : pré-entraîner des modèles du monde en simulation pour une adaptation rapide au réel

Une équipe de recherche a publié sur arXiv (arXiv:2603.15759) un cadre appelé Simulation Distillation (SimDist), conçu pour entraîner des world models robotiques en simulation physique avant de les adapter rapidement au monde réel avec peu de données. L'approche se décompose en deux phases distinctes : un préentraînement dans un simulateur physique qui distille des priors structurels dans un world model capable de planifier à partir d'observations brutes, suivi d'une adaptation réelle dans laquelle seul le modèle de dynamiques latentes est mis à jour via des pertes de prédiction issues de données terrain. L'encodeur, le modèle de récompense et la fonction de valeur appris en simulation sont directement transférés sans modification. Les auteurs valident SimDist sur deux catégories de tâches : manipulation en contact riche (préhension, assemblage) et locomotion quadrupède. L'enjeu central que SimDist adresse est le coût prohibitif de la collecte de données d'interaction diverse et de qualité mixte pour entraîner des world models directement dans le monde réel. En réduisant l'adaptation à une forme d'identification de système supervisée, le cadre conserve les signaux de planification denses sur horizon long nécessaires à l'amélioration en ligne, là où les méthodes de fine-tuning de politiques end-to-end restent inefficaces et fragiles sur les tâches longue durée. Les expériences montrent que SimDist progresse régulièrement avec l'expérience accumulée, alors que les approches d'adaptation concurrentes stagnent ou se dégradent durant le fine-tuning en ligne. C'est un résultat notable : la question de savoir si les world models tiennent leurs promesses à l'échelle sur des tâches en contact réel restait ouverte. Les world models robotiques -- dont Dreamer (DeepMind) est le représentant le plus connu -- ont démontré leur potentiel en simulation et dans des domaines à faible dimensionnalité, mais leur passage aux tâches manipulation réelles était resté laborieux, nécessitant des volumes de données difficiles à obtenir en dehors de laboratoires très équipés. SimDist s'inscrit dans un courant récent qui tente de résoudre le sim-to-real gap non pas par le transfert direct de politique, mais par le transfert de représentations et de modèles de planification. Le projet est accompagné d'une page dédiée et d'un dépôt de code (sim-dist.github.io), ce qui facilitera la reproductibilité et les comparaisons tierces. Les prochaines étapes probables incluent l'extension à des manipulateurs à dextérité plus élevée et à des environnements moins structurés, deux domaines où la rareté des données réelles est encore plus critique.

RecherchePaper
1 source