Aller au contenu principal
Un modèle basé sur l'attention pour la prévision robuste face aux modalités manquantes
RecherchearXiv cs.RO2h

Un modèle basé sur l'attention pour la prévision robuste face aux modalités manquantes

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié le 18 juin 2026 sur arXiv (arXiv:2606.13970) un modèle d'apprentissage multimodal conçu pour fonctionner en présence de données sensorielles incomplètes, une contrainte courante dans les systèmes robotiques réels. L'architecture combine un autoencodeur variationnel conditionnel (CVAE) et un réseau de transformers exploitant des mécanismes d'attention pour produire une représentation vectorielle de dimension fixe, même lorsqu'une ou plusieurs modalités sont absentes, aussi bien en phase d'entraînement qu'à l'inférence. Le modèle a été évalué sur cinq jeux de données multimodaux couvrant deux tâches distinctes : la prédiction de trajectoires humaines et la prévision de manipulations robotiques. Sur l'ensemble de ces benchmarks, il surpasse les approches de fusion multimodale précédemment publiées, selon les métriques rapportées par les auteurs.

Ce travail s'attaque à un verrou réel du déploiement robotique : les modèles multimodaux existants supposent quasi-universellement que toutes les modalités (vision, profondeur, proprioception, LiDAR, etc.) sont disponibles simultanément, une hypothèse rarement vérifiée en production. Une caméra obstruée, un capteur de force défaillant ou une latence réseau suffit à faire chuter les performances d'un pipeline classique. En formulant le problème comme un apprentissage conditionnel plutôt qu'une fusion rigide, les auteurs permettent au modèle d'approximer une représentation robuste à partir de l'information partielle disponible, ce qui ouvre la voie à des architectures tolérantes aux pannes sans recourir à des modules de gestion d'exception ad hoc. Pour un intégrateur ou un COO industriel, c'est la promesse de systèmes plus résilients face aux aléas terrain, à condition que les gains en conditions réelles confirment les résultats sur benchmarks.

Le problème de la modalité manquante est connu en apprentissage automatique depuis les travaux sur les données tabulaires incomplètes, mais son traitement dans le contexte des robots physiques est resté marginal, la majorité des efforts récents se concentrant sur les architectures VLA (Vision-Language-Action) comme Pi-0 ou GR00T N2, qui présupposent des flux visuels stables. Ce papier s'inscrit dans un courant de recherche plus discret mais potentiellement structurant, aux côtés de travaux sur la robustesse sensorielle et le sim-to-real transfer. L'article est un preprint arXiv non encore évalué par les pairs, et les benchmarks retenus (trajectoires humaines, manipulation) ne couvrent pas des scénarios industriels complexes comme la navigation en entrepôt ou l'assemblage multi-bras. Les prochaines étapes naturelles seraient une validation sur des plateformes physiques réelles et une comparaison avec des approches de type dropout multimodal ou récents travaux sur l'imputation par diffusion.

Dans nos dossiers

À lire aussi

VISOR : un oracle de test basé sur un modèle vision-langage pour tester les robots
1arXiv cs.RO 

VISOR : un oracle de test basé sur un modèle vision-langage pour tester les robots

Une équipe de chercheurs a présenté VISOR, un oracle de test automatisé pour la robotique basé sur des modèles vision-langage (VLM). Publiée sur arXiv (2605.10408), la méthode vise à résoudre ce que le domaine nomme le "problème de l'oracle de test" : déterminer automatiquement si un robot a accompli une tâche de manière correcte et avec une qualité suffisante. Jusqu'ici, deux approches coexistaient : les oracles symboliques, limités à des jugements binaires pass/fail et spécifiques à chaque tâche, et l'évaluation humaine manuelle, coûteuse, subjective et sujette aux erreurs. VISOR s'appuie sur GPT (OpenAI) et Gemini (Google) pour évaluer à la fois la correction et la qualité d'exécution, et pour quantifier son propre niveau d'incertitude lors des assessments. Le système a été validé sur plus de 1 000 vidéos couvrant quatre tâches robotiques distinctes. Les résultats montrent des profils contrastés : Gemini obtient un meilleur rappel (recall), identifiant davantage de vraies défaillances, tandis que GPT affiche une meilleure précision avec moins de faux positifs. Ces résultats nuancent l'idée d'un VLM universellement fiable comme juge de comportements robotiques. Plus problématique : les deux modèles présentent une faible corrélation entre leur score d'incertitude auto-déclaré et la correction réelle de leurs jugements. L'incertitude ne peut donc pas servir d'indicateur fiable pour filtrer les erreurs d'évaluation, ce qui est une limite directe pour tout déploiement en pipeline de test continu, où un tel signal de fiabilité serait précieux. Le "problème de l'oracle de test" est une problématique classique du génie logiciel, qui prend une dimension particulière en robotique physique : les comportements y sont continus, bruités et difficiles à formaliser symboliquement. L'approche VLM-as-judge, popularisée dans l'évaluation des LLMs textuels via des benchmarks comme MT-Bench ou AlpacaEval, est ici transposée à des sorties vidéo de robots, ce qui constitue une extension non triviale. Des travaux concurrents explorent des métriques spécifiques aux tâches ou des simulateurs avec vérification formelle, mais VISOR mise sur la généralité au détriment d'une calibration encore insuffisante. La prochaine étape identifiée par les auteurs est précisément d'améliorer cette corrélation incertitude-correction, condition nécessaire avant toute intégration dans un pipeline CI/CD robotique.

RecherchePaper
1 source
RotVLA : action latente de rotation pour les modèles vision-langage-action (VLA)
2arXiv cs.RO 

RotVLA : action latente de rotation pour les modèles vision-langage-action (VLA)

Un groupe de chercheurs a publié en mai 2026 RotVLA (arXiv:2605.13403), un framework Vision-Language-Action (VLA) qui substitue la quantification discrète des modèles d'action latente (LAM) existants par une représentation continue dans l'espace de rotation SO(n). Entraîné sur plus de 1 700 heures de données robotiques multi-embodiment et de vidéos humaines, le modèle compte 1,7 milliard de paramètres. Son architecture associe un backbone de modèle vision-langage et une tête d'action par flow-matching, étendue en aval en un "action expert" unifié qui dénoise simultanément actions latentes et actions robot. Sur LIBERO, RotVLA atteint 98,2 % de taux de succès ; sur RoboTwin2.0, il obtient 89,6 % en configuration propre et 88,5 % en configuration randomisée, surpassant les modèles VLA antérieurs dans les deux cas. Des expériences sur des tâches de manipulation réelle confirment ces résultats hors simulation. L'enjeu est architectural : les LAMs actuels, basés sur des pipelines VQ-VAE ou similaires, induisent une reconstruction de frames souvent triviale et n'imposent aucune contrainte géométrique cohérente avec la physique du mouvement. En modélisant les actions latentes comme des éléments de SO(n), RotVLA garantit continuité et compositionnalité absentes des espaces discrets, avec un triplet frame learning qui force une dynamique temporelle non dégénérée. Pour les équipes d'intégration robotique, cela ouvre la voie à un modèle de fondation plus robuste au sim-to-real, l'un des goulots d'étranglement centraux des VLAs en conditions industrielles. L'approche suggère que la structure géométrique de l'espace d'action peut compter autant que l'échelle des données d'entraînement. Le domaine des politiques robotiques généralistes a été structuré par Pi-0 (Physical Intelligence, 2024) et GR00T N2 (NVIDIA, 2025), qui misaient sur des corpus cross-embodiment massifs pour entraîner des politiques généralisables. RotVLA s'inscrit dans cette lignée mais parie sur une représentation latente géométriquement structurée plutôt que sur le volume brut de paramètres, avec 1,7B contre plusieurs dizaines de milliards pour les modèles concurrents les plus ambitieux. Les scores LIBERO et RoboTwin2.0 sont des benchmarks académiques standardisés ; leur transposition sur des cellules industrielles réelles (bras collaboratifs, tri et picking) reste à démontrer. Aucun partenaire de déploiement ni calendrier commercial ne figure dans la publication : RotVLA est, à ce stade, une contribution de recherche.

RechercheOpinion
1 source
Flash-WAM : distillation sensible aux modalités pour les modèles monde-action
3arXiv cs.RO 

Flash-WAM : distillation sensible aux modalités pour les modèles monde-action

Des chercheurs ont publié Flash-WAM (arXiv:2606.05254v1), une méthode de distillation conçue pour accélérer les "world-action models" (WAMs), des architectures de diffusion qui génèrent simultanément une prédiction vidéo du futur et les commandes robot associées. Le verrou que Flash-WAM tente de lever : ces modèles nécessitent des dizaines de passes de débruitage par chunk d'actions, aboutissant à une latence de 8,1 secondes par chunk sur GPU NVIDIA L40S, ce qui exclut tout contrôle en temps réel. En compressant l'inférence à une seule étape par modalité via une distillation par consistance adaptée, Flash-WAM ramène cette latence à 348 ms, soit un facteur 23x. Appliqué au modèle LingBot-VA, il atteint 85,5% de succès sur le benchmark RoboTwin 2.0, 95,7% sur LIBERO, et 60% en moyenne sur un humanoïde réel Unitree G1. L'originalité de Flash-WAM réside dans le traitement asymétrique des deux modalités. Le flux action et le flux vidéo dans un WAM opèrent sur des schedules de bruit fondamentalement différents (SNR-shifted noise schedules) : appliquer une seule paramétrisation à l'ensemble dégrade les performances de façon sévère, la distillation naïve par consistance chutant à 24% de succès en conditions réelles. Flash-WAM contourne ce problème avec une paramétrisation linéaire à gradient scalé pour le flux action (régime faible bruit) et une paramétrisation variance-preserving pour le flux vidéo (régime fort bruit). Ce résultat valide l'idée qu'un robot peut boucler en temps réel sur ses prédictions de monde sans matériel exotique, à condition d'adapter la distillation à la nature propre de chaque signal. Les WAMs s'inscrivent dans une tendance récente fusionnant prédiction vidéo et politique robot dans un modèle de diffusion unifié, une approche portée par des travaux comme GR00T N2 de NVIDIA, Pi-0.5 de Physical Intelligence, ou les VLAs (vision-language-action models) au sens large. LingBot-VA est l'un de ces modèles joints récents sur lequel Flash-WAM est instancié. Le sim-to-real gap demeure visible dans les résultats (60% en réel contre 85,5% en simulation sur RoboTwin 2.0), mais le gain de 36 points sur la distillation naïve confirme la pertinence de l'approche pour des déploiements futurs sur manipulateurs industriels ou humanoïdes à usage général.

RechercheOpinion
1 source
Modèles vision-langage-action (VLA) conditionnés par l'état de santé pour un contrôle robotique sensible aux pannes
4arXiv cs.RO 

Modèles vision-langage-action (VLA) conditionnés par l'état de santé pour un contrôle robotique sensible aux pannes

Une équipe de recherche publie sur arXiv (référence 2605.16056) un modèle VLA (Vision-Language-Action) capable d'adapter son comportement à la dégradation physique d'un robot, une problématique distincte des pannes de tâches habituellement ciblées par la littérature. L'approche repose sur l'injection d'un module "Health Projector" dans l'architecture VLA-Adapter : le modèle reçoit en entrée un vecteur de santé encodant l'amplitude articulaire et le couple disponible pour chaque joint. Entraîné sur 128 épisodes téléopérés collectés dans l'environnement de simulation LIBERO (benchmark Libero-Spatial), il parvient à compléter des tâches de manipulation spatiale avec des configurations de joints dégradés où le modèle de référence VLA-Adapter Libero-Spatial-Pro échoue systématiquement. Le code et le jeu de données seront prochainement disponibles sur GitHub (h-arslan/health-aware-vla). L'intérêt industriel est réel : dans les déploiements terrain, les robots accumulent des dégradations mécaniques progressives (usure articulaire, perte de couple, grippage de préhenseur) sans nécessairement déclencher d'alarme critique. Un contrôleur aveugle à cet état physique maintient ses consignes nominales et accumule les erreurs ; un modèle conditionné à la santé peut recalculer ses trajectoires à la volée. La modification proposée est présentée comme légère, ce qui suggère une intégration possible dans des pipelines VLA existants sans refonte complète. Cependant, les résultats restent limités à la simulation LIBERO avec 128 épisodes seulement, un jeu de données particulièrement restreint, et aucune validation sur robot physique n'est présentée, laissant le gap sim-to-real entièrement ouvert. Ce travail s'inscrit dans l'expansion rapide des VLA depuis 2023, portée par des modèles comme pi0 (Physical Intelligence), OpenVLA ou la famille RoboVLMs. VLA-Adapter, utilisé comme base ici, est une variante qui réduit les coûts de fine-tuning en gelant le backbone visio-langagier pour n'entraîner qu'un adaptateur léger. La résilience robotique est jusqu'ici majoritairement traitée côté contrôle bas niveau (détection de fautes, compensation par redondance articulaire) plutôt qu'au niveau de la politique visuo-langagière, ce qui rend l'angle de cette recherche original. Aucun acteur européen n'est impliqué dans cette publication. La prochaine étape logique serait une validation sur hardware réel avec des dégradations induites mécaniquement et un dataset substantiellement élargi pour crédibiliser le passage à l'échelle.

RechercheOpinion
1 source