RecherchearXiv cs.RO 15 juin 2026

Un modèle basé sur l'attention pour la prévision robuste face aux modalités manquantes

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs ont publié le 18 juin 2026 sur arXiv (arXiv:2606.13970) un modèle d'apprentissage multimodal conçu pour fonctionner en présence de données sensorielles incomplètes, une contrainte courante dans les systèmes robotiques réels. L'architecture combine un autoencodeur variationnel conditionnel (CVAE) et un réseau de transformers exploitant des mécanismes d'attention pour produire une représentation vectorielle de dimension fixe, même lorsqu'une ou plusieurs modalités sont absentes, aussi bien en phase d'entraînement qu'à l'inférence. Le modèle a été évalué sur cinq jeux de données multimodaux couvrant deux tâches distinctes : la prédiction de trajectoires humaines et la prévision de manipulations robotiques. Sur l'ensemble de ces benchmarks, il surpasse les approches de fusion multimodale précédemment publiées, selon les métriques rapportées par les auteurs.

Ce travail s'attaque à un verrou réel du déploiement robotique : les modèles multimodaux existants supposent quasi-universellement que toutes les modalités (vision, profondeur, proprioception, LiDAR, etc.) sont disponibles simultanément, une hypothèse rarement vérifiée en production. Une caméra obstruée, un capteur de force défaillant ou une latence réseau suffit à faire chuter les performances d'un pipeline classique. En formulant le problème comme un apprentissage conditionnel plutôt qu'une fusion rigide, les auteurs permettent au modèle d'approximer une représentation robuste à partir de l'information partielle disponible, ce qui ouvre la voie à des architectures tolérantes aux pannes sans recourir à des modules de gestion d'exception ad hoc. Pour un intégrateur ou un COO industriel, c'est la promesse de systèmes plus résilients face aux aléas terrain, à condition que les gains en conditions réelles confirment les résultats sur benchmarks.

Le problème de la modalité manquante est connu en apprentissage automatique depuis les travaux sur les données tabulaires incomplètes, mais son traitement dans le contexte des robots physiques est resté marginal, la majorité des efforts récents se concentrant sur les architectures VLA (Vision-Language-Action) comme Pi-0 ou GR00T N2, qui présupposent des flux visuels stables. Ce papier s'inscrit dans un courant de recherche plus discret mais potentiellement structurant, aux côtés de travaux sur la robustesse sensorielle et le sim-to-real transfer. L'article est un preprint arXiv non encore évalué par les pairs, et les benchmarks retenus (trajectoires humaines, manipulation) ne couvrent pas des scénarios industriels complexes comme la navigation en entrepôt ou l'assemblage multi-bras. Les prochaines étapes naturelles seraient une validation sur des plateformes physiques réelles et une comparaison avec des approches de type dropout multimodal ou récents travaux sur l'imputation par diffusion.

Dans nos dossiers

NVIDIA GR00T arXiv cs.RO

À lire aussi

1arXiv cs.RO

MAMMOTH : une politique multimodale de bout en bout robuste face aux modalités manquantes pour la mobilité tout-terrain

Une équipe de recherche présente MAMMOTH (MAsking Multi-Modal inputs for Off-road Traversability Heuristic-informed navigation), une politique de navigation autonome end-to-end conçue pour les terrains non structurés, publiée sur arXiv le 15 juillet 2026. Le système fusionne quatre modalités de capteurs, la caméra RGB, l'imagerie thermique, le nuage de points 3D issu du lidar et la vitesse propre du robot, pour estimer la praticabilité du terrain et planifier des trajectoires, que ce soit vers un objectif visuel ou en exploration libre. La particularité technique réside dans un entraînement par "modality dropout" : certaines entrées sensorielles sont masquées aléatoirement pendant l'apprentissage, ce qui force le modèle à rester fonctionnel même quand une caméra tombe en panne, qu'un lidar est aveuglé par la poussière ou que la lumière ambiante s'effondre. La planification de trajectoire s'appuie sur une politique de diffusion apprenant conjointement des trajectoires physiquement réalistes et une heuristique de praticabilité intrinsèque. Les auteurs annoncent des tests réels sur robot dans plusieurs environnements tout-terrain distincts, y compris de nuit, avec des gains mesurés en évitement de collision et en planification tenant compte du terrain. L'enjeu dépasse la démonstration technique : la dépendance quasi exclusive au RGB est le talon d'Achille de nombreux systèmes de navigation off-road actuels, qui échouent dès que l'éclairage devient difficile (contre-jour, ombres, obscurité). En rendant la fusion multimodale tolérante aux pannes de capteurs plutôt que rigide, MAMMOTH s'attaque directement à un écart connu entre démonstrations en conditions idéales et déploiement réel, un enjeu clé pour les robots agricoles, miniers, militaires ou de secours en extérieur. Le travail s'inscrit dans la lignée des approches de navigation par apprentissage visuo-conditionné et de génération de trajectoires par diffusion, deux axes de recherche actifs en robotique mobile. Code et jeu de données seront publiés, ce qui permettra une évaluation indépendante des performances annoncées, notamment sur la robustesse réelle en cas de perte de capteurs plutôt que sur des scénarios de dropout simulés en laboratoire.

RecherchePaper

1 source

2arXiv cs.RO

Récupération guidée par renforcement et fusion souple pour l'imitation multimodale robuste aux modalités manquantes

Des chercheurs présentent RL4IL, une méthode d'apprentissage par imitation guidée par renforcement qui s'attaque à un problème concret du déploiement robotique : la défaillance de capteurs en cours d'opération. Publiée en préprint sur arXiv (2606.15514), l'approche sélectionne dynamiquement les démonstrations d'experts les plus pertinentes depuis une bibliothèque d'entraînement, plutôt que d'entraîner un réseau de politique classique. Une politique RL entraînée via Proximal Policy Optimisation (PPO) sur des ensembles de candidats générés par recherche en largeur (BFS) classe ces démonstrations, et une tête de fusion par cross-attention agrège leurs signaux d'action pour produire la prédiction finale. Lorsqu'une modalité est absente à l'inférence, caméra obstruée, flux langage interrompu, une politique RL dédiée par modalité identifie des démonstrations "donneuses" dans la bibliothèque, et une tête d'imputation reconstruit l'embedding manquant par cross-attention sur les meilleures correspondances, sans aucun réentraînement du système. Évaluée sur trois suites du benchmark LIBERO, RL4IL surpasse les méthodes d'apprentissage par imitation de l'état de l'art dans les conditions de perte de capteurs. Ce résultat adresse une hypothèse fragile qui traverse l'ensemble des architectures VLA (Vision-Language-Action) actuelles : la disponibilité permanente de toutes les entrées sensorielles. En conditions réelles, une caméra peut être occultée par un objet, un module langage peut tomber hors ligne, un capteur de profondeur peut saturer. La capacité à inférer sans réentraînement est particulièrement notable pour les intégrateurs industriels : redéployer un modèle en production à chaque nouvelle configuration de panne est prohibitif. RL4IL découple la robustesse à la perte de modalité du coût d'apprentissage, ce qui représente un levier opérationnel concret, à nuancer cependant par l'absence, dans le papier, de tests sur des robots physiques réels. L'apprentissage par imitation fondé sur la récupération de démonstrations (retrieval-based IL) est une direction active depuis les travaux sur VINN et les approches kNN pour la robotique. Les architectures VLA dominantes comme Pi-0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA) supposent toutes des capteurs intègres. RL4IL s'inscrit dans une veine de recherche visant à rendre ces systèmes tolérants aux pannes sans modifier leur entraînement initial. Le code est disponible publiquement sur GitHub. Les prochaines étapes naturelles incluent une validation sur manipulateurs physiques et l'extension à des bibliothèques de démonstrations à grande échelle, deux conditions nécessaires pour crédibiliser le passage au déploiement réel.

RecherchePaper

1 source

3arXiv cs.RO

RobustVLA : robustesse d'un modèle vision-langage-action face aux perturbations multimodales

RobustVLA s'attaque à un angle mort des modèles Vision-Language-Action (VLA) : leur fragilité face aux perturbations réelles. Une équipe de recherche a d'abord testé les principaux VLA sous 17 types de perturbations réparties sur quatre modalités (actions, instructions, environnement, observations visuelles). Résultat : les actions constituent la modalité la plus fragile, les modèles réputés robustes visuellement (comme BYOVLA) ne conservent aucun gain sur les autres modalités, et pi0 se distingue par une robustesse supérieure aux autres backbones testés. Pour corriger ces faiblesses, les chercheurs proposent RobustVLA, qui combine une optimisation robuste hors ligne contre le pire cas de bruit sur les actions (via l'objectif de flow matching) et un mécanisme forçant des actions cohérentes malgré les variations d'entrée. La sélection automatique des perturbations les plus nuisibles est traitée comme un problème de bandit multi-bras, résolu par un algorithme d'upper confidence bound. Sur le benchmark LIBERO, RobustVLA gagne 12,6% de réussite absolue sur backbone pi0 et 10,4% sur OpenVLA face aux 17 perturbations combinées, avec une inférence 50,6 fois plus rapide que BYOVLA, qui dépend de LLM externes. Cette avancée touche un point sensible pour l'industrie robotique : la plupart des démonstrations de VLA impressionnent en conditions contrôlées mais s'effondrent face au bruit réel (mauvaise calibration caméra, instructions ambiguës, occlusions, dérive capteurs). En identifiant les actions comme le maillon le plus faible, l'étude remet en question l'hypothèse répandue selon laquelle la robustesse visuelle suffirait à garantir un déploiement fiable. Sur robot réel FR5, RobustVLA dépasse pi0 de 65,6% de taux de réussite avec seulement 25 démonstrations, un résultat clé pour les intégrateurs qui manquent de données d'entraînement en environnement industriel. Même avec des données abondantes, le gain reste de 30%, ce qui suggère que la méthode n'est pas qu'un palliatif pour le few-shot mais une amélioration structurelle. Le papier s'inscrit dans la lignée des travaux récents sur pi0 (Physical Intelligence) et OpenVLA, deux architectures de référence dans la course aux modèles génériques de manipulation robotique. Il répond directement aux limites de BYOVLA, une approche antérieure de robustesse visuelle jugée coûteuse en calcul car dépendante de LLM externes. Les auteurs positionnent RobustVLA comme une alternative légère et généralisable, testée à la fois en simulation (LIBERO) et en conditions réelles. Le code et des vidéos de démonstration sont disponibles sur GitHub, ce qui permettra une validation indépendante par la communauté avant une adoption plus large en environnement industriel.

RecherchePaper

1 source

4arXiv cs.RO

VISOR : un oracle de test basé sur un modèle vision-langage pour tester les robots

Une équipe de chercheurs a présenté VISOR, un oracle de test automatisé pour la robotique basé sur des modèles vision-langage (VLM). Publiée sur arXiv (2605.10408), la méthode vise à résoudre ce que le domaine nomme le "problème de l'oracle de test" : déterminer automatiquement si un robot a accompli une tâche de manière correcte et avec une qualité suffisante. Jusqu'ici, deux approches coexistaient : les oracles symboliques, limités à des jugements binaires pass/fail et spécifiques à chaque tâche, et l'évaluation humaine manuelle, coûteuse, subjective et sujette aux erreurs. VISOR s'appuie sur GPT (OpenAI) et Gemini (Google) pour évaluer à la fois la correction et la qualité d'exécution, et pour quantifier son propre niveau d'incertitude lors des assessments. Le système a été validé sur plus de 1 000 vidéos couvrant quatre tâches robotiques distinctes. Les résultats montrent des profils contrastés : Gemini obtient un meilleur rappel (recall), identifiant davantage de vraies défaillances, tandis que GPT affiche une meilleure précision avec moins de faux positifs. Ces résultats nuancent l'idée d'un VLM universellement fiable comme juge de comportements robotiques. Plus problématique : les deux modèles présentent une faible corrélation entre leur score d'incertitude auto-déclaré et la correction réelle de leurs jugements. L'incertitude ne peut donc pas servir d'indicateur fiable pour filtrer les erreurs d'évaluation, ce qui est une limite directe pour tout déploiement en pipeline de test continu, où un tel signal de fiabilité serait précieux. Le "problème de l'oracle de test" est une problématique classique du génie logiciel, qui prend une dimension particulière en robotique physique : les comportements y sont continus, bruités et difficiles à formaliser symboliquement. L'approche VLM-as-judge, popularisée dans l'évaluation des LLMs textuels via des benchmarks comme MT-Bench ou AlpacaEval, est ici transposée à des sorties vidéo de robots, ce qui constitue une extension non triviale. Des travaux concurrents explorent des métriques spécifiques aux tâches ou des simulateurs avec vérification formelle, mais VISOR mise sur la généralité au détriment d'une calibration encore insuffisante. La prochaine étape identifiée par les auteurs est précisément d'améliorer cette corrélation incertitude-correction, condition nécessaire avant toute intégration dans un pipeline CI/CD robotique.

RecherchePaper

1 source