Aller au contenu principal
Récupération guidée par renforcement et fusion souple pour l'imitation multimodale robuste aux modalités manquantes
RecherchearXiv cs.RO1h

Récupération guidée par renforcement et fusion souple pour l'imitation multimodale robuste aux modalités manquantes

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs présentent RL4IL, une méthode d'apprentissage par imitation guidée par renforcement qui s'attaque à un problème concret du déploiement robotique : la défaillance de capteurs en cours d'opération. Publiée en préprint sur arXiv (2606.15514), l'approche sélectionne dynamiquement les démonstrations d'experts les plus pertinentes depuis une bibliothèque d'entraînement, plutôt que d'entraîner un réseau de politique classique. Une politique RL entraînée via Proximal Policy Optimisation (PPO) sur des ensembles de candidats générés par recherche en largeur (BFS) classe ces démonstrations, et une tête de fusion par cross-attention agrège leurs signaux d'action pour produire la prédiction finale. Lorsqu'une modalité est absente à l'inférence, caméra obstruée, flux langage interrompu, une politique RL dédiée par modalité identifie des démonstrations "donneuses" dans la bibliothèque, et une tête d'imputation reconstruit l'embedding manquant par cross-attention sur les meilleures correspondances, sans aucun réentraînement du système. Évaluée sur trois suites du benchmark LIBERO, RL4IL surpasse les méthodes d'apprentissage par imitation de l'état de l'art dans les conditions de perte de capteurs.

Ce résultat adresse une hypothèse fragile qui traverse l'ensemble des architectures VLA (Vision-Language-Action) actuelles : la disponibilité permanente de toutes les entrées sensorielles. En conditions réelles, une caméra peut être occultée par un objet, un module langage peut tomber hors ligne, un capteur de profondeur peut saturer. La capacité à inférer sans réentraînement est particulièrement notable pour les intégrateurs industriels : redéployer un modèle en production à chaque nouvelle configuration de panne est prohibitif. RL4IL découple la robustesse à la perte de modalité du coût d'apprentissage, ce qui représente un levier opérationnel concret, à nuancer cependant par l'absence, dans le papier, de tests sur des robots physiques réels.

L'apprentissage par imitation fondé sur la récupération de démonstrations (retrieval-based IL) est une direction active depuis les travaux sur VINN et les approches kNN pour la robotique. Les architectures VLA dominantes comme Pi-0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA) supposent toutes des capteurs intègres. RL4IL s'inscrit dans une veine de recherche visant à rendre ces systèmes tolérants aux pannes sans modifier leur entraînement initial. Le code est disponible publiquement sur GitHub. Les prochaines étapes naturelles incluent une validation sur manipulateurs physiques et l'extension à des bibliothèques de démonstrations à grande échelle, deux conditions nécessaires pour crédibiliser le passage au déploiement réel.

À lire aussi

Un modèle basé sur l'attention pour la prévision robuste face aux modalités manquantes
1arXiv cs.RO 

Un modèle basé sur l'attention pour la prévision robuste face aux modalités manquantes

Des chercheurs ont publié le 18 juin 2026 sur arXiv (arXiv:2606.13970) un modèle d'apprentissage multimodal conçu pour fonctionner en présence de données sensorielles incomplètes, une contrainte courante dans les systèmes robotiques réels. L'architecture combine un autoencodeur variationnel conditionnel (CVAE) et un réseau de transformers exploitant des mécanismes d'attention pour produire une représentation vectorielle de dimension fixe, même lorsqu'une ou plusieurs modalités sont absentes, aussi bien en phase d'entraînement qu'à l'inférence. Le modèle a été évalué sur cinq jeux de données multimodaux couvrant deux tâches distinctes : la prédiction de trajectoires humaines et la prévision de manipulations robotiques. Sur l'ensemble de ces benchmarks, il surpasse les approches de fusion multimodale précédemment publiées, selon les métriques rapportées par les auteurs. Ce travail s'attaque à un verrou réel du déploiement robotique : les modèles multimodaux existants supposent quasi-universellement que toutes les modalités (vision, profondeur, proprioception, LiDAR, etc.) sont disponibles simultanément, une hypothèse rarement vérifiée en production. Une caméra obstruée, un capteur de force défaillant ou une latence réseau suffit à faire chuter les performances d'un pipeline classique. En formulant le problème comme un apprentissage conditionnel plutôt qu'une fusion rigide, les auteurs permettent au modèle d'approximer une représentation robuste à partir de l'information partielle disponible, ce qui ouvre la voie à des architectures tolérantes aux pannes sans recourir à des modules de gestion d'exception ad hoc. Pour un intégrateur ou un COO industriel, c'est la promesse de systèmes plus résilients face aux aléas terrain, à condition que les gains en conditions réelles confirment les résultats sur benchmarks. Le problème de la modalité manquante est connu en apprentissage automatique depuis les travaux sur les données tabulaires incomplètes, mais son traitement dans le contexte des robots physiques est resté marginal, la majorité des efforts récents se concentrant sur les architectures VLA (Vision-Language-Action) comme Pi-0 ou GR00T N2, qui présupposent des flux visuels stables. Ce papier s'inscrit dans un courant de recherche plus discret mais potentiellement structurant, aux côtés de travaux sur la robustesse sensorielle et le sim-to-real transfer. L'article est un preprint arXiv non encore évalué par les pairs, et les benchmarks retenus (trajectoires humaines, manipulation) ne couvrent pas des scénarios industriels complexes comme la navigation en entrepôt ou l'assemblage multi-bras. Les prochaines étapes naturelles seraient une validation sur des plateformes physiques réelles et une comparaison avec des approches de type dropout multimodal ou récents travaux sur l'imputation par diffusion.

RecherchePaper
1 source
Fusion multimodale pour le transfert simulation-réel en apprentissage par renforcement visuel
2arXiv cs.RO 

Fusion multimodale pour le transfert simulation-réel en apprentissage par renforcement visuel

Une équipe de recherche a soumis sur arXiv (identifiant 2507.09180, actuellement à la version 4) une architecture de fusion multimodale pour améliorer le transfert sim-to-real en apprentissage par renforcement visuel appliqué à la manipulation robotique. L'approche combine deux flux d'entrée, RGB et profondeur (depth), traités en parallèle par des réseaux convolutifs séparés (CNN stems), dont les représentations fusionnées sont transmises à un vision transformer (ViT) scalable. L'information de profondeur, naturellement robuste aux variations d'apparence de scène, fournit des détails spatiaux 3D absents des images RGB seules. Le pipeline intègre un schéma d'apprentissage contrastif à tokens masqués et non masqués pour améliorer l'efficacité d'échantillonnage, combiné à une randomisation de domaine progressive (curriculum-based domain randomization) pour stabiliser l'entraînement. En simulation, la méthode surpasse les baselines comparées. La validation clé se fait en transfert zéro-shot : sans ré-entraînement sur données réelles, le modèle réalise des tâches de manipulation physique. Le sim-to-real gap reste l'obstacle central en robotique d'apprentissage : les politiques entraînées en simulation échouent fréquemment face à la variabilité visuelle du monde réel. La fusion RGB + depth attaque directement ce problème en réduisant la dépendance aux indices visuels fragiles comme l'éclairage ou les textures. L'apprentissage contrastif à tokens partiels suggère une meilleure invariance aux perturbations apparentes sans nécessiter de volumes massifs de données réelles. Pour les intégrateurs industriels et les équipes de développement en manipulation, le transfert zéro-shot validé expérimentalement est un signal concret : la politique capture des abstractions géométriques suffisamment générales pour opérer hors simulation, ce qui est précisément la promesse que le secteur cherche à tenir depuis des années. Ce travail s'inscrit dans une compétition de représentations visuelles pour la robotique qui inclut la randomisation de domaine agressive popularisée par OpenAI dès 2017, les encodeurs préentraînés par masquage (MAE, R3M, DINOv2), et les politiques vision-langage-action (VLA) comme pi0 de Physical Intelligence ou OpenVLA. L'originalité revendiquée est la fusion RGB + depth au niveau du transformer plutôt qu'en aval, couplée au curriculum adaptatif. Le passage à la version 4 sur arXiv signale un travail en révision active, probablement vers une conférence type ICRA ou IROS. Les prochaines étapes attendues incluent une validation sur benchmarks standardisés (RLBench, MetaWorld) et des tests sur plateformes physiques plus complexes.

RecherchePaper
1 source
Alignement des représentations maître-élève pour l'apprentissage par imitation guidé par renforcement
3arXiv cs.RO 

Alignement des représentations maître-élève pour l'apprentissage par imitation guidé par renforcement

Des chercheurs ont publié sur arXiv (2605.28372) un algorithme visant à réduire structurellement l'imitation gap dans les pipelines d'apprentissage par imitation (IL) guidés par reinforcement learning (RL). Ce fossé apparaît lorsqu'un agent teacher, entraîné par RL avec un accès complet à l'état interne de l'environnement (positions exactes, dynamiques simulées complètes), développe une politique qui exploite des informations d'état privilégiées inaccessibles à l'agent student, contraint lui à des observations partielles comme des flux caméra ou des capteurs bruités. La solution proposée construit un espace d'embedding partagé via apprentissage contrastif auto-supervisé (self-supervised contrastive learning), entraîné en parallèle à la politique teacher. Un mécanisme de blocage des gradients empêche l'encodeur de l'agent enseignant d'exploiter ses données privées, rendant la politique teacher imitable par construction et évitant le fine-tuning RL post-imitation habituellement requis. Pour la robotique industrielle, l'enjeu est concret : le pipeline sim-to-real souffre précisément de ce décalage entre un teacher simulé omniscient et un robot réel contraint à ses capteurs physiques. Forcer un fine-tuning RL sur le hardware après la phase d'imitation représente un coût significatif en calcul, en temps machine et en ingénierie. L'approche proposée vise à supprimer cette étape en alignant les représentations à la source. Les évaluations sur plusieurs benchmarks montrent une performance student supérieure aux baselines état-de-l'art avec un imitation gap substantiellement réduit. Ces résultats restent cependant produits exclusivement en simulation, ce qui en limite la portée directe pour des déploiements industriels immédiats. L'approche teacher-student en RL est un paradigme établi depuis DAgger (Ross et al., 2011) et les travaux d'Asymmetric Actor-Critic, où l'imitation gap était traditionnellement corrigé en aval par du fine-tuning plutôt qu'en amont par un alignement des représentations. La tendance actuelle aux architectures Visual Language Action (VLA), comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, aborde ce problème différemment via des modèles de fondation multimodaux qui absorbent directement des observations hétérogènes. Ce preprint, sans affiliation industrielle identifiée ni validation sur hardware réel déclarée, propose une correction structurelle au paradigme classique et ouvre la voie à une validation sur manipulateurs physiques comme prochaine étape naturelle.

RecherchePaper
1 source
Planification du mouvement multi-robots par modèle de diffusion guidé par apprentissage par renforcement multi-agents
4arXiv cs.RO 

Planification du mouvement multi-robots par modèle de diffusion guidé par apprentissage par renforcement multi-agents

Une équipe de chercheurs propose, dans un préprint arXiv (2606.00933) publié début juin 2026, un cadre de planification de trajectoires pour flottes de robots mobiles combinant modèles de diffusion génératifs et apprentissage par renforcement multi-agents (MARL). Concrètement, chaque robot génère indépendamment des trajectoires candidates via un modèle de diffusion entraîné sur des données mono-agent, puis une fonction de valeur centralisée, apprise par MARL, oriente le processus de débruitage par gradient pour réduire les conflits entre agents. Ce mécanisme dit d'"exponential tilting" pousse la distribution de débruitage vers les trajectoires associées au meilleur retour collectif attendu. Évalué en simulation sur un labyrinthe avec quatre robots mobiles, le système réduit le taux d'interférence inter-agents de 55,4 % à 41,8 %, sans nécessiter de ré-entraînement du modèle génératif ni de planification jointe centralisée. Ce résultat attaque directement le compromis historique entre planification centralisée (précise mais peu scalable à mesure que la flotte grossit) et planification décentralisée (scalable mais aveugle aux autres agents). Le fait que la coordination soit injectée via un signal de guidage externe sans modifier le planificateur diffusion de base ouvre la voie à des architectures modulaires : on entraîne une fois le modèle de trajectoire mono-agent, puis on greffe la coordination selon l'environnement de déploiement. Pour les intégrateurs de systèmes multi-robots en entrepôt ou en manufacture, cela suggère qu'un découplage entre planification locale et coordination globale est techniquement praticable, ce qui simplifierait la mise à l'échelle des flottes hétérogènes sans refonte complète du pipeline. Le domaine est depuis longtemps dominé par des méthodes à base de graphes comme CBS (Conflict-Based Search) ou des approches réactives décentralisées comme ORCA, avec des tentatives d'apprentissage profond restées limitées en conditions réelles. L'application des modèles de diffusion à la génération de trajectoires robotiques constitue un courant émergent, illustré notamment par Diffusion Policy (Chi et al., 2023) en manipulation, mais rarement couplé au MARL pour la coordination de flotte. Ce travail reste pour l'instant une preuve de concept en simulation sur quatre robots dans un environnement simple, et la généralisation à des scènes dynamiques, à des flottes plus larges ou à des robots hétérogènes demeure un défi non adressé. Les prochaines étapes naturelles incluent la validation sur hardware réel et la confrontation aux benchmarks de référence du MAPF (Multi-Agent Path Finding).

RecherchePaper
1 source