Aller au contenu principal
ExpertGen : apprentissage de politiques expertes par transfert simulation-réel à partir de comportements imparfaits
RecherchearXiv cs.RO6sem

ExpertGen : apprentissage de politiques expertes par transfert simulation-réel à partir de comportements imparfaits

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

ExpertGen est un framework de recherche publié sur arXiv (2603.15956) qui automatise l'apprentissage de politiques de manipulation robotique en simulation pour en faciliter le transfert vers du matériel réel. Le système initialise une politique de diffusion à partir de démonstrations imparfaites, générées par un grand modèle de langage ou fournies manuellement, puis applique du renforcement pour l'affiner sans jamais modifier les poids du modèle préentraîné. L'optimisation porte uniquement sur le bruit initial de la diffusion, ce qui maintient l'exploration dans des trajectoires cohérentes avec le comportement humain, même avec des récompenses binaires éparses. Sur les benchmarks publiés, ExpertGen atteint 90,5 % de succès sur des tâches d'assemblage industriel et 85 % sur des tâches de manipulation à long horizon, surpassant toutes les méthodes de référence testées. Le transfert sim-to-réel est validé par distillation DAgger : les politiques d'état apprises en simulation sont converties en politiques visuomotrices et déployées sur du matériel robotique physique.

Ce résultat s'attaque directement au principal goulot d'étranglement du robot learning industriel : la collecte de données de qualité. La téléopération à grande échelle est coûteuse, lente et ne se généralise pas. ExpertGen propose une alternative crédible en utilisant des démonstrations imparfaites, y compris synthétiques, comme amorce, puis en laissant le renforcement corriger l'écart de qualité en simulation. Le fait de geler la politique de diffusion est une décision architecturale clé : elle évite le mode collapse typique du fine-tuning RL sur des politiques expressives, tout en permettant la convergence sans reward engineering manuel. Pour les intégrateurs industriels, c'est un signal concret que le sim-to-real gap sur des tâches d'assemblage n'est pas insurmontable, à condition de disposer d'un simulateur suffisamment fidèle.

Ce travail s'inscrit dans la vague des politiques de diffusion pour la robotique, initiée par Diffusion Policy (Chi et al., 2023, Columbia University) et prolongée par des systèmes comme pi-zero de Physical Intelligence ou les politiques dextères développées chez Google DeepMind et NVIDIA avec GR00T N2. ExpertGen reste pour l'instant un résultat académique : les métriques de succès sont issues de benchmarks de simulation contrôlés, et le déploiement réel mentionné dans le papier est préliminaire. Aucune timeline commerciale ni partenaire industriel ne sont annoncés. Les prochaines étapes logiques incluent des tests de robustesse à des variations de capteurs et d'environnement plus sévères, ainsi qu'une intégration éventuelle avec des politiques de fondation multimodales pour généraliser au-delà des tâches d'assemblage structurées.

À lire aussi

Quand le transfert simulation-réel nuit à l'apprentissage des politiques de contrôle, et comment y remédier
1arXiv cs.RO 

Quand le transfert simulation-réel nuit à l'apprentissage des politiques de contrôle, et comment y remédier

Une équipe de chercheurs publie sur arXiv (référence 2606.02636) un article qui remet en question une hypothèse centrale de la robotique moderne : l'idée que maximiser les efforts de transfert simulation-vers-réel (sim2real) améliore systématiquement l'apprentissage de politiques de contrôle. Leur diagnostic identifie deux effets négatifs concrets : un phénomène de "simulator lock-in", où les politiques restent prisonnières des hypothèses du simulateur, et une exploration appauvrie pendant l'entraînement, résultat des contraintes imposées prématurément par la compatibilité hardware. L'enjeu pour la communauté robotique est direct. Si la thèse tient, cela signifie que des pans entiers de la recherche sim2real ont optimisé le mauvais objectif : en voulant rapprocher la simulation du monde réel dès l'entraînement, on sacrifie la liberté d'exploration que la simulation est précisément supposée offrir. Cela concerne en priorité les équipes développant des politiques pour humanoïdes et les architectures Vision-Language-Action (VLA), où la qualité et la diversité des données de simulation sont déterminantes pour généraliser en déploiement réel. En réponse, les auteurs proposent un paradigme en deux étapes qu'ils appellent sim2sim2real : une première simulation sans contraintes réelles maximise l'exploration des comportements, puis un second transfert vers une simulation contrainte par la cinématique du robot prépare le passage au hardware. La seule limite imposée dès le départ est donc géométrique, pas physique. Cette approche s'inscrit dans la lignée du domain randomization et du curriculum learning, mais formalise explicitement la séparation des objectifs d'exploration et de transfert. À ce stade, l'article est un preprint sans validation expérimentale publiée.

RecherchePaper
1 source
Fusion multimodale pour le transfert simulation-réel en apprentissage par renforcement visuel
2arXiv cs.RO 

Fusion multimodale pour le transfert simulation-réel en apprentissage par renforcement visuel

Une équipe de recherche a soumis sur arXiv (identifiant 2507.09180, actuellement à la version 4) une architecture de fusion multimodale pour améliorer le transfert sim-to-real en apprentissage par renforcement visuel appliqué à la manipulation robotique. L'approche combine deux flux d'entrée, RGB et profondeur (depth), traités en parallèle par des réseaux convolutifs séparés (CNN stems), dont les représentations fusionnées sont transmises à un vision transformer (ViT) scalable. L'information de profondeur, naturellement robuste aux variations d'apparence de scène, fournit des détails spatiaux 3D absents des images RGB seules. Le pipeline intègre un schéma d'apprentissage contrastif à tokens masqués et non masqués pour améliorer l'efficacité d'échantillonnage, combiné à une randomisation de domaine progressive (curriculum-based domain randomization) pour stabiliser l'entraînement. En simulation, la méthode surpasse les baselines comparées. La validation clé se fait en transfert zéro-shot : sans ré-entraînement sur données réelles, le modèle réalise des tâches de manipulation physique. Le sim-to-real gap reste l'obstacle central en robotique d'apprentissage : les politiques entraînées en simulation échouent fréquemment face à la variabilité visuelle du monde réel. La fusion RGB + depth attaque directement ce problème en réduisant la dépendance aux indices visuels fragiles comme l'éclairage ou les textures. L'apprentissage contrastif à tokens partiels suggère une meilleure invariance aux perturbations apparentes sans nécessiter de volumes massifs de données réelles. Pour les intégrateurs industriels et les équipes de développement en manipulation, le transfert zéro-shot validé expérimentalement est un signal concret : la politique capture des abstractions géométriques suffisamment générales pour opérer hors simulation, ce qui est précisément la promesse que le secteur cherche à tenir depuis des années. Ce travail s'inscrit dans une compétition de représentations visuelles pour la robotique qui inclut la randomisation de domaine agressive popularisée par OpenAI dès 2017, les encodeurs préentraînés par masquage (MAE, R3M, DINOv2), et les politiques vision-langage-action (VLA) comme pi0 de Physical Intelligence ou OpenVLA. L'originalité revendiquée est la fusion RGB + depth au niveau du transformer plutôt qu'en aval, couplée au curriculum adaptatif. Le passage à la version 4 sur arXiv signale un travail en révision active, probablement vers une conférence type ICRA ou IROS. Les prochaines étapes attendues incluent une validation sur benchmarks standardisés (RLBench, MetaWorld) et des tests sur plateformes physiques plus complexes.

RecherchePaper
1 source
Génération automatique d'arbres de comportement par VLM pour le transfert réel-vers-simulation via perception active
3arXiv cs.RO 

Génération automatique d'arbres de comportement par VLM pour le transfert réel-vers-simulation via perception active

Une équipe de chercheurs propose dans un article arXiv (2601.08454) un pipeline Real2Sim piloté par l'intention, qui automatise la construction d'environnements de simulation physiquement précis à partir d'une instruction en langage naturel. Un modèle vision-langage (VLM) analyse une observation visuelle et une description de simulation incomplète pour identifier le sous-ensemble minimal de paramètres physiques manquants (masse des objets, géométrie de surface, friction), puis génère automatiquement un arbre de comportement (Behavior Tree, BT) composé de primitives motrices et sensorielles atomiques pour les acquérir par interaction physique avec l'environnement. Les expériences ont été conduites sur un bras Franka Emika Panda à contrôle en couple (7 DOF), manipulateur standard en recherche robotique. Les résultats indiquent des gains d'efficacité opérationnelle significatifs par rapport aux méthodes d'exploration exhaustive, validés par des études d'ablation sur plusieurs VLMs de référence, mais les chiffres précis de performance ne sont pas fournis dans l'abstract, ce qui limite la comparabilité externe. L'apport principal est le remplacement de pipelines d'identification système manuels par une stratégie sémantique : au lieu d'explorer exhaustivement l'environnement, le système ne collecte que les données pertinentes pour la tâche demandée, réduisant les interactions redondantes. Pour les équipes travaillant sur des jumeaux numériques industriels, cela représente un gain potentiel en temps de calibration avant déploiement. Le BT joue également un rôle de filtre de sécurité déterministe : sa hiérarchie réactive intercepte les hallucinations du VLM et prévient les anomalies physiques dangereuses, ce qui est non-négligeable pour une application en conditions réelles. Cette combinaison, intelligence sémantique du VLM associée à la robustesse déterministe du BT, constitue l'aspect architectural le plus notable du travail. La construction de simulations fidèles au réel est un verrou classique du déploiement robotique : un jumeau numérique mal calibré amplifie le sim-to-real gap qui dégrade les politiques apprises en simulation, problème central pour les VLA (Vision-Language-Action) actuels. Côté concurrence, Physical Intelligence (pi0), Google DeepMind (successeurs de RT-2) et des projets open-source comme LeRobot de Hugging Face investissent tous dans des pipelines sim-to-real plus robustes. L'utilisation des BT comme couche d'interprétabilité face aux modèles génératifs s'inscrit dans une tendance plus large visant à rendre les LLM/VLM compatibles avec des contraintes de sécurité industrielle. Les prochaines étapes logiques seraient d'étendre le pipeline à des robots mobiles ou des plateformes humanoïdes, et de publier des benchmarks complets permettant une comparaison rigoureuse avec les méthodes d'identification système existantes.

RecherchePaper
1 source
Apprentissage par renforcement en boucle fermée pour le contrôle de forme de microfibres déformables par transfert simulation-réel
4arXiv cs.RO 

Apprentissage par renforcement en boucle fermée pour le contrôle de forme de microfibres déformables par transfert simulation-réel

Des chercheurs ont publié sur arXiv (référence 2605.21688) une approche d'apprentissage par renforcement sim-to-real en boucle fermée pour le contrôle de forme de microfibres déformables. Le système cible la micromanipulation de contact, en l'occurrence des microfibres de soie de 50, 80 et 120 µm de diamètre, sur des longueurs manipulées de 10, 15 et 20 mm. La politique de contrôle est entraînée exclusivement dans un simulateur sans frottement, puis transférée directement vers un système physique à double préhenseur tournant à 40 Hz, sans réentraînement ni adaptation de domaine. Sur 24 configurations initiales variées et 9 spécimens couvrant toutes les combinaisons de diamètres et de longueurs, le système atteint une erreur moyenne de forme de 270 ± 80 µm, soit systématiquement sous le millimètre. Ce résultat est significatif parce qu'il démontre que le problème du sim-to-real gap n'exige pas forcément une modélisation fine des interactions de surface à l'échelle microscopique. Le tour de force consiste à ne pas chercher à éliminer le mismatch entre simulation et réalité, mais à le rendre observable et corrigeable via le retour visuel en temps réel. Pour les intégrateurs travaillant sur la microassemblage, le placement de composants biologiques, ou la manipulation de fibres dans des procédés textiles ou médicaux, cela ouvre la voie à des systèmes qui généraliseraient à de nouveaux matériaux sans recalibration systématique. La robustesse démontrée sur des spécimens de géométries variées, sans réglage par spécimen, constitue un signal concret que le pipeline est viable au-delà du cadre lab. La micromanipulation robotique basée sur la vision souffre depuis longtemps d'un manque de méthodes capables de gérer les forces capillaires, adhésives et de frottement à l'échelle sub-millimétrique, que les simulateurs classiques ignorent. Les approches dominantes s'appuyaient sur des modèles physiques analytiques ou du domain randomization intensif, deux stratégies coûteuses à paramétrer. Ce travail positionne l'apprentissage par renforcement avec retour visuel comme une alternative compétitive, potentiellement transférable à d'autres objets déformables (cathéters, fils chirurgicaux, câbles fins). Les prochaines étapes probables incluent la validation sur des matériaux non-soyeux, l'extension à des fibres plus courtes ou plus rigides, et l'intégration dans des pipelines de microassemblage multi-étapes.

RecherchePaper
1 source