Aller au contenu principal
RoboManipBaselines : un cadre unifié d'apprentissage par imitation pour la manipulation robotique en environnements réels et simulés
RecherchearXiv cs.RO3h

RoboManipBaselines : un cadre unifié d'apprentissage par imitation pour la manipulation robotique en environnements réels et simulés

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs de l'ISRI-AIST, le laboratoire national de recherche industrielle japonais, ont publié RoboManipBaselines, un framework open-source unifié pour l'apprentissage par imitation appliqué à la manipulation robotique. Disponible sur GitHub et accompagné d'une page projet dédiée, ce cadre couvre l'intégralité du pipeline d'imitation learning : collecte de données, entraînement de politiques et exécution en rollout, aussi bien en simulation que sur robots réels. Concrètement, il supporte plusieurs simulateurs et environnements physiques via une interface unifiée, intègre des capteurs multimodaux (dont tactiles et capteurs 3D), et propose une bibliothèque de modèles de politiques variés. Les évaluations publiées s'appuient sur des datasets publics, ce qui est explicitement conçu pour garantir la reproductibilité des résultats. Plusieurs applications de recherche sont démontrées : augmentation de données, intégration de modèles tactiles, systèmes robotiques interactifs, évaluation de la perception 3D, et extensions matérielles.

Ce framework répond à un problème structurel de la recherche en manipulation robotique : l'absence de benchmarks standardisés reproductibles, qui rend la comparaison entre approches quasi impossible et ralentit les transferts vers l'industrie. En proposant un pipeline cohérent du sim au réel, RoboManipBaselines facilite l'évaluation du sim-to-real gap, l'un des verrous critiques avant tout déploiement industriel. Pour un intégrateur ou un ingénieur robotique, l'extensibilité annoncée (ajout de nouveaux robots, tâches et politiques) réduit le coût d'entrée pour tester des architectures de type VLA (Vision-Language-Action) sur des configurations matérielles propres. C'est aussi un outil de validation expérimentale qui peut accélérer la qualification de politiques avant passage en production.

L'imitation learning pour la manipulation connaît une effervescence depuis 2023-2024, portée par des modèles comme pi0 (Physical Intelligence), OpenVLA, ou encore les travaux de Stanford et Berkeley. Dans cet écosystème, plusieurs frameworks concurrents existent déjà, notamment LeRobot de HuggingFace, RoboSuite (Stanford), ou MimicGen. RoboManipBaselines se distingue par son accent explicite sur la reproductibilité via datasets publics et son ancrage dans un laboratoire national disposant de plateformes matérielles réelles. L'AIST, acteur historique de la robotique japonaise (humanoïde HRP inclus), apporte une crédibilité expérimentale que les frameworks purement académiques n'ont pas toujours. La prochaine étape naturelle serait une adoption par des équipes industrielles pour valider des politiques sur des tâches d'assemblage ou de picking en conditions non contrôlées.

À lire aussi

Apprentissage d'une variété d'actions par priors latents multi-vues pour la manipulation robotique
1arXiv cs.RO 

Apprentissage d'une variété d'actions par priors latents multi-vues pour la manipulation robotique

Une équipe de chercheurs publie sur arXiv (preprint 2605.11832, mai 2026) une méthode adressant deux limites structurelles des modèles Vision-Language-Action (VLA) appliqués à la manipulation robotique : l'ambiguïté de profondeur issue des capteurs monoculaires, et l'inefficacité de l'apprentissage d'actions par régression classique. La première contribution, le G3T (Geometry-Guided Gated Transformer), exploite un modèle de diffusion multi-vues pré-entraîné pour synthétiser des représentations latentes de nouvelles perspectives, alignées sous contrainte géométrique 3D, avec filtrage adaptatif du bruit d'occlusion. La seconde, l'Action Manifold Learning (AML), remplace la régression sur des cibles non structurées, bruit ou champ de vitesse, approches dominantes depuis Diffusion Policy (2023), par une prédiction directe sur la variété des actions valides. Testée sur les benchmarks LIBERO et RoboTwin 2.0, ainsi que sur des tâches en robot réel, la méthode affiche des taux de succès supérieurs aux baselines état de l'art actuelles. L'enjeu est précis : la quasi-totalité des déploiements industriels de manipulateurs n'embarquent qu'une caméra RGB, sans LiDAR ni stéréovision. Sans profondeur fiable, les VLA peinent à estimer distances et tailles relatives, ce qui dégrade directement la précision de préhension en conditions réelles. Le G3T propose de contourner ce manque sans ajout matériel, maintenant les contraintes hardware à un niveau réaliste pour l'intégration. L'AML, de son côté, questionne un paradigme issu des travaux sur la diffusion en robotique : prédire directement sur la variété d'actions valides pourrait réduire la variance d'entraînement et accélérer la convergence. Les résultats semblent valider l'hypothèse, bien qu'un preprint reste à soumettre à peer-review pour être pleinement crédité, les métriques annoncées sont issues des propres expériences des auteurs, sans reproductions indépendantes publiées à ce stade. Ce travail s'inscrit dans la course aux VLA généralistes ouverte par RT-2 (Google DeepMind, 2023), avec pour concurrents directs OpenVLA (UC Berkeley), π0 de Physical Intelligence et GR00T N2 de NVIDIA. RoboTwin 2.0, l'un des benchmarks retenus, cible spécifiquement la manipulation bi-manuelle de précision, parmi les scénarios les plus exigeants du domaine. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans le preprint ; l'impact concret dépendra des reproductions indépendantes et d'une éventuelle intégration dans des frameworks ouverts comme LeRobot (Hugging Face). Le code et la page projet sont annoncés disponibles publiquement.

RechercheOpinion
1 source
NavRL++ : un cadre système pour améliorer le transfert simulation-réel dans la navigation robotique par apprentissage par renforcement
2arXiv cs.RO 

NavRL++ : un cadre système pour améliorer le transfert simulation-réel dans la navigation robotique par apprentissage par renforcement

Une équipe de chercheurs a publié NavRL++, un cadre de navigation autonome par apprentissage par renforcement (RL) conçu spécifiquement pour réduire l'écart entre simulation et déploiement réel. Présenté sur arXiv (2605.15559), le système propose à la fois un nouveau pipeline d'entraînement et de déploiement et une étude empirique systématique qui isole les facteurs dégradant les performances en conditions réelles : bruit de capteurs, échecs de perception, latence système et réponse du contrôleur. Les auteurs ont validé leur approche sur plusieurs plateformes physiques, dont des robots aériens et quadrupèdes, sur des tâches de navigation comme l'exploration et l'inspection, en obtenant un transfert zéro-shot depuis la simulation. Le problème que NavRL++ cherche à résoudre est structurel : la quasi-totalité des travaux récents en navigation par RL se concentre sur la conception du framework d'apprentissage (représentations d'entrée, espaces d'actions, fonctions de récompense), sans analyser rigoureusement pourquoi les politiques entraînées en sim échouent en réel. NavRL++ répond à cela avec deux contributions techniques. La première est le perturbation-aware fine-tuning, une stratégie post-entraînement qui injecte explicitement les perturbations identifiées lors de l'étude empirique pour rendre la politique plus robuste. La seconde est une politique à raisonnement temporel basée sur un Transformer, qui exploite une fenêtre d'observation courte pour lisser le contrôle et compenser la dégradation perceptuelle typique du monde réel. Les résultats quantitatifs montrent des performances supérieures aux baselines RL dans des environnements statiques et dynamiques, et comparables aux planificateurs classiques à optimisation en contexte statique. Le défi du sim-to-real reste l'un des verrous majeurs à la commercialisation de la navigation autonome par RL, notamment pour les robots mobiles en environnements industriels non structurés. La plupart des approches existantes, comme les travaux issus de Berkeley (BADGR, RECON) ou les pipelines de navigation d'Agility Robotics et Boston Dynamics, contournent partiellement le problème via de la simulation photo-réaliste ou du domain randomization intensif. NavRL++ adopte une approche complémentaire : diagnostiquer empiriquement les sources d'écart plutôt que de les masquer. La prochaine étape naturelle sera de tester cette méthodologie sur des flottes de robots en déploiement continu, notamment dans des scénarios entrepôt ou inspection d'infrastructures où la latence et la fiabilité des capteurs sont des contraintes opérationnelles dures.

RecherchePaper
1 source
SR-Platform : un pipeline à base d'agents pour la synthèse d'environnements de simulation robotique en langage naturel
3arXiv cs.RO 

SR-Platform : un pipeline à base d'agents pour la synthèse d'environnements de simulation robotique en langage naturel

SR-Platform est un pipeline agentique, publié en preprint arXiv (2605.14700) en mai 2026, qui convertit des descriptions en langage naturel en environnements de simulation MuJoCo exécutables et physiquement valides. Le système décompose la génération de scènes en quatre étapes : un orchestrateur LLM qui structure l'intention utilisateur en plan de scène ; un "asset forge" qui récupère des géométries en cache ou en génère de nouvelles via synthèse LLM-CadQuery ; un "layout architect" qui assigne les poses des objets et vérifie les contraintes spatiales ; et une couche bridge qui assemble le fichier MJCF final en intégrant le modèle de robot cible. Déployé comme stack Docker à neuf services (MinIO pour les meshes, Qdrant pour la récupération sémantique d'assets, Redis pour l'état des jobs, InfluxDB pour la télémétrie), SR-Platform affiche une latence médiane d'environ 50 secondes pour des scènes à cinq objets, tombant à 30-40 secondes avec cache d'assets actif, sur une base de 611 appels LLM réussis en 30 jours de production. Le taux de retry de l'asset forge atteint 11,3 %, avec récupération automatique. Construire manuellement une scène MuJoCo prête à l'entraînement exige une expertise croisée en modélisation 3D, spécification MJCF, gestion des collisions et intégration robot, un processus qui représente typiquement plusieurs heures par scène. Ramener cette étape à moins d'une minute via une invite en langage naturel est un levier direct pour produire des environnements d'entraînement plus variés, facteur clé de la généralisation sim-to-real des politiques robotiques. Pour les équipes de robot learning, cette friction de configuration est réelle et souvent sous-estimée dans les pipelines de données synthétiques. Les métriques publiées portent cependant sur des scènes limitées à cinq objets dans un cadre contrôlé, et la robustesse du pipeline sur des configurations plus complexes ou des descriptions ambiguës reste à démontrer. La génération automatisée d'environnements de simulation est un goulot d'étranglement reconnu dans les pipelines de robot learning, que ce soit pour le reinforcement learning, l'imitation learning ou l'entraînement de modèles vision-langage-action (VLA). MuJoCo, maintenu par DeepMind, est le moteur physique de référence pour ces travaux. NVIDIA Isaac Lab et le framework open-source Genesis couvrent également cet espace ; Physical Intelligence (pi.ai) mise de son côté sur des pipelines d'entraînement à très large échelle. SR-Platform se positionne en amont, sur la génération de scènes plutôt que de politiques, avec un accent sur l'accessibilité via le langage naturel. Son code source n'est pas publié en open-source et le contexte précis du déploiement qualifié de "production" n'est pas explicité dans le preprint.

RecherchePaper
1 source
Apprentissage par imitation 3D pour la robotique par imagination latente asymétrique et reclassement
4arXiv cs.RO 

Apprentissage par imitation 3D pour la robotique par imagination latente asymétrique et reclassement

Des chercheurs ont déposé en mai 2026 sur arXiv (identifiant 2605.10166) une proposition intitulée DALI-R, pour Data-Asymmetric Latent Imagination and Reranking, un cadre d'apprentissage par imitation robotique conçu pour exploiter des trajectoires de données mixtes plutôt que des démonstrations exclusivement optimales. Le système repose sur deux composants distincts : un Latent World Model entraîné sur des nuages de points 3D qui génère des rollouts imaginés à partir de trajectoires sous-optimales ou échouées, et un Task Completion Scorer qui reclasse des chunks d'actions candidates pour améliorer la prise de décision sans nécessiter de données supplémentaires de haute qualité. Évalué sur les benchmarks de manipulation Adroit et MetaWorld, DALI-R produit une amélioration moyenne de 6,8 % du taux de succès sur deux familles de politiques 3D de base, diffusion et flow-matching, avec un surcoût d'inférence inférieur à 0,7x par rapport aux politiques de référence. L'enjeu opérationnel est concret : collecter des démonstrations robotiques de haute qualité reste coûteux, chronophage et difficilement scalable en environnement industriel réel. Toute méthode permettant de recycler des trajectoires imparfaites ou échouées réduit mécaniquement la barrière à l'entrée pour entraîner des politiques performantes. Le gain de 6,8 % est modeste mais obtenu sans démonstrations supplémentaires, ce qui est précisément la contrainte dominante en déploiement. Il convient toutefois de noter que ces résultats restent cantonnés à des benchmarks de simulation standardisés ; l'article n'aborde pas le sim-to-real gap, et aucune validation sur hardware physique n'est présentée. Ce travail s'inscrit dans la vague des politiques de manipulation 3D initiée autour de 2023-2024 avec DP3, Diffusion Policy et ACT, qui ont déplacé le problème de l'architecture vers celui de la qualité et du volume des données. La question de l'apprentissage depuis des données sous-optimales est également au coeur des travaux de Physical Intelligence (pi0), de CMU et de Stanford sur l'imitation offline. La prochaine étape crédible pour DALI-R serait une validation sur des plateformes hardware réelles et des tâches industrielles représentatives, encore absente de ce preprint.

RecherchePaper
1 source