
R2RGEN : génération de données 3D réel-vers-réel pour une manipulation spatialement généralisée
Une équipe de chercheurs propose R2RGen, un cadre de génération de données pour l'apprentissage par imitation en manipulation robotique, publié sur arXiv (identifiant 2510.08547, version 2). Le principe : à partir d'un nombre minimal de démonstrations humaines réelles, le système génère automatiquement un grand volume de données d'entraînement spatialement diversifiées, sans jamais recourir à un simulateur. R2RGen traite les observations sous forme de nuages de points (pointcloud) et augmente les paires observation-action directement dans l'espace 3D réel. Le pipeline repose sur trois étapes : un module de parsing de scène et de trajectoire unifie les démonstrations issues de différentes configurations de caméras dans un espace 3D partagé ; une stratégie de backtracking par groupe augmente ensuite la position des objets et du robot lui-même ; enfin, un post-traitement adaptatif à la caméra aligne les données générées sur la distribution réelle des capteurs 3D. Le cadre est compatible avec les robots mobiles, ce qui le distingue des approches existantes, limitées aux bras fixes et à des angles de prise de vue prédéfinis.
Ce résultat s'attaque à l'un des goulots d'étranglement les plus persistants de la robotique apprenante : le fossé sim-to-real. La plupart des pipelines de génération de données actuels passent par des moteurs physiques ou des rendus synthétiques, introduisant des artefacts visuels et des dynamiques inexactes qui dégradent les performances une fois transférés sur robot réel. R2RGen court-circuite entièrement cette chaîne en restant dans le domaine réel du début à la fin. En pratique, cela se traduit par une meilleure efficacité de la donnée sur l'ensemble des expériences rapportées, y compris sur des scénarios de manipulation mobile. Pour les équipes développant des politiques visuomotrices par imitation, cela signifie moins de démonstrations humaines nécessaires pour atteindre une généralisation spatiale robuste, c'est-à-dire la capacité du robot à opérer correctement quelle que soit la configuration relative des objets, de l'environnement ou de l'agent.
La généralisation spatiale est le prérequis reconnu à toute manipulation robotique à usage général. Les travaux antérieurs, dans le sillage de RT-X et des pipelines sim-to-real basés sur Isaac Gym ou MuJoCo, avaient montré des gains mais restaient contraints à des bras fixes et à des angles de caméra prédéfinis. R2RGen se positionne comme une alternative plug-and-play sans infrastructure de simulation, abaissant la barrière d'entrée pour les laboratoires ou les équipes industrielles n'ayant pas accès à des environnements simulés robustes. La publication reste à ce stade une contribution académique sans déploiement industriel annoncé ; les auteurs indiquent comme prochaine étape naturelle la validation du passage à l'échelle sur des flottes de robots mobiles en environnement ouvert.
Dans nos dossiers




