Aller au contenu principal
R2RGEN : génération de données 3D réel-vers-réel pour une manipulation spatialement généralisée
RecherchearXiv cs.RO6sem

R2RGEN : génération de données 3D réel-vers-réel pour une manipulation spatialement généralisée

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs propose R2RGen, un cadre de génération de données pour l'apprentissage par imitation en manipulation robotique, publié sur arXiv (identifiant 2510.08547, version 2). Le principe : à partir d'un nombre minimal de démonstrations humaines réelles, le système génère automatiquement un grand volume de données d'entraînement spatialement diversifiées, sans jamais recourir à un simulateur. R2RGen traite les observations sous forme de nuages de points (pointcloud) et augmente les paires observation-action directement dans l'espace 3D réel. Le pipeline repose sur trois étapes : un module de parsing de scène et de trajectoire unifie les démonstrations issues de différentes configurations de caméras dans un espace 3D partagé ; une stratégie de backtracking par groupe augmente ensuite la position des objets et du robot lui-même ; enfin, un post-traitement adaptatif à la caméra aligne les données générées sur la distribution réelle des capteurs 3D. Le cadre est compatible avec les robots mobiles, ce qui le distingue des approches existantes, limitées aux bras fixes et à des angles de prise de vue prédéfinis.

Ce résultat s'attaque à l'un des goulots d'étranglement les plus persistants de la robotique apprenante : le fossé sim-to-real. La plupart des pipelines de génération de données actuels passent par des moteurs physiques ou des rendus synthétiques, introduisant des artefacts visuels et des dynamiques inexactes qui dégradent les performances une fois transférés sur robot réel. R2RGen court-circuite entièrement cette chaîne en restant dans le domaine réel du début à la fin. En pratique, cela se traduit par une meilleure efficacité de la donnée sur l'ensemble des expériences rapportées, y compris sur des scénarios de manipulation mobile. Pour les équipes développant des politiques visuomotrices par imitation, cela signifie moins de démonstrations humaines nécessaires pour atteindre une généralisation spatiale robuste, c'est-à-dire la capacité du robot à opérer correctement quelle que soit la configuration relative des objets, de l'environnement ou de l'agent.

La généralisation spatiale est le prérequis reconnu à toute manipulation robotique à usage général. Les travaux antérieurs, dans le sillage de RT-X et des pipelines sim-to-real basés sur Isaac Gym ou MuJoCo, avaient montré des gains mais restaient contraints à des bras fixes et à des angles de caméra prédéfinis. R2RGen se positionne comme une alternative plug-and-play sans infrastructure de simulation, abaissant la barrière d'entrée pour les laboratoires ou les équipes industrielles n'ayant pas accès à des environnements simulés robustes. La publication reste à ce stade une contribution académique sans déploiement industriel annoncé ; les auteurs indiquent comme prochaine étape naturelle la validation du passage à l'échelle sur des flottes de robots mobiles en environnement ouvert.

À lire aussi

IA incarnée et chaîne de pensée : vers une manipulation robotique généralisable
1arXiv cs.RO 

IA incarnée et chaîne de pensée : vers une manipulation robotique généralisable

Une équipe de chercheurs publie en juin 2026 (arXiv:2606.03784) une réévaluation du chain-of-thought incarné (CoT) appliqué aux modèles vision-langage-action (VLA) pour la manipulation robotique généraliste. Pour mener cette étude à grande échelle, les auteurs ont constitué le plus grand corpus de ce type jamais assemblé : 978 743 trajectoires, 226,3 millions d'échantillons et 2 592,5 heures de données robot. Leur modèle ERVLA atteint 86,9 % de succès sur LIBERO-Plus et 53,2 % sur VLABench, surpassant les baselines de référence, notamment sur les tâches de désambiguïsation sémantique et d'exécution à longue portée en environnement réel. Le code, les données et les checkpoints seront prochainement disponibles en accès ouvert. Le principal apport théorique porte sur la manière d'intégrer le raisonnement linguistique dans une politique robotique. Les auteurs établissent que le CoT explicite, utilisé comme préfixe autorégressif avant chaque action, accumule des erreurs au fil des étapes et génère un couplage instable entre raisonnement et commande motrice. De même, le raisonnement de haut niveau seul, sans ancrage dans des descriptions concrètes comme les trajectoires d'effecteur terminal ou les positions dans l'espace image, n'apporte que des gains marginaux. ERVLA résout cette tension via une stratégie de "reasoning-dropout" : le modèle assimile des traces de raisonnement riches pendant l'entraînement, mais prédit les actions directement à l'inférence, sans décodage CoT. Ce découplage améliore la montée en échelle avec le volume de préentraînement et stabilise l'exécution. C'est un signal clair pour les équipes travaillant sur des politiques généralisables : la valeur du langage réside dans ce qu'il apprend au modèle, pas dans ce qu'il verbalise au moment du déploiement. Ces travaux s'inscrivent dans une compétition intense autour des fondations VLA capables de généraliser hors de leur distribution d'entraînement, aux côtés de Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA. La mise à disposition de 2 592 heures de données robotiques en accès ouvert constitue en elle-même une contribution notable dans un secteur où la pénurie de données reste un verrou majeur. Aucun déploiement industriel n'est mentionné : ERVLA est à ce stade un résultat de recherche académique, avec des validations sur robot réel mais sans pipeline de production annoncé.

UELa publication en accès ouvert de 2 592 heures de données robotiques et des checkpoints ERVLA offre une ressource directement exploitable par les équipes de recherche françaises et européennes travaillant sur les politiques VLA généralisables.

RechercheOpinion
1 source
HumanoidMimicGen : génération de données pour la loco-manipulation par planification corps entier
2arXiv cs.RO 

HumanoidMimicGen : génération de données pour la loco-manipulation par planification corps entier

Des chercheurs ont présenté HumanoidMimicGen (arXiv:2605.27724), une méthode de génération automatique de données d'apprentissage par imitation pour robots humanoïdes devant à la fois marcher et manipuler des objets. Le problème central: la téléopération pour collecter ces démonstrations est lente et coûteuse, particulièrement difficile pour des humanoïdes dont l'espace d'action composite intègre bras, jambes et torse simultanément. Le système adapte des compétences corps entier riches en contacts à partir d'un petit nombre de démonstrations sources vers de nouveaux états et configurations d'objets, en combinant planification de la locomotion et de la manipulation à un ou deux bras. Un benchmark de simulation en 9 tâches de loco-manipulation valide l'approche: les politiques visuomotrices co-entraînées avec les données générées surpassent de 20% celles entraînées uniquement sur des données réelles. La rareté des données d'entraînement reste le principal verrou au déploiement des humanoïdes en contexte industriel. Les méthodes existantes de génération de données, conçues pour bras fixes, échouent sur les humanoïdes en raison de la coordination complexe entre locomotion et manipulation dans un espace d'état de haute dimension. HumanoidMimicGen apporte un argument concret: multiplier automatiquement les démonstrations à partir de quelques exemples et gagner 20% sur les politiques apprises conteste directement l'hypothèse que les humanoïdes nécessitent obligatoirement des milliers d'heures de téléopération. Pour les décideurs industriels et les intégrateurs, c'est un signal que le goulot des données pourrait être levé par simulation, compressant potentiellement les cycles de développement. HumanoidMimicGen prolonge directement MimicGen, publié en 2023 pour des bras manipulateurs à base fixe. L'extension aux humanoïdes répond à la pression commerciale entre Figure (modèles 01, 02), Agility Robotics (Digit), 1X, Unitree (G1, H1) et Boston Dynamics (Atlas), tous en quête de méthodes d'apprentissage scalables sans exploser les budgets de téléopération. Du côté recherche, Physical Intelligence (pi0) et NVIDIA (GR00T N2) travaillent également sur des politiques visuomotrices corps entier généralisables. Ce travail demeure un résultat académique pré-publication sur arXiv, sans déploiement industriel annoncé et avec des expériences exclusivement en simulation. La robustesse du transfert sim-to-real, non abordée dans ce papier, constituera l'étape critique avant tout passage en conditions réelles.

RecherchePaper
1 source
Lucid-XR : un moteur de données en réalité étendue pour la manipulation robotique
3arXiv cs.RO 

Lucid-XR : un moteur de données en réalité étendue pour la manipulation robotique

Une équipe de chercheurs a présenté Lucid-XR, un moteur de données génératif pour produire des données d'entraînement synthétiques multimodales destinées aux robots réels. Publié début mai 2026 sur arXiv (référence 2605.00244), le système repose sur vuer, un environnement de simulation physique web qui s'exécute directement sur un casque de réalité étendue (XR), sans équipement spécialisé. Lucid-XR intègre simulation physique embarquée et retargeting de posture humain-vers-robot : un opérateur pilote un avatar virtuel dont les mouvements sont convertis en trajectoires exploitables par le robot cible. Ces données sont ensuite amplifiées par un pipeline de génération vidéo guidé par la physique, paramétrable via des instructions en langage naturel. Les auteurs démontrent un transfert zéro-shot de politiques visuelles vers des environnements réels non vus lors de l'entraînement, y compris des scènes encombrées et mal éclairées, sur des tâches de manipulation impliquant matières souples, particules non liées (sable, grains) et contacts rigides. Le résultat central est ce transfert zéro-shot : la politique entraînée exclusivement sur données synthétiques opère directement sur robot réel, sans fine-tuning en environnement physique. C'est précisément le "sim-to-real gap" qui bloque le déploiement industriel des politiques d'imitation depuis des années. En rendant la collecte accessible via un casque XR grand public et en augmentant automatiquement le volume de données par génération vidéo, Lucid-XR s'attaque simultanément aux deux goulots d'étranglement classiques des VLA (Vision-Language-Action models) : quantité et diversité des données. La manipulation de matières particulaires reste un cas notoirement difficile pour les approches classiques, ce qui rend ces démonstrations pertinentes, même si les vidéos sélectionnées publiées sur le site projet ne permettent pas d'évaluer le taux d'échec réel. Ce travail entre en concurrence directe avec les moteurs de données synthétiques existants : NVIDIA Isaac Lab pour la simulation, les jeux de données de téléopération massive de Physical Intelligence (Pi-0) ou Google DeepMind (GR00T N2, déployé chez Figure et Agility Robotics). Des initiatives ouvertes comme Open-X Embodiment misent sur la mutualisation de données réelles. La distinction de Lucid-XR est de parier sur l'accessibilité matérielle et l'augmentation par génération vidéo plutôt que sur des fermes de téléopération coûteuses. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans la publication, qui reste pour l'instant une preuve de concept académique sans validation à l'échelle industrielle.

RechercheOpinion
1 source
Vers une simulation visuellement réaliste : un benchmark pour évaluer la manipulation robotique en simulation
4arXiv cs.RO 

Vers une simulation visuellement réaliste : un benchmark pour évaluer la manipulation robotique en simulation

Une équipe de recherche a publié le 9 mai 2026 un nouveau benchmark de simulation dédié à l'évaluation des politiques de manipulation robotique, sous le nom VISER (Visually Realistic Simulation for Robot Manipulation Evaluation). Le système repose sur une bibliothèque de plus de 1 000 assets 3D équipés de matériaux PBR (Physically-Based Rendering), intégrés dans des scènes générées automatiquement. Pour constituer cette base à grande échelle, les auteurs ont développé un pipeline automatisé combinant des modèles de langage multimodaux (MLLMs) pour la segmentation des pièces et la récupération des matériaux. Les tâches d'évaluation couvrent la saisie, le placement et des séquences longue durée (long-horizon tasks), permettant de tester des modèles Vision-Language-Action (VLA) dans des conditions reproductibles. Résultat clé : un coefficient de corrélation de Pearson moyen de 0,92 entre les performances en simulation et les performances réelles, mesuré sur plusieurs politiques distinctes. Ce score de 0,92 est le chiffre le plus structurant de la publication. La grande majorité des benchmarks existants génèrent un écart domaine (domain gap) significatif parce qu'ils négligent deux variables décisives : l'éclairage et les propriétés de matériaux. VISER montre expérimentalement que ces deux facteurs pèsent directement sur le raisonnement géométrique et l'ancrage spatial des modèles VLA, deux capacités centrales pour toute manipulation physique fiable. Pour les équipes qui développent des politiques robotiques, un proxy simulation fiable à 0,92 réduit massivement le coût et le temps des cycles d'itération réel, notamment pour des architectures VLA dont le fine-tuning reste coûteux en déploiement physique. Le problème du sim-to-real gap structure la robotique de manipulation depuis plus d'une décennie. Les benchmarks de référence comme RLBench ou MetaWorld sont largement utilisés mais construits sur des rendus bas fidélité qui limitent leur valeur prédictive pour les approches VLA modernes, dont pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA. VISER positionne explicitement ses actifs PBR comme une réponse à cette insuffisance, en automatisant la génération via MLLMs pour éviter le goulot d'artisanat manuel qui freinait les benchmarks précédents. La prochaine étape naturelle sera de mesurer si cette corrélation de 0,92 tient sur des robots à morphologies variées et des scénarios de manipulation industrielle hors laboratoire.

RechercheOpinion
1 source