RecherchearXiv cs.RO 18 juin 2026

TactSpace : apprendre un espace latent partagé enrichi par la physique pour le transfert sim-vers-réel tactile

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Une équipe de recherche a publié sur arXiv (identifiant 2606.18959) TactSpace, un cadre d'apprentissage de représentations multi-modales conçu pour résoudre l'un des verrous majeurs de la manipulation robotique : le transfert sim-to-real des capteurs tactiles. Le problème est structurel : les simulateurs actuels sont incapables de reproduire fidèlement la mécanique de déformation et de transduction des capteurs tactiles physiques, rendant inutilisables en conditions réelles les politiques entraînées en simulation. TactSpace contourne ce problème en alignant des modalités tactiles hétérogènes dans un espace latent partagé, sans jamais avoir besoin de simuler le signal brut du capteur. Des encodeurs spécifiques à chaque modalité projettent des observations aussi différentes que la profondeur de pénétration simulée et la capacitance mesurée sur un capteur réel dans un embedding commun. L'entraînement combine des objectifs de reconstruction croisée et d'alignement contrastif. Évalué sur trois tâches, identification de formes d'indenteur, prédiction de force et reconstruction géométrique, le système entraîné exclusivement en simulation transfère directement sur des mesures réelles sans fine-tuning : zéro-shot. Les gains mesurés atteignent 16,7 % de réduction d'erreur en prédiction de force et 45,8 % en reconstruction de forme par rapport aux baselines.

Ces résultats adressent un goulot d'étranglement critique pour l'ensemble de la robotique de manipulation dextre. Le tactile est indispensable pour les tâches d'assemblage fin, de tri délicat ou de manipulation d'objets déformables, segments où les bras industriels classiques butent faute de retour de contact fiable. Jusqu'ici, la difficulté à simuler correctement les capteurs tactiles forçait soit à collecter massivement des données réelles, coûteuses et lentes, soit à se passer du tactile. TactSpace propose une troisième voie : accepter que simulation et réalité restent physiquement dissemblables, et apprendre malgré tout des représentations invariantes aux modalités mais riches en information de contact. La publication accompagne le code d'une implémentation Warp-based du simulateur tactile pénalité intégrée à Isaac Lab, la plateforme de simulation physique de NVIDIA, ce qui ouvre la génération de données tactiles scalable à la communauté.

Le contexte de cette recherche s'inscrit dans une effervescence autour des capteurs tactiles à haute résolution, portée notamment par GelSight (MIT, aujourd'hui GelSight Inc.), DIGIT (Meta AI) et les capteurs capacitifs embarqués dans plusieurs plateformes humanoïdes. Isaac Lab, qui sert de base à ce travail, est devenu un standard de facto pour l'entraînement de politiques robotiques en simulation, utilisé par Figure, 1X et Agility entre autres. TactSpace reste à ce stade un preprint non évalué par les pairs, sans déploiement annoncé sur plateforme physique commerciale. Les prochaines étapes naturelles seraient une validation sur des tâches de manipulation réelles bout-en-bout et une intégration dans des pipelines Vision-Language-Action (VLA) où le retour tactile pourrait renforcer la robustesse en conditions industrielles.

Dans nos dossiers

NVIDIA Isaac & Cosmos Manipulation robotique arXiv cs.RO

À lire aussi

1arXiv cs.RO

NavRL++ : un cadre système pour améliorer le transfert simulation-réel dans la navigation robotique par apprentissage par renforcement

Une équipe de chercheurs a publié NavRL++, un cadre de navigation autonome par apprentissage par renforcement (RL) conçu spécifiquement pour réduire l'écart entre simulation et déploiement réel. Présenté sur arXiv (2605.15559), le système propose à la fois un nouveau pipeline d'entraînement et de déploiement et une étude empirique systématique qui isole les facteurs dégradant les performances en conditions réelles : bruit de capteurs, échecs de perception, latence système et réponse du contrôleur. Les auteurs ont validé leur approche sur plusieurs plateformes physiques, dont des robots aériens et quadrupèdes, sur des tâches de navigation comme l'exploration et l'inspection, en obtenant un transfert zéro-shot depuis la simulation. Le problème que NavRL++ cherche à résoudre est structurel : la quasi-totalité des travaux récents en navigation par RL se concentre sur la conception du framework d'apprentissage (représentations d'entrée, espaces d'actions, fonctions de récompense), sans analyser rigoureusement pourquoi les politiques entraînées en sim échouent en réel. NavRL++ répond à cela avec deux contributions techniques. La première est le perturbation-aware fine-tuning, une stratégie post-entraînement qui injecte explicitement les perturbations identifiées lors de l'étude empirique pour rendre la politique plus robuste. La seconde est une politique à raisonnement temporel basée sur un Transformer, qui exploite une fenêtre d'observation courte pour lisser le contrôle et compenser la dégradation perceptuelle typique du monde réel. Les résultats quantitatifs montrent des performances supérieures aux baselines RL dans des environnements statiques et dynamiques, et comparables aux planificateurs classiques à optimisation en contexte statique. Le défi du sim-to-real reste l'un des verrous majeurs à la commercialisation de la navigation autonome par RL, notamment pour les robots mobiles en environnements industriels non structurés. La plupart des approches existantes, comme les travaux issus de Berkeley (BADGR, RECON) ou les pipelines de navigation d'Agility Robotics et Boston Dynamics, contournent partiellement le problème via de la simulation photo-réaliste ou du domain randomization intensif. NavRL++ adopte une approche complémentaire : diagnostiquer empiriquement les sources d'écart plutôt que de les masquer. La prochaine étape naturelle sera de tester cette méthodologie sur des flottes de robots en déploiement continu, notamment dans des scénarios entrepôt ou inspection d'infrastructures où la latence et la fiabilité des capteurs sont des contraintes opérationnelles dures.

RecherchePaper

1 source

2arXiv cs.RO

Ce qui compte pour le transfert de l'apprentissage par renforcement en simulation vers l'apprentissage en ligne sur des robots réels

Une étude empirique menée sur trois plateformes robotiques distinctes a testé l'apprentissage par renforcement (RL) en ligne directement sur des robots physiques, à travers 100 sessions d'entraînement réelles. Les chercheurs ont systématiquement isolé les choix de conception algorithmiques, matériels et expérimentaux habituellement laissés implicites dans les travaux précédents sur le sujet. Résultat principal : certains réglages par défaut largement utilisés dans la pratique du RL se révèlent contre-productifs sur du matériel réel, tandis qu'un ensemble restreint de choix de conception robustes, faciles à adopter dans le cadre standard du RL, permet d'obtenir un apprentissage stable sur différentes tâches et différents types de robots. Il s'agit, selon les auteurs, de la première étude empirique à grande échelle de ce type portant sur ces choix de conception. Cette cartographie répond à un point de friction bien identifié chez les intégrateurs et équipes de recherche robotique : le RL en ligne sur robot réel reste réputé fragile, coûteux en ingénierie et peu reproductible d'une plateforme à l'autre, ce qui pousse la majorité des équipes vers l'apprentissage en simulation (sim-to-real) ou l'imitation à partir de démonstrations. En identifiant quels réglages par défaut nuisent réellement à l'apprentissage et lesquels le stabilisent, ce travail réduit potentiellement l'effort d'ingénierie nécessaire pour déployer du RL en ligne directement sur du hardware, sans passer par un simulateur intermédiaire. C'est un signal utile pour évaluer si le RL en ligne peut devenir une option pratique face aux architectures VLA (vision-langage-action) qui dominent actuellement la communication du secteur, en offrant une alternative plus frugale en données de démonstration. Le papier s'inscrit dans une lignée de travaux cherchant à combler l'écart entre les promesses du RL en robotique, démontrées depuis longtemps en simulation, et sa fiabilité en conditions réelles, où le coût d'échantillonnage et les risques matériels limitent les expérimentations à grande échelle. Contrairement aux annonces de plateformes humanoïdes commerciales, ce travail relève de la recherche fondamentale reproductible, avec des ablations systématiques plutôt qu'une démonstration ponctuelle. Publié sur arXiv en tant que version révisée ("replace"), il ouvre la voie à des protocoles standardisés que d'autres laboratoires pourront reprendre et à des comparaisons futures avec des approches sim-to-real ou par imitation sur les mêmes tâches.

RecherchePaper

1 source

3arXiv cs.RO

Fusion multimodale pour le transfert simulation-réel en apprentissage par renforcement visuel

Une équipe de recherche a soumis sur arXiv (identifiant 2507.09180, actuellement à la version 4) une architecture de fusion multimodale pour améliorer le transfert sim-to-real en apprentissage par renforcement visuel appliqué à la manipulation robotique. L'approche combine deux flux d'entrée, RGB et profondeur (depth), traités en parallèle par des réseaux convolutifs séparés (CNN stems), dont les représentations fusionnées sont transmises à un vision transformer (ViT) scalable. L'information de profondeur, naturellement robuste aux variations d'apparence de scène, fournit des détails spatiaux 3D absents des images RGB seules. Le pipeline intègre un schéma d'apprentissage contrastif à tokens masqués et non masqués pour améliorer l'efficacité d'échantillonnage, combiné à une randomisation de domaine progressive (curriculum-based domain randomization) pour stabiliser l'entraînement. En simulation, la méthode surpasse les baselines comparées. La validation clé se fait en transfert zéro-shot : sans ré-entraînement sur données réelles, le modèle réalise des tâches de manipulation physique. Le sim-to-real gap reste l'obstacle central en robotique d'apprentissage : les politiques entraînées en simulation échouent fréquemment face à la variabilité visuelle du monde réel. La fusion RGB + depth attaque directement ce problème en réduisant la dépendance aux indices visuels fragiles comme l'éclairage ou les textures. L'apprentissage contrastif à tokens partiels suggère une meilleure invariance aux perturbations apparentes sans nécessiter de volumes massifs de données réelles. Pour les intégrateurs industriels et les équipes de développement en manipulation, le transfert zéro-shot validé expérimentalement est un signal concret : la politique capture des abstractions géométriques suffisamment générales pour opérer hors simulation, ce qui est précisément la promesse que le secteur cherche à tenir depuis des années. Ce travail s'inscrit dans une compétition de représentations visuelles pour la robotique qui inclut la randomisation de domaine agressive popularisée par OpenAI dès 2017, les encodeurs préentraînés par masquage (MAE, R3M, DINOv2), et les politiques vision-langage-action (VLA) comme pi0 de Physical Intelligence ou OpenVLA. L'originalité revendiquée est la fusion RGB + depth au niveau du transformer plutôt qu'en aval, couplée au curriculum adaptatif. Le passage à la version 4 sur arXiv signale un travail en révision active, probablement vers une conférence type ICRA ou IROS. Les prochaines étapes attendues incluent une validation sur benchmarks standardisés (RLBench, MetaWorld) et des tests sur plateformes physiques plus complexes.

RecherchePaper

1 source

4arXiv cs.RO

Re³Sim : générer des données de simulation photoréalistes en 3D par transfert réel-vers-simulation pour la manipulation robotique

Cette annonce arrive du côté recherche académique plutôt que de l'industrie commerciale : une équipe présente RE³SIM, un système de simulation photoréaliste en 3D destiné à combler l'écart entre entraînement simulé et déploiement réel en robotique manipulatrice. Publié sur arXiv (version 4, remplaçant une précédente), le papier décrit un pipeline qui reconstruit fidèlement des scènes réelles grâce à des techniques avancées de reconstruction 3D et de rendu neuronal, permettant un rendu en temps réel de caméras virtuelles multi-angles au sein d'un simulateur physique. En s'appuyant sur des informations privilégiées pour générer efficacement des démonstrations expertes en simulation, puis en entraînant des politiques robotiques par apprentissage par imitation, les chercheurs rapportent un taux de réussite moyen supérieur à 58% en transfert "zero-shot" vers le réel, c'est-à-dire sans aucune donnée réelle utilisée pour l'entraînement, uniquement des données simulées. Ils ont aussi constitué un jeu de données de simulation à grande échelle pour tester la généralisation des politiques apprises sur des objets variés. Le résultat compte parce qu'il s'attaque directement à l'un des goulots d'étranglement les plus coûteux du secteur : la collecte de données réelles pour entraîner des robots manipulateurs, qui exige des opérateurs qualifiés et du matériel onéreux. Si le fossé sim-to-real (géométrique et visuel) peut être réduit de manière fiable grâce à des reconstructions photoréalistes plutôt qu'à des environnements simulés génériques, cela change la donne pour les intégrateurs et les équipes de R&D qui cherchent à multiplier les scénarios d'entraînement sans multiplier les essais physiques. Un taux de 58% en zero-shot reste toutefois modeste comparé aux standards de fiabilité industrielle, et mérite d'être lu comme une preuve de concept académique plutôt qu'une solution prête à l'emploi pour la production. RE³SIM s'inscrit dans la lignée des travaux récents sur les politiques vision-langage-action (VLA) et les pipelines d'apprentissage par imitation, un axe de recherche également poursuivi par des acteurs comme Physical Intelligence (Pi-0) ou NVIDIA (GR00T). La démarche real-to-sim-to-real, où l'on capture d'abord le monde réel avant de simuler dessus, distingue cette approche des simulateurs purement synthétiques et pourrait influencer les futurs outils de génération de données pour l'entraînement de robots. Le code et des démonstrations sont disponibles sur le site du projet (re3sim.github.io), signe que l'équipe cherche une adoption élargie par la communauté robotique plutôt qu'une simple publication isolée.

RecherchePaper

1 source