RecherchearXiv cs.RO 2 juin 2026

Trans2Occ : estimation de l'occupation en voxels et préhension d'objets transparents par transfert simulation-réel

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs ont publié début juin 2026 sur arXiv (arXiv:2606.01777) un framework baptisé Trans2Occ, conçu pour permettre à un bras robotique de percevoir et saisir des objets transparents à partir d'une unique image RGB, sans capteur de profondeur ni caméra supplémentaire. Le coeur du système convertit cette image en une représentation volumétrique par voxels, c'est-à-dire une estimation 3D de l'espace occupé par l'objet, directement exploitable pour calculer une stratégie de préhension. Pour entraîner le modèle à grande échelle, les auteurs ont construit un pipeline de simulation générant automatiquement des paires image/annotation de voxels sous des conditions variées de matériaux et d'éclairage. Le système est ensuite transféré tel quel vers un environnement réel, sans fine-tuning, et une règle de saisie déterministe construite sur la carte d'occupation permet d'atteindre des performances de préhension jugées fiables dans les expériences présentées.

L'enjeu industriel est réel : les objets transparents (flacons en verre, contenants de laboratoire, pièces en polycarbonate) causent des échecs de perception systématiques avec les capteurs depth standards, qu'ils soient structurés-lumière ou ToF, en raison des phénomènes de réfraction et de réflexion. Les approches existantes contournent le problème via reconstruction multi-vues ou complétion de profondeur, deux méthodes difficiles à industrialiser par leurs exigences en calibration et en temps de cycle. Un pipeline mono-image RGB transférable sans adaptation domain-spécifique représenterait une simplification significative pour les intégrateurs de cellules de picking. Cela dit, les métriques présentées restent issues de conditions laboratoire contrôlées, et le passage à des scènes encombrées ou à des objets partiellement occultés n'est pas démontré dans cet article de recherche préliminaire.

La manipulation d'objets transparents est un sous-problème persistant en robotique depuis les travaux ClearGrasp de Google (2019), qui introduisait la complétion de profondeur par réseau de neurones. D'autres approches comme KeyPose ou les méthodes fondées sur la polarimétrie ont proposé des alternatives mais restent difficiles à déployer hors laboratoire. Trans2Occ s'inscrit dans la tendance des représentations occupancy-based popularisées par les travaux en véhicules autonomes (Tesla Occupancy Networks, TPVFormer) et désormais transposées à la manipulation. L'absence de fine-tuning sim-to-real, si elle se confirme sur des benchmarks publics standardisés comme TOD ou TRANS, constituerait un argument sérieux pour une intégration industrielle. La prochaine étape logique serait une évaluation sur robot industriel en conditions semi-contrôlées, avec mesures de taux de succès de préhension sur des séries d'objets réels variés.

Dans nos dossiers

arXiv cs.RO

À lire aussi

1arXiv cs.RO

Fusion multimodale pour le transfert simulation-réel en apprentissage par renforcement visuel

Une équipe de recherche a soumis sur arXiv (identifiant 2507.09180, actuellement à la version 4) une architecture de fusion multimodale pour améliorer le transfert sim-to-real en apprentissage par renforcement visuel appliqué à la manipulation robotique. L'approche combine deux flux d'entrée, RGB et profondeur (depth), traités en parallèle par des réseaux convolutifs séparés (CNN stems), dont les représentations fusionnées sont transmises à un vision transformer (ViT) scalable. L'information de profondeur, naturellement robuste aux variations d'apparence de scène, fournit des détails spatiaux 3D absents des images RGB seules. Le pipeline intègre un schéma d'apprentissage contrastif à tokens masqués et non masqués pour améliorer l'efficacité d'échantillonnage, combiné à une randomisation de domaine progressive (curriculum-based domain randomization) pour stabiliser l'entraînement. En simulation, la méthode surpasse les baselines comparées. La validation clé se fait en transfert zéro-shot : sans ré-entraînement sur données réelles, le modèle réalise des tâches de manipulation physique. Le sim-to-real gap reste l'obstacle central en robotique d'apprentissage : les politiques entraînées en simulation échouent fréquemment face à la variabilité visuelle du monde réel. La fusion RGB + depth attaque directement ce problème en réduisant la dépendance aux indices visuels fragiles comme l'éclairage ou les textures. L'apprentissage contrastif à tokens partiels suggère une meilleure invariance aux perturbations apparentes sans nécessiter de volumes massifs de données réelles. Pour les intégrateurs industriels et les équipes de développement en manipulation, le transfert zéro-shot validé expérimentalement est un signal concret : la politique capture des abstractions géométriques suffisamment générales pour opérer hors simulation, ce qui est précisément la promesse que le secteur cherche à tenir depuis des années. Ce travail s'inscrit dans une compétition de représentations visuelles pour la robotique qui inclut la randomisation de domaine agressive popularisée par OpenAI dès 2017, les encodeurs préentraînés par masquage (MAE, R3M, DINOv2), et les politiques vision-langage-action (VLA) comme pi0 de Physical Intelligence ou OpenVLA. L'originalité revendiquée est la fusion RGB + depth au niveau du transformer plutôt qu'en aval, couplée au curriculum adaptatif. Le passage à la version 4 sur arXiv signale un travail en révision active, probablement vers une conférence type ICRA ou IROS. Les prochaines étapes attendues incluent une validation sur benchmarks standardisés (RLBench, MetaWorld) et des tests sur plateformes physiques plus complexes.

RecherchePaper

1 source

2arXiv cs.RO

Comment allouer un budget de transfert simulation-réel ?

Une étude publiée sur arXiv (réf. 2606.22062, juin 2026) s'attaque à une question pratique restée sans réponse claire dans la robotique par apprentissage : comment répartir un budget de temps de mesure sur robot réel entre l'identification de système (mesurer précisément les paramètres physiques du robot) et la randomisation de domaine (entraîner sur une large plage de dynamiques simulées) ? Les chercheurs ont conduit une expérience contrôlée sim-à-sim sur un pendule, en substituant un modèle à paramètres cachés au robot physique pour pouvoir varier proprement les gaps de réalité et les niveaux de bruit. Résultat : un faible nombre de rollouts d'identification suffisait à combler l'essentiel de l'écart de transfert. Une fois des données réelles disponibles, les politiques entraînées aux paramètres estimés surpassaient systématiquement celles entraînées sur une bande de randomisation élargie, même lorsque cette bande contenait les vrais paramètres du système. Ce résultat contredit une intuition répandue dans le secteur : celle que "plus de randomisation = plus de robustesse au sim-to-real gap". Les pipelines sim-to-real actuels (notamment pour les mains, les bras, et les humanoïdes) consacrent souvent une fraction importante de l'ingénierie à construire des distributions de randomisation larges via DR (Domain Randomization), parfois au détriment d'une identification soignée. Cette étude suggère que cette stratégie est sous-optimale dans le régime "bénin" où les dynamiques sont identifiables. Pour les intégrateurs robotiques et les équipes de déploiement, la leçon opérationnelle est directe : mesurer d'abord ce qu'il est possible de mesurer, et réserver la randomisation à l'incertitude résiduelle non modélisable, pas l'inverse. Le sim-to-real reste l'un des goulots d'étranglement centraux du robot learning depuis les travaux fondateurs d'OpenAI Robotics sur Dactyl (2019) et les benchmarks de transfert de Meta AI et Google DeepMind. La communauté a largement misé sur des variantes de Domain Randomization (DR) et sur les Visual-Language-Action models (VLA) pour contourner le gap sans nécessiter d'identification fine. Cette étude s'inscrit dans un contre-courant : celui d'une meilleure caractérisation du robot physique via la sysid, une approche défendue également par des travaux récents de Unitree, Boston Dynamics, et par des labos académiques proches du contrôle optimal. La limite explicitement posée par les auteurs est importante : leurs conclusions tiennent dans un régime à deux paramètres inconnus et sans mismatch structurel de modèle ; dans des systèmes plus complexes (contact, déformation, friction multipoint), la randomisation large pourrait reprendre l'avantage. Prochaines étapes naturelles : valider sur des systèmes à plus haute dimensionnalité, des robots articulés réels, et en présence de mismatch structurel explicite.

RecherchePaper

1 source

3arXiv cs.RO

ExpertGen : apprentissage de politiques expertes par transfert simulation-réel à partir de comportements imparfaits

ExpertGen est un framework de recherche publié sur arXiv (2603.15956) qui automatise l'apprentissage de politiques de manipulation robotique en simulation pour en faciliter le transfert vers du matériel réel. Le système initialise une politique de diffusion à partir de démonstrations imparfaites, générées par un grand modèle de langage ou fournies manuellement, puis applique du renforcement pour l'affiner sans jamais modifier les poids du modèle préentraîné. L'optimisation porte uniquement sur le bruit initial de la diffusion, ce qui maintient l'exploration dans des trajectoires cohérentes avec le comportement humain, même avec des récompenses binaires éparses. Sur les benchmarks publiés, ExpertGen atteint 90,5 % de succès sur des tâches d'assemblage industriel et 85 % sur des tâches de manipulation à long horizon, surpassant toutes les méthodes de référence testées. Le transfert sim-to-réel est validé par distillation DAgger : les politiques d'état apprises en simulation sont converties en politiques visuomotrices et déployées sur du matériel robotique physique. Ce résultat s'attaque directement au principal goulot d'étranglement du robot learning industriel : la collecte de données de qualité. La téléopération à grande échelle est coûteuse, lente et ne se généralise pas. ExpertGen propose une alternative crédible en utilisant des démonstrations imparfaites, y compris synthétiques, comme amorce, puis en laissant le renforcement corriger l'écart de qualité en simulation. Le fait de geler la politique de diffusion est une décision architecturale clé : elle évite le mode collapse typique du fine-tuning RL sur des politiques expressives, tout en permettant la convergence sans reward engineering manuel. Pour les intégrateurs industriels, c'est un signal concret que le sim-to-real gap sur des tâches d'assemblage n'est pas insurmontable, à condition de disposer d'un simulateur suffisamment fidèle. Ce travail s'inscrit dans la vague des politiques de diffusion pour la robotique, initiée par Diffusion Policy (Chi et al., 2023, Columbia University) et prolongée par des systèmes comme pi-zero de Physical Intelligence ou les politiques dextères développées chez Google DeepMind et NVIDIA avec GR00T N2. ExpertGen reste pour l'instant un résultat académique : les métriques de succès sont issues de benchmarks de simulation contrôlés, et le déploiement réel mentionné dans le papier est préliminaire. Aucune timeline commerciale ni partenaire industriel ne sont annoncés. Les prochaines étapes logiques incluent des tests de robustesse à des variations de capteurs et d'environnement plus sévères, ainsi qu'une intégration éventuelle avec des politiques de fondation multimodales pour généraliser au-delà des tâches d'assemblage structurées.

RechercheOpinion

1 source

4arXiv cs.RO

BIFROST : transfert de représentation de caractéristiques invariantes pour le passage simulation-réel dans l'espace d'observation

Des chercheurs ont publié sur arXiv (référence 2607.01410v1) un nouveau système appelé BIFROST (Bridging Invariant Feature Representation for Observation-space Sim2Real Transfer), destiné à résoudre l'un des obstacles centraux de l'apprentissage robotique par renforcement : le fossé entre simulation et réalité. Le principe consiste à entraîner un encodeur partagé sur des données appariées provenant des deux domaines, via un objectif de bisimulation cross-domaine qui rapproche, dans un espace latent commun, les séquences observation-action menant aux mêmes résultats à long terme, indépendamment des différences de rendu visuel ou de physique. L'équipe a testé l'approche sur trois tâches : navigation visuelle en sim2sim, manipulation à contact riche en sim2real, et asservissement visuel. Selon le papier, les politiques entraînées dans cet espace latent partagé transfèrent en zero-shot vers la réalité, sans réentraînement sur données réelles, là où les méthodes de référence en adaptation de domaine et en co-entraînement échouent face à des écarts à la fois visuels et dynamiques. Pour l'industrie robotique, le sim2real reste le goulot d'étranglement entre démonstration en laboratoire et déploiement en usine : entraîner en simulation coûte peu, mais transférer une politique vers un robot physique sans perte de performance exige d'habitude des mois de randomisation de domaine ou de fine-tuning gourmand en données réelles. Si les résultats se confirment à plus grande échelle, la promesse est de réduire nettement le coût de mise en production de politiques de manipulation et de navigation, un enjeu clé pour les intégrateurs déployant bras robotiques ou AMR sur des sites variés. C'est aussi un signal dans le débat sur les architectures VLA : l'idée d'une structure invariante exploitable directement depuis l'observation brute pourrait simplifier la conception des politiques génériques que recherchent des labos comme Physical Intelligence (Pi-0) ou NVIDIA (GR00T). À noter que, publication arXiv non encore relue par les pairs, la portée reste limitée aux trois tâches testées en environnement contrôlé. Le problème est documenté depuis les débuts du RL appliqué à la robotique : les approches historiques traitent séparément l'écart visuel (randomisation de domaine, transfert de style) et l'écart dynamique (identification de système, randomisation physique), les deux modules étant ensuite empilés quand les problèmes coexistent, une approche jugée limitée par les auteurs car elle traite les symptômes plutôt que la structure commune sous-jacente. BIFROST s'inscrit dans la lignée des travaux sur la bisimulation en apprentissage par renforcement, appliquée ici explicitement au transfert cross-domaine. Aucune entreprise ni calendrier de commercialisation n'est mentionné : le travail reste une contribution académique, dont les suites attendues sont une validation sur des tâches plus complexes et une comparaison directe avec les politiques VLA déployées par les acteurs commerciaux du secteur humanoïde et manipulation.

RecherchePaper

1 source