Aller au contenu principal
RecherchearXiv cs.RO2h

Trans2Occ : estimation de l'occupation en voxels et préhension d'objets transparents par transfert simulation-réel

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié début juin 2026 sur arXiv (arXiv:2606.01777) un framework baptisé Trans2Occ, conçu pour permettre à un bras robotique de percevoir et saisir des objets transparents à partir d'une unique image RGB, sans capteur de profondeur ni caméra supplémentaire. Le coeur du système convertit cette image en une représentation volumétrique par voxels, c'est-à-dire une estimation 3D de l'espace occupé par l'objet, directement exploitable pour calculer une stratégie de préhension. Pour entraîner le modèle à grande échelle, les auteurs ont construit un pipeline de simulation générant automatiquement des paires image/annotation de voxels sous des conditions variées de matériaux et d'éclairage. Le système est ensuite transféré tel quel vers un environnement réel, sans fine-tuning, et une règle de saisie déterministe construite sur la carte d'occupation permet d'atteindre des performances de préhension jugées fiables dans les expériences présentées.

L'enjeu industriel est réel : les objets transparents (flacons en verre, contenants de laboratoire, pièces en polycarbonate) causent des échecs de perception systématiques avec les capteurs depth standards, qu'ils soient structurés-lumière ou ToF, en raison des phénomènes de réfraction et de réflexion. Les approches existantes contournent le problème via reconstruction multi-vues ou complétion de profondeur, deux méthodes difficiles à industrialiser par leurs exigences en calibration et en temps de cycle. Un pipeline mono-image RGB transférable sans adaptation domain-spécifique représenterait une simplification significative pour les intégrateurs de cellules de picking. Cela dit, les métriques présentées restent issues de conditions laboratoire contrôlées, et le passage à des scènes encombrées ou à des objets partiellement occultés n'est pas démontré dans cet article de recherche préliminaire.

La manipulation d'objets transparents est un sous-problème persistant en robotique depuis les travaux ClearGrasp de Google (2019), qui introduisait la complétion de profondeur par réseau de neurones. D'autres approches comme KeyPose ou les méthodes fondées sur la polarimétrie ont proposé des alternatives mais restent difficiles à déployer hors laboratoire. Trans2Occ s'inscrit dans la tendance des représentations occupancy-based popularisées par les travaux en véhicules autonomes (Tesla Occupancy Networks, TPVFormer) et désormais transposées à la manipulation. L'absence de fine-tuning sim-to-real, si elle se confirme sur des benchmarks publics standardisés comme TOD ou TRANS, constituerait un argument sérieux pour une intégration industrielle. La prochaine étape logique serait une évaluation sur robot industriel en conditions semi-contrôlées, avec mesures de taux de succès de préhension sur des séries d'objets réels variés.

Dans nos dossiers

À lire aussi

Fusion multimodale pour le transfert simulation-réel en apprentissage par renforcement visuel
1arXiv cs.RO 

Fusion multimodale pour le transfert simulation-réel en apprentissage par renforcement visuel

Une équipe de recherche a soumis sur arXiv (identifiant 2507.09180, actuellement à la version 4) une architecture de fusion multimodale pour améliorer le transfert sim-to-real en apprentissage par renforcement visuel appliqué à la manipulation robotique. L'approche combine deux flux d'entrée, RGB et profondeur (depth), traités en parallèle par des réseaux convolutifs séparés (CNN stems), dont les représentations fusionnées sont transmises à un vision transformer (ViT) scalable. L'information de profondeur, naturellement robuste aux variations d'apparence de scène, fournit des détails spatiaux 3D absents des images RGB seules. Le pipeline intègre un schéma d'apprentissage contrastif à tokens masqués et non masqués pour améliorer l'efficacité d'échantillonnage, combiné à une randomisation de domaine progressive (curriculum-based domain randomization) pour stabiliser l'entraînement. En simulation, la méthode surpasse les baselines comparées. La validation clé se fait en transfert zéro-shot : sans ré-entraînement sur données réelles, le modèle réalise des tâches de manipulation physique. Le sim-to-real gap reste l'obstacle central en robotique d'apprentissage : les politiques entraînées en simulation échouent fréquemment face à la variabilité visuelle du monde réel. La fusion RGB + depth attaque directement ce problème en réduisant la dépendance aux indices visuels fragiles comme l'éclairage ou les textures. L'apprentissage contrastif à tokens partiels suggère une meilleure invariance aux perturbations apparentes sans nécessiter de volumes massifs de données réelles. Pour les intégrateurs industriels et les équipes de développement en manipulation, le transfert zéro-shot validé expérimentalement est un signal concret : la politique capture des abstractions géométriques suffisamment générales pour opérer hors simulation, ce qui est précisément la promesse que le secteur cherche à tenir depuis des années. Ce travail s'inscrit dans une compétition de représentations visuelles pour la robotique qui inclut la randomisation de domaine agressive popularisée par OpenAI dès 2017, les encodeurs préentraînés par masquage (MAE, R3M, DINOv2), et les politiques vision-langage-action (VLA) comme pi0 de Physical Intelligence ou OpenVLA. L'originalité revendiquée est la fusion RGB + depth au niveau du transformer plutôt qu'en aval, couplée au curriculum adaptatif. Le passage à la version 4 sur arXiv signale un travail en révision active, probablement vers une conférence type ICRA ou IROS. Les prochaines étapes attendues incluent une validation sur benchmarks standardisés (RLBench, MetaWorld) et des tests sur plateformes physiques plus complexes.

RecherchePaper
1 source
ExpertGen : apprentissage de politiques expertes par transfert simulation-réel à partir de comportements imparfaits
2arXiv cs.RO 

ExpertGen : apprentissage de politiques expertes par transfert simulation-réel à partir de comportements imparfaits

ExpertGen est un framework de recherche publié sur arXiv (2603.15956) qui automatise l'apprentissage de politiques de manipulation robotique en simulation pour en faciliter le transfert vers du matériel réel. Le système initialise une politique de diffusion à partir de démonstrations imparfaites, générées par un grand modèle de langage ou fournies manuellement, puis applique du renforcement pour l'affiner sans jamais modifier les poids du modèle préentraîné. L'optimisation porte uniquement sur le bruit initial de la diffusion, ce qui maintient l'exploration dans des trajectoires cohérentes avec le comportement humain, même avec des récompenses binaires éparses. Sur les benchmarks publiés, ExpertGen atteint 90,5 % de succès sur des tâches d'assemblage industriel et 85 % sur des tâches de manipulation à long horizon, surpassant toutes les méthodes de référence testées. Le transfert sim-to-réel est validé par distillation DAgger : les politiques d'état apprises en simulation sont converties en politiques visuomotrices et déployées sur du matériel robotique physique. Ce résultat s'attaque directement au principal goulot d'étranglement du robot learning industriel : la collecte de données de qualité. La téléopération à grande échelle est coûteuse, lente et ne se généralise pas. ExpertGen propose une alternative crédible en utilisant des démonstrations imparfaites, y compris synthétiques, comme amorce, puis en laissant le renforcement corriger l'écart de qualité en simulation. Le fait de geler la politique de diffusion est une décision architecturale clé : elle évite le mode collapse typique du fine-tuning RL sur des politiques expressives, tout en permettant la convergence sans reward engineering manuel. Pour les intégrateurs industriels, c'est un signal concret que le sim-to-real gap sur des tâches d'assemblage n'est pas insurmontable, à condition de disposer d'un simulateur suffisamment fidèle. Ce travail s'inscrit dans la vague des politiques de diffusion pour la robotique, initiée par Diffusion Policy (Chi et al., 2023, Columbia University) et prolongée par des systèmes comme pi-zero de Physical Intelligence ou les politiques dextères développées chez Google DeepMind et NVIDIA avec GR00T N2. ExpertGen reste pour l'instant un résultat académique : les métriques de succès sont issues de benchmarks de simulation contrôlés, et le déploiement réel mentionné dans le papier est préliminaire. Aucune timeline commerciale ni partenaire industriel ne sont annoncés. Les prochaines étapes logiques incluent des tests de robustesse à des variations de capteurs et d'environnement plus sévères, ainsi qu'une intégration éventuelle avec des politiques de fondation multimodales pour généraliser au-delà des tâches d'assemblage structurées.

RechercheOpinion
1 source
Génération automatique d'arbres de comportement par VLM pour le transfert réel-vers-simulation via perception active
3arXiv cs.RO 

Génération automatique d'arbres de comportement par VLM pour le transfert réel-vers-simulation via perception active

Une équipe de chercheurs propose dans un article arXiv (2601.08454) un pipeline Real2Sim piloté par l'intention, qui automatise la construction d'environnements de simulation physiquement précis à partir d'une instruction en langage naturel. Un modèle vision-langage (VLM) analyse une observation visuelle et une description de simulation incomplète pour identifier le sous-ensemble minimal de paramètres physiques manquants (masse des objets, géométrie de surface, friction), puis génère automatiquement un arbre de comportement (Behavior Tree, BT) composé de primitives motrices et sensorielles atomiques pour les acquérir par interaction physique avec l'environnement. Les expériences ont été conduites sur un bras Franka Emika Panda à contrôle en couple (7 DOF), manipulateur standard en recherche robotique. Les résultats indiquent des gains d'efficacité opérationnelle significatifs par rapport aux méthodes d'exploration exhaustive, validés par des études d'ablation sur plusieurs VLMs de référence, mais les chiffres précis de performance ne sont pas fournis dans l'abstract, ce qui limite la comparabilité externe. L'apport principal est le remplacement de pipelines d'identification système manuels par une stratégie sémantique : au lieu d'explorer exhaustivement l'environnement, le système ne collecte que les données pertinentes pour la tâche demandée, réduisant les interactions redondantes. Pour les équipes travaillant sur des jumeaux numériques industriels, cela représente un gain potentiel en temps de calibration avant déploiement. Le BT joue également un rôle de filtre de sécurité déterministe : sa hiérarchie réactive intercepte les hallucinations du VLM et prévient les anomalies physiques dangereuses, ce qui est non-négligeable pour une application en conditions réelles. Cette combinaison, intelligence sémantique du VLM associée à la robustesse déterministe du BT, constitue l'aspect architectural le plus notable du travail. La construction de simulations fidèles au réel est un verrou classique du déploiement robotique : un jumeau numérique mal calibré amplifie le sim-to-real gap qui dégrade les politiques apprises en simulation, problème central pour les VLA (Vision-Language-Action) actuels. Côté concurrence, Physical Intelligence (pi0), Google DeepMind (successeurs de RT-2) et des projets open-source comme LeRobot de Hugging Face investissent tous dans des pipelines sim-to-real plus robustes. L'utilisation des BT comme couche d'interprétabilité face aux modèles génératifs s'inscrit dans une tendance plus large visant à rendre les LLM/VLM compatibles avec des contraintes de sécurité industrielle. Les prochaines étapes logiques seraient d'étendre le pipeline à des robots mobiles ou des plateformes humanoïdes, et de publier des benchmarks complets permettant une comparaison rigoureuse avec les méthodes d'identification système existantes.

RecherchePaper
1 source
NeuralTouch : des descripteurs neuronaux pour un contrôle tactile précis en transfert simulation-réel
4arXiv cs.RO 

NeuralTouch : des descripteurs neuronaux pour un contrôle tactile précis en transfert simulation-réel

Une équipe de chercheurs a publié sur arXiv (réf. 2510.20390v2) NeuralTouch, un framework multimodal combinant les Neural Descriptor Fields (NDF) avec le retour haptique pour améliorer la précision de préhension des robots manipulateurs. Le principe repose sur deux étages : les NDF génèrent une représentation implicite de la géométrie de contact cible à partir de données visuelles, puis une politique d'apprentissage par renforcement profond (deep RL) affine la saisie en temps réel via des capteurs tactiles. Le système a été validé sur des tâches de manipulation fine, insertion de cheville dans un trou (peg-out-in-hole) et ouverture de bouchon de bouteille, avec un transfert zéro-shot du simulateur vers l'environnement physique, sans fine-tuning supplémentaire. Les études d'ablation en simulation et les tests réels montrent une amélioration significative de la précision et de la robustesse par rapport aux baselines, bien que les métriques quantitatives précises ne figurent pas dans le résumé publié. Le problème adressé est bien connu des intégrateurs : les NDF seuls souffrent d'imprécisions dues à une calibration caméra imparfaite, des nuages de points incomplets et la variabilité géométrique des objets. À l'inverse, les approches tactiles existantes restent cantonnées à des géométries de contact prédéfinies et simples, ce qui limite leur déployabilité industrielle. NeuralTouch contourne cette dualité en conditionnant la politique RL sur les descripteurs neuronaux sans nécessiter de spécification explicite du type de contact, ce qui est précisément le verrou que le secteur cherche à lever pour rendre les bras manipulateurs économiquement viables dans des environnements non structurés. La capacité de généralisation inter-catégories d'objets sans ré-entraînement représente un argument concret pour les COO industriels cherchant à réduire les coûts d'intégration. Ce travail s'inscrit dans un courant actif autour du sim-to-real pour la manipulation de précision, où Stanford, MIT et CMU rivalisent avec des acteurs industriels comme Sanctuary AI, 1X Technologies et Physical Intelligence, dont le modèle pi-0 cible également la manipulation généraliste. NeuralTouch se distingue par son approche hybride vision-tactile conditionnée sur des descripteurs neuronaux, évitant la fragmentation habituelle entre les pipelines purement visuels et les politiques haptiques spécialisées. Reste à démontrer la robustesse du framework sur une gamme plus large de géométries et sur des plateformes robotiques commerciales, étapes qui conditionneront le passage d'une démonstration académique à un outil industriellement pertinent.

RecherchePaper
1 source