Aller au contenu principal
RecherchearXiv cs.RO3h

NeuralTouch : des descripteurs neuronaux pour un contrôle tactile précis en transfert simulation-réel

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié sur arXiv (réf. 2510.20390v2) NeuralTouch, un framework multimodal combinant les Neural Descriptor Fields (NDF) avec le retour haptique pour améliorer la précision de préhension des robots manipulateurs. Le principe repose sur deux étages : les NDF génèrent une représentation implicite de la géométrie de contact cible à partir de données visuelles, puis une politique d'apprentissage par renforcement profond (deep RL) affine la saisie en temps réel via des capteurs tactiles. Le système a été validé sur des tâches de manipulation fine, insertion de cheville dans un trou (peg-out-in-hole) et ouverture de bouchon de bouteille, avec un transfert zéro-shot du simulateur vers l'environnement physique, sans fine-tuning supplémentaire. Les études d'ablation en simulation et les tests réels montrent une amélioration significative de la précision et de la robustesse par rapport aux baselines, bien que les métriques quantitatives précises ne figurent pas dans le résumé publié.

Le problème adressé est bien connu des intégrateurs : les NDF seuls souffrent d'imprécisions dues à une calibration caméra imparfaite, des nuages de points incomplets et la variabilité géométrique des objets. À l'inverse, les approches tactiles existantes restent cantonnées à des géométries de contact prédéfinies et simples, ce qui limite leur déployabilité industrielle. NeuralTouch contourne cette dualité en conditionnant la politique RL sur les descripteurs neuronaux sans nécessiter de spécification explicite du type de contact, ce qui est précisément le verrou que le secteur cherche à lever pour rendre les bras manipulateurs économiquement viables dans des environnements non structurés. La capacité de généralisation inter-catégories d'objets sans ré-entraînement représente un argument concret pour les COO industriels cherchant à réduire les coûts d'intégration.

Ce travail s'inscrit dans un courant actif autour du sim-to-real pour la manipulation de précision, où Stanford, MIT et CMU rivalisent avec des acteurs industriels comme Sanctuary AI, 1X Technologies et Physical Intelligence, dont le modèle pi-0 cible également la manipulation généraliste. NeuralTouch se distingue par son approche hybride vision-tactile conditionnée sur des descripteurs neuronaux, évitant la fragmentation habituelle entre les pipelines purement visuels et les politiques haptiques spécialisées. Reste à démontrer la robustesse du framework sur une gamme plus large de géométries et sur des plateformes robotiques commerciales, étapes qui conditionneront le passage d'une démonstration académique à un outil industriellement pertinent.

À lire aussi

Simulateur différentiable neuronal adaptatif : modélisation des contacts rigides par transfert réel-vers-simulation
1arXiv cs.RO 

Simulateur différentiable neuronal adaptatif : modélisation des contacts rigides par transfert réel-vers-simulation

Des chercheurs ont publié sur arXiv (référence 2603.06218v2) un framework baptisé "Few-Shot Neural Differentiable Simulator", conçu pour calibrer des simulateurs analytiques rigides à partir d'un volume réduit de données réelles, puis générer des jeux de données synthétiques à grande échelle. L'approche combine un simulateur analytique traditionnel, utilisé comme générateur de données après calibration, avec un réseau de neurones sur graphe (GNN) basé sur des maillages 3D, chargé de modéliser la dynamique avant des corps rigides. La contribution technique centrale réside dans la dérivation de gradients de substitution pour la détection de collision, rendant l'ensemble du pipeline entièrement différentiable. Les expériences portent sur des scénarios d'interaction multi-objets, où le système apprend des politiques de manipulation directement par optimisation basée sur les gradients dans le simulateur. Ce travail s'attaque à l'un des verrous majeurs du apprentissage robotique : le coût prohibitif de la collecte de données réelles et l'écart persistant entre simulation et réalité (sim-to-real gap). En n'exigeant qu'un petit nombre d'épisodes réels pour recaler le simulateur analytique, plutôt que des milliers de trajectoires pour entraîner un modèle purement appris, le framework réduit significativement la barrière d'accès à la simulation haute-fidélité. La différentiabilité complète est un avantage concret pour les concepteurs de politiques robotiques : elle permet de propager des gradients à travers la dynamique de contact, évitant le recours à des méthodes d'optimisation sans gradient (evolutionary strategies, RL model-free) typiquement moins efficaces en échantillons. Les résultats présentés indiquent que le GNN ainsi entraîné surpasse des baselines différentiables analytiques pour répliquer des trajectoires réelles, bien que ces résultats restent à ce stade expérimentaux et non validés en conditions industrielles réelles. Le problème de la simulation de contact rigide mobilise depuis plusieurs années des équipes académiques et industrielles majeures. Les simulateurs dominants comme MuJoCo (DeepMind), Isaac Sim (NVIDIA) et PyBullet offrent une différentiabilité partielle, mais peinent à modéliser fidèlement les contacts complexes sans paramétrage expert lourd. Des approches concurrentes comme DiffTaichi ou Brax (Google) ont exploré la différentiabilité à l'échelle, tandis que des laboratoires comme MIT CSAIL et Stanford travaillent sur des simulateurs neuronaux pour la manipulation. Ce preprint, non encore soumis à révision par pairs, ouvre une direction crédible vers des simulateurs "grounded" en peu de données réelles, pertinente pour les déploiements en manipulation industrielle et en robotique de service où les données réelles sont coûteuses à acquérir.

RecherchePaper
1 source
Tacmap : combler l'écart du transfert simulation-réel tactile grâce aux cartes de profondeur de pénétration cohérentes en géométrie
2arXiv cs.RO 

Tacmap : combler l'écart du transfert simulation-réel tactile grâce aux cartes de profondeur de pénétration cohérentes en géométrie

Des chercheurs ont publié sur arXiv (réf. 2602.21625v2) Tacmap, un cadre de simulation tactile haute-fidélité conçu pour les capteurs tactiles à vision (VBTS, Vision-Based Tactile Sensors). Le principe central repose sur une représentation unifiée appelée "deform map" : en simulation, Tacmap calcule des volumes d'intersection 3D sous forme de cartes de profondeur de pénétration volumétrique ; dans le monde réel, un dispositif de collecte de données automatisé apprend à convertir les images tactiles brutes vers ces mêmes cartes de profondeur de référence. En alignant les deux domaines dans cet espace géométrique commun, le système réduit le décalage de domaine (domain shift) sans sacrifier la cohérence physique. La validation expérimentale comprend des évaluations quantitatives sur des scénarios de contact variés, ainsi qu'un transfert zéro-shot vers un robot physique pour une tâche de rotation en main, la politique ayant été entraînée exclusivement en simulation. Tacmap s'attaque à un verrou longtemps considéré comme structurel dans la manipulation dextère : le sim-to-real gap tactile. Les approches existantes se heurtaient à un dilemme classique, les projections géométriques simplifiées étant rapides mais peu réalistes, tandis que les méthodes éléments finis (FEM) offrent une haute fidélité physique mais restent trop coûteuses en calcul pour alimenter de l'apprentissage par renforcement à grande échelle. En positionnant le transfert zéro-shot comme critère de validation concret, et non comme simple corrélation de signaux, les auteurs proposent une mesure directement pertinente pour les intégrateurs. Si ce résultat se généralise à des tâches de manipulation plus complexes, cela ouvre la voie à l'entraînement massif de politiques sans collecte intensive de données réelles, réduisant drastiquement le coût de développement. La manipulation dextère avec retour tactile est un domaine en pleine effervescence, porté par l'essor des mains robotiques haute-DOF (Shadow Robotics, Inspire Robots, LEAP Hand) et des environnements de simulation comme Isaac Gym ou MuJoCo. Côté capteurs VBTS, les références de facto restent le GelSight (MIT) et ses dérivés commerciaux comme le DIGIT de Meta AI. Tacmap ne cherche pas à concurrencer ces matériels, mais à résoudre leur principal obstacle logiciel en aval. L'article ne mentionne ni partenariats industriels ni calendrier de déploiement : il s'agit à ce stade d'une contribution de recherche fondamentale, dont la portée pratique dépendra de la généralisation à des géométries de contact plus variées et à des capteurs tiers.

RecherchePaper
1 source
Apprentissage par renforcement en boucle fermée pour le contrôle de forme de microfibres déformables par transfert simulation-réel
3arXiv cs.RO 

Apprentissage par renforcement en boucle fermée pour le contrôle de forme de microfibres déformables par transfert simulation-réel

Des chercheurs ont publié sur arXiv (référence 2605.21688) une approche d'apprentissage par renforcement sim-to-real en boucle fermée pour le contrôle de forme de microfibres déformables. Le système cible la micromanipulation de contact, en l'occurrence des microfibres de soie de 50, 80 et 120 µm de diamètre, sur des longueurs manipulées de 10, 15 et 20 mm. La politique de contrôle est entraînée exclusivement dans un simulateur sans frottement, puis transférée directement vers un système physique à double préhenseur tournant à 40 Hz, sans réentraînement ni adaptation de domaine. Sur 24 configurations initiales variées et 9 spécimens couvrant toutes les combinaisons de diamètres et de longueurs, le système atteint une erreur moyenne de forme de 270 ± 80 µm, soit systématiquement sous le millimètre. Ce résultat est significatif parce qu'il démontre que le problème du sim-to-real gap n'exige pas forcément une modélisation fine des interactions de surface à l'échelle microscopique. Le tour de force consiste à ne pas chercher à éliminer le mismatch entre simulation et réalité, mais à le rendre observable et corrigeable via le retour visuel en temps réel. Pour les intégrateurs travaillant sur la microassemblage, le placement de composants biologiques, ou la manipulation de fibres dans des procédés textiles ou médicaux, cela ouvre la voie à des systèmes qui généraliseraient à de nouveaux matériaux sans recalibration systématique. La robustesse démontrée sur des spécimens de géométries variées, sans réglage par spécimen, constitue un signal concret que le pipeline est viable au-delà du cadre lab. La micromanipulation robotique basée sur la vision souffre depuis longtemps d'un manque de méthodes capables de gérer les forces capillaires, adhésives et de frottement à l'échelle sub-millimétrique, que les simulateurs classiques ignorent. Les approches dominantes s'appuyaient sur des modèles physiques analytiques ou du domain randomization intensif, deux stratégies coûteuses à paramétrer. Ce travail positionne l'apprentissage par renforcement avec retour visuel comme une alternative compétitive, potentiellement transférable à d'autres objets déformables (cathéters, fils chirurgicaux, câbles fins). Les prochaines étapes probables incluent la validation sur des matériaux non-soyeux, l'extension à des fibres plus courtes ou plus rigides, et l'intégration dans des pipelines de microassemblage multi-étapes.

RecherchePaper
1 source
Génération automatique d'arbres de comportement par VLM pour le transfert réel-vers-simulation via perception active
4arXiv cs.RO 

Génération automatique d'arbres de comportement par VLM pour le transfert réel-vers-simulation via perception active

Une équipe de chercheurs propose dans un article arXiv (2601.08454) un pipeline Real2Sim piloté par l'intention, qui automatise la construction d'environnements de simulation physiquement précis à partir d'une instruction en langage naturel. Un modèle vision-langage (VLM) analyse une observation visuelle et une description de simulation incomplète pour identifier le sous-ensemble minimal de paramètres physiques manquants (masse des objets, géométrie de surface, friction), puis génère automatiquement un arbre de comportement (Behavior Tree, BT) composé de primitives motrices et sensorielles atomiques pour les acquérir par interaction physique avec l'environnement. Les expériences ont été conduites sur un bras Franka Emika Panda à contrôle en couple (7 DOF), manipulateur standard en recherche robotique. Les résultats indiquent des gains d'efficacité opérationnelle significatifs par rapport aux méthodes d'exploration exhaustive, validés par des études d'ablation sur plusieurs VLMs de référence, mais les chiffres précis de performance ne sont pas fournis dans l'abstract, ce qui limite la comparabilité externe. L'apport principal est le remplacement de pipelines d'identification système manuels par une stratégie sémantique : au lieu d'explorer exhaustivement l'environnement, le système ne collecte que les données pertinentes pour la tâche demandée, réduisant les interactions redondantes. Pour les équipes travaillant sur des jumeaux numériques industriels, cela représente un gain potentiel en temps de calibration avant déploiement. Le BT joue également un rôle de filtre de sécurité déterministe : sa hiérarchie réactive intercepte les hallucinations du VLM et prévient les anomalies physiques dangereuses, ce qui est non-négligeable pour une application en conditions réelles. Cette combinaison, intelligence sémantique du VLM associée à la robustesse déterministe du BT, constitue l'aspect architectural le plus notable du travail. La construction de simulations fidèles au réel est un verrou classique du déploiement robotique : un jumeau numérique mal calibré amplifie le sim-to-real gap qui dégrade les politiques apprises en simulation, problème central pour les VLA (Vision-Language-Action) actuels. Côté concurrence, Physical Intelligence (pi0), Google DeepMind (successeurs de RT-2) et des projets open-source comme LeRobot de Hugging Face investissent tous dans des pipelines sim-to-real plus robustes. L'utilisation des BT comme couche d'interprétabilité face aux modèles génératifs s'inscrit dans une tendance plus large visant à rendre les LLM/VLM compatibles avec des contraintes de sécurité industrielle. Les prochaines étapes logiques seraient d'étendre le pipeline à des robots mobiles ou des plateformes humanoïdes, et de publier des benchmarks complets permettant une comparaison rigoureuse avec les méthodes d'identification système existantes.

RecherchePaper
1 source