RecherchearXiv cs.RO 12 juin 2026

EquiDexFlow : un modèle génératif de préhension habile équivariant SE(3) ancré dans le contact

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Une équipe de chercheurs publie EquiDexFlow, un modèle génératif de préhension dextère intégrant les contraintes physiques de contact directement dans l'architecture, sans étape de vérification séparée. Publié sur arXiv en juin 2026, il exploite le flow-matching avec équivariance SE(3) pour prédire simultanément la pose du poignet, les angles articulaires, les contacts du bout des doigts, les normales de surface et les forces de contact à partir d'un nuage de points de l'objet. Contrairement aux générateurs classiques qui traitent les forces comme un filtre a posteriori, EquiDexFlow projette les contacts sur la surface de l'objet et les forces dans le cône de friction de Coulomb par construction, sans terme de pénalité dans la fonction de perte. Entraîné sur 8 100 saisies en fermeture de force sur 81 objets pour la main Allegro à 16 degrés de liberté (DDL), il atteint zéro violation de frottement et le plus faible résidu de torseur parmi toutes les variantes d'ablation, avec une équivariance SE(3) vérifiée sur 200 rotations et des résidus de poignet inférieurs à 0,04 degré. Retransposé vers une main LEAP à 16 DDL par cinématique inverse doigt par doigt, le modèle réussit en boucle ouverte sur six objets physiques, y compris des objets asymétriques à la pose canonique et après une co-rotation de 120 degrés.

Le verrou adressé est structurel : dans la plupart des pipelines de préhension dextère appris, un générateur produit une pose cinématiquement valide qu'un module aval filtre selon des critères physiques, laissant potentiellement passer des saisies plausibles mais instables au contact réel. En intégrant le cône de Coulomb dans l'architecture même, EquiDexFlow élimine cette classe d'erreurs par construction plutôt que par filtrage, ce qui réduit le taux de rejet et simplifie le pipeline de déploiement pour les intégrateurs industriels. Le retargeting réussi de la main Allegro vers la main LEAP suggère en outre une généralisation de la représentation des contacts au-delà de la main d'entraînement, propriété encore rare dans les systèmes de préhension dextère actuels, même si l'évaluation sur six objets reste un périmètre de test limité.

La préhension dextère multi-doigt demeure un verrou central de la manipulation généraliste en robotique. Des travaux récents comme DexGraspNet ou UniGrasp ont progressé sur la génération de poses, mais la modélisation explicite des forces dans la boucle générative reste peu courante. Le flow-matching, popularisé dans les modèles VLA (Vision-Language-Action), est ici appliqué avec une contrainte d'équivariance formellement démontrée, ce qui constitue une contribution méthodologique distincte. Code, checkpoints et vidéos sont disponibles sur equidexflow.github.io. Des acteurs comme Enchanted Tools ou Wandercraft, qui développent des systèmes de manipulation à actionnement avancé, pourraient s'appuyer sur ce formalisme pour leurs propres pipelines de préhension.

Impact France/UE

Enchanted Tools et Wandercraft, acteurs français de la manipulation avancée, pourraient directement intégrer ce formalisme de préhension physique (cône de Coulomb dans la boucle générative) dans leurs pipelines R&D, le code et les checkpoints étant publiquement disponibles.

Dans nos dossiers

Wandercraft Enchanted Tools — Mirokaï arXiv cs.RO

À lire aussi

1arXiv cs.RO

Transférer le contact, pas seulement le mouvement : préhension souple entre mains dextériques

Des chercheurs ont publié mi-juin 2026 sur arXiv (réf. 2606.15516) une méthode de transfert de politiques de préhension dextre entre mains robotiques hétérogènes. L'approche introduit une interface force-position cross-embodiment : le mouvement est encodé dans un espace latent de pose de main commun à toutes les plateformes, tandis que les efforts de chaque main sont calibrés par identification système en couples articulaires physiques exprimés en N.m, puis convertis en forces au bout des doigts et en descripteurs compacts de charge par doigt. Une politique visuomoteur entraînée par flow matching combine vision, proprioception et contact calibré ; un masquage visuel structuré pousse la politique à s'appuyer sur la force lorsque les contacts sont occultés. Le même contrôleur hybride force-position sert à la collecte de démonstrations et à l'exécution, assurant la cohérence des cibles de force entre entraînement et déploiement. L'enjeu est réel : la préhension dextre stable exige la régulation du contact, pas seulement le suivi de trajectoire. Quand un doigt glisse, se déforme ou sort du champ visuel, c'est le retour de force qui maintient la charge appropriée sur l'objet. Les architectures cross-embodiment existantes unifient le mouvement via des poses retargetées ou des actions latentes, mais laissent le signal de force lié au hardware de chaque main, bloquant le transfert. En calibrant ce signal dans une unité physique commune (N.m), les auteurs rendent la boucle de régulation de contact comparable entre plateformes structurellement différentes. Pour un intégrateur qui déploie plusieurs modèles de mains sur une même cellule, cela ouvre la perspective de bibliothèques de skills partagées plutôt que de politiques ad hoc par hardware. Les expériences montrent que des primitives apprises sont réemployables dans des pipelines de manipulation longue portée, test de généralisation nettement plus exigeant qu'une démonstration isolée. La publication s'inscrit dans le sillage des architectures cross-embodiment post-GR00T N2 et pi0, où l'effort de la communauté vise la réutilisation de politiques entre robots sans retraining complet. Elle répond directement aux limites de travaux comme DexMV ou AnyGrasp, qui normalisent le mouvement mais ignorent la physique du contact. Fait inhabituel : l'abstract ne mentionne ni institution ni auteurs explicites, ce qui peut indiquer une soumission industrielle anonymisée ou un groupe en cours de dévoilement. Le travail reste à ce stade un résultat expérimental de laboratoire sans déploiement annoncé ; la prochaine étape naturelle serait une validation sur des mains commerciales comme la Shadow Hand ou l'Ability Hand dans des scénarios industriels réels.

RechercheOpinion

1 source

2arXiv cs.RO

UniTac : modèle multimodal unifié pour la compréhension et la génération tactiles multi-capteurs

Une équipe de recherche présente UniTac, décrit comme le premier modèle multimodal unifié (UMM) conçu spécifiquement pour la compréhension et la génération de données tactiles, dans un article publié sur arXiv (2606.31451v1). Le système modélise le processus tactile comme une transition entre l'absence de contact et le contact, via une représentation à deux niveaux qui encode à la fois les attributs du capteur utilisé et ceux de l'objet touché. Pour la compréhension, UniTac introduit deux tâches inédites : la description des propriétés physiques d'un objet et l'identification du capteur à l'origine du signal. Pour la génération, les auteurs proposent un entraînement en deux étapes, reconstruction puis alignement, complété par une stratégie d'échantillonnage basée sur les caractéristiques propres à chaque capteur afin de simuler des contacts réalistes. Entraîné sur des jeux de données tactiles multi-capteurs à grande échelle, le modèle revendique des performances état de l'art en compréhension tactile et une capacité à générer des signaux tactiles crédibles quel que soit le capteur d'origine. L'enjeu principal touche à la fragmentation du capteur tactile en robotique : les technologies existantes (capteurs optiques type GelSight ou DIGIT, capteurs magnétiques comme ReSkin, etc.) produisent des signaux de formats incompatibles, ce qui oblige généralement à ré-entraîner un modèle par type de capteur. Un modèle unifié capable à la fois d'interpréter et de générer du signal tactile à travers différents capteurs ouvrirait la voie à un transfert d'apprentissage sans recollecte massive de données, et à une augmentation synthétique des jeux de données tactiles pour l'entraînement de politiques de manipulation. C'est un pas potentiel vers l'intégration du toucher dans les modèles vision-langage-action (VLA) qui structurent aujourd'hui la robotique humanoïde, où la perception reste très majoritairement centrée sur la vision. Ce travail s'inscrit dans la continuité des modèles multimodaux unifiés développés pour l'image et le texte, ici transposés au domaine tactile encore largement sous-exploré selon les auteurs. Il ne s'agit à ce stade que d'une publication de recherche, sans capteur commercial ni intégration robotique annoncée : l'article ne précise ni partenariat industriel, ni calendrier de déploiement, ce qui en fait une contribution méthodologique plutôt qu'un produit prêt à l'emploi.

RecherchePaper

1 source

3arXiv cs.RO

GraspIT : un jeu de données comblant l'écart simulation-réel pour la génération validée de poses de préhension SE(3)

GraspIT, un nouveau dataset de prises robotiques présenté dans un article arXiv publié cette semaine, s'attaque au problème du transfert simulation-réel pour la préhension d'objets inédits. L'équipe a généré des scènes de table dans NVIDIA Isaac Sim, puis annoté chaque prise candidate via un test physique de glissement en quatre étapes, exécuté sur des instances virtuelles de bras Franka Panda, allant au-delà du simple critère de force-closure classique. Sur environ 2,3 millions de prises candidates, 83% obtiennent un score de qualité jugé bon (seuil de 0,50 ou plus), tandis que les 17% restants, qui passent le test de force-closure mais échouent au test de glissement, constituent des "hard negatives" utiles à l'entraînement. Une boucle réel-vers-simulation rétroprojette ensuite ces annotations sur 100 scènes réelles. Au total, le dataset livre environ 316 000 jeux d'images RGB-D annotées, couvrant 1035 scènes simulées et 100 scènes réelles, avec masques d'instance, poses en 6 degrés de liberté, propriétés physiques des objets et scores de qualité pour chaque prise. Les outils sont open source et conteneurisés via Docker. Cette publication comble un manque identifié par les auteurs eux-mêmes: aucun dataset existant ne combinait jusqu'ici observations photoréalistes, validation physique rigoureuse des prises et pont explicite entre simulation et monde réel. Pour les équipes de recherche en manipulation robotique, ce type de ressource conditionne directement la qualité des politiques apprises par imitation ou par renforcement, notamment pour les modèles vision-langage-action qui nécessitent de gros volumes de démonstrations fiables. Les négatifs difficiles générés par le test de glissement offrent en particulier un signal d'entraînement plus discriminant que les datasets fondés sur la seule force-closure, souvent trop permissifs. Le projet s'inscrit dans une littérature croissante cherchant à réduire l'écart sim-to-real, un obstacle persistant pour déployer en conditions réelles des politiques entraînées en simulation. La planification de trajectoires intégrée dans Isaac Sim permet en outre de streamer des démonstrations haute résolution pour l'apprentissage de politiques de manipulation sur table et le clonage comportemental, ouvrant la voie à des travaux de suivi sur des tâches de préhension plus complexes.

RecherchePaper

1 source

4arXiv cs.RO

TacForeSight : un modèle du monde tactile guidé par la force pour la manipulation en contact dense

Des chercheurs ont publié sur arXiv (référence 2606.11184) TacForeSight, un framework léger d'anticipation tactile guidée par la force pour la manipulation en contact riche. Le système repose sur deux composants : TacForceWM, un modèle du monde tactile qui prédit les dynamiques latentes tactiles à court horizon à partir de capteurs bi-doigts conditionnés par les signaux de force et de couple au poignet à haute fréquence, et une politique conditionnée par l'anticipation tactile (Predictive Tactile-Conditioned Policy) qui exploite ces prédictions comme priors de contact, modélise l'évolution tactile courante-vers-future via cross-attention, et fusionne les features visuo-tactiles via un module de gating adaptatif. Les expériences portent sur cinq tâches représentatives de manipulation sur robot réel et trois scénarios de perturbation en cours de manipulation, avec des résultats supérieurs aux baselines existantes dans tous les cas, notamment sous perturbations de contact dynamiques. Le code et les datasets seront mis à disposition publiquement sur tacforesight.github.io. L'apport technique central est de modéliser explicitement les rôles asymétriques de la force globale au poignet (basse résolution spatiale, haute fréquence) et du toucher local bi-doigts (haute résolution spatiale, dynamique plus lente), distinction que la plupart des méthodes d'imitation learning actuelles ignorent. En opérant entièrement dans un espace latent compact, le framework permet un raisonnement de contact proactif compatible avec le contrôle haute fréquence, là où les approches réactives échouent sous perturbations imprévues. Pour les intégrateurs industriels et les équipes travaillant sur l'assemblage ou le conditionnement robotisé, c'est une démonstration concrète que la fusion force+tactile dans un world model améliore la robustesse réelle sans alourdir l'inférence en temps réel. Ce travail s'inscrit dans une vague de recherche combinant world models et retour tactile pour la manipulation dextre, aux côtés d'approches comme Pi-0 (Physical Intelligence) ou les travaux sur GR00T N2 de NVIDIA qui intègrent également des politiques tactile-aware. Aucun concurrent français ou européen direct n'est identifié sur ce créneau précis, bien que des acteurs comme Pollen Robotics ou Enchanted Tools s'appuient aussi sur la manipulation fine. Il s'agit ici d'un preprint non encore évalué par les pairs, sans déploiement industriel ni partenaire annoncé : les résultats, bien que prometteurs sur cinq tâches de laboratoire, devront être reproduits sur des géométries et conditions de contact plus variées avant de valider la généralisation à l'échelle industrielle.

UEImpact indirect : le code open-source prévu sur tacforesight.github.io pourrait être exploité par des équipes européennes travaillant sur la manipulation fine, comme Pollen Robotics ou les labos CEA-List, mais aucun acteur FR/EU n'est impliqué dans ce travail.

RecherchePaper

1 source