Aller au contenu principal
EquiDexFlow : un modèle génératif de préhension habile équivariant SE(3) ancré dans le contact
RecherchearXiv cs.RO1j

EquiDexFlow : un modèle génératif de préhension habile équivariant SE(3) ancré dans le contact

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs publie EquiDexFlow, un modèle génératif de préhension dextère intégrant les contraintes physiques de contact directement dans l'architecture, sans étape de vérification séparée. Publié sur arXiv en juin 2026, il exploite le flow-matching avec équivariance SE(3) pour prédire simultanément la pose du poignet, les angles articulaires, les contacts du bout des doigts, les normales de surface et les forces de contact à partir d'un nuage de points de l'objet. Contrairement aux générateurs classiques qui traitent les forces comme un filtre a posteriori, EquiDexFlow projette les contacts sur la surface de l'objet et les forces dans le cône de friction de Coulomb par construction, sans terme de pénalité dans la fonction de perte. Entraîné sur 8 100 saisies en fermeture de force sur 81 objets pour la main Allegro à 16 degrés de liberté (DDL), il atteint zéro violation de frottement et le plus faible résidu de torseur parmi toutes les variantes d'ablation, avec une équivariance SE(3) vérifiée sur 200 rotations et des résidus de poignet inférieurs à 0,04 degré. Retransposé vers une main LEAP à 16 DDL par cinématique inverse doigt par doigt, le modèle réussit en boucle ouverte sur six objets physiques, y compris des objets asymétriques à la pose canonique et après une co-rotation de 120 degrés.

Le verrou adressé est structurel : dans la plupart des pipelines de préhension dextère appris, un générateur produit une pose cinématiquement valide qu'un module aval filtre selon des critères physiques, laissant potentiellement passer des saisies plausibles mais instables au contact réel. En intégrant le cône de Coulomb dans l'architecture même, EquiDexFlow élimine cette classe d'erreurs par construction plutôt que par filtrage, ce qui réduit le taux de rejet et simplifie le pipeline de déploiement pour les intégrateurs industriels. Le retargeting réussi de la main Allegro vers la main LEAP suggère en outre une généralisation de la représentation des contacts au-delà de la main d'entraînement, propriété encore rare dans les systèmes de préhension dextère actuels, même si l'évaluation sur six objets reste un périmètre de test limité.

La préhension dextère multi-doigt demeure un verrou central de la manipulation généraliste en robotique. Des travaux récents comme DexGraspNet ou UniGrasp ont progressé sur la génération de poses, mais la modélisation explicite des forces dans la boucle générative reste peu courante. Le flow-matching, popularisé dans les modèles VLA (Vision-Language-Action), est ici appliqué avec une contrainte d'équivariance formellement démontrée, ce qui constitue une contribution méthodologique distincte. Code, checkpoints et vidéos sont disponibles sur equidexflow.github.io. Des acteurs comme Enchanted Tools ou Wandercraft, qui développent des systèmes de manipulation à actionnement avancé, pourraient s'appuyer sur ce formalisme pour leurs propres pipelines de préhension.

Impact France/UE

Enchanted Tools et Wandercraft, acteurs français de la manipulation avancée, pourraient directement intégrer ce formalisme de préhension physique (cône de Coulomb dans la boucle générative) dans leurs pipelines R&D, le code et les checkpoints étant publiquement disponibles.

À lire aussi

TacForeSight : un modèle du monde tactile guidé par la force pour la manipulation en contact dense
1arXiv cs.RO 

TacForeSight : un modèle du monde tactile guidé par la force pour la manipulation en contact dense

Des chercheurs ont publié sur arXiv (référence 2606.11184) TacForeSight, un framework léger d'anticipation tactile guidée par la force pour la manipulation en contact riche. Le système repose sur deux composants : TacForceWM, un modèle du monde tactile qui prédit les dynamiques latentes tactiles à court horizon à partir de capteurs bi-doigts conditionnés par les signaux de force et de couple au poignet à haute fréquence, et une politique conditionnée par l'anticipation tactile (Predictive Tactile-Conditioned Policy) qui exploite ces prédictions comme priors de contact, modélise l'évolution tactile courante-vers-future via cross-attention, et fusionne les features visuo-tactiles via un module de gating adaptatif. Les expériences portent sur cinq tâches représentatives de manipulation sur robot réel et trois scénarios de perturbation en cours de manipulation, avec des résultats supérieurs aux baselines existantes dans tous les cas, notamment sous perturbations de contact dynamiques. Le code et les datasets seront mis à disposition publiquement sur tacforesight.github.io. L'apport technique central est de modéliser explicitement les rôles asymétriques de la force globale au poignet (basse résolution spatiale, haute fréquence) et du toucher local bi-doigts (haute résolution spatiale, dynamique plus lente), distinction que la plupart des méthodes d'imitation learning actuelles ignorent. En opérant entièrement dans un espace latent compact, le framework permet un raisonnement de contact proactif compatible avec le contrôle haute fréquence, là où les approches réactives échouent sous perturbations imprévues. Pour les intégrateurs industriels et les équipes travaillant sur l'assemblage ou le conditionnement robotisé, c'est une démonstration concrète que la fusion force+tactile dans un world model améliore la robustesse réelle sans alourdir l'inférence en temps réel. Ce travail s'inscrit dans une vague de recherche combinant world models et retour tactile pour la manipulation dextre, aux côtés d'approches comme Pi-0 (Physical Intelligence) ou les travaux sur GR00T N2 de NVIDIA qui intègrent également des politiques tactile-aware. Aucun concurrent français ou européen direct n'est identifié sur ce créneau précis, bien que des acteurs comme Pollen Robotics ou Enchanted Tools s'appuient aussi sur la manipulation fine. Il s'agit ici d'un preprint non encore évalué par les pairs, sans déploiement industriel ni partenaire annoncé : les résultats, bien que prometteurs sur cinq tâches de laboratoire, devront être reproduits sur des géométries et conditions de contact plus variées avant de valider la généralisation à l'échelle industrielle.

UEImpact indirect : le code open-source prévu sur tacforesight.github.io pourrait être exploité par des équipes européennes travaillant sur la manipulation fine, comme Pollen Robotics ou les labos CEA-List, mais aucun acteur FR/EU n'est impliqué dans ce travail.

RecherchePaper
1 source
TacSE3 : estimation SE(3) équivariante sur images visuotactiles à faible texture pour suivi et compensation en préhension
2arXiv cs.RO 

TacSE3 : estimation SE(3) équivariante sur images visuotactiles à faible texture pour suivi et compensation en préhension

Des chercheurs ont publié sur arXiv (identifiant 2605.17929) TacSE3, un pipeline d'estimation de mouvement tactile conçu pour le suivi d'objets en prise de robot. Le système prend en entrée des images visuotactiles à faible texture, les convertit en un champ de force tridimensionnel découplé, puis estime le mouvement rigide incrémental dans SE(3), c'est-à-dire le groupe euclidien spécial à six degrés de liberté combinant trois axes de translation et trois axes de rotation. L'architecture dérive la translation planaire depuis le déplacement du centroïde de contact, et estime la rotation principalement à partir des réponses tactiles de cisaillement (shear). Les expériences s'appuient sur une paire de capteurs visuotactiles DM-Tac montés en configuration bidigitale, sans autre précision sur le matériel robotique hôte ni sur les benchmarks comparatifs utilisés. L'intérêt industriel réside dans deux propriétés rarement combinées : l'interprétabilité physique du signal et l'absence de ré-entraînement de la politique de base. En manipulation in-hand, l'occlusion visuelle fréquente prive les approches classiques de correspondances stables entre images, qu'il s'agisse de matching géométrique ou de flux optique. TacSE3 contourne ce problème en exploitant uniquement le retour tactile, lequel reste disponible même lorsque la caméra extéroceptive est aveugle. La configuration à deux capteurs réduit l'ambiguïté translation-rotation inhérente à un capteur unique et permet le suivi en rotation sur plusieurs axes et géométries d'objets. Le signal de compensation reste léger et s'intègre en surcouche d'une politique existante, ce qui simplifie l'industrialisation : pas besoin de reprendre l'apprentissage pour améliorer la tolérance aux perturbations. La manipulation tactile en prise est un axe de recherche actif, porté notamment par les travaux autour des capteurs GelSight (MIT) et des approches vision-language-action (VLA) qui peinent encore sur la finesse des contacts. TacSE3 s'inscrit dans la tendance à enrichir ces pipelines avec un retour proprioceptif interprétable plutôt que de tout déléguer au visuel. Côté concurrence, des équipes comme celles derrière Digit (Meta/GelSight Technologies) ou Soft Robotics travaillent sur des capteurs tactiles embarqués, mais peu proposent une estimation SE(3) sans texture. La preprint ne mentionne pas de partenaire industriel ni de calendrier de déploiement ; les résultats restent à confirmer hors laboratoire, en conditions d'encombrement et de bruit réels.

RecherchePaper
1 source
EA-WM : un modèle du monde génératif intégrant des champs d'action cinématique-visuel structurés
3arXiv cs.RO 

EA-WM : un modèle du monde génératif intégrant des champs d'action cinématique-visuel structurés

Des chercheurs ont déposé le 8 mai 2026 sur arXiv (2605.06192) un préprint présentant EA-WM (Event-Aware Generative World Model), un modèle de monde génératif pour la robotique fondé sur les modèles de diffusion vidéo préentraînés. L'originalité technique centrale réside dans l'introduction de "Structured Kinematic-to-Visual Action Fields" : plutôt que d'injecter les états articulaires ou les positions d'effecteur terminal sous forme de tokens abstraits de faible dimension, le modèle projette directement les actions et états cinématiques dans l'espace de la caméra cible, produisant une représentation géométriquement ancrée. Les auteurs introduisent également des blocs de fusion bidirectionnelle sensibles aux événements ("event-aware bidirectional fusion blocks"), qui modulent l'attention croisée entre branches et capturent les changements d'état des objets ainsi que la dynamique fine des interactions robot-objet. Évalué sur le benchmark WorldArena, EA-WM dépasse les baselines existantes par une marge que les auteurs qualifient de significative, sans préciser les écarts numériques dans l'abstract. L'enjeu est celui du "problème inverse" dans les world models robotiques : la plupart des approches actuelles traitent la génération vidéo comme une représentation auxiliaire au service de l'apprentissage de politiques, sans exploiter les signaux d'action pour guider la synthèse visuelle. EA-WM retourne cette perspective et produit des rollouts simulés qui préservent mieux la géométrie spatiale du robot et la dynamique des interactions, un défaut récurrent des world models qui génèrent des séquences visuellement plausibles mais cinématiquement incohérentes. Pour les équipes travaillant sur le sim-to-real, une meilleure fidélité géométrique dans les rollouts peut directement améliorer la qualité des politiques apprises sans données réelles supplémentaires, ce qui est l'un des arguments centraux de ce type d'approche. Les modèles de diffusion vidéo utilisés comme fondation pour les world models robotiques font l'objet d'une activité de recherche intense depuis 2024, avec des travaux comparables comme UniSim, IRASim ou Genie 2 de DeepMind. EA-WM se distingue par son traitement explicite de la géométrie cinématique projetée dans la vue caméra, là où la plupart des approches restent dans des espaces latents abstraits. Il s'agit strictement d'un article académique en préprint : aucun code public n'est mentionné, aucun partenariat industriel ni déploiement n'est annoncé. Les étapes suivantes attendues sont la validation sur des benchmarks de manipulation réels et l'intégration dans des pipelines de policy learning fondés sur des modèles VLA (Vision-Language-Action).

RechercheActu
1 source
AFUN : vers un modèle fondation d'affordances pour la compréhension fonctionnelle
4arXiv cs.RO 

AFUN : vers un modèle fondation d'affordances pour la compréhension fonctionnelle

Une équipe de recherche a publié le 2 juin 2026 sur arXiv (réf. 2606.02551) un modèle baptisé AFUN, conçu pour la compréhension fonctionnelle des affordances en robotique. À partir d'une unique observation RGB-D et d'une instruction en langage naturel, AFUN produit simultanément deux sorties : un masque fonctionnel conditionné par la tâche (où interagir) et une courbe de mouvement 3D post-contact (comment interagir). Les auteurs ont construit un pipeline de données standardisé à grande échelle, fusionnant des sources hétérogènes : données robotiques, humaines, issues de simulations et de scans réels, converties en un schéma d'affordance commun incluant des labels de langue, des masques et des mouvements 3D centrés sur les objets. Sur 8 jeux de test issus de 4 benchmarks, AFUN surpasse tous les modèles de référence avec un gain de +23,9 / +26,3 en gIoU/cIoU moyen pour la segmentation d'affordances, une amélioration du hit-rate de 12,7 à 61,3 % pour la prédiction du point de contact, et les meilleures performances sur les trois jeux de test pour la prédiction de mouvement 3D. L'enjeu dépasse la performance brute. Le verrou historique en manipulation robotique n'est pas le bras mais la décision : savoir où poser la pince et comment la déplacer ensuite dans un environnement non structuré. Les approches existantes traitent ces deux problèmes séparément, soit en localisant une région d'intérêt sans spécifier le geste, soit en prédisant un mouvement avec une généralisation limitée. AFUN adresse les deux en une seule passe, et surtout le fait sans finetuning spécifique à l'embodiment cible, ce qui constitue un argument fort pour des intégrateurs cherchant à déployer sur plusieurs plateformes matérielles. Le déploiement zero-shot en environnement réel démontré dans le papier soulage une contrainte d'adaptation qui représente souvent plusieurs semaines d'ingénierie. Le problème de l'affordance est étudié depuis les années 1980 (Gibson), mais sa formalisation computationnelle pour la robotique reste un chantier ouvert. Dans l'écosystème actuel, des modèles comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) intègrent des capacités d'affordance dans des pipelines VLA (Vision-Language-Action) plus larges, tandis que des travaux académiques comme AnyGrasp ou UniDexGrasp 3.0 ciblent la préhension spécifiquement. AFUN se positionne comme fondation explicable et modulaire, avec une page projet publique, mais reste à ce stade un preprint non encore évalué par les pairs : les métriques annoncées devront être validées sur des plateformes robotiques variées et en conditions industrielles avant de conclure à une percée opérationnelle.

UELes équipes R&D et intégrateurs européens travaillant sur des déploiements multi-plateformes pourraient bénéficier de la capacité zero-shot d'AFUN, mais aucun acteur français ou européen n'est impliqué.

RechercheOpinion
1 source