Aller au contenu principal
Représentations statiques et dynamiques pour l'estimation de l'angle de contact tactile avec des capteurs à événements
RecherchearXiv cs.RO2h

Représentations statiques et dynamiques pour l'estimation de l'angle de contact tactile avec des capteurs à événements

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié le 3 juin 2026 un preprint (arXiv:2606.03545) évaluant trois méthodes de représentation des données issues du NeuroTac, un capteur tactile neuromorphique event-based, pour l'estimation de l'angle de contact. Les flux d'événements générés lors du contact physique sont transformés en contours spatiaux selon trois approches : une représentation dynamique capturant l'activité événementielle la plus récente, une représentation statique reconstituant un état de contact persistant, et leur combinaison. Sur tous les scénarios de mouvement testés, les trois pipelines maintiennent une latence de traitement P99 inférieure à 10 ms, quel que soit l'intervalle d'échantillonnage utilisé. La représentation statique surpasse marginalement les deux autres en précision : elle atteint une MAE (erreur absolue moyenne) de 0,160° en roulement continu du capteur sur une surface, et de 0,251° lors de phases d'arrêt aléatoires intercalées dans le mouvement. Elle présente également une variance plus faible face aux variations de vitesse et de profondeur d'indentation.

Pour les intégrateurs et les équipes de contrôle robotique, une latence P99 sous 10 ms représente le seuil en dessous duquel le retour tactile peut alimenter des boucles de contrôle temps-réel sans devenir le facteur limitant de la chaîne de commande. La précision de 0,160° en roulement est compatible avec des tâches d'assemblage ou d'insertion nécessitant un contrôle fin de l'orientation de contact. Le résultat le plus contre-intuitif est la performance supérieure de la représentation statique sur la dynamique : les capteurs event-based étant précisément réputés pour leur réactivité temporelle, l'hypothèse implicite était que les représentations exploitant cette dimension temporelle seraient les meilleures. Ici, la simplicité de la représentation statique s'avère plus robuste, ce qui réduit la complexité du traitement embarqué nécessaire.

Le NeuroTac est issu des travaux du Bristol Robotics Laboratory, dans le groupe de Nathan Lepora, qui a d'abord développé le TacTip, un capteur optique tactile biomimétique, avant d'en produire une variante neuromorphique. Dans l'écosystème des capteurs tactiles de précision, il concurrence des dispositifs comme le DIGIT (Meta AI Research et CMU), le GelSight (MIT) ou les capteurs Xela Robotics. L'article demeure un preprint non soumis à peer review, et les scénarios évalués, fondés sur des mouvements de roulement contrôlés en laboratoire, restent éloignés des conditions d'une manipulation industrielle réelle. La validation sur des tâches multi-doigts ou des mains robotiques complètes comme la Shadow Hand constituerait une prochaine étape naturelle pour évaluer le passage à l'échelle.

Dans nos dossiers

À lire aussi

PointAction : les points 3D comme représentation universelle des actions pour le contrôle robotique
1arXiv cs.RO 

PointAction : les points 3D comme représentation universelle des actions pour le contrôle robotique

Des chercheurs ont publié le 3 juin 2026 PointAction (arXiv:2506.03943), un cadre de contrôle robotique qui fait le pont entre les Video-Action Models (VAMs) et les commandes exécutables sur bras physique. Le constat de départ est précis : les modèles vidéo entraînés uniquement sur du RGB ne permettent pas de contraindre la géométrie de contact 3D ni les marges spatiales métriques nécessaires à la manipulation, rendant le grounding des actions ambigu. PointAction répond à ce problème en affinant un modèle de génération vidéo de fondation pour prédire simultanément des frames RGB futurs et des pointmaps 3D dynamiques, produisant une représentation 4D (3D + temps) cohérente de la scène. Ces cartes de points servent d'interface structurée et embodiment-agnostic entre prédiction vidéo et contrôle moteur, qu'un décodeur d'actions basé sur la diffusion traduit ensuite en commandes exécutables. Les résultats publiés indiquent une qualité de génération 4D état de l'art sur scènes robotiques, une supériorité sur les baselines existantes en simulation, et une généralisation à deux bras robotiques absents du préentraînement. L'enjeu pour les intégrateurs est concret. Les VAMs peinent depuis plusieurs années à franchir le fossé entre rollout vidéo convaincant et action physique fiable : le RGB seul ne transmet ni la profondeur métrique, ni l'orientation des surfaces de contact, ni les tolérances de précision requises. En intercalant une couche intermédiaire explicite, les pointmaps 3D dynamiques, PointAction décompose le problème et réduit structurellement l'ambiguïté d'ancrage. L'interface embodiment-agnostic réduit aussi le coût de supervision nécessaire pour adapter un modèle à une nouvelle plateforme, argument concret pour les intégrateurs multi-robots. La généralisation à des bras non vus en préentraînement contredit partiellement l'hypothèse dominante selon laquelle les architectures VLA (Vision-Language-Action) exigent des volumes massifs de données spécifiques par embodiment, bien qu'aucun chiffre de transfert à l'échelle industrielle ne soit publié. PointAction s'inscrit dans une vague de recherche exploitant les modèles de diffusion vidéo pour la robotique, dans le sillage de pi-0 de Physical Intelligence, de GR00T N2 de NVIDIA et d'OpenVLA. La représentation en points 3D fait écho à des travaux antérieurs comme Tracking Any Point (TAP) ou 3D-DiffuserActor, mais PointAction les intègre dans la boucle de génération plutôt qu'en post-traitement. Le papier reste à l'étape pré-print arXiv, sans validation indépendante ni déploiement industriel annoncé ; les prochaines étapes probables incluent une extension à des manipulateurs à plus haut degré de liberté et à des configurations mobiles, ainsi qu'une intégration avec des pipelines VLA existants.

RechercheOpinion
1 source
CoCo-InEKF : estimation d'état avec covariances de contact apprises dans des scénarios dynamiques à contacts multiples
2arXiv cs.RO 

CoCo-InEKF : estimation d'état avec covariances de contact apprises dans des scénarios dynamiques à contacts multiples

Une équipe de recherche vient de déposer sur arXiv (arXiv:2605.15122, mai 2026) CoCo-InEKF, un filtre de Kalman étendu invariant différentiable pour l'estimation d'état des robots à pattes en mouvement dynamique. La contribution centrale consiste à remplacer les états de contact binaires traditionnels (pied au sol ou non) par des covariances continues de vitesse de contact, calculées par un réseau de neurones léger entraîné de bout en bout via une fonction de perte sur l'erreur d'état. Ce réseau prédit des covariances pour des points candidats de contact prédéfinis, sans nécessiter d'étiquettes manuelles de vérité terrain. Une procédure de sélection automatique de ces points est également proposée, et les auteurs montrent que les résultats sont peu sensibles à leur positionnement exact. Les expériences ont été conduites sur un robot bipède, avec des démonstrations de danse et d'interactions complexes avec le sol, aussi bien en simulation qu'en environnement réel. La distinction entre états de contact binaires et covariances continues touche un verrou technique récurrent de la locomotion dynamique. Les filtres classiques peinent à gérer le contact partiel (un pied posé partiellement sur un obstacle) ou le glissement directionnel (la semelle dérape latéralement tout en maintenant une charge normale). En modulant dynamiquement la confiance accordée à chaque point de contact, CoCo-InEKF produit une meilleure estimation de vitesse linéaire et une consistance de filtre améliorée par rapport aux approches de référence, ce qui conditionne directement la robustesse des mouvements sur terrains complexes. L'absence de labels manuels de contact facilite également le portage vers de nouveaux châssis sans recalibrage supervisé. L'InEKF (filtre de Kalman étendu invariant sur groupes de Lie SE(3)) s'est imposé depuis les travaux du MIT sur le contact-aided InEKF (2019) comme cadre de référence pour l'odométrie des robots à pattes, avec des intégrations dans des systèmes comme ANYmal d'ANYbotics. CoCo-InEKF y intègre l'apprentissage machine pour estimer les covariances de contact plutôt que de les fixer heuristiquement, une évolution incrémentale mais utile face aux approches purement géométriques. Les démonstrations restent à ce stade sur un prototype de laboratoire bipède non identifié dans le preprint ; le code n'est pas encore publié, et le transfert vers des plateformes commerciales comme Unitree H1 ou Agility Robotics Digit demandera une validation sur une plus grande diversité de surfaces et de dynamiques.

RecherchePaper
1 source
Distillation de représentations tactiles simulées pour la manipulation dextérique (PTLD)
3arXiv cs.RO 

Distillation de représentations tactiles simulées pour la manipulation dextérique (PTLD)

Des chercheurs ont publié sur arXiv (référence 2603.04531) une méthode baptisée PTLD, pour "Privileged Tactile Latent Distillation", visant à résoudre l'un des verrous fondamentaux de la manipulation dextère robotique : intégrer le retour tactile dans des politiques de contrôle sans disposer de simulation réaliste de capteurs tactiles. L'approche repose sur un entraînement par renforcement en simulation, puis une phase de distillation en monde réel : des capteurs tactiles "privilégiés" (accessibles uniquement lors de la collecte de données réelles) servent à entraîner un estimateur d'état latent, qui est ensuite intégré dans la politique proprioceptive déjà apprise. Sur la tâche de référence de rotation en main (in-hand rotation), PTLD affiche une amélioration de 182 % par rapport à une politique basée uniquement sur la proprioception. Sur la tâche plus difficile de réorientation en main guidée par le toucher, le gain atteint 57 % en nombre d'objectifs atteints. L'enjeu industriel est direct : la manipulation fine avec des mains multi-doigts bute depuis des années sur deux obstacles simultanés, l'impossibilité de simuler fidèlement les capteurs tactiles et le coût prohibitif des démonstrations téléopérées de qualité suffisante. PTLD contourne les deux en découplant apprentissage en simulation (pour la dynamique) et distillation en monde réel (pour le sens du toucher), sans jamais exiger de simulation tactile. Ce résultat valide l'hypothèse que le sim-to-real n'implique pas nécessairement de simuler chaque modalité sensorielle, à condition de concevoir intelligemment la phase de transfert. Pour les intégrateurs et les équipes de R&D travaillant sur l'assemblage précis ou la manipulation d'objets déformables, c'est un signal fort : des politiques robustes sont atteignables sans infrastructure de téléopération lourde. La manipulation dextère avec retour tactile reste un chantier ouvert dans le champ robotique : des acteurs comme Sanctuary AI, Dexterous Robotics, ou encore Shadow Robot explorent des approches similaires, tandis que des laboratoires académiques (Stanford, CMU, MIT) publient régulièrement sur le sim-to-real pour mains multi-doigts. PTLD se distingue en évitant la simulation tactile là où d'autres groupes investissent dans des moteurs physiques spécialisés (ex. Isaac Gym avec contact enrichi). Aucun déploiement industriel n'est annoncé à ce stade, il s'agit d'un résultat académique publié sur preprint ; la reproductibilité sur des plateformes matérielles variées (Allegro, LEAP Hand, Dexterous Hand de Shadow) reste à démontrer.

RecherchePaper
1 source
M2R2 : représentation robotique multimodale pour la segmentation temporelle des actions
4arXiv cs.RO 

M2R2 : représentation robotique multimodale pour la segmentation temporelle des actions

Des chercheurs ont publié fin avril 2025 sur arXiv (2504.18662) un extracteur de représentations multimodal baptisé M2R2 (MultiModal Robotic Representation for Robotic TAS), conçu pour la segmentation temporelle d'actions (TAS) en robotique. L'approche combine des informations proprioceptives (encodeurs, capteurs force-couple, état des articulations) et extéroceptives (caméras RGB) dans un extracteur de features commun, accompagné d'une stratégie d'entraînement inédite permettant la réutilisation de ces représentations sur plusieurs architectures de segmentation indépendantes. Les résultats annoncés positionnent M2R2 à l'état de l'art sur trois jeux de données de référence en robotique : REASSEMBLE (assemblage de composants), (Im)PerfectPour (versage de liquide) et JIGSAWS (chirurgie robotique laparoscopique simulée). Une étude d'ablation extensive quantifie la contribution respective de chaque modalité. L'intérêt principal de M2R2 réside dans la modularité de son extracteur : les approches multimodales existantes en robotique fusionnaient les modalités directement à l'intérieur du modèle de segmentation, rendant les features non réutilisables entre architectures. Ici, le découplage extracteur/modèle de TAS ouvre la voie à une bibliothèque de représentations partageable, ce qui réduit le coût de réentraînement lors du changement de tâche ou de robot. Sur les scénarios à faible visibilité d'objet, les extracteurs purement visuels issus du computer vision chutent en performance, là où l'ajout de la proprioception maintient la robustesse. C'est un résultat concret sur la fragilité des approches vision-seule dans des environnements industriels ou chirurgicaux réels, où occlusions et éclairage variable sont la norme. La segmentation temporelle d'actions est un verrou historique pour l'autonomie des robots manipulateurs : sans identifier les frontières entre skills (saisir, aligner, visser...), il est impossible de planifier, corriger ou réutiliser des séquences de gestes. En chirurgie robotique, JIGSAWS est le benchmark de référence depuis 2016, utilisé notamment dans les travaux autour des plateformes da Vinci (Intuitive Surgical). En robotique industrielle, des acteurs comme Wandercraft ou les équipes de manipulation de Boston Dynamics s'appuient sur des approches similaires pour les transitions de phases motrices. M2R2 reste à ce stade une contribution de recherche académique sans déploiement industriel annoncé, mais son extracteur réutilisable représente un candidat sérieux pour des pipelines d'imitation learning dans lesquels labelliser chaque skill manuellement est le principal goulot d'étranglement.

UEL'extracteur modulaire M2R2 pourrait bénéficier aux équipes de manipulation françaises (notamment Wandercraft) en réduisant le coût de labellisation dans les pipelines d'imitation learning, mais reste une contribution académique sans déploiement industriel annoncé.

RecherchePaper
1 source