Aller au contenu principal
TouchAnything : jeu de données et framework pour l'estimation tactile bimanuelle en vidéo égocentrique
RecherchearXiv cs.RO6sem

TouchAnything : jeu de données et framework pour l'estimation tactile bimanuelle en vidéo égocentrique

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié EgoTouch (arXiv 2605.13083), un dataset égocentrique à grande échelle combinant vidéo multi-vues et supervision tactile dense pour l'interaction bimanuelle main-objet. Le jeu de données couvre 208 tâches de manipulation réparties en 1 891 épisodes collectés en environnements intérieurs et extérieurs variés, synchronisés avec trois flux RGB simultanés (une caméra montée sur la tête et deux caméras fixées aux poignets), une estimation 3D de la pose des deux mains et des cartes de pression continues issues de capteurs tactiles portables. Sur cette base, les auteurs proposent TouchAnything, un modèle de prédiction vision-to-touch qui utilise la vue égocéntrique comme entrée principale et intègre optionnellement les vues poignet à l'inférence. Les gains mesurés atteignent 5,0% en Contact IoU et 6,1% en Volumetric IoU par rapport à la vue égocentrique seule. Le dataset, le code et un benchmark seront publiés en open source, sans date précise annoncée.

L'absence de modalité tactile dans les datasets égocentriques existants constitue un frein reconnu à l'apprentissage de représentations physiquement ancrées : la vidéo seule ne transmet pas les signaux de contact, de force ou de pression nécessaires pour modéliser les dynamiques réelles d'interaction avec les objets. EgoTouch adresse ce verrou en montrant qu'il est possible d'inférer le retour tactile depuis la seule observation visuelle, ouvrant la voie à une supervision tactile scalable sans déploiement coûteux de matériel instrumenté. Pour les équipes travaillant sur des robots manipulateurs ou des politiques de saisie, cela représente une voie d'entraînement potentiellement peu onéreuse pour des comportements sensibles au contact, problème central dans l'assemblage délicat, le tri de pièces fragiles ou la manipulation de souples.

Ce travail prolonge l'essor des datasets égocentriques type Ego4D (Meta, 2022), qui ont établi la valeur des flux vidéo à la première personne pour l'apprentissage embodied. Les datasets tactiles antérieurs, notamment autour de GelSight (MIT) ou DIGIT (Meta), restaient de petite échelle et difficiles à généraliser hors contexte de doigts robotiques instrumentés. TouchAnything se positionne comme une alternative scalable via des capteurs portables grand public. Les concurrents directs incluent les équipes travaillant sur le transfert tactile sim-to-real chez Meta AI et MIT CSAIL, ainsi que les projets VLA tels que pi0 de Physical Intelligence ou OpenVLA, qui intègrent progressivement la modalité tactile dans leurs pipelines d'apprentissage par imitation. Aucun acteur français ou européen n'est impliqué dans ce preprint.

À lire aussi

TacVerse : un jeu de données et benchmark multi-capteurs pour la perception tactile visuelle entre capteurs
1arXiv cs.RO 

TacVerse : un jeu de données et benchmark multi-capteurs pour la perception tactile visuelle entre capteurs

Une équipe de chercheurs a publié TacVerse, un jeu de données multi-capteurs et benchmark destiné à évaluer la perception tactile par vision (vision-based tactile sensors, VBTS) à travers des capteurs de designs hétérogènes. Le dataset compile 106 800 images tactiles issues de sept capteurs VBTS distincts, couvrant trois tâches cibles : classification de formes, classification de réseaux de rainures (grating), et régression de force. Les expériences sont conduites selon trois protocoles expérimentaux : entraînement intra-capteur, transfert zéro-shot inter-capteurs, et adaptation few-shot. L'article, déposé sur arXiv (2606.25877), ne mentionne pas de financement industriel ni de partenaire de déploiement terrain ; il s'agit d'une contribution académique à visée benchmark, sans produit commercialisé associé. Le résultat le plus structurant pour les intégrateurs robotiques est le gouffre de généralisation inter-capteurs : si les performances intra-capteur sont solides sur les trois tâches, le transfert direct zéro-shot vers un capteur inconnu dégrade significativement les résultats, surtout pour la régression de force et la classification de réseaux de rainures. La classification de forme se révèle comparativement plus robuste face au changement de capteur. L'adaptation few-shot améliore la régression de force sur des capteurs cibles non vus, sans toutefois atteindre les performances intra-capteur. Ce résultat implique qu'un modèle entraîné sur un VBTS donné ne peut pas être déployé tel quel sur un autre design sans dégradation mesurable, ce qui complexifie les stratégies de standardisation des pipelines de perception tactile dans l'industrie. Les capteurs VBTS (type GelSight, DIGIT, Tactip et variantes) ont connu un essor marqué depuis 2018, portés par des labos comme MIT CSAIL et des acteurs industriels comme Meta AI (DIGIT). TacVerse s'inscrit dans un effort de standardisation de l'évaluation, comparable à ce que ImageNet a représenté pour la vision classique. L'étude révèle également que le préentraînement par MAE (Masked Autoencoder) offre les gains les plus constants sur l'ensemble des tâches et des capteurs, suggérant une piste d'architecture prioritaire pour les travaux futurs. Aucun concurrent direct de benchmark tactile multi-capteurs à cette échelle n'est cité dans l'abstract ; TacVerse vise à combler ce vide méthodologique pour la communauté sim-to-real et apprentissage auto-supervisé en perception haptique.

RecherchePaper
1 source
1000 Rallies : jeu de données par caméra événementielle et estimation en temps réel de l'état de la balle pour le tennis de table robotique
2arXiv cs.RO 

1000 Rallies : jeu de données par caméra événementielle et estimation en temps réel de l'état de la balle pour le tennis de table robotique

Des chercheurs ont publié en juin 2026 (arXiv:2606.25620) le premier jeu de données à grande échelle pour la perception par caméra événementielle appliquée au ping-pong robotisé. Le dataset regroupe plus de 1 000 échanges (rallies) enregistrés auprès d'une population variée, des amateurs aux joueurs de niveau élite. Chaque séquence combine le flux événementiel avec 14 caméras haute vitesse synchronisées à 200 images par seconde, utilisées pour générer des labels pseudo-vérité à 1 kHz comprenant la position, la vitesse et l'effet de la balle. À partir de ce corpus, un réseau de neurones convolutif a été entraîné pour estimer conjointement position et vitesse de la balle dans le plan image, robuste aux mouvements de fond produits par le joueur. L'intégration de la vitesse prédite comme mesure additionnelle dans un filtre de Kalman réduit l'erreur de prédiction du point de rebond de 36 % par rapport à une baseline position seule. Le système a finalement été couplé à un bras robotisé Stäubli pour réaliser les premiers échanges humain-robot en temps réel pilotés intégralement par perception événementielle. Ce résultat est significatif pour le secteur de la robotique rapide car il valide, sur une tâche réelle et contrainte temporellement, l'avantage fondamental des caméras événementielles: une résolution temporelle de l'ordre de la microseconde, sans flou de mouvement, là où les caméras classiques imposent un arbitrage coûteux entre cadence et bande passante de traitement. La réduction de 36 % de l'erreur de prédiction du rebond, obtenue simplement en ajoutant la vitesse estimée au filtre de Kalman, illustre que la qualité de la mesure perceptive en amont détermine directement les performances de contrôle en boucle fermée, un argument concret pour les intégrateurs industriels qui travaillent sur des tâches de manipulation haute cadence ou de tri haute vitesse. Le ping-pong robotisé s'est imposé ces dernières années comme banc d'essai privilégié pour la perception et le contrôle à faible latence, notamment avec les travaux de Google DeepMind sur l'agent de tennis de table (2023-2024). Les caméras événementielles, dont le fabricant français Prophesee (Paris) est l'un des leaders mondiaux, restaient jusqu'ici sous-exploitées faute de datasets publics représentatifs. Stäubli Robotics, groupe franco-suisse basé à Faverges (Haute-Savoie), apporte ici une visibilité européenne au banc expérimental. Les auteurs ne précisent pas de roadmap de déploiement industriel, mais la combinaison dataset public + pipeline temps réel validé en boucle fermée constitue une base ouverte pour que d'autres équipes portent cette approche vers des applications comme le tri de pièces à haute cadence ou la manipulation de petits objets en mouvement.

UEProphesee (Paris), leader mondial des caméras événementielles, et Stäubli Robotics (Faverges, Haute-Savoie) sont directement impliqués dans le banc expérimental, renforçant la visibilité de la filière capteur et robotique franco-européenne sur la perception haute cadence.

RecherchePaper
1 source
Génération de données synthétiques et détection visuelle de plis et points clés pour la manipulation bimanuelle de tissu
3arXiv cs.RO 

Génération de données synthétiques et détection visuelle de plis et points clés pour la manipulation bimanuelle de tissu

Des chercheurs ont publié sur arXiv (arXiv:2606.06292) un système de perception et de planification dédié à la manipulation bimanurale de textiles, l'un des problèmes les plus résistants en robotique industrielle. L'approche repose sur un pipeline synthétique construit sous Blender qui génère automatiquement des données annotées en keypoints, complété par des rendus labellisés manuellement et des données réelles pour entraîner un détecteur de plis. Le résultat est un framework à deux composantes : un CNN invariant aux permutations pour localiser les coins d'un vêtement, et un pipeline YOLOv8-OpenCV pour extraire les points de préhension à partir des plis structurels. L'algorithme bimanual résultant étire d'abord un vêtement entièrement plié en s'accrochant aux plis, puis bascule automatiquement vers un mode de repassage guidé par keypoints dès que les coins deviennent visibles. L'erreur de position moyenne (MPE) du modèle de keypoints atteint 1,7615 pixels, et le système se transfère directement sur des tissus physiques sans fine-tuning supplémentaire. L'enjeu principal est le sim-to-real gap, problème central pour tous les objets déformables : un tissu n'a pas de forme fixe, et ses auto-occultations lors du pliage font échouer la majorité des pipelines de perception standard. Que ce système transfère sans fine-tuning là où les baselines produisent des faux positifs sur les plis sévères ou s'effondrent en haute occlusion est un résultat concret, pas un argument marketing. Pour les intégrateurs industriels, notamment en blanchisserie automatisée ou en logistique textile, cela valide l'hypothèse que la génération de données synthétiques peut compenser l'absence de datasets réels annotés, coûteux à constituer. Le passage automatique plis-vers-coins montre également qu'une stratégie de manipulation multi-phase pilotée par l'état perçu est implémentable sans recours à un modèle de déformation explicite. La manipulation de textiles est un défi académique ouvert depuis au moins une décennie, avec des contributions notables des groupes de Berkeley, ETH Zurich et de l'université de Tokyo, sans qu'aucune solution n'ait encore atteint le déploiement industriel à grande échelle. Ce preprint s'inscrit dans un courant récent qui mise sur la synthèse de données visuelles plutôt que sur la modélisation physique exhaustive, une tendance portée aussi par des travaux sur les Vision-Language-Action models (VLA) pour les déformables. Aucun acteur français ou européen n'est cité, bien que des laboratoires comme ceux de l'INRIA ou des industriels comme Enchanted Tools travaillent sur des problématiques adjacentes de manipulation dextère. Le papier est un preprint sans déploiement annoncé ; les prochaines étapes naturelles seraient une validation sur une plus grande diversité de textiles et une intégration sur une plateforme robotique commerciale.

RecherchePaper
1 source
Suivi du visage ou du corps pour l'interaction humain-robot : un jeu de données égocentrique
4arXiv cs.RO 

Suivi du visage ou du corps pour l'interaction humain-robot : un jeu de données égocentrique

Des chercheurs ont publié en juin 2026 sur arXiv (arXiv:2606.03694) une évaluation systématique des méthodes de suivi visuel pour la robotique sociale, en s'appuyant sur un jeu de données original capturé via le robot social Furhat. L'enjeu central est la continuité d'identification des utilisateurs pendant une interaction : lorsqu'un robot perd de vue son interlocuteur, même brièvement, il peut confondre deux personnes distinctes, phénomène désigné sous le terme "identity switch" (IDSW). L'étude compare deux approches (suivi par le visage versus suivi par le corps entier) et évalue l'effet de deux mécanismes complémentaires : la mémoire spatiale étendue et la réidentification par apparence (ReID). Le pipeline optimisé qui en résulte réduit les IDSW de 49 %, limitant ainsi les ruptures de dialogue entre humains et robots. Les résultats mettent en lumière une tension technique inattendue : la ReID améliore substantiellement la stabilité du suivi corporel, mais dégrade celui du visage en raison d'une sensibilité aux angles de profil. Ce comportement antagoniste n'est pas anodin pour les intégrateurs de systèmes HRI, qui ne peuvent pas transposer mécaniquement les mêmes optimisations à toutes les modalités de tracking. Plus fondamentalement, l'étude confirme que les modèles de vision par ordinateur les plus performants, conçus pour la vidéosurveillance ou la conduite autonome, ne couvrent pas les contraintes propres à la robotique sociale : occlusions mutuelles entre interlocuteurs, mouvements brusques, sorties et rentrées dans le champ de vision à courte distance. Le fossé entre démo contrôlée et déploiement réel reste ouvert pour les systèmes HRI en environnements denses. Furhat Robotics, entreprise suédoise spécialisée dans les robots conversationnels à tête projetée, fournit ici la plateforme matérielle, ce qui oriente naturellement l'évaluation vers les contextes face-à-face rapprochés. Dans le secteur plus large de la perception pour l'interaction humain-robot, des laboratoires académiques européens comme l'INRIA ou TU Delft, ainsi que des acteurs industriels tels SoftBank Robotics, travaillent sur des problématiques proches. Le point de friction central souligné par les auteurs reste l'absence de benchmarks publics capturant des occlusions denses à courte distance : sans jeux de données nativement sociaux, la validation des modèles de perception HRI demeure partielle. Les prochaines étapes naturelles consisteraient à tester ce pipeline sur d'autres plateformes et en conditions multi-utilisateurs réelles.

UEFurhat Robotics (Suède, UE) fournit la plateforme matérielle de l'étude, et l'INRIA est cité parmi les laboratoires européens travaillant sur des problématiques similaires, ce qui ancre ces avancées en perception HRI dans l'écosystème de recherche européen.

RecherchePaper
1 source