Aller au contenu principal
EgoKit : vers une collecte de données égocentriques unifiée et économique avec des dispositifs hétérogènes
RecherchearXiv cs.RO1j

EgoKit : vers une collecte de données égocentriques unifiée et économique avec des dispositifs hétérogènes

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié en mai 2026 sur arXiv (2605.16797) EgoKit, un kit de collecte de données égocentrées conçu pour fonctionner de manière unifiée sur six types d'appareils hétérogènes : smartphones Android, iPhone, iPad, lunettes connectées et casques de réalité étendue (XR). L'outil expose un workflow d'enregistrement identique sur toutes ces plateformes et produit des vidéos stockées localement dans un format de log uniforme. Sur les casques XR, il enregistre en plus la pose de la tête et un suivi de la main à 26 degrés de liberté (DOF), conforme au standard OpenXR, synchronisé avec les flux vidéo. Des accessoires compagnons, deux caméras de poignet avec supports, un bandeau crânien et un hub USB-C, permettent d'ajouter une vue « wrist-view » à n'importe quel appareil supporté, sans fabrication de matériel sur mesure.

La collecte de données égocentrées à grande échelle est devenue un verrou central dans l'apprentissage par imitation et l'entraînement de modèles vision-langage-action (VLA), qui alimentent aujourd'hui les robots humanoïdes et les systèmes d'IA incarnée. Jusqu'ici, chaque plateforme matérielle exposait son propre SDK, ses propres contraintes d'accès à la caméra brute et ses propres limites sur les périphériques USB, forçant les équipes à s'enfermer dans un seul écosystème propriétaire ou à développer des rigs ad hoc non transférables. EgoKit propose une couche d'abstraction commune, ce qui devrait permettre de constituer des datasets plus larges, plus diversifiés et moins biaisés par les contraintes matérielles d'une seule plateforme.

La démarche s'inscrit dans un mouvement plus large porté par des projets comme Ego4D (Meta/CMU) ou EPIC-Kitchens, qui ont démontré la valeur des données égocentrées pour la compréhension d'activités et la manipulation. L'enjeu du sim-to-real gap pousse les labos à privilégier les données réelles capturées en conditions naturelles, et EgoKit vise à réduire le coût de cette collecte. Le projet, disponible à l'adresse egokit.chuange.org, en est pour l'instant au stade de publication académique ; aucun partenariat industriel ni déploiement à grande échelle n'est annoncé. La prochaine étape logique serait une validation sur des pipelines d'imitation learning existants pour quantifier l'impact concret de la diversité multi-dispositifs sur la qualité des politiques apprises.

À lire aussi

DiffPhD : solveur différentiable unifié pour matériaux hétérogènes projectifs en élastodynamique avec accélération GPU multi-contacts
1arXiv cs.RO 

DiffPhD : solveur différentiable unifié pour matériaux hétérogènes projectifs en élastodynamique avec accélération GPU multi-contacts

DiffPhD est un solveur différentiable GPU-accéléré pour la simulation de corps mous hétérogènes en élastodynamique, publié en prépublication sur arXiv (référence 2605.14526) en mai 2026. Le cadre traite simultanément trois verrous techniques qui bloquaient les approches existantes : les matériaux à forts contrastes de rigidité, les grandes déformations hyperélastiques, et les interactions de contact répétées. Sur des benchmarks combinant ces trois régimes, DiffPhD affiche un gain de vitesse jusqu'à dix fois supérieur aux solveurs différentiables précédents, tout en restant convergent pour des contrastes de rigidité jusqu'à 100x là où les méthodes Projective Dynamics (PD) classiques divergent. Trois innovations architecturales y contribuent : des poids projectifs sensibles à la rigidité pour encoder l'hétérogénéité dans le système global, un filtrage par valeurs propres en région de confiance appliqué à la passe arrière (backward pass) pour stabiliser les gradients hyperélastiques, et un schéma d'Anderson Acceleration de type II à convergence double seuil. Une factorisation creuse unique est réutilisée pour les passes avant, arrière et de contact, avec un amortissement de Rayleigh intégré dans ce même facteur, réduisant le coût récurrent à presque zéro. L'intérêt pour la robotique est direct : DiffPhD rend tractable l'optimisation bout-en-bout par gradient sur des scénarios hybrides auparavant inaccessibles, notamment la manipulation par préhenseur souple (soft gripper) et le transfert Real2Sim pour des assemblages hétérogènes rigide-souple. L'identification de systèmes (system identification) et l'optimisation de trajectoires sur des matériaux composites deviennent numériquement viables là où la fragilité du solveur ou le coût par itération constituaient jusqu'ici un goulot d'étranglement. Pour les équipes travaillant sur la simulation de préhension ou la calibration de modèles déformables, ce type de solveur réduit le gap simulation-réalité sans sacrifier la stabilité de convergence. Il faut toutefois noter que le gain annoncé de "jusqu'à un ordre de grandeur" s'appuie sur des benchmarks synthétiques, sans validation sur matériel physique réel. DiffPhD s'inscrit dans la lignée des Projective Dynamics (Bouaziz et al., 2014), méthode qui a dominé la simulation temps réel de corps mous grâce à son découplage entre contraintes locales et système linéaire global. Son extension différentiable DiffPD avait ouvert l'optimisation par gradient, mais restait fragile face à l'hétérogénéité matérielle et aux contacts répétés. DiffPhD se positionne directement contre DiffPD et contre les approches à éléments finis différentiables comme DiffTaichi ou le framework Warp de NVIDIA. Aucune mise à disposition de code ni annonce de déploiement industriel ne figure dans la prépublication : la contribution reste pour l'instant académique, avec des applications démontrées en animation (créatures composites, personnages mous manipulant des objets rigides) et en robotique de manipulation.

RecherchePaper
1 source
Téléopération robotique : étude comparative des synergies entre dispositifs de contrôle et manipulateurs
2arXiv cs.RO 

Téléopération robotique : étude comparative des synergies entre dispositifs de contrôle et manipulateurs

Une équipe de chercheurs publie sur arXiv (référence 2511.07720, version révisée en 2025) une étude comparative sur la collecte de données par télé-opération pour des tâches de manipulation robotique. Trois stratégies de contrôle sont évaluées en combinaison avec différents dispositifs : le contrôle cinématique inverse basé sur la position (IK), le contrôle dynamique inverse basé sur le couple (ID), et un contrôle à compliance optimisée par méthodes d'optimisation. L'objectif est d'identifier quelles associations dispositif-contrôleur produisent les données d'apprentissage les plus exploitables pour entraîner des modèles fondationnels capables d'exécuter des tâches de manipulation diversifiées. À noter que l'abstract ne divulgue ni les configurations matérielles précises, ni les métriques quantitatives de performance, ce qui limite l'évaluation des résultats sans accès au papier complet. La qualité des données de démonstration constitue l'un des principaux verrous du robot learning contemporain. Entraîner un modèle fondationnel polyvalent, comparable dans son ambition aux grands modèles de langage, requiert des trajectoires précises, cohérentes et variées. Or, le choix du dispositif de télé-opération -- qu'il s'agisse d'exosquelettes, de manettes haptiques ou de systèmes leader-follower -- influe directement sur la fidélité des démonstrations et leur transférabilité aux politiques apprises. Cette étude formalise l'interaction entre le hardware d'acquisition et la couche de contrôle du bras manipulateur, une variable souvent sous-estimée dans les pipelines de collecte existants, et qui peut expliquer une partie du reality gap observé lors du déploiement. Le contexte est celui d'une compétition intense pour constituer des datasets de qualité en robotique de manipulation. Des travaux récents comme pi0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA ont montré que la diversité et la fidélité des démonstrations sont aussi critiques que leur volume brut. Plusieurs acteurs investissent dans des dispositifs de télé-opération propriétaires pour se différencier sur ce plan, tandis qu'en Europe des entreprises comme Enchanted Tools ou Wandercraft développent des approches similaires pour la robotique collaborative. Cette étude s'adresse directement aux équipes qui construisent leurs propres pipelines de collecte et cherchent à optimiser le rapport qualité-coût de leurs démonstrations avant l'entraînement de modèles fondationnels.

UELes équipes R&D françaises comme Enchanted Tools et Wandercraft, qui construisent leurs propres pipelines de collecte pour la robotique collaborative, peuvent directement appliquer cette formalisation dispositif-contrôleur pour améliorer la qualité de leurs démonstrations avant entraînement.

RechercheOpinion
1 source
TouchAnything : jeu de données et framework pour l'estimation tactile bimanuelle en vidéo égocentrique
3arXiv cs.RO 

TouchAnything : jeu de données et framework pour l'estimation tactile bimanuelle en vidéo égocentrique

Une équipe de chercheurs a publié EgoTouch (arXiv 2605.13083), un dataset égocentrique à grande échelle combinant vidéo multi-vues et supervision tactile dense pour l'interaction bimanuelle main-objet. Le jeu de données couvre 208 tâches de manipulation réparties en 1 891 épisodes collectés en environnements intérieurs et extérieurs variés, synchronisés avec trois flux RGB simultanés (une caméra montée sur la tête et deux caméras fixées aux poignets), une estimation 3D de la pose des deux mains et des cartes de pression continues issues de capteurs tactiles portables. Sur cette base, les auteurs proposent TouchAnything, un modèle de prédiction vision-to-touch qui utilise la vue égocéntrique comme entrée principale et intègre optionnellement les vues poignet à l'inférence. Les gains mesurés atteignent 5,0% en Contact IoU et 6,1% en Volumetric IoU par rapport à la vue égocentrique seule. Le dataset, le code et un benchmark seront publiés en open source, sans date précise annoncée. L'absence de modalité tactile dans les datasets égocentriques existants constitue un frein reconnu à l'apprentissage de représentations physiquement ancrées : la vidéo seule ne transmet pas les signaux de contact, de force ou de pression nécessaires pour modéliser les dynamiques réelles d'interaction avec les objets. EgoTouch adresse ce verrou en montrant qu'il est possible d'inférer le retour tactile depuis la seule observation visuelle, ouvrant la voie à une supervision tactile scalable sans déploiement coûteux de matériel instrumenté. Pour les équipes travaillant sur des robots manipulateurs ou des politiques de saisie, cela représente une voie d'entraînement potentiellement peu onéreuse pour des comportements sensibles au contact, problème central dans l'assemblage délicat, le tri de pièces fragiles ou la manipulation de souples. Ce travail prolonge l'essor des datasets égocentriques type Ego4D (Meta, 2022), qui ont établi la valeur des flux vidéo à la première personne pour l'apprentissage embodied. Les datasets tactiles antérieurs, notamment autour de GelSight (MIT) ou DIGIT (Meta), restaient de petite échelle et difficiles à généraliser hors contexte de doigts robotiques instrumentés. TouchAnything se positionne comme une alternative scalable via des capteurs portables grand public. Les concurrents directs incluent les équipes travaillant sur le transfert tactile sim-to-real chez Meta AI et MIT CSAIL, ainsi que les projets VLA tels que pi0 de Physical Intelligence ou OpenVLA, qui intègrent progressivement la modalité tactile dans leurs pipelines d'apprentissage par imitation. Aucun acteur français ou européen n'est impliqué dans ce preprint.

RecherchePaper
1 source
Organisation robotique de bureau : une approche multi-primitive pour manipuler des objets hétérogènes via les contraintes environnementales
4arXiv cs.RO 

Organisation robotique de bureau : une approche multi-primitive pour manipuler des objets hétérogènes via les contraintes environnementales

Une équipe de recherche a déposé sur arXiv (référence 2605.02135, mai 2025) un framework de manipulation pour robots de service dédié à l'organisation de bureaux, capable de traiter simultanément des objets rigides et déformables posés à plat sur une surface. Le système repose sur trois primitives de manipulation exploitant l'environnement physique : un saisissement par contact direct pour les petits objets, un push-grasp assisté par le bord de la table pour les objets rigides plans, et un geste de levering (soulèvement par effet de levier) pour les objets déformables plans comme des feuilles de papier ou des pochettes. Un pipeline de perception géométrique, entraîné sur des datasets augmentés d'objets de bureau peu courants, assure l'estimation de pose et la détection des contraintes physiques disponibles, notamment les arêtes de table. Un planificateur de tâches orchestre ces primitives pour des séquences multi-objets incluant collecte et empilement. Les expériences en conditions réelles démontrent la robustesse de l'approche, et le code source ainsi que les vidéos sont publiés en accès libre. L'intérêt principal de ce travail est l'exploitation systématique des contraintes environnementales comme ressource de manipulation plutôt que comme obstacle, une inversion de perspective qui améliore la robustesse sans nécessiter de hardware dédié tel que ventouses ou pinces spécialisées. La gestion des objets déformables, longtemps considérée comme un verrou pour les robots de service, est ici abordée sans apprentissage end-to-end, ce qui favorise la traçabilité et le débogage en contexte d'intégration industrielle. Pour un intégrateur ou un COO logistique, ce type de framework à primitives explicites est plus directement industrialisable que les approches VLA (Vision-Language-Action) dont la robustesse en déploiement réel à grande échelle reste discutée dans la littérature. Ce travail s'inscrit dans le courant du task-and-motion planning (TAMP), qui cherche à combiner la robustesse des primitives classiques avec la flexibilité perceptive nécessaire aux environnements non structurés, en alternative aux méthodes d'imitation ou de reinforcement learning pur. Il se positionne sans atteindre encore leur généralisabilité sur de larges catalogues d'objets, ce qui constitue la limite principale de l'approche. Les acteurs actifs sur la manipulation fine de bureau incluent Google DeepMind avec ses travaux RT-2 et π0, Physical Intelligence, et côté académique des labos comme ETH Zurich ou CMU ; aucun acteur francophone ou européen n'est directement impliqué dans ce papier. Les suites naturelles seraient d'étendre ces primitives à des objets tridimensionnels non plans et d'évaluer le passage à l'échelle sur des manipulateurs commerciaux comme le Kinova Gen3 ou le Franka Research 3.

RecherchePaper
1 source