Aller au contenu principal
roto 2.0 : l'Olympiade de robotique tactile
RecherchearXiv cs.RO7h

roto 2.0 : l'Olympiade de robotique tactile

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié roto 2.0, deuxième version du Robot Tactile Olympiad, un benchmark standardisé pour l'apprentissage par renforcement (RL) basé sur le toucher. La plateforme, accélérée GPU en parallèle, couvre quatre morphologies robotiques de 16 à 24 degrés de liberté (DOF) et impose un régime de manipulation strictement "aveugle" : les agents n'ont accès qu'à la proprioception et aux capteurs tactiles, sans information d'état, sans vision, sans distillation depuis un teacher model. Le résultat phare : les agents entraînés atteignent 13 rotations de boules Baoding en 10 secondes, que les auteurs décrivent comme un ordre de grandeur supérieur aux performances actuelles de l'état de l'art sur cette tâche. Les environnements, configurations et baselines sont publiés en open source.

Ce travail pointe un problème structurel reconnu dans la communauté : la recherche en manipulation tactile reste morcelée, avec une concentration excessive sur des tâches d'orientation surexploitées et peu de benchmarks permettant des comparaisons rigoureuses entre approches. En forçant l'absence totale de perception visuelle, roto 2.0 adresse une contrainte concrète pour les intégrateurs industriels : un manipulateur opérant uniquement par retour tactile et proprioceptif peut fonctionner dans des environnements où les caméras sont inutilisables (assemblage en aveugle, poussière, occlusion totale). L'affirmation d'"un ordre de grandeur plus rapide" mérite cependant d'être nuancée : elle s'applique à cette tâche spécifique en simulation, et le gap sim-to-real reste entièrement à démontrer sur hardware réel.

La manipulation dextère sans vision est un défi porté depuis des années par des laboratoires majeurs, notamment OpenAI avec Dactyl (équipe robotique dissoute en 2021) et Stanford avec ses travaux sur la préhension en contact riche, ainsi que par des fabricants de capteurs tactiles comme Xela Robotics ou GelSight MIT. roto 2.0 s'inscrit dans une dynamique de benchmarking plus rigoureux qui traverse la communauté, dans le sillage de ManiSkill et Isaac Lab. En France, le LAAS-CNRS mène des recherches sur des approches similaires de manipulation par contact. En open-sourçant les environnements et des baselines correctement tuned, les auteurs visent explicitement à libérer les chercheurs du coût en temps lié au réglage RL pour qu'ils se concentrent sur les défis algorithmiques fondamentaux.

Impact France/UE

Le LAAS-CNRS mène des travaux sur la manipulation par contact similaires à ceux que roto 2.0 cherche à benchmarker ; la publication open-source des environnements et baselines peut directement accélérer ces recherches françaises et réduire leur coût de réglage RL.

Dans nos dossiers

À lire aussi

FlexiTac : une solution tactile open source, économique et modulaire pour les systèmes robotiques
1arXiv cs.RO 

FlexiTac : une solution tactile open source, économique et modulaire pour les systèmes robotiques

Une équipe de chercheurs a présenté FlexiTac, un capteur tactile piézorésistif open-source, bas coût et scalable, conçu pour équiper les effecteurs terminaux de robots manipulateurs. Le système se compose de deux éléments : des nappes tactiles flexibles fines générant des signaux tactiles denses, et une carte d'acquisition multi-canaux compacte transmettant les mesures synchronisées à 100 Hz via liaison série vers un ordinateur hôte. La structure physique des nappes repose sur un empilement laminé en trois couches (FPC-Velostat-FPC), avec des électrodes directement intégrées dans des circuits imprimés flexibles, ce qui améliore le débit de fabrication et la répétabilité. FlexiTac se décline en plusieurs configurations, patins de bout de doigt et tapis tactiles de plus grande surface, et peut être monté sur des grippers rigides ou souples sans modification mécanique majeure. Ces résultats sont présentés sous forme de preprint arXiv (2604.28156v1) ; il s'agit d'une annonce académique, pas d'un produit commercialisé. L'intérêt de FlexiTac pour l'industrie tient à trois points distincts. D'abord, le coût et la reproductibilité : les composants électroniques sont standard et la fabrication des nappes est automatisable, ce qui rend un déploiement à grande échelle envisageable pour des lignes d'assemblage ou de tri. Ensuite, la compatibilité native avec les pipelines d'apprentissage modernes : les auteurs démontrent l'intégration avec la fusion visuo-tactile 3D pour la prise de décision en contact, le transfert de compétences cross-embodiment, et le fine-tuning real-to-sim-to-real avec simulation tactile parallèle sur GPU. Enfin, la nature plug-in du module réduit l'effort d'intégration mécanique, frein classique à l'adoption du toucher artificiel hors laboratoire. La plupart des solutions tactiles existantes restent soit coûteuses (GelSight de MIT, DIGIT de Meta), soit difficiles à fabriquer en série, soit propriétaires. FlexiTac s'inscrit dans une tendance croissante vers des capteurs open-source accessibles, aux côtés de projets comme les travaux du Touch Lab d'University College London. Les acteurs industriels comme Xela Robotics ou Contactile restent positionnés sur des solutions packagées premium ; FlexiTac vise plutôt les laboratoires, les startups robotiques et les intégrateurs souhaitant construire leur propre stack de données tactiles. L'étape naturelle serait une validation hors lab en environnement industriel réel, point non adressé dans le preprint.

UELes laboratoires et startups robotiques européens peuvent adopter FlexiTac comme base open-source pour leurs propres stacks de données tactiles, réduisant la dépendance aux solutions propriétaires coûteuses (DIGIT, GelSight), sans impact institutionnel direct sur la France ou l'UE.

RecherchePaper
1 source
Nautilus : de l'invite textuelle à l'apprentissage robotique prêt à l'emploi
2arXiv cs.RO 

Nautilus : de l'invite textuelle à l'apprentissage robotique prêt à l'emploi

Des chercheurs ont publié le 16 mai 2026 sur arXiv (référence 2605.11665) NAUTILUS, un cadre logiciel open-source conçu pour résoudre l'un des problèmes structurels de la recherche en apprentissage robotique : la fragmentation des implémentations. Aujourd'hui, chaque combinaison de politique d'apprentissage (policy), de simulateur ou benchmark, et de robot physique nécessite du code de liaison (glue code) écrit à la main, formant une matrice de combinaisons qui rend le portage d'un seul élément extrêmement coûteux en ingénierie. NAUTILUS propose une interface unifiée pilotée par une simple instruction en langage naturel, par exemple "évalue la politique A avec le benchmark B", pour générer automatiquement les workflows de reproduction, d'évaluation, de fine-tuning et de déploiement correspondants. Le système génère lui-même les adaptateurs et conteneurs nécessaires, y compris pour des politiques ou simulateurs apportés par l'utilisateur, et inclut des étapes de validation et de tests automatisés à chaque jalon. L'impact potentiel pour la communauté de recherche en robotique est significatif : la reproductibilité des expériences, longtemps considérée comme un frein majeur à la comparaison inter-familles de politiques (VLA, diffusion policies, imitation learning classique), pourrait être accélérée sans surcoût d'ingénierie. Pour les équipes qui évaluent des approches sim-to-real ou qui cherchent à valider un modèle sur plusieurs benchmarks simultanément, NAUTILUS réduit la surface de friction entre la recherche et l'expérimentation à grande échelle. Il faut toutefois souligner que le papier présente un système dont la portée réelle dépendra du nombre de politiques et benchmarks effectivement intégrés dans l'écosystème open-source au fil du temps, la valeur du framework est indexée sur son adoption. La fragmentation décrite dans l'article est un problème bien documenté dans la communauté : des projets comme Lerobot (HuggingFace), RoboMimic (Stanford) ou RoboCasa ont chacun développé leurs propres interfaces, rendant la comparaison directe laborieuse. NAUTILUS s'inscrit dans une tendance plus large d'outillage de la recherche en robotique, aux côtés d'initiatives comme le benchmark Open-X Embodiment ou les efforts de standardisation autour de la norme URDF/MJCF. Les auteurs annoncent un dépôt open-source, mais aucune date de disponibilité publique ni liste de politiques déjà supportées n'est précisée dans l'abstract, des informations déterminantes pour évaluer la maturité réelle du projet.

UELes équipes de recherche européennes en apprentissage robotique pourraient bénéficier d'un outil standardisant la reproductibilité inter-benchmarks, mais aucun acteur FR/EU n'est directement impliqué dans NAUTILUS.

RecherchePaper
1 source
M2R2 : représentation robotique multimodale pour la segmentation temporelle des actions
3arXiv cs.RO 

M2R2 : représentation robotique multimodale pour la segmentation temporelle des actions

Des chercheurs ont publié fin avril 2025 sur arXiv (2504.18662) un extracteur de représentations multimodal baptisé M2R2 (MultiModal Robotic Representation for Robotic TAS), conçu pour la segmentation temporelle d'actions (TAS) en robotique. L'approche combine des informations proprioceptives (encodeurs, capteurs force-couple, état des articulations) et extéroceptives (caméras RGB) dans un extracteur de features commun, accompagné d'une stratégie d'entraînement inédite permettant la réutilisation de ces représentations sur plusieurs architectures de segmentation indépendantes. Les résultats annoncés positionnent M2R2 à l'état de l'art sur trois jeux de données de référence en robotique : REASSEMBLE (assemblage de composants), (Im)PerfectPour (versage de liquide) et JIGSAWS (chirurgie robotique laparoscopique simulée). Une étude d'ablation extensive quantifie la contribution respective de chaque modalité. L'intérêt principal de M2R2 réside dans la modularité de son extracteur : les approches multimodales existantes en robotique fusionnaient les modalités directement à l'intérieur du modèle de segmentation, rendant les features non réutilisables entre architectures. Ici, le découplage extracteur/modèle de TAS ouvre la voie à une bibliothèque de représentations partageable, ce qui réduit le coût de réentraînement lors du changement de tâche ou de robot. Sur les scénarios à faible visibilité d'objet, les extracteurs purement visuels issus du computer vision chutent en performance, là où l'ajout de la proprioception maintient la robustesse. C'est un résultat concret sur la fragilité des approches vision-seule dans des environnements industriels ou chirurgicaux réels, où occlusions et éclairage variable sont la norme. La segmentation temporelle d'actions est un verrou historique pour l'autonomie des robots manipulateurs : sans identifier les frontières entre skills (saisir, aligner, visser...), il est impossible de planifier, corriger ou réutiliser des séquences de gestes. En chirurgie robotique, JIGSAWS est le benchmark de référence depuis 2016, utilisé notamment dans les travaux autour des plateformes da Vinci (Intuitive Surgical). En robotique industrielle, des acteurs comme Wandercraft ou les équipes de manipulation de Boston Dynamics s'appuient sur des approches similaires pour les transitions de phases motrices. M2R2 reste à ce stade une contribution de recherche académique sans déploiement industriel annoncé, mais son extracteur réutilisable représente un candidat sérieux pour des pipelines d'imitation learning dans lesquels labelliser chaque skill manuellement est le principal goulot d'étranglement.

UEL'extracteur modulaire M2R2 pourrait bénéficier aux équipes de manipulation françaises (notamment Wandercraft) en réduisant le coût de labellisation dans les pipelines d'imitation learning, mais reste une contribution académique sans déploiement industriel annoncé.

RecherchePaper
1 source
Vers l'intelligence des mains dextériques en robotique : un état de l'art
4arXiv cs.RO 

Vers l'intelligence des mains dextériques en robotique : un état de l'art

Une équipe de chercheurs a publié en mai 2026 sur arXiv (identifiant 2605.13925) une revue systématique de l'état de l'art des mains robotiques dextres, couvrant l'ensemble de la chaîne de recherche : mécanique et actionnement, perception tactile, méthodes de contrôle et d'apprentissage, jeux de données et protocoles d'évaluation. Le papier structuré en quatre axes examine les compromis fondamentaux entre capacité de force, compliance mécanique, bande passante de contrôle et complexité d'intégration. Il recense les principales architectures de transmission (câbles, tendons, engrenages), les modalités sensorielles embarquées (capteurs de force, peau artificielle, vision tactile type GelSight), et retrace l'évolution chronologique des paradigmes de contrôle : du contrôle impédanciel classique vers les approches par apprentissage par renforcement, imitation, et plus récemment les Visual-Language-Action models (VLA) appliqués à la manipulation en contact riche. L'intérêt principal de cette synthèse pour les équipes R&D et les intégrateurs industriels est qu'elle tente de résoudre un problème structurel du domaine : l'hétérogénéité des hypothèses expérimentales rend les comparaisons entre travaux quasi impossibles. Les auteurs pointent explicitement que les résultats publiés varient selon l'embodiment de la main, la configuration sensorielle, le type de tâche et le protocole d'évaluation retenu, ce qui obscurcit la trajectoire réelle du secteur. En consolidant datasets, pratiques de benchmarking et métriques d'évaluation dans un cadre commun, le survey fournit une grille de lecture pour juger si les progrès annoncés relèvent d'avancées méthodologiques réelles ou d'artefacts de setup. C'est particulièrement utile dans un contexte où les démos vidéo soigneusement sélectionnées et les claims "sim-to-real solved" se multiplient sans validation robuste sur des tâches industrielles répétables. Ce travail s'inscrit dans une vague de consolidation académique portée par l'essor des mains humanoïdes commerciales : Figure (main intégrée sur Figure 02 et 03), Tesla Optimus, Agility Robotics ou encore les systèmes de Sanctuary AI ont tous relancé l'intérêt pour la manipulation dextre après deux décennies de progrès limités post-DLR Hand et Shadow Hand. Côté recherche, les laboratoires Carnegie Mellon, Stanford, ETH Zurich et, en Europe, des acteurs comme Enchanted Tools (France) et des spin-offs universitaires allemands poussent des approches hybrides hardware-learning. Le survey identifie comme chantiers ouverts prioritaires : la généralisation hors distribution (objets inconnus, matériaux déformables), la robustesse sensorielle en conditions industrielles dégradées, et la co-optimisation hardware-software encore trop rare. Aucun calendrier de publication étendue n'est annoncé ; le preprint est disponible en accès libre sur arXiv.

UELe survey cite explicitement Enchanted Tools (France) et des spin-offs universitaires allemands comme acteurs actifs sur la manipulation dextre hybride hardware-learning, en faisant une ressource de référence directement pertinente pour les équipes R&D françaises du secteur.

RecherchePaper
1 source