Aller au contenu principal
roto 2.0 : l'Olympiade de robotique tactile
RecherchearXiv cs.RO6sem

roto 2.0 : l'Olympiade de robotique tactile

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié roto 2.0, deuxième version du Robot Tactile Olympiad, un benchmark standardisé pour l'apprentissage par renforcement (RL) basé sur le toucher. La plateforme, accélérée GPU en parallèle, couvre quatre morphologies robotiques de 16 à 24 degrés de liberté (DOF) et impose un régime de manipulation strictement "aveugle" : les agents n'ont accès qu'à la proprioception et aux capteurs tactiles, sans information d'état, sans vision, sans distillation depuis un teacher model. Le résultat phare : les agents entraînés atteignent 13 rotations de boules Baoding en 10 secondes, que les auteurs décrivent comme un ordre de grandeur supérieur aux performances actuelles de l'état de l'art sur cette tâche. Les environnements, configurations et baselines sont publiés en open source.

Ce travail pointe un problème structurel reconnu dans la communauté : la recherche en manipulation tactile reste morcelée, avec une concentration excessive sur des tâches d'orientation surexploitées et peu de benchmarks permettant des comparaisons rigoureuses entre approches. En forçant l'absence totale de perception visuelle, roto 2.0 adresse une contrainte concrète pour les intégrateurs industriels : un manipulateur opérant uniquement par retour tactile et proprioceptif peut fonctionner dans des environnements où les caméras sont inutilisables (assemblage en aveugle, poussière, occlusion totale). L'affirmation d'"un ordre de grandeur plus rapide" mérite cependant d'être nuancée : elle s'applique à cette tâche spécifique en simulation, et le gap sim-to-real reste entièrement à démontrer sur hardware réel.

La manipulation dextère sans vision est un défi porté depuis des années par des laboratoires majeurs, notamment OpenAI avec Dactyl (équipe robotique dissoute en 2021) et Stanford avec ses travaux sur la préhension en contact riche, ainsi que par des fabricants de capteurs tactiles comme Xela Robotics ou GelSight MIT. roto 2.0 s'inscrit dans une dynamique de benchmarking plus rigoureux qui traverse la communauté, dans le sillage de ManiSkill et Isaac Lab. En France, le LAAS-CNRS mène des recherches sur des approches similaires de manipulation par contact. En open-sourçant les environnements et des baselines correctement tuned, les auteurs visent explicitement à libérer les chercheurs du coût en temps lié au réglage RL pour qu'ils se concentrent sur les défis algorithmiques fondamentaux.

Impact France/UE

Le LAAS-CNRS mène des travaux sur la manipulation par contact similaires à ceux que roto 2.0 cherche à benchmarker ; la publication open-source des environnements et baselines peut directement accélérer ces recherches françaises et réduire leur coût de réglage RL.

Dans nos dossiers

À lire aussi

Dream-Tac : un modèle d'action monde tactile unifié pour la manipulation robotique riche en contacts
1arXiv cs.RO 

Dream-Tac : un modèle d'action monde tactile unifié pour la manipulation robotique riche en contacts

Des chercheurs ont publié le 9 juin 2026 sur arXiv (arXiv:2606.08737) Dream-Tac, un modèle d'action mondial unifié intégrant la modalité tactile pour la manipulation robotique en contact. L'architecture joint trois dimensions simultanément : la génération d'actions, la prédiction d'observations visuelles futures et la dynamique tactile. Deux contributions techniques structurent le système : une fusion visuotactile à déclenchement par contact ("contact-gated visuotactile fusion"), qui intègre sélectivement les signaux tactiles uniquement lors des phases d'interaction physique effective, et un biais d'attention conscient du contact ("contact-aware attention bias") régulant les échanges cross-modaux. Pour rendre le modèle déployable en temps réel, les auteurs introduisent une stratégie d'accélération à deux niveaux : reformulation du biais lors de l'entraînement pour préserver les chemins d'attention fusionnés, et accélération de la diffusion par cache à l'inférence. Résultat annoncé : entraînement 2,9 fois plus rapide, inférence 1,8 fois plus rapide. Sur six tâches de manipulation en contact riche, Dream-Tac améliore la précision des actions de 31,7 % en moyenne. Le code est publié sur GitHub. Le résultat le plus significatif n'est pas le chiffre brut des 31,7 %, mais ce qu'il révèle sur une limitation structurelle des modèles d'action mondiaux (world action models) actuels : ces architectures, qui héritent la capacité prédictive des world models pour guider la génération d'actions, s'appuient quasi exclusivement sur la vision. Or, la vision seule est insuffisante pour les tâches à fort contact (assemblage de pièces, vissage, insertion de connecteurs, manipulation d'objets souples) où les signaux critiques sont d'ordre haptique. Dream-Tac adresse directement ce "reality gap" tactile, en montrant que l'intégration conditionnelle de la modalité tactile dans le pipeline de diffusion améliore substantiellement la robustesse. Pour les intégrateurs industriels et les équipes robotique travaillant sur des cellules d'assemblage ou de finishing, c'est un signal clair que les VLA (Vision-Language-Action models) ne suffisent pas seuls pour les cas d'usage à contact. Le contexte est celui d'une compétition intense entre laboratoires sur la manipulation dextère. Physical Intelligence (pi0, pi0-FAST), Boston Dynamics, Figure AI et Agility Robotics investissent massivement dans des pipelines de manipulation généralisable, principalement visuels. Côté recherche académique, des travaux comme DexDiffuser ou UniDexGrasp ont posé les bases de la manipulation dextère par diffusion, mais sans intégration tactile unifiée. Dream-Tac s'inscrit dans une tendance émergente visant à enrichir ces pipelines avec des capteurs de contact (GelSight, Digit, BubbleGripper), encore peu intégrés dans les architectures de world models. Il s'agit ici d'un article de recherche arXiv, pas d'un produit ou d'un déploiement industriel : les six tâches de validation sont des benchmarks contrôlés en laboratoire, et la généralisation à des environnements réels non structurés reste à démontrer. Les prochaines étapes naturelles seraient une validation sur des plateformes hardware commerciales (UR, Franka, ou bras dextre humanoïde) et une extension à des gripper tactiles standardisés disponibles sur le marché.

RechercheOpinion
1 source
DIJIT : une tête robotique pour un observateur actif
2arXiv cs.RO 

DIJIT : une tête robotique pour un observateur actif

Des chercheurs ont présenté DIJIT, une tête robotique binoculaire conçue pour équiper des agents mobiles opérant en tant qu'observateurs actifs. Le système cumule neuf degrés de liberté mécaniques auxquels s'ajoutent quatre degrés de liberté optiques fournis par les caméras et les objectifs, soit 13 DOF au total. La conception mécanique couvre l'ensemble des mouvements nécessaires à la stéréovision convergente : vergence, version et cyclotorsion. DIJIT atteint 85 % de la vitesse de saccade humaine maximale, et la méthode de contrôle développée par l'équipe, basée sur une relation directe entre l'orientation de la caméra et les valeurs moteur, produit des mouvements saccadiques avec une erreur moyenne de 1,17° pour la caméra gauche et 1,14° pour la droite. L'article, publié sur arXiv (2512.07998v2), reste à ce stade un travail académique sans déploiement industriel annoncé. L'intérêt de DIJIT réside dans la rareté des plateformes permettant d'étudier conjointement les mouvements oculaires et tête-cou dans un cadre robotique mobile. La plupart des systèmes de vision active existants traitent ces deux axes séparément ou sacrifient la fidélité biomécanique au profit de la simplicité mécanique. En reproduisant les plages et vitesses comparables à celles de l'humain, DIJIT offre un banc d'essai pour comparer directement les stratégies de perception visuelle humaine aux méthodes de computer vision classiques, ce qui est particulièrement utile pour valider ou invalider des hypothèses sur le sim-to-real gap dans les systèmes de vision embarquée. La vision active robotique connaît un regain d'intérêt depuis que les modèles VLA (Vision-Language-Action) imposent des flux visuels plus riches et dynamiques aux robots humanoïdes. Des laboratoires comme celui de CMU ou des équipes travaillant sur des plateformes telles que Figure 03 ou Digit (Agility Robotics) cherchent à améliorer la perception visuelle active pour des tâches de manipulation en environnement non structuré. DIJIT se positionne comme un outil de recherche fondamentale plutôt que comme un produit commercialisable à court terme. L'absence de partenaire industriel annoncé et le format arXiv suggèrent une phase d'exploration académique ; les prochaines étapes probables concernent l'intégration sur une plateforme mobile complète et la publication de benchmarks comparatifs face aux systèmes de vision fixe.

RecherchePaper
1 source
RoboCade : la collecte de données robotiques par le jeu
3arXiv cs.RO 

RoboCade : la collecte de données robotiques par le jeu

Des chercheurs ont publié RoboCade, une plateforme de télé-opération gamifiée conçue pour collecter à grande échelle des données de démonstration robotique, un pré-requis critique pour l'apprentissage par imitation. La plateforme intègre des mécaniques de jeu classiques, retours visuels, effets sonores, barres de progression, classements et badges, dans une interface accessible à des utilisateurs non experts. Trois tâches de manipulation ont été instanciées sur la plateforme : arrangement spatial, scanning et insertion. Le résultat quantifié : les politiques robotiques entraînées en co-training avec des données issues de RoboCade améliorent leur taux de réussite sur des tâches cibles non gamifiées de 16 à 56 % selon la tâche. Une étude utilisateur auprès de novices montre en parallèle un gain de 24 % sur l'appréciation subjective de la plateforme gamifiée par rapport à une interface standard. L'enjeu derrière ces chiffres est structurel. La collecte de données de démonstration pour l'apprentissage par imitation (imitation learning) est aujourd'hui un goulot d'étranglement majeur dans la robotique d'autonomie : elle exige un accès physique à des robots réels, une main-d'œuvre qualifiée, et un investissement temporel soutenu sur des tâches répétitives. RoboCade déplace ce modèle vers un crowd-sourcing distant, ouvrant la collecte à un public large sans expertise robotique préalable. La hausse de performance constatée valide que des données produites par des utilisateurs non experts dans un contexte gamifié restent exploitables pour entraîner des politiques efficaces, ce qui conteste implicitement l'hypothèse selon laquelle la qualité de démonstration exige nécessairement un opérateur expert. Cette approche s'inscrit dans une tendance plus large visant à décorréler la qualité des politiques robotiques du coût de la collecte de données. Des initiatives comme Open X-Embodiment (Google DeepMind) ou BridgeData V2 ont montré la valeur des grands datasets partagés, mais ceux-ci restent produits en laboratoire. RoboCade propose une alternative orientée scalabilité via le grand public, sans nécessiter de déploiement physique robot côté utilisateur. La question qui reste ouverte, et que le papier ne traite pas encore, est celle du passage à l'échelle réel : quelle dégradation de signal introduit la variabilité des profils utilisateurs à très grande échelle, et comment filtrer les démonstrations sous-optimales sans supervision humaine intensive.

RecherchePaper
1 source
Transfert pré-entraînement tactile transférable centré sur l'humain pour la manipulation robotique dextérique
4arXiv cs.RO 

Transfert pré-entraînement tactile transférable centré sur l'humain pour la manipulation robotique dextérique

Les auteurs de cette étude publient H-Tac, un jeu de données tactile-action à grande échelle constitué de 160 heures de vidéos humaines à la première personne, couvrant plus de 300 tâches et totalisant 135 000 épisodes. À partir de cette base, ils proposent Transferable Tactile Pre-Training (TTP), un système de pré-entraînement fondé sur le sens tactile humain, destiné à transférer des compétences de manipulation fine vers des robots. La méthode s'appuie sur des espaces tactiles et d'action unifiés, maintenus identiques pendant les phases de pré-entraînement et de post-entraînement, afin de préserver les connaissances acquises lors du passage de l'humain au robot. Un module expert dédié prédit l'évolution future du signal tactile, ce qui permet de modéliser explicitement la dynamique de contact et les interactions physiques fines. Les auteurs rapportent des performances supérieures aux approches existantes, en simulation comme sur robots réels, avec une bonne capacité de généralisation. Ce travail cible un verrou connu du secteur robotique: le toucher reste la modalité la moins exploitée dans les modèles Vision-Language-Action, alors qu'il est indispensable pour les tâches riches en contact où la vision seule ne suffit pas à estimer une force appliquée. Les jeux de données tactiles existants restent petits et couvrent peu de types de contacts, ce qui limite le plafond de performance des modèles VLA tactiles, dont le post-entraînement reste largement indifférent à la dynamique physique. En s'appuyant sur des vidéos humaines plutôt que sur de la téléopération robotique coûteuse à collecter, H-Tac vise à lever ce goulot d'étranglement de données, une stratégie déjà explorée pour le pré-entraînement d'actions mais rarement appliquée au tactile à cette échelle. Si les résultats se confirment sur d'autres plateformes, cela pourrait rapprocher les robots manipulateurs dextres de tâches fines comme l'insertion de précision ou la manipulation d'objets déformables, au-delà des démonstrations scénarisées. L'article s'inscrit dans la lignée des modèles VLA récents (Pi-0, GR00T N2, Helix) qui combinent perception visuelle et langage mais négligent généralement le retour tactile faute de données adaptées. Publié sur arXiv (2607.01067v1) début juillet 2026, ce travail reste au stade de la recherche académique: aucun partenariat industriel ni déploiement commercial n'est mentionné, et les auteurs présentent TTP comme une preuve de concept ouvrant la voie à un pré-entraînement tactile transférable et passant à l'échelle, plutôt que comme un produit prêt à l'emploi.

RecherchePaper
1 source