RechercheInteresting Engineering 10 juin 2026

MIT développe un bracelet à ultrasons pour apprendre aux robots humanoïdes la dextérité des mains humaines

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs du Massachusetts Institute of Technology, dirigés par Xuanhe Zhao, ont présenté un bracelet ultrasonique portable capable de capturer les mouvements de muscles, tendons et ligaments sous la peau du poignet. Le dispositif intègre un système d'imagerie sans fil à 256 canaux couplé à un modèle d'IA hybride Transformer-ResNet qui interprète en temps réel l'activité musculaire subtile. Il suit en continu les 22 degrés de liberté de la main humaine, couvrant l'ensemble des mouvements de flexion, rotation et coordination des doigts et de la paume, avec une latence mesurée à 120 millisecondes. Lors de tests en laboratoire impliquant huit volontaires, le bracelet a reproduit des gestes avec une précision suffisante pour reconnaître les 26 lettres de l'alphabet américain des signes (ASL). Opérant sans fil, il permet de piloter des systèmes robotiques à distance sans connexion physique directe. L'objectif affiché par l'équipe : utiliser les données collectées pour entraîner des robots humanoïdes à reproduire les tâches manuelles délicates que les humains réalisent naturellement.

Ce travail adresse l'un des goulots d'étranglement les plus persistants de la robotique : la capture précise et non intrusive de la dextérité manuelle. Les solutions actuelles souffrent de limites connues, les systèmes à caméra étant sensibles aux occlusions et aux angles de vue, tandis que l'électromyographie (EMG), les capteurs inertiels ou les jauges de déformation manquent souvent de résolution pour les mouvements continus des doigts ou contraignent les gestes. En se positionnant sous la peau par imagerie ultrasonique, le bracelet MIT contourne ces contraintes tout en atteignant une couverture complète des 22 degrés de liberté. Pour les équipes qui collectent des données de téléopération destinées à l'apprentissage par imitation, notamment pour alimenter des pipelines VLA comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA), un tel dispositif pourrait enrichir significativement la qualité des démonstrations humaines utilisées à l'entraînement. Il reste cependant à valider ces performances hors laboratoire, sur des populations plus larges et dans des conditions de bruit musculaire réel, un point que la publication initiale n'aborde pas.

Cette recherche s'inscrit dans une progression rapide des ultrasons portables amorcée au MIT et dans d'autres laboratoires. Depuis 2022, des équipes ont successivement démontré la surveillance multi-organes en continu, l'imagerie cardiaque portable et des patchs à résolution sub-millimétrique ; en 2024, l'Université de Californie à San Diego avait présenté un système comparable basé sur l'IA pour l'interprétation des gestes du bras, fonctionnel même en conditions dynamiques (course, véhicule en mouvement, mer agitée). Sur le plan concurrentiel, des acteurs comme CTRL-Labs (acquis par Meta en 2019) ou les fournisseurs d'EMG avancé tels que Delsys et Noraxon explorent des espaces adjacents, mais l'approche ultrasonique revendique une résolution spatiale potentiellement supérieure pour les structures profondes. L'équipe MIT n'a pas encore annoncé de partenariats industriels ni de calendrier de commercialisation : le dispositif reste aujourd'hui au stade de démonstration de laboratoire.

Dans nos dossiers

NVIDIA GR00T Physical Intelligence — π0

À lire aussi

1arXiv cs.RO

« RoboTacDex : un jeu de données visuo-tactile-action dextérique pour la manipulation humanoïde »

Voici l'article traduit et résumé selon les consignes éditoriales : Une équipe de chercheurs en robot learning publie RoboTacDex, un jeu de données de manipulation dextre construit sur le robot humanoïde Unitree G1, accessible publiquement. L'ensemble comprend 6 000 trajectoires couvrant 19 tâches, 23 compétences distinctes et des interactions avec 22 objets différents. Chaque trajectoire embarque des flux RGB et de profondeur multi-vues, un retour tactile et des annotations sémantiques détaillées. Pour garantir la qualité de la collecte, les auteurs ont développé un système de synchronisation multi-caméras capable d'aligner les différentes modalités à la milliseconde près. Le jeu de données cible volontairement des tâches complexes, réalisables uniquement avec deux bras et des mains dextres, pour se rapprocher de la logique opérationnelle humaine. Trois modèles d'apprentissage par imitation ont été testés dessus, avec des résultats jugés positifs et une capacité de généralisation modérée sur l'ensemble des tâches. Le dataset sera open-source prochainement. L'enjeu dépasse la simple publication académique : l'apprentissage par imitation pour la manipulation bimanuelle dextre souffre d'un manque chronique de démonstrations diversifiées et multimodales, la plupart des jeux de données existants se limitant à la vision RGB seule. L'ajout systématique du tactile et d'une synchronisation précise entre capteurs comble un vide identifié par plusieurs laboratoires travaillant sur des modèles vision-langage-action (VLA). Pour les équipes qui entraînent ce type de modèles, disposer de données ouvertes et denses sur une plateforme humanoïde standardisée réduit la dépendance aux jeux de données propriétaires des grands acteurs américains. Le choix du Unitree G1, plateforme humanoïde relativement abordable et largement diffusée dans les laboratoires de recherche, s'inscrit dans une dynamique d'ouverture des données robotiques comparable à des initiatives comme Open X-Embodiment. Ce positionnement contraste avec les approches propriétaires de Physical Intelligence (Pi-0) ou NVIDIA (GR00T), qui restreignent l'accès à leurs corpus d'entraînement. La mise en open source, annoncée mais pas encore effective à la date de publication du prépublication arXiv, déterminera l'impact réel de RoboTacDex sur la communauté.

RecherchePaper

1 source

2arXiv cs.RO

Robot humanoïde : apprendre des interventions de sécurité personnalisées pour le contrôle partagé haptique humain-robot

Traduction de l'article demandée. Un système de retour haptique personnalisé permet désormais aux robots partagés en téléopération d'apprendre les préférences de sécurité individuelles d'un utilisateur à partir de démonstrations limitées, plutôt que d'imposer des réglages génériques prédéfinis. L'approche, baptisée Learning from Haptics (LfH), s'appuie sur une couche d'optimisation différentiable fondée sur des fonctions de barrière de contrôle (Control Barrier Function, CBF), un outil mathématique classique pour garantir qu'un système reste dans une zone d'état sûre. Concrètement, l'opérateur n'a plus besoin de régler manuellement les paramètres du contrôleur par essais-erreurs: il montre au système comment il souhaite que celui-ci intervienne pendant la téléopération, et l'algorithme ajuste automatiquement les paramètres de sécurité sous-jacents pour reproduire ce comportement démontré. Les auteurs ont validé le cadre à la fois en simulation et sur un banc matériel réel, montrant que le système apprend des interventions personnalisées à partir de peu de données utilisateur et réduit l'écart entre le retour haptique généré et les préférences réellement démontrées. Cette avancée s'attaque à une limite connue des systèmes de guidage haptique en contrôle partagé humain-robot: les stratégies d'intervention prédéfinies ne s'adaptent ni aux préférences individuelles des opérateurs, ni aux spécificités de chaque scénario applicatif (chirurgie assistée, téléopération industrielle, exosquelettes, manipulation à distance). Pour les intégrateurs et concepteurs de systèmes à contrôle partagé, cela signifie potentiellement moins de temps de calibration terrain et une meilleure acceptabilité utilisateur, un facteur souvent négligé mais déterminant dans l'adoption réelle de ces interfaces. Le résultat conforte aussi une tendance plus large en robotique interactive: remplacer le réglage manuel de paramètres de contrôle par de l'apprentissage à partir de démonstrations éparses, une approche qui gagne du terrain face aux méthodes classiques de tuning expert. Le travail s'inscrit dans la lignée des recherches sur le contrôle partagé haptique et les CBF, deux domaines matures séparément mais rarement combinés de façon apprenante. Les CBF sont largement utilisés en robotique de sécurité (véhicules autonomes, manipulateurs collaboratifs) pour garantir formellement l'évitement de zones dangereuses, mais leurs paramètres restent généralement fixés à la main par des experts. En les rendant différentiables et ajustables par apprentissage, les auteurs ouvrent la voie à des systèmes de téléopération qui s'adaptent utilisateur par utilisateur. L'article, publié sur arXiv fin juillet 2026, ne précise pas de partenaire industriel ni de calendrier de déploiement au-delà des expériences en laboratoire, ce qui en fait pour l'instant un travail de recherche fondamentale plutôt qu'une solution prête à l'intégration.

RecherchePaper

1 source

3arXiv cs.RO

Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes

Une équipe de chercheurs a publié le 9 juin 2026 sur arXiv (2606.08278) SIMPLE, un banc de test de simulation unifié pour l'apprentissage et l'évaluation de politiques de contrôle de robots humanoïdes. La plateforme couple la simulation de dynamique de contact de MuJoCo avec le rendu photoréaliste d'IsaacSim, et propose 60 tâches de loco-manipulation plein corps, 50 scènes d'intérieur et plus de 1 000 assets d'objets. Pour la collecte de données, deux pipelines sont intégrés : génération automatisée de trajectoires par planification de mouvement, et interface de téléopération VR à faible latence. Les auteurs y benchmarkent plusieurs familles de politiques humanoïdes : réseaux d'imitation légers, grands modèles vision-langage-action (VLA) et les récents modèles d'action du monde (WAM, World Action Models). Les expériences démontrent, selon les auteurs, un transfert zero-shot vers des robots humanoïdes physiques dans des configurations similaires. L'enjeu central est un goulot d'étranglement d'évaluation : les modèles fondationnels humanoïdes progressent plus vite que les protocoles pour les tester. Les benchmarks existants se concentrent sur la robotique de table ou les robots à roues, sans couvrir la loco-manipulation plein corps, compétence clé pour les humanoïdes déployés en environnement industriel ou domestique. Si la corrélation sim-to-real revendiquée dans l'article se confirme à plus grande échelle, elle légitime le recours massif à la simulation pour entraîner des politiques de contrôle, réduisant drastiquement les coûts de collecte de données en conditions réelles. C'est précisément le pari industriel de Physical Intelligence avec pi-0, et de Figure AI avec Figure 02 : remplacer les démos téléopérées coûteuses par des pipelines simulés reproductibles. La fragmentation des benchmarks est un problème structurel en robotique humanoïde : chaque laboratoire publie sur ses propres protocoles, rendant toute comparaison inter-équipes difficile. Des initiatives comme HumanoidBench, RoboVerse ou Isaac Lab ont tenté d'y répondre, mais sans couvrir la chaîne complète loco-manipulation avec rendu photoréaliste et pipelines de données intégrés. SIMPLE se positionne à cette intersection. Les équipes de Google DeepMind (GR00T N2, Helix), Agility Robotics (Digit) et Boston Dynamics sont directement concernées. Ce preprint arXiv n'est pas encore évalué par les pairs ; l'adoption par la communauté dépendra de la disponibilité publique du code et des assets, non encore confirmée.

RecherchePaper

1 source

4IEEE Spectrum Robotics

Les modèles vision-langage apprennent aux robots à lire les émotions humaines

Des chercheurs de l'Université de Melbourne ont entraîné un robot collaboratif à reconnaître les émotions humaines en combinant analyse faciale et facteurs contextuels, via un modèle de langage visuel (VLM, ou Vision Language Model). Les résultats, publiés le 18 mai 2026 dans IEEE Robotics and Automation Letters, montrent que cette approche surpasse les systèmes classiques de reconnaissance d'expression : le VLM obtient un score de similarité de 0,86 sur 1, contre 0,77 pour les outils d'analyse faciale et de suivi d'objets conventionnels. L'étude a été conduite par Seung Chan Hong dans le cadre de sa thèse de licence, avec une cohorte de 40 volontaires. Pour entraîner le modèle, des participants ont d'abord visionné des vidéos de robots effectuant des transferts d'objets à des humains avec des degrés de succès variés, puis décrit les émotions perçues en tenant compte de la scène complète : posture, gestes (doigts qui tambourinent, lèvres pincées), position dans l'espace, et non plus seulement l'expression du visage. Dans un second test, le robot équipé du VLM a intentionnellement commis une erreur, puis proposé soit une excuse adaptée à l'état émotionnel perçu, soit une formule pré-scriptée. Résultat : 31 personnes sur 40 ont préféré la réponse contextuelle. Le résultat le plus significatif n'est pourtant pas le gain de performance du VLM, mais la limite qu'il révèle. Même avec une excuse personnalisée et émotionnellement cohérente, la confiance des participants envers le robot avait chuté après l'erreur, indépendamment de la qualité de la réponse sociale. Les auteurs en tirent une conclusion directe pour les intégrateurs et les équipes de conception : l'adaptivité émotionnelle agit comme un lubrifiant social, elle n'efface pas un déficit fonctionnel. Pour les COO et décideurs qui évaluent des déploiements de cobots en environnement humain, cela signifie que l'investissement dans la fiabilité mécanique reste prioritaire sur les couches d'intelligence émotionnelle. En revanche, dans les scénarios où des erreurs sont inévitables, un module de reconnaissance émotionnelle contextuelle peut atténuer les effets négatifs sur la relation opérateur-robot, ce qui est pertinent dans les environnements d'assemblage ou de logistique. Le VLM utilisé dans l'étude fonctionne sur un principe similaire aux grands modèles de langage comme ChatGPT, mais avec une entrée visuelle permettant une lecture de scène au-delà de la seule mimique faciale. La recherche en interaction humain-robot (HRI) investit depuis plusieurs années dans les modèles de reconnaissance d'affect, mais les approches classiques restaient cantonnées à l'analyse des expressions faciales ou au suivi de posture. L'intégration des VLMs dans ce domaine suit la vague des modèles de vision-langage généralistes issus de Google DeepMind, OpenAI ou Meta. L'étude de Melbourne se distingue par une validation empirique sur sujets humains réels avec une tâche collaborative concrète, plutôt qu'une évaluation sur benchmark. Les prochaines étapes pour ce type de recherche incluront probablement des tests en environnement industriel contrôlé, pour vérifier si la perception émotionnelle reste robuste sous pression temporelle et dans des scènes visuellement chargées.

RecherchePaper

1 source