Aller au contenu principal
Video Friday : l'IA confère aux mains robotiques une dextérité humaine
IA physiqueIEEE Spectrum Robotics6sem

Video Friday : l'IA confère aux mains robotiques une dextérité humaine

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UETake éditorial

Cette semaine dans la sphère robotique, l'annonce la plus médiatisée émane de Genesis AI, qui présente GENE-26.5, décrit par la société comme "le premier cerveau IA à conférer aux robots des capacités de manipulation physique au niveau humain." Les démonstrations vidéo montrent un système cuisant un repas complet, cassant un oeuf d'une seule main, conduisant des expériences de laboratoire, réalisant du câblage de harnais électrique et jouant du piano. Aucun détail technique sur le matériel robotique utilisé, les taux de succès, ou les conditions d'environnement contrôlées n'est communiqué, ce qui invite à la prudence avant de valider ces affirmations. En parallèle, le Robotics and AI Institute publie une démonstration du quadrupède Spot de Boston Dynamics piloté par un réseau de neurones entraîné par apprentissage par renforcement combiné à une distillation multi-expert: le robot s'accroupit, saute, escalade des caisses et franchit des vides. Du côté de la NASA, les ingénieurs du Jet Propulsion Laboratory ont passé la barrière du son avec des pales de rotor de prochaine génération pour hélicoptère martien, atteignant Mach 1 dans une chambre simulant l'atmosphère de Mars, dont la densité représente environ 1 % de celle de la Terre. Jim Fan, qui dirige le groupe de recherche en autonomie incarnée chez Nvidia, affirme pour sa part que la robotique entre dans sa "phase finale" et que le plan de jeu est déjà écrit.

Les affirmations de Genesis AI sur la manipulation humanoïde méritent d'être contextualisées: le secteur est parsemé d'annonces de "dextérité humaine" qui peinent à se vérifier hors conditions contrôlées. L'absence de métriques objectives, taux de succès, nombre de tentatives, variété des objets manipulés, est un signal d'alerte classique dans les communications de ce type, et le demo-to-reality gap reste la question centrale pour tout décideur B2B qui évalue ces systèmes. La prouesse NASA sur les rotors martiens est, en revanche, une avancée mesurable: franchir Mach 1 dans une atmosphère aussi ténue implique des vitesses de rotation extrêmes et des matériaux composites capables de résister à des charges aérodynamiques inédites, ouvrant la voie à des hélicoptères plus capables pour de futures missions. Quant à Atlas, le discours officiel de Boston Dynamics sur l'équilibre entre objectifs commerciaux et recherche fondamentale traduit la pression croissante que subissent les constructeurs de plateformes humanoïdes pour démontrer une rentabilité tangible après des années d'investissement massif.

Genesis AI est peu connue du grand public; sa mise en avant via TechCrunch suggère une stratégie de visibilité plutôt qu'un lancement produit au sens strict. Dans l'écosystème concurrent, Physical Intelligence avec Pi-0, Figure Robotics avec le Figure 03, Agility Robotics et 1X mènent des efforts comparables sur la manipulation généraliste, tandis que Nvidia prépare le terrain pour GR00T N2 et les prochains modèles de foundation pour corps physiques. Le thème de l'Open Duck Mini, version open-source des droids BDX de Disney publiée par la communauté, rappelle que l'innovation en robotique ne se limite pas aux acteurs industriels. La communauté se retrouvera à ICRA 2026 du 1er au 5 juin à Vienne, puis à RSS 2026 du 13 au 17 juillet à Sydney, deux rendez-vous où ces avancées seront soumises à une évaluation scientifique rigoureuse, loin des vidéos de démonstration soigneusement sélectionnées.

💬 Le point de vue du dev

Genesis AI sort le grand jeu avec GENE-26.5, mais zéro métrique, zéro taux de réussite, ça reste une démo marketing jusqu'à preuve du contraire. Ce qui me retient vraiment dans cette actu, c'est la prouesse NASA sur les rotors martiens: Mach 1 dans 1% de densité atmosphérique, ça c'est de la physique vérifiable, pas du storytelling. Jim Fan parle de "phase finale" pour la robotique, bon, sur le papier c'est enthousiasmant, reste à voir ce que ça donne à ICRA en juin face aux pairs.

À lire aussi

DexWild : des interactions humaines dextériques pour des politiques robotiques en conditions réelles
1arXiv cs.RO 

DexWild : des interactions humaines dextériques pour des politiques robotiques en conditions réelles

DexWild est un framework de collecte de données et d'apprentissage pour la manipulation robotique dextère, publié en mai 2025 sur arXiv (2505.07813). L'idée centrale consiste à remplacer la téléopération coûteuse par la capture directe de gestes humains dans des environnements du quotidien. Une équipe diverse de collecteurs utilise le DexWild-System, un dispositif portable et peu onéreux, pour enregistrer des heures d'interactions avec des objets variés dans de multiples contextes réels. Le framework co-entraîne ensuite un modèle sur ces démonstrations humaines combinées à un volume minimal de données robot spécifiques. Les résultats mesurés atteignent 68,5 % de taux de succès dans des environnements non vus à l'entraînement, soit près de quatre fois mieux qu'une politique entraînée sur données robot seules, et une généralisation cross-embodiment (transfert vers d'autres morphologies robotiques) améliorée d'un facteur 5,8. Le goulot d'étranglement des données est un problème structurel pour la manipulation dextère. La téléopération reste la méthode dominante pour produire des datasets de haute qualité, notamment chez Physical Intelligence avec pi-0 ou chez Figure pour ses robots humanoïdes, mais son coût freine la diversité de distribution couverte. DexWild propose un paradigme alternatif : laisser des humains collecter nativement des données gestuelles en vie réelle, puis transférer ces politiques vers des robots via co-training. Si ces performances se confirment hors laboratoire, cette approche pourrait réduire significativement le coût d'acquisition de données pour les intégrateurs industriels, en particulier sur des tâches de pick-and-place complexes. Il convient de noter que le papier est un preprint non encore peer-reviewed et que les vidéos de démonstration sont sélectionnées, deux points qui invitent à la prudence sur la reproductibilité réelle. Ce travail s'inscrit dans la tendance du scaling de datasets robotiques, aux côtés d'Open-X Embodiment et DROID. Sur la problématique du transfert human-to-robot, les approches concurrentes directes incluent UMI (Universal Manipulation Interface, Stanford/Columbia), qui utilise une gripper portable pour capturer des démonstrations dans des environnements non structurés, et les travaux de l'équipe de Sergey Levine à UC Berkeley sur l'apprentissage depuis des vidéos humaines. DexWild se distingue par la diversité explicite de ses collecteurs et la structure de co-training formalisée. Le code et les datasets sont accessibles sur dexwild.github.io ; aucun déploiement industriel ni timeline commerciale n'est annoncé à ce stade.

IA physiqueOpinion
1 source
RLWRLD lance RLDX-1, un modèle fondation centré sur la dextérité pour mains robotiques
2Robotics Business Review 

RLWRLD lance RLDX-1, un modèle fondation centré sur la dextérité pour mains robotiques

La startup sud-coréenne RLWRLD a présenté la semaine dernière RLDX-1, un modèle de fondation conçu spécifiquement pour les mains robotiques à haut nombre de degrés de liberté (DoF). L'architecture multi-flux couvre les configurations single-arm, dual-arm et humanoïde, et intègre l'ensemble du cycle robotique : collecte de données, entraînement et déploiement. RLWRLD structure ses travaux autour d'un benchmark maison, DexBench, qui organise les défis industriels en cinq régimes de dextérité : diversité de préhension, précision spatiale, précision temporelle, précision de contact, et conscience du contexte. Pour chaque régime, un module dédié : un VLM (vision language model) fin-tuné sur des questions-réponses spatiales pour la localisation précise des contacts ; un module de mouvement extrayant des correspondances visuelles spatio-temporelles pour anticiper les objets en déplacement sur convoyeur ; un module physique qui traite couple et force tactile comme des flux séparés, permettant de prédire les transitions de contact avant qu'elles n'arrivent. Les données d'entraînement combinent téleopération synthétique et démonstrations humaines pour couvrir la manipulation en main (in-hand dexterity) inaccessible à la téléopération standard. L'enjeu est concret : les robots échouent encore sur des tâches en apparence banales comme verser du café depuis une cafetière qui s'allège, attraper un objet en mouvement sur un convoyeur, ou visser un écrou hexagonal avec des doigts. Ce "dernier kilomètre" de l'automatisation industrielle est précisément la cible de RLDX-1. L'architecture multi-flux, où chaque modalité (couple haute fréquence, frames vidéo, mémoire d'état) dispose de sa propre capacité gradient, répond à un problème réel d'optimisation : dans un transformer classique, la modalité dominante absorbe toute la capacité au détriment des autres. Cela dit, les affirmations de RLWRLD sur des performances "état de l'art" restent à valider indépendamment -- les vidéos de démonstration ne constituent pas des métriques de taux de succès en conditions industrielles réelles, et aucun cycle time chiffré n'est communiqué. RLWRLD s'inscrit dans une vague de startups cherchant à combler le fossé entre modèles d'action généralistes et déploiements industriels réels. Elle affronte des acteurs aux ressources bien supérieures : Physical Intelligence avec son modèle pi0 (fondée par d'anciens de Google et Stanford, 400 M$ levés en 2024), Figure AI avec son humanoïde Figure 03, ou encore Agility Robotics et 1X. En Europe, des acteurs comme Enchanted Tools (humanoïde Mirokaï) ou Wandercraft se positionnent sur la mobilité et l'assistance plutôt que sur la manipulation haute-dextérité, laissant ce créneau industriel quasi exclusivement aux acteurs américains et asiatiques. Aucun déploiement pilote chez un client industriel n'a été annoncé à ce stade par RLWRLD.

IA physiqueOpinion
1 source
Au-delà de la dextérité : pourquoi le contact pourrait définir la prochaine ère de la robotique
3IEEE Spectrum Robotics 

Au-delà de la dextérité : pourquoi le contact pourrait définir la prochaine ère de la robotique

Lors de l'IEEE International Conference on Robotics and Automation (ICRA 2026) à Vienne, la démonstration ayant le plus mobilisé les visiteurs n'était pas un bras industriel ni un humanoïde en équilibre : c'était une paire de mains robotiques en train de fabriquer un animal en ballon. La société AGILINK y a présenté son système bimain OmniHand 3 Ultra-M réalisant une torsion séquentielle de ballon long format, sans le faire éclater, en gérant en temps réel la déformation de l'objet, la pression interne et la friction de contact. Ce type de tâche, qualifié de "long-horizon contact-rich manipulation", constitue un benchmark reconnu dans la communauté : la légèreté et la déformabilité d'un ballon rendent toute régulation de force particulièrement délicate, et chaque torsion modifie la géométrie et les propriétés mécaniques de l'objet, imposant une adaptation continue du contrôle. Pour entraîner le système, AGILINK a capturé des démonstrations d'artistes professionnels en sculpture sur ballon, les a transposées en politiques de manipulation sur ses mains robotiques, puis a enrichi l'apprentissage par renforcement non seulement avec les séquences réussies, mais aussi avec les interventions correctrices d'opérateurs humains enregistrées chaque fois que l'exécution dérivait vers l'échec. Ce résultat illustre un glissement de paradigme dans la manipulation robotique : après des années centrées sur la dextérité au sens cinématique (nombre de degrés de liberté, précision de positionnement), le vrai verrou se situerait désormais dans la gestion du contact lui-même. La capacité à maintenir une interaction stable avec un objet dont les propriétés évoluent en continu, ce qu'AGILINK désigne par "contact intelligence", reste hors de portée de la plupart des systèmes commerciaux actuels. Pour les intégrateurs industriels et les équipes R&D en manipulation, ce démo signale que les progrès en sensing visuotactile et en politiques d'apprentissage par imitation commencent à produire des résultats reproductibles sur des tâches à la limite du geste humain. La prudence s'impose toutefois : ICRA 2026 est un cadre contrôlé, et les vidéos présentées sélectionnent les exécutions réussies sans données publiées sur le taux de succès systématique ni sur les conditions de répétabilité en dehors du laboratoire. AGILINK, spécialisée dans la manipulation dextre, développe depuis plusieurs années la plateforme OmniHand en combinant sensing visuotactile, contrôle en force et politique bimanuelle. Son positionnement la place en concurrence directe avec Shadow Robot au Royaume-Uni, Dexterous Robotics, et les divisions R&D en main robotique d'ABB et FANUC, ainsi qu'avec des groupes académiques de Stanford et du MIT travaillant sur des architectures similaires. À noter que l'article source est un contenu sponsorisé par AGILINK publié dans le cadre de la couverture ICRA 2026, ce qui en limite l'indépendance éditoriale. Les prochaines étapes annoncées portent sur des extensions vers des tâches industrielles à contact riche, sans qu'un calendrier de déploiement commercial ni des volumes de production aient été précisés.

UELes équipes R&D européennes en manipulation dextre peuvent utiliser cette démonstration présentée à l'ICRA 2026 de Vienne comme signal de convergence entre sensing visuotactile et apprentissage par imitation, notamment pour se positionner face à Shadow Robot (UK) et aux divisions robotique d'ABB.

IA physiquePaper
1 source
Genesis AI développe un cerveau robotique pour doter les robots polyvalents d'une dextérité comparable à celle de l'humain
4Interesting Engineering 

Genesis AI développe un cerveau robotique pour doter les robots polyvalents d'une dextérité comparable à celle de l'humain

Genesis AI a dévoilé GENE-26.5, un modèle d'intelligence artificielle qualifié de "cerveau robotique" par l'entreprise, conçu pour doter les robots polyvalents d'une dextérité comparable à celle de l'être humain dans l'exécution de tâches physiques complexes. Le système repose sur une architecture VLA (vision-language-action) : il ingère des flux vidéo issus de caméras embarquées, interprète des instructions en langage naturel et génère directement des commandes motrices de bas niveau, sans pipeline modulaire intermédiaire. Selon Genesis AI, GENE-26.5 permet d'exécuter des séquences de manipulation multi-étapes (saisie, tri, assemblage, adaptation aux variations d'environnement) et fonctionnerait sur plusieurs types de plateformes matérielles sans être lié à une configuration d'actionneurs spécifique. L'entreprise n'a toutefois publié aucun benchmark indépendant ni aucune étude évaluée par les pairs : les performances annoncées reposent exclusivement sur des évaluations internes. La composition et le volume du dataset d'entraînement, probablement issu de sessions de télé-opération humaine et de simulations à grande échelle, n'ont pas été divulgués. L'enjeu de cette annonce dépasse le seul modèle. Le véritable goulot d'étranglement dans le développement des robots polyvalents n'est plus mécanique mais logiciel, et plus précisément la capacité des politiques de contrôle à transférer de la simulation au monde réel (le "sim-to-real gap"). Une architecture VLA end-to-end présente un avantage théorique : la perception et l'action étant couplées dans un même réseau de neurones, le robot peut ajuster sa trajectoire de préhension en temps réel sans attendre un module de planification séparé. Ce couplage comporte toutefois un risque structurel, les erreurs de perception se propageant directement aux commandes motrices sans point de contrôle intermédiaire. Si la généralisation inter-plateformes de GENE-26.5 était validée indépendamment, elle réduirait significativement les barrières à l'entrée pour les intégrateurs et les startups robotiques qui n'ont pas les ressources pour entraîner leurs propres modèles fondamentaux, déplaçant la différenciation concurrentielle vers la qualité matérielle et le fine-tuning applicatif. L'annonce intervient dans un contexte de compétition accélérée sur le marché des robots à usage général. Des acteurs américains comme Figure (Figure 03), Agility Robotics ou Apptronik, ainsi que les équipes Optimus de Tesla et les laboratoires de Physical Intelligence (Pi-0) ou de NVIDIA (GR00T N2), visent des volumes de production de l'ordre de 100 000 unités d'ici 2027. La dextérité manuelle reste l'un des problèmes les plus ouverts du domaine : la main humaine mobilise environ 27 os et plus de 30 muscles pour des gestes que les robots ne reproduisent encore qu'approximativement. Genesis AI n'a annoncé ni partenaire matériel, ni calendrier de déploiement commercial, ni conditions de licence pour GENE-26.5. L'affirmation d'une dextérité "au niveau humain" constitue une revendication forte que le secteur attendra de voir confirmer par des données de terrain réelles, hors conditions de démonstration contrôlées.

UESi la généralisation inter-plateformes de GENE-26.5 était validée indépendamment, elle pourrait réduire les barrières à l'entrée pour les startups et intégrateurs robotiques européens qui n'ont pas les ressources pour entraîner leurs propres modèles fondamentaux.

IA physiqueOpinion
1 source