Aller au contenu principal
Vidéo du vendredi : qui gagne entre un robot et un joueur professionnel de ping-pong ?
IA physiqueIEEE Spectrum Robotics6sem

Vidéo du vendredi : qui gagne entre un robot et un joueur professionnel de ping-pong ?

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE
Vidéo du vendredi : qui gagne entre un robot et un joueur professionnel de ping-pong ?
▶ Voir sur YouTube

La semaine du 18 avril 2026 a été marquée par plusieurs démonstrations robotiques notables, dont la plus emblématique s'est déroulée à Pékin : lors d'un semi-marathon de 21 kilomètres réunissant 12 000 coureurs humains, plus de 100 robots humanoïdes ont pris le départ aux côtés d'athlètes humains, et trois d'entre eux ont franchi la ligne d'arrivée avant tout concurrent humain. Ce résultat, relayé par Al Jazeera, illustre une progression rapide de la locomotion bipedale en conditions réelles. En parallèle, Sony AI publiait dans Nature les résultats d'un système autonome capable de disputer une partie de ping-pong contre des joueurs professionnels, en relevant le défi de la perception haute vitesse et du contrôle dynamique en temps réel, deux verrous longtemps considérés comme bloquants pour l'IA physique compétitive. Autre fait marquant, le robot AthenaZero du Robotics and AI Institute a réalisé du jonglage à trois balles à mains nues, sans motion capture externe ni entonnoir mécanique, en s'appuyant uniquement sur des capteurs embarqués et une coordination oeil-main apprise pour gérer l'incertitude au contact.

Ces résultats alimentent le débat sur l'écart entre démonstration et déploiement réel. Le semi-marathon de Pékin constitue une preuve de robustesse locomotrice en environnement non contrôlé, même si les conditions de course (surface, pace, assistance technique en bord de piste) mériteraient d'être précisées pour évaluer la comparabilité exacte avec une performance humaine. La publication Sony dans Nature donne une légitimité scientifique au domaine de l'IA physique compétitive et valide l'idée que des boucles de contrôle rapide peuvent être apprises à partir de données réelles plutôt que simulées. AthenaZero, de son côté, illustre les progrès du sim-to-real sur des tâches de manipulation dynamique sans infrastructure externe, ce qui ouvre la voie à des applications industrielles de tri ou de reorientation d'objets en mouvement. En contrepoint, IEEE Spectrum souligne que la vraie valeur en entrepôt vient encore de systèmes d'automatisation mobile comme ceux de Berkshire Grey, et non des humanoïdes, une nuance importante pour les décideurs B2B qui évaluent des ROI à court terme.

Le contexte de cette semaine s'inscrit dans une accélération visible de la robotique chinoise, portée notamment par des acteurs comme Unitree, qui présente des séquences de locomotion en milieu non structuré, et DEEP Robotics, dont les robots quadrupèdes sont déjà déployés en patrouille résidentielle en Amérique du Nord. Sur le plan matériau, le Max Planck Institute for Intelligent Systems a publié une méthode d'évaluation des actionneurs électrostatiques souples utilisant des actionneurs Peano-HASEL, atteignant un rendement électromécanique de 63,6 %, soit plus de trois fois supérieur aux valeurs antérieurement rapportées, ce qui ouvre des perspectives pour des robots légers et silencieux. Côté mobilité aérienne, Skydio a montré la capture de drones en vol avec un bras UR20, tandis qu'ETH Zurich continue ses travaux sur drones suractuatés. Enfin, Sphero se positionne pour combler le vide laissé par LEGO Mindstorms sur le marché de la robotique éducative, un segment commercial non négligeable laissé en friche depuis l'abandon de la gamme par LEGO.

Impact France/UE

Les publications de l'ETH Zurich sur les drones suractuatés et du Max Planck Institute sur les actionneurs Peano-HASEL (rendement 63,6%) positionnent la recherche européenne comme contributrice active dans l'écosystème mondial de la robotique physique légère.

Dans nos dossiers

À lire aussi

Apprendre la physique à partir de modèles vidéo préentraînés : modèles du monde continus et séquentiels pour la manipulation robotique
1arXiv cs.RO 

Apprendre la physique à partir de modèles vidéo préentraînés : modèles du monde continus et séquentiels pour la manipulation robotique

Une équipe de chercheurs propose PhysGen, un cadre d'apprentissage publié en prépublication sur arXiv (réf. 2603.00110v2), qui exploite des modèles de génération vidéo pré-entraînés comme substituts de simulateurs physiques pour la manipulation robotique. L'idée centrale est de traiter la vidéo générée de manière autorégressive comme un proxy du monde physique, et d'y greffer des actions robotiques continues via une représentation unifiée baptisée "physical tokens", des jetons partagés qui fusionnent la modalité vidéo et les commandes motrices. Pour assurer la convergence, PhysGen intègre du masquage causal, de la cinématique inverse, une prédiction multi-tokens anticipative (L-MTP) et du cache clé-valeur (KV caching). Sur les benchmarks Libero et ManiSkill, le système surpasse OpenVLA de 13,8 points et WorldVLA de 8,8 points. Plus frappant : en conditions réelles, PhysGen atteint les performances de π₀ (Physical Intelligence) sur des tâches physiquement exigeantes, notamment la saisie d'objets transparents, sans avoir bénéficié d'un pré-entraînement spécifique aux données d'action. L'enjeu pour l'industrie est direct : la pénurie de données robotiques à grande échelle reste le principal frein à la généralisation des politiques de manipulation. PhysGen contourne ce goulot en recyclant des modèles vidéo entraînés sur des corpus massifs d'internet pour en extraire une intuition physique implicite, permanence des objets, dynamique de contact, sans collecter de trajectoires robot. Le fait de rivaliser avec π₀ sans son pré-entraînement propriétaire sur des données d'action est une validation partielle de l'hypothèse que le "sim-to-real gap" peut être réduit par la connaissance du monde visuel plutôt que par des démonstrations téléopérées. Cela dit, les résultats restent issus d'un papier de recherche avec des benchmarks sélectifs ; la robustesse sur des scènes industrielles non structurées reste à démontrer. PhysGen s'inscrit dans un courant actif qui voit les laboratoires de robotique piller les architectures de génération multimodale pour nourrir leurs politiques de contrôle : UniSim, Genie, et surtout WorldVLA avaient déjà exploré cette piste. Physical Intelligence (π₀) représente aujourd'hui la référence en termes de performances sur tâches réelles grâce à son pré-entraînement massif sur données d'action hétérogènes, ce qui rend la comparaison de PhysGen d'autant plus significative. OpenVLA (Berkeley) constitue le concurrent open-source direct. La prochaine étape logique pour les auteurs serait une évaluation sur des manipulateurs industriels multi-DOF en environnement non contrôlé, et une intégration avec des pipelines de données synthétiques pour réduire encore la dépendance aux démonstrations humaines.

IA physiqueOpinion
1 source
USIM et U0 : un jeu de données et un modèle vision-langage-action pour robots sous-marins polyvalents
2arXiv cs.RO 

USIM et U0 : un jeu de données et un modèle vision-langage-action pour robots sous-marins polyvalents

Une équipe de chercheurs a publié USIM et U0, un dataset de simulation et un modèle vision-langage-action (VLA) conçus pour doter les robots sous-marins d'une intelligence généraliste multi-tâches. Le dataset USIM regroupe plus de 905 000 images issues de 2 275 trajectoires simulées, soit environ 25 heures d'interactions enregistrées sur le robot BlueROV2, un ROV à six degrés de liberté largement utilisé en recherche. Le modèle U0, entraîné sur ces données, est capable d'exécuter des tâches allant de la navigation par évitement d'obstacles à la manipulation mobile en trois dimensions, le tout piloté par des instructions en langage naturel. En évaluation, U0 atteint un taux de succès global de 43,1 % sur des tâches en ligne, soit une amélioration de 5,5 points de pourcentage par rapport aux meilleures baselines existantes (plafonnées à 37,6 %), avec des performances particulièrement élevées en navigation pure, où le taux monte à 87,5 %. L'erreur moyenne de prédiction d'action hors ligne est réduite à 0,0359. Ces résultats ont une portée directe pour les intégrateurs et opérateurs de systèmes sous-marins autonomes : ils démontrent qu'un modèle généraliste entraîné sur données synthétiques peut effectivement franchir le sim-to-real gap dans un environnement aussi contraignant que le milieu aquatique, où la visibilité est réduite, les courants perturbent la stabilité et les repères visuels sont ambigus. Pour le secteur, c'est une validation de l'approche VLA à l'échelle sous-marine, un domaine où la quasi-totalité des travaux antérieurs s'était cantonnée à des méthodes spécialisées tâche par tâche. L'intégration d'un module de perception convolution-attention (CAP) avec estimation de pose cible comme tâche auxiliaire renforce explicitement la conscience spatiale du modèle, ce qui est critique pour la manipulation en 3D dans des scènes non structurées. Jusqu'ici, la robotique sous-marine autonome reposait majoritairement sur des systèmes de contrôle classiques ou des réseaux de neurones entraînés sur des jeux de données tâche-spécifiques, souvent collectés en conditions réelles à coût élevé. L'approche USIM mise sur la synthèse de données simulées à grande échelle pour contourner ce goulot d'étranglement, une stratégie déjà validée en robotique terrestre par des frameworks comme IsaacGym ou Genesis. Du côté des concurrents directs, les travaux sur les robots sous-marins généralistes restent rares : les projets OpenDive ou les plateformes de Woods Hole Oceanographic Institution n'ont pas encore publié d'équivalent VLA. Aucun acteur européen n'est cité dans cet article, bien que des entreprises comme ECA Group (France) ou Saab Seaeye (Suède) opèrent sur le marché ROV industriel. Le papier, disponible sur arXiv (2510.07869v4), pose un cadre d'évaluation standardisé incluant métriques hors ligne et exécution en ligne, ce qui facilitera les comparaisons futures. Les prochaines étapes annoncées concernent le transfert vers des plateformes physiques et l'extension du dataset à des scénarios plus complexes.

UEImpact indirect potentiel pour des acteurs européens du ROV industriel comme ECA Group (France) ou Saab Seaeye (Suède), mais aucun partenariat ni déploiement européen n'est annoncé dans ce travail de recherche.

💬 43 % de succès global, bon, c'est le début. Mais 87 % en navigation pure et zéro données réelles collectées en mer, c'est la preuve que la stratégie simulation-à-grande-échelle fonctionne sous l'eau exactement comme en terrestre : plus besoin d'envoyer un ROV filmer des épaves pendant des mois pour constituer un dataset. ECA Group a un truc sérieux à surveiller.

IA physiqueOpinion
1 source
Vidéo : le cerveau robotique de Genesis permet une manipulation au niveau humain et un entraînement à grande échelle
3Interesting Engineering 

Vidéo : le cerveau robotique de Genesis permet une manipulation au niveau humain et un entraînement à grande échelle

Genesis AI a présenté GENE-26.5, un modèle de fondation robotique conçu pour doter les robots de capacités de manipulation au niveau humain. La vidéo de démonstration publiée par l'entreprise montre des robots accomplissant une séquence culinaire de 20 étapes (couper des tomates, casser un oeuf d'une seule main, coordonner les deux bras pendant la cuisson), ainsi que la préparation d'un smoothie avec service en l'air, des tâches de laboratoire (pipettage, transfert de liquides), du câblage pour assemblage électronique, la résolution d'un Rubik's Cube en manipulation aérienne continue, et l'interprétation d'une pièce de piano rapide. Pour alimenter l'entraînement du modèle, l'entreprise a développé un gant haptique équipé d'une peau électronique à capteurs tactiles, établissant une correspondance 1:1:1 entre la main humaine, le gant et la main robotique. Genesis revendique un coût matériel cent fois inférieur aux solutions de télé-opération conventionnelles, et une efficacité de collecte de données cinq fois supérieure. Le moteur de données associé intègre également des vidéos égocentriques issues de caméras portables et des vidéos publiques centrées sur l'activité humaine. Ces résultats, s'ils se confirment en environnement réel non contrôlé, représentent une avancée potentiellement significative sur l'un des verrous les plus tenaces de la robotique : l'écart d'incarnation (embodiment gap) entre les mains humaines et robotiques, qui limite depuis des années la transférabilité des données d'entraînement. La cartographie 1:1 glove-to-robot est une approche déjà explorée par des acteurs comme Physical Intelligence (pi-0) et plusieurs laboratoires académiques, mais Genesis revendique une démonstration à une échelle et une polyvalence inédites. Pour les intégrateurs industriels et les décideurs cherchant à automatiser des tâches non structurées (assemblage fin, préparation culinaire en volume, logistique d'entrepôt), la promesse d'un système généraliste capable d'apprendre directement des gestes humains quotidiens, sans retraining extensif, représenterait un changement de paradigme. Il faut toutefois noter que les démonstrations sont des vidéos éditées, sans données indépendantes sur le taux d'échec, les conditions d'éclairage, ou la reproductibilité en cycle de production continu. Genesis AI s'inscrit dans un segment en forte concurrence avec Physical Intelligence (pi-0, Berkeley), Figure AI (Figure 03, déployé avec BMW), Tesla (Optimus Gen 3), NVIDIA (GR00T N2) et Apptronik (Apollo). L'approche par gant haptique à bas coût rappelle les travaux d'Enchanted Tools, acteur français du service robotique, qui mise également sur la capture de mouvement humain pour réduire le coût d'entraînement. Genesis n'a pas encore annoncé de déploiements industriels confirmés ni de partenariats nominatifs : GENE-26.5 reste à ce stade une annonce de produit accompagnée d'une démonstration vidéo, pas un système disponible commercialement. L'entreprise indique prévoir le déploiement de ses gants en milieu de travail réel via des partenariats industriels, avec pour objectif de constituer une bibliothèque de compétences humaines à grande échelle pour l'entraînement robotique.

IA physiqueActu
1 source
Qwen-VLA : un modèle vision-langage-action (VLA) unifié pour les tâches, environnements et morphologies de robots
4arXiv cs.RO 

Qwen-VLA : un modèle vision-langage-action (VLA) unifié pour les tâches, environnements et morphologies de robots

Qwen-VLA, présenté en préprint arXiv par l'équipe Qwen d'Alibaba (arXiv:2605.30280, mai 2026), est un modèle de fondation incarné qui unifie dans un seul système la manipulation robotique, la navigation vision-et-langage et la prédiction de trajectoires. L'architecture étend la pile vision-langage de Qwen par un décodeur d'action basé sur un Diffusion Transformer (DiT), permettant de générer des actions continues en plus du raisonnement perceptif. L'entraînement joint combine trajectoires de manipulation réelles, démonstrations égocentrées humaines, données de simulation synthétique et jeux de données de navigation. Sur les benchmarks publiés, Qwen-VLA-Instruct atteint 97,9 % sur LIBERO, 86,1 %/87,2 % sur RoboTwin-Easy/Hard, 73,7 % sur Simpler-WidowX, et 69,0 % de taux de succès d'objectif sur R2R en navigation. En conditions réelles sur plateforme ALOHA, le modèle affiche 76,9 % de succès moyen hors-distribution (OOD) et 26,6 % en zéro-shot sur DOMINO, une tâche de manipulation dynamique. La contribution principale est le "embodiment-aware prompt conditioning" : des descriptions textuelles propres à chaque robot spécifient morphologie et conventions de contrôle, permettant théoriquement à un seul jeu de poids de s'adapter à plusieurs plateformes sans réentraînement dédié. Pour les intégrateurs et les COO industriels, c'est directement le problème du cross-embodiment qui freine les déploiements à l'échelle. Les scores OOD sont pertinents mais méritent d'être nuancés : ils portent sur des environnements de laboratoire, et les 76,9 % sur ALOHA concernent une plateforme à deux bras en contexte contrôlé, pas un robot industriel en conditions de production. La sélection des séquences de démonstration dans les preprints arXiv est notoirement favorable aux cas réussis. Qwen-VLA s'inscrit dans la course aux VLA généralistes, aux côtés de pi-0 de Physical Intelligence (spécialisé manipulation, 400 M$ levés), GR00T N2 de NVIDIA (cross-embodiment annoncé en 2025) et OpenVLA d'UC Berkeley. Son décodeur DiT le rapproche des approches diffusion-based de pi-0, par opposition aux méthodes token-based. Qwen étant déjà un modèle ouvert d'Alibaba largement adopté dans des stacks vision-langage, son extension à l'action physique offre aux équipes de recherche et d'intégration un point d'entrée solide pour le fine-tuning multi-tâche multi-robot. Aucun déploiement commercial n'est annoncé à ce stade : c'est un travail de recherche, pas un produit lancé.

UELes équipes de recherche et d'intégration robotique européennes peuvent exploiter ce modèle ouvert Alibaba pour du fine-tuning multi-robot multi-tâche, mais aucun partenariat ni déploiement européen n'est annoncé.

IA physiqueOpinion
1 source