RechercheRobohub6sem

Un robot de tennis de table bat certains des meilleurs joueurs mondiaux : les implications majeures pour la robotique

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Sony AI a publié dans la revue Nature les résultats d'un robot de tennis de table autonome baptisé Ace, capable de remporter trois matchs sur cinq contre des joueurs de niveau élite, soit des athlètes comptant plus de dix ans de pratique et vingt heures d'entraînement hebdomadaire en moyenne. Le robot a perdu ses deux confrontations face à des professionnels de la ligue japonaise, mais a remporté un set contre l'un d'eux, dont Yamato Kawamata lors d'un match en décembre 2025. Ace joue sur une table réglementaire, avec un équipement standard, contre des adversaires libres d'utiliser l'intégralité de leur répertoire technique. La balle peut dépasser 20 mètres par seconde et les joueurs professionnels peuvent lui imprimer une rotation jusqu'à 9 000 tours par minute, laissant moins d'une demi-seconde au robot pour évaluer la trajectoire et formuler une réponse. Pour percevoir cette dynamique, le système combine trois capteurs de vision événementielle (qui détectent les changements de luminosité plutôt que de capturer des images fixes) et neuf caméras haute vitesse. Un algorithme d'apprentissage par renforcement profond, entraîné sur plusieurs millions de rallyes simulés en self-play, recalcule les commandes de mouvement du bras articulé toutes les quelques dizaines de millisecondes, en évitant les collisions avec la table et avec le bras lui-même.

Ce résultat dépasse le cadre du ping-pong : il constitue la première démonstration publiquement documentée d'un système IA autonome compétitif dans un environnement physique non contraint, à vitesse humaine et contre des adversaires experts. Contrairement aux victoires d'AlphaGo ou de Stockfish, obtenues dans des univers entièrement numériques aux règles fixes, Ace opère dans un espace où la physique, le spin et l'imprévisibilité humaine créent des conditions radicalement ouvertes. Pour l'industrie robotique, cela valide une chaîne technique complète : estimation de spin en temps réel via marquages visuels, transfert sim-to-real sur des tâches dynamiques rapides, et contrôle d'un bras multi-articulé sous contrainte temporelle sévère. Ces mêmes briques techniques (capteurs événementiels, RL simulé, contrôle rapproché temps réel) sont directement transférables à la manipulation industrielle haute cadence, au tri ou à l'assemblage fin, là où les systèmes actuels restent limités par leur latence de perception.

Sony AI s'inscrit dans une trajectoire de recherche où la table de ping-pong sert depuis longtemps de banc de test pour la robotique physique. Le robot Forpheus d'Omron, développé depuis 2017, avait pavé la voie mais dans des conditions contraintes : lanceur de balles contrôlé, déplacements limités, effets de rotation peu ou pas pris en compte. Ace franchit un seuil qualitatif en jouant dans les mêmes conditions qu'un humain. Sony n'a pas encore annoncé de calendrier de commercialisation ni de partenariat industriel, et la publication Nature porte le statut d'avancée de recherche plutôt que de produit commercialisé. Du côté des concurrents, les efforts en robotique physique intelligente se concentrent ailleurs : Boston Dynamics sur la locomotion, Figure et 1X sur les humanoïdes polyvalents, Sanctuary AI sur la manipulation généraliste. Le vrai enjeu pour Sony sera de montrer si les innovations d'Ace peuvent migrer vers des cas d'usage industriels concrets, ou si elles restent cantonnées à un démonstrateur de laboratoire remarquable.

Dans nos dossiers

Boston Dynamics Sanctuary AI

À lire aussi

1arXiv cs.RO

IA physique : des modèles du monde aux modèles d'action, un tutoriel concis pour la robotique

Un article publié sur arXiv (2607.00836) dresse un état des lieux conceptuel des "world models" utilisés en robotique et en simulation générative, un terme dont le périmètre varie fortement selon les communautés de recherche. Les auteurs proposent une définition unifiée : un modèle du monde est un système conditionné par l'action qui prédit l'évolution future des observations ou des états pertinents pour une tâche donnée. Ils distinguent deux grandes familles : les modèles dans l'espace des observations, qui prédisent des images ou vidéos brutes, et les modèles dans l'espace des états, qui travaillent sur des représentations compactes. Chaque approche est comparée selon quatre critères : fidélité visuelle, structuration spatiale, interprétabilité physique et facilité d'usage pour le contrôle. Le papier introduit ensuite les "world action models", qui relient ces prédictions du futur à des actions robotiques exécutables, avec quatre paradigmes identifiés : imaginer puis exécuter, prédiction d'action conditionnée par des features vidéo, modélisation conjointe vidéo-action, et prédiction vidéo auxiliaire pour l'apprentissage de politiques. Cette clarification terminologique a une portée pratique pour les équipes qui développent des politiques robotiques : elle aide à choisir entre un modèle générateur de pixels, coûteux en calcul mais riche visuellement, et un modèle d'état plus léger, plus proche du contrôle temps réel mais moins interprétable. Elle formalise aussi un débat de fond du secteur : les modèles de génération vidéo produisent des démonstrations spectaculaires, mais leur utilité réelle pour piloter un bras ou un humanoïde reste à prouver, faute de garanties physiques strictes, ce qui rejoint les critiques récurrentes sur l'écart entre démo et déploiement réel. En distinguant explicitement l'approche "imaginer puis exécuter" des méthodes qui apprennent directement une politique conjointe vidéo-action, le tutoriel donne aux intégrateurs une grille de lecture pour évaluer les annonces commerciales selon ce qu'elles modélisent vraiment, plutôt que sur la seule qualité de leurs vidéos. Ce travail arrive alors que les world models occupent une place croissante dans la course aux modèles vision-langage-action, portée par des systèmes comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou Helix de Figure AI, qui combinent tous, à des degrés divers, prédiction du futur et génération d'actions. Sans analyser directement ces produits commerciaux, la taxonomie proposée offre un cadre académique pour resituer ces systèmes les uns par rapport aux autres, à un moment où la recherche universitaire tente de structurer conceptuellement un domaine dont la vitesse de publication industrielle a largement dépassé la théorie.

RecherchePaper

1 source

2arXiv cs.RO

Modèles physiques pour le transfert simulation-réel au tennis de table robotique de niveau professionnel

Des chercheurs ont soumis sur arXiv (arXiv:2606.28805, juin 2026) un ensemble de modèles physiques haute-fidélité destinés à améliorer le sim-to-real transfer en robotique, appliqués au tennis de table de niveau professionnel. À des vitesses et effets compétitifs, une balle de ping-pong suit des trajectoires complexes et contre-intuitives que le robot doit anticiper en une fraction de seconde. Les modèles proposés couvrent trois domaines : la dynamique aérodynamique du vol de balle, avec les coefficients de traînée et de force de Magnus modélisés en fonction du nombre de Reynolds et du rapport de rotation ; le contact balle-table, intégrant les effets de déformation (buckling) de la balle sur le coefficient de restitution ainsi que des termes résiduels ; et le contact balle-raquette, via un réseau de neurones résiduel combiné à des coefficients de restitution normale et tangentielle et un amortissement torsionnel. Ces modèles ont servi à entraîner des politiques par apprentissage par renforcement (RL), aboutissant à ce que les auteurs décrivent comme le premier agent robotique capable d'affronter des joueurs professionnels en conditions réelles. L'intérêt technique dépasse le cadre sportif. La nature adversariale du tennis de table impose une contrainte rarement aussi explicite ailleurs : toute zone où la simulation diverge de la réalité devient exploitable par l'adversaire, forçant une précision de modélisation sans concession. Les travaux antérieurs en robotique ping-pong se cantonnaient à des plages étroites de vitesses et d'effets, insuffisantes pour reproduire les comportements balistiques du jeu professionnel. Que ce pipeline simulation-vers-réalité soit suffisamment fidèle pour approcher ce niveau valide l'approche pour des tâches de manipulation rapide en milieu industriel, où les essais réels restent coûteux ou dangereux, et renforce l'hypothèse que le sim-to-real gap est soluble par la précision physique plutôt que par l'accumulation de données réelles. Ce travail s'inscrit dans la continuité directe des recherches publiées par Google DeepMind en 2024, qui avaient démontré qu'un robot pouvait battre des joueurs amateurs confirmés en conditions réelles. Ce nouveau papier documente les fondations physiques qui rendent possible le saut qualitatif vers le niveau professionnel. Plusieurs équipes concurrentes utilisent le ping-pong comme benchmark de robotique agile, mais peu ont publié des modèles de contact aussi détaillés pour les phases raquette-balle et balle-table. La revendication de compétitivité face à des professionnels reste à confirmer par des évaluations indépendantes, le papier étant une prépublication non encore évaluée par les pairs. Les suites logiques incluent la généralisation de ces modèles de contact résiduels à d'autres objets déformables et leur transposition à des tâches industrielles de manipulation précise à haute cadence.

RecherchePaper

1 source

3arXiv cs.RO

Des futurs imaginés aux actions exécutables : mélange d'actions latentes pour la manipulation robotique

Des chercheurs ont publié sur arXiv (référence 2605.12167, mai 2026) une méthode baptisée MoLA, pour Mixture of Latent Actions, destinée à améliorer la manipulation robotique en exploitant les modèles génératifs de vidéo comme mécanisme d'anticipation. L'idée centrale : un robot peut "imaginer" la trajectoire visuelle future d'une tâche avant de l'exécuter, mais transformer ces séquences générées en commandes moteur concrètes reste un problème ouvert. MoLA introduit une interface dite orientée contrôle qui, au lieu de passer directement les images prédites à la politique de contrôle, mobilise un ensemble de modèles inverses de dynamique (IDM) pré-entraînés pour en extraire des actions latentes. Ces IDM sont multimodaux : ils capturent des indices sémantiques, de profondeur et de flux optique, fournissant une représentation structurée et physiquement ancrée des transitions d'état. L'approche a été évaluée sur les benchmarks simulés LIBERO, CALVIN et LIBERO-Plus, ainsi que sur des tâches de manipulation en conditions réelles, avec des gains annoncés en taux de succès, en cohérence temporelle et en généralisation. Le problème que MoLA tente de résoudre est structurel dans le domaine des VLA (Vision-Language-Action models) : les modèles de génération vidéo optimisent la fidélité perceptuelle, pas la pertinence pour le contrôle. Lorsqu'une politique est conditionnée sur des frames prédites, elle hérite de cette inadéquation, produisant un contrôle indirect et instable. En substituant aux frames brutes des représentations latentes inférées par des IDM complémentaires, MoLA réduit ce fossé structurel. Pour les intégrateurs et les équipes de recherche appliquée, c'est un signal important : l'imagination visuelle peut effectivement améliorer les politiques robotiques, à condition de disposer d'une couche de traduction adaptée plutôt que d'un couplage direct image-action. Ce travail s'inscrit dans un courant actif autour des world models appliqués à la robotique, où des approches comme DreamerV3 (DeepMind) ou SuSIE ont exploré des pistes similaires pour le reinforcement learning et la manipulation. Côté manipulation guidée par vidéo, UniSim et les travaux autour de Pi-0 de Physical Intelligence ont popularisé l'utilisation de prédictions futures pour structurer le comportement. MoLA se distingue par son architecture modulaire à IDM mixtes plutôt qu'un seul encodeur unifié. Aucune affiliation industrielle ni timeline de déploiement n'est mentionnée dans la publication, ce qui en fait pour l'instant une contribution de recherche fondamentale, dont la valeur pratique dépendra de la reproductibilité des gains annoncés en dehors des benchmarks de référence.

RechercheOpinion

1 source

4arXiv cs.RO

1000 Rallies : jeu de données par caméra événementielle et estimation en temps réel de l'état de la balle pour le tennis de table robotique

Des chercheurs ont publié en juin 2026 (arXiv:2606.25620) le premier jeu de données à grande échelle pour la perception par caméra événementielle appliquée au ping-pong robotisé. Le dataset regroupe plus de 1 000 échanges (rallies) enregistrés auprès d'une population variée, des amateurs aux joueurs de niveau élite. Chaque séquence combine le flux événementiel avec 14 caméras haute vitesse synchronisées à 200 images par seconde, utilisées pour générer des labels pseudo-vérité à 1 kHz comprenant la position, la vitesse et l'effet de la balle. À partir de ce corpus, un réseau de neurones convolutif a été entraîné pour estimer conjointement position et vitesse de la balle dans le plan image, robuste aux mouvements de fond produits par le joueur. L'intégration de la vitesse prédite comme mesure additionnelle dans un filtre de Kalman réduit l'erreur de prédiction du point de rebond de 36 % par rapport à une baseline position seule. Le système a finalement été couplé à un bras robotisé Stäubli pour réaliser les premiers échanges humain-robot en temps réel pilotés intégralement par perception événementielle. Ce résultat est significatif pour le secteur de la robotique rapide car il valide, sur une tâche réelle et contrainte temporellement, l'avantage fondamental des caméras événementielles: une résolution temporelle de l'ordre de la microseconde, sans flou de mouvement, là où les caméras classiques imposent un arbitrage coûteux entre cadence et bande passante de traitement. La réduction de 36 % de l'erreur de prédiction du rebond, obtenue simplement en ajoutant la vitesse estimée au filtre de Kalman, illustre que la qualité de la mesure perceptive en amont détermine directement les performances de contrôle en boucle fermée, un argument concret pour les intégrateurs industriels qui travaillent sur des tâches de manipulation haute cadence ou de tri haute vitesse. Le ping-pong robotisé s'est imposé ces dernières années comme banc d'essai privilégié pour la perception et le contrôle à faible latence, notamment avec les travaux de Google DeepMind sur l'agent de tennis de table (2023-2024). Les caméras événementielles, dont le fabricant français Prophesee (Paris) est l'un des leaders mondiaux, restaient jusqu'ici sous-exploitées faute de datasets publics représentatifs. Stäubli Robotics, groupe franco-suisse basé à Faverges (Haute-Savoie), apporte ici une visibilité européenne au banc expérimental. Les auteurs ne précisent pas de roadmap de déploiement industriel, mais la combinaison dataset public + pipeline temps réel validé en boucle fermée constitue une base ouverte pour que d'autres équipes portent cette approche vers des applications comme le tri de pièces à haute cadence ou la manipulation de petits objets en mouvement.

UEProphesee (Paris), leader mondial des caméras événementielles, et Stäubli Robotics (Faverges, Haute-Savoie) sont directement impliqués dans le banc expérimental, renforçant la visibilité de la filière capteur et robotique franco-européenne sur la perception haute cadence.

RecherchePaper

1 source