TaskNPoint : apprendre à un humanoïde à frapper un revers en quelques minutes
Des chercheurs publient sur arXiv (juin 2026) TaskNPoint, un protocole d'entraînement qui enseigne des compétences dynamiques à un humanoïde à partir d'une seule démonstration humaine par compétence, avec moins d'une heure de calcul sur un seul GPU standard. Le système repose sur quatre entrées fournies par un coach humain : un ensemble discret de compétences à acquérir, une démonstration vidéo par compétence, l'identification d'une "fenêtre d'interaction" critique (les ~20 cm de déplacement de raquette autour du contact balle-raquette, par exemple) et l'objectif cible. L'apprentissage par renforcement en simulation physique prend le relais pour générer les trajectoires complètes et, via un échantillonnage aléatoire des positions cibles pendant l'entraînement, assure une généralisation zero-shot à des objectifs inédits. L'approche est validée sur un humanoïde Unitree G1 : coups droits et revers face à des balles lancées par un humain, tirs de football et pick-and-place de cartons depuis des positions arbitraires, sans ajustement manuel de fonction de récompense.
L'enjeu est la scalabilité de l'apprentissage sur des compétences dynamiques, où les méthodes actuelles butent soit sur le volume de démonstrations requis, soit sur le coût du reward engineering. TaskNPoint réduit les deux à presque rien : une seule démo par compétence suffit, sans réglage de récompense par tâche. L'argument structurel est que le résultat d'un mouvement dynamique est déterminé par un court segment de la trajectoire, la fenêtre d'interaction critique, et non par sa totalité ; calibrer ce segment en coordination avec la physique du robot et son architecture mécanique permet de généraliser le reste automatiquement. C'est un argument direct contre la thèse selon laquelle les humanoïdes nécessitent des milliers d'heures de données pour performer sur des gestes non triviaux. Il s'agit toutefois d'un preprint arXiv, testé en conditions contrôlées ; la robustesse en milieu industriel non scénarisé reste à établir.
Le Unitree G1, humanoïde chinois vendu autour de 16 000 dollars, s'est imposé depuis 2024 comme la plateforme de recherche ouverte de référence, alternative accessible aux Boston Dynamics Atlas et Agility Digit. TaskNPoint s'inscrit dans un courant cherchant à réconcilier imitation et renforcement simulé, face aux diffusion policies de Physical Intelligence (Pi-0) ou aux politiques visuomotrices universelles de type VLA. Son positionnement distinctif est la parcimonie en données d'entrée, une démo par compétence là où d'autres méthodes en exigent des centaines, avec un coût de calcul suffisamment bas pour être accessible à des équipes sans infrastructure GPU lourde. Aucun pilote industriel ni partenariat de déploiement n'est annoncé avec cette publication.




