
HALOMI : apprentissage de la loco-manipulation humanoïde avec perception active à partir de démonstrations humaines
Une équipe de chercheurs vient de publier sur arXiv (réf. 2606.18772) HALOMI, un framework permettant à un humanoïde d'apprendre la "loco-manipulation" -- navigation et manipulation d'objets combinées -- à partir de démonstrations humaines captées en conditions réelles. Le système étend l'Universal Manipulation Interface (UMI) avec une perception égocentrique double : caméras en vue subjective (ego-view) et au niveau du poignet (wrist-view), enregistrant simultanément les trajectoires tête-mains de l'opérateur. La validation s'effectue sur le Unitree G1, humanoïde équipé d'un cou motorisé, sur cinq catégories de tâches réelles : navigation, préhension, manipulation bimane, coordination corps entier, et comportements dynamiques incluant lancer d'objets et accroupissement profond. HALOMI atteint un taux de réussite moyen de 85 % sur les trois tâches évaluées quantitativement.
Ce résultat cible l'un des obstacles fondamentaux du retargeting humain-humanoïde : au-delà du sim-to-real gap, il existe un "human-to-humanoid gap" dans la perception égocentrique et l'exécution motrice. HALOMI l'attaque sur deux fronts : un alignement de la vue subjective, et une adaptation de trajectoire dite "controller-aware" qui intègre les contraintes dynamiques propres au robot. Le contrôleur de suivi tête-main opère dans un espace latent appris (manifold contraint), ce qui le rend plus robuste face aux cibles hors distribution -- écueil classique du retargeting direct. Le 85 % est à nuancer : les tâches qualitatives comme le lancer dynamique n'ont pas de métriques publiées, et les conditions expérimentales exactes (nombre d'essais, variabilité de scène) restent non précisées dans le papier.
HALOMI s'inscrit dans la tendance qui exploite les démonstrations humaines pour réduire le coût de collecte de données sur robot, dans la lignée directe d'UMI (Stanford, 2023), et en parallèle des approches Vision-Language-Action comme Pi-Zero (Physical Intelligence) ou GR00T N2 (NVIDIA). La particularité ici est l'accent mis sur la perception active : le cou motorisé du G1 est un élément fonctionnel du pipeline, pas un détail cosmétique. Le Unitree G1, commercialisé autour de 16 000 dollars, s'est imposé comme banc de test académique commun depuis 2024. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans le papier : HALOMI reste pour l'heure une contribution de recherche, sans annonce de commercialisation.
Dans nos dossiers




