Aller au contenu principal
HALOMI : apprentissage de la loco-manipulation humanoïde avec perception active à partir de démonstrations humaines
RecherchearXiv cs.RO1h

HALOMI : apprentissage de la loco-manipulation humanoïde avec perception active à partir de démonstrations humaines

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs vient de publier sur arXiv (réf. 2606.18772) HALOMI, un framework permettant à un humanoïde d'apprendre la "loco-manipulation" -- navigation et manipulation d'objets combinées -- à partir de démonstrations humaines captées en conditions réelles. Le système étend l'Universal Manipulation Interface (UMI) avec une perception égocentrique double : caméras en vue subjective (ego-view) et au niveau du poignet (wrist-view), enregistrant simultanément les trajectoires tête-mains de l'opérateur. La validation s'effectue sur le Unitree G1, humanoïde équipé d'un cou motorisé, sur cinq catégories de tâches réelles : navigation, préhension, manipulation bimane, coordination corps entier, et comportements dynamiques incluant lancer d'objets et accroupissement profond. HALOMI atteint un taux de réussite moyen de 85 % sur les trois tâches évaluées quantitativement.

Ce résultat cible l'un des obstacles fondamentaux du retargeting humain-humanoïde : au-delà du sim-to-real gap, il existe un "human-to-humanoid gap" dans la perception égocentrique et l'exécution motrice. HALOMI l'attaque sur deux fronts : un alignement de la vue subjective, et une adaptation de trajectoire dite "controller-aware" qui intègre les contraintes dynamiques propres au robot. Le contrôleur de suivi tête-main opère dans un espace latent appris (manifold contraint), ce qui le rend plus robuste face aux cibles hors distribution -- écueil classique du retargeting direct. Le 85 % est à nuancer : les tâches qualitatives comme le lancer dynamique n'ont pas de métriques publiées, et les conditions expérimentales exactes (nombre d'essais, variabilité de scène) restent non précisées dans le papier.

HALOMI s'inscrit dans la tendance qui exploite les démonstrations humaines pour réduire le coût de collecte de données sur robot, dans la lignée directe d'UMI (Stanford, 2023), et en parallèle des approches Vision-Language-Action comme Pi-Zero (Physical Intelligence) ou GR00T N2 (NVIDIA). La particularité ici est l'accent mis sur la perception active : le cou motorisé du G1 est un élément fonctionnel du pipeline, pas un détail cosmétique. Le Unitree G1, commercialisé autour de 16 000 dollars, s'est imposé comme banc de test académique commun depuis 2024. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans le papier : HALOMI reste pour l'heure une contribution de recherche, sans annonce de commercialisation.

À lire aussi

HoMMI : apprentissage de la manipulation mobile corps entier à partir de démonstrations humaines
1arXiv cs.RO 

HoMMI : apprentissage de la manipulation mobile corps entier à partir de démonstrations humaines

Une équipe de chercheurs a publié sur arXiv (arXiv:2603.03243v2) HoMMI, pour Whole-Body Mobile Manipulation Interface, un framework d'apprentissage par imitation permettant à un robot mobile de maîtriser la manipulation bimanuelle et la navigation à partir de démonstrations humaines réalisées sans robot. Le principe : un opérateur humain porte une interface portative héritée du projet UMI (Universal Manipulation Interface), enrichie d'une caméra égocentrique capturant le contexte global de la scène (position dans l'espace, état de l'environnement). Ces données brutes alimentent une politique apprise, transférée ensuite sur un robot à corps entier (bras, torse, base mobile) sans que celui-ci n'ait été présent lors de la collecte. La difficulté centrale que HoMMI cherche à résoudre est l'"embodiment gap" : la différence morphologique et sensorielle entre humain et robot rend le transfert de politique difficile, particulièrement en perception égocentrique où les champs de vue et hauteurs d'oeil divergent fortement. Les auteurs proposent trois briques techniques pour combler cet écart : une représentation visuelle agnostique à l'embodiment, une représentation d'action "head relaxed" qui neutralise les variations de mouvement de tête, et un contrôleur corps entier réalisant les trajectoires main-oeil sous contraintes physiques du robot. Ces choix permettent des tâches longue-séquence mobilisant navigation, perception active et coordination bimanuelle, le type de scénario que les architectures Vision-Language-Action (VLA) comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA visent également à résoudre. Les résultats, présentés sous forme de vidéos sur hommi-robot.github.io, restent à valider en conditions non contrôlées et sur des benchmarks standardisés. HoMMI s'inscrit dans la continuité directe du projet UMI (Columbia/Stanford, 2024), qui avait popularisé la collecte portable de démonstrations pour la manipulation fixe sur table. L'extension au robot mobile ajoute la dimension navigation, saut de complexité majeur pour le sim-to-real et la généralisation hors laboratoire. Les approches concurrentes incluent Mobile ALOHA (Stanford), les pipelines de distillation de données de Physical Intelligence, et les travaux de manipulation bimanuelle ALOHA/ACT de Berkeley. HoMMI reste à ce stade un preprint arXiv sans déploiement industriel annoncé ni métriques de taux de succès publiées, une limite habituelle des publications en robotique d'apprentissage avant revue par les pairs.

RecherchePaper
1 source
Apprentissage de la manipulation dextérique à partir de vidéos monoculaires de mains humaines
2arXiv cs.RO 

Apprentissage de la manipulation dextérique à partir de vidéos monoculaires de mains humaines

Une équipe de chercheurs a publié sur arXiv (identifiant arXiv:2606.16436v1) un framework baptisé V2P-Manip, conçu pour extraire des politiques de manipulation dextre directement à partir de vidéos monoculaires de démonstrations humaines. L'architecture propose un pipeline intégré en trois étapes : acquisition d'assets 3D, estimation de trajectoires, puis apprentissage de politique de manipulation. Pour réconcilier perception visuelle et contraintes physiques, les auteurs introduisent un processus de raffinement en deux étapes imposant à la fois un alignement spatial et une cohérence physique. Le système a été évalué sur les benchmarks TACO et OakInk, deux jeux de données de référence en manipulation dextre, et affiche un taux de réussite moyen supérieur à 75 % sur des tâches de manipulation synthétiques, avec une généralisation démontrée sur plusieurs morphologies de mains robotiques différentes. L'enjeu central que V2P-Manip cherche à résoudre est celui du coût de collecte des données d'entraînement : la télé-opération reste lente, coûteuse et difficile à standardiser à grande échelle. Utiliser des vidéos monoculaires standard, sans capteurs de profondeur ni mocap, représente un levier de scalabilité potentiellement majeur pour les fabricants d'effecteurs dextres et les laboratoires à budget limité. Le pipeline démontre aussi une transférabilité des "manipulation priors" entre embodiments différents, ce qui est un résultat non trivial. Il faut néanmoins noter que le taux de 75 % est mesuré sur des tâches synthétiques et que les vidéos utilisées en entrée sont des démonstrations humaines sélectionnées -- le real-world gap reste à quantifier sur du matériel réel déployé en conditions industrielles non contrôlées. La manipulation dextre constitue l'une des frontières les plus dures de la robotique, un domaine où des acteurs comme Dexterous Robotics, Shadow Robot (UK) ou Psyonic tentent d'atteindre la maturité produit. Côté recherche, les approches concurrentes s'appuient généralement sur la télé-opération (Pi-0 de Physical Intelligence, ACT, DROID dataset) ou sur des capteurs de profondeur calibrés. L'originalité de V2P-Manip est de contourner ces contraintes matérielles en exploitant uniquement la vision monoculaire. La validation reste pour l'instant confinée à des benchmarks académiques, et aucun déploiement ou partenariat industriel n'est annoncé dans cette version préliminaire.

RecherchePaper
1 source
L'apprentissage de la manipulation dextérique à partir de vidéos humaines du quotidien
3arXiv cs.RO 

L'apprentissage de la manipulation dextérique à partir de vidéos humaines du quotidien

Des chercheurs ont mis en ligne sur arXiv en juin 2026 un algorithme nommé DO AS I DO, conçu pour extraire automatiquement des trajectoires de manipulation dextère à partir de vidéos RGB monoculaires filmant des mains humaines en action. Le pipeline reconstruit les interactions main-objet depuis des vidéos égocentriques (caméra portée par l'opérateur) ou exocentriques (caméra tierce), captées en conditions réelles et sans capteurs de profondeur ni marqueurs, puis effectue un retargeting de ces estimations vers des mains robotiques multi-doigts pour produire des séquences d'actions directement exécutables sur robot physique. Selon les évaluations conduites sur plusieurs jeux de données annotés ainsi que sur des clips collectés en ligne, DO AS I DO dépasse l'état de l'art précédent en précision d'estimation des interactions main-objet et en qualité des trajectoires extraites. L'enjeu est structurel : la collecte de données de manipulation reste le principal goulot d'étranglement pour entraîner des robots dextères. La téléopération est lente et coûteuse, la simulation difficile à transférer en conditions réelles sur des mains à 16 DOF ou plus, un phénomène connu sous le nom de sim-to-real gap. DO AS I DO propose une troisième voie en exploitant des vidéos déjà disponibles en ligne comme source de supervision passive, sans infrastructure dédiée. Pour les équipes R&D travaillant sur des manipulateurs multi-doigts, cela pourrait réduire significativement le coût de collecte de démonstrations. Les auteurs publient également un "efficacy playbook", soit un ensemble de recommandations pratiques destinées aux équipes terrain. Le point critique reste la fidélité du retargeting : le fossé cinématique entre les 21 degrés de liberté d'une main humaine et l'anatomie d'un effecteur robotique introduit des approximations que le papier reconnaît sans les quantifier de façon exhaustive. La manipulation dextère demeure l'un des problèmes les moins résolus de la robotique humanoïde commerciale. Physical Intelligence avec Pi-0, Figure AI avec Figure 03 et NVIDIA avec GR00T N2 investissent massivement dans des pipelines de données alternatifs, notamment la génération en simulation via DexMimicGen ou la téléopération structurée à grande échelle comme DROID et ALOHA 2. DO AS I DO se distingue en ciblant directement l'embodiment gap sans recourir à de l'infrastructure de capture spécialisée, en valorisant des vidéos grand public. Ce preprint ne mentionne aucun déploiement industriel ni partenariat commercial ; il s'agit d'une contribution académique, pas d'un produit prêt à l'emploi. L'étape naturelle sera de mesurer si ces trajectoires retargetées alimentent efficacement l'entraînement de modèles VLA à l'échelle, la question ouverte centrale de la robotique de manipulation en 2026.

RecherchePaper
1 source
Dexterous Point Policy : apprentissage de politiques de main habile à partir de démonstrations humaines
4arXiv cs.RO 

Dexterous Point Policy : apprentissage de politiques de main habile à partir de démonstrations humaines

Une équipe de recherche a déposé le 10 juin 2026 sur arXiv (réf. 2606.10614) un framework baptisé Dexterous Point Policy (DPP), capable d'apprendre des politiques de manipulation dextère directement à partir de vidéos humaines, sans aucune démonstration sur robot. Le système extrait des points-clés 3D (keypoints) des objets de la tâche et des mains humaines, en ciblant spécifiquement les poignets et les bouts de doigts, puis entraîne un transformer autorégressif sur ces représentations unifiées. Sur un banc d'essai réel couvrant la saisie-dépôt (pick-and-place) et la manipulation d'outils, DPP atteint 75,0 % de succès, contre seulement 1,0 % pour le meilleur baseline de type VLA (Vision-Language-Action model) disponible. La méthode généralise également à des scénarios non vus pendant l'entraînement, notamment des environnements multi-objets et de nouvelles catégories d'objets. L'apport principal est d'éliminer le goulet d'étranglement le plus coûteux du cycle d'apprentissage robotique: la collecte de données en téléopération. Les auteurs rappellent que téléopérer une main multi-doigts pour une seule tâche atomique peut mobiliser plusieurs jours de travail humain, ce qui rend le fine-tuning classique des modèles de fondation sur données robotiques particulièrement onéreux à l'échelle. L'intuition centrale de DPP est que, au niveau des keypoints (poignets et bouts de doigts), les comportements humains et robotiques s'alignent suffisamment pour permettre un transfert direct de politique sans adaptation supplémentaire. Avec un écart de performance de 75x par rapport au baseline VLA, le résultat contredit l'idée selon laquelle combler l'embodiment gap entre humain et robot exige obligatoirement des données proprioceptives ou d'actionnement robotique. Ce travail s'inscrit dans le courant des modèles de fondation robotiques pré-entraînés sur vidéos humaines, dont Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) et OpenVLA sont des représentants récents, qui butaient tous sur ce même problème de transfert au déploiement réel. DPP propose une réponse architecturale en choisissant une représentation intermédiaire qui abstrait la morphologie spécifique de chaque effecteur, rendant la politique agnostique à la géométrie exacte de la main robotique. Il s'agit pour l'instant d'un preprint non relu par les pairs, sans affiliation institutionnelle précisée dans le résumé public, et les tests restent limités à des tâches de complexité modérée. Les étapes naturelles seraient une validation sur des mains multi-doigts plus variées et des manipulations de plus haute complexité, comme l'assemblage de précision ou la manipulation d'outils déformables, pour confirmer la scalabilité réelle de l'approche.

RecherchePaper
1 source