Humanoid-DART : loco-manipulation humanoïde par augmentation guidée par diffusion, ré-étiquetage et suivi
Une équipe de chercheurs a publié en juin 2026 sur arXiv (réf. 2606.26855) un cadre d'apprentissage baptisé Humanoid-DART, conçu pour entraîner des robots humanoïdes à des tâches combinant locomotion et manipulation d'objets (la loco-manipulation). Le système fonctionne en mode auto-supervisé : il démarre à partir d'un nombre réduit de démonstrations humaines, puis étend progressivement son répertoire comportemental sans nécessiter d'interventions expertes continues. L'architecture associe un modèle de diffusion, utilisé pour générer des trajectoires conditionnées sur un objectif, à un agent d'apprentissage par renforcement chargé de les suivre sur une gamme de tâches loco-manipulation. Les auteurs rapportent des résultats favorables lors d'ablations et de comparaisons avec des méthodes de référence, sans toutefois publier de métriques quantitatives détaillées dans ce résumé préliminaire.
Ce travail s'attaque à l'un des goulots d'étranglement structurels du domaine : le coût de collecte de démonstrations diversifiées et la dépendance aux corrections humaines en cas d'échec de la politique. La combinaison diffusion + RL permet à la politique d'explorer automatiquement l'espace des objectifs, réduisant mécaniquement le volume de données d'imitation nécessaires à l'amorçage. Pour les équipes industrielles cherchant à déployer des humanoïdes sur des tâches variées (manutention, assemblage, logistique), cette piste suggère une voie vers un scaling moins linéaire en coût humain, une hypothèse que le secteur cherche activement à valider, notamment pour réduire le sim-to-real gap sur des comportements multi-étapes.
Humanoid-DART s'inscrit dans un mouvement plus large qui mise sur les modèles génératifs pour contourner la rareté des données de démonstration. Des approches concurrentes comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA misent également sur des architectures de type VLA (Vision-Language-Action), avec des capacités loco-manipulation partiellement annoncées mais rarement démontrées à l'échelle en environnement non contrôlé. Ce papier, soumis comme preprint sans avoir encore passé la revue par les pairs, se positionne sur le segment de l'auto-amélioration à partir de peu de données, un axe de recherche actif chez plusieurs laboratoires académiques et industriels. Aucun déploiement terrain ni partenariat industriel n'est mentionné à ce stade.
Dans nos dossiers




