RecherchearXiv cs.RO 5 juin 2026

LadderMan : apprentissage de l'escalade d'échelles par un humanoïde perceptif

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs ont publié le 5 juin 2026 sur arXiv (preprint 2606.05873) un système baptisé LadderMan, conçu pour permettre à des robots humanoïdes de grimper des échelles de géométries variées et d'effectuer des tâches de manipulation en position perchée. L'architecture repose sur un pipeline d'apprentissage en deux étapes : une phase de suivi de mouvement hybride extrait plusieurs politiques d'escalade expertes à partir d'une seule motion de référence, puis une phase de distillation fusionne ces experts en une politique visuomotrice unifiée, pilotée par caméra de profondeur, via une combinaison d'imitation et de renforcement. Pour combler l'écart simulation-réel sur la perception de profondeur, l'équipe exploite des modèles de vision fondationnels. La manipulation en hauteur est gérée par une formulation dite "dual-agent" : un agent dédié à la stabilité sur l'échelle, un autre à la manipulation, avec télé-opération comme signal superviseur. Les expériences rapportent un transfert zéro-shot vers le hardware réel, sans fine-tuning supplémentaire.

L'escalade d'échelle constitue l'un des tests les plus discriminants pour les humanoïdes : les points d'appui sont rares et fixes, la coordination corps entier est critique, et la moindre erreur de perception ou de contrôle peut provoquer une chute. Le transfert zéro-shot réussi de la simulation au réel est ici le résultat le plus significatif : il suggère que les modèles de vision fondationnels permettent d'atténuer suffisamment le sim-to-real gap sur des tâches perceptivo-motrices contraintes, une hypothèse longtemps débattue dans la communauté. La capacité à manipuler des objets depuis une position instable ouvre des perspectives concrètes pour l'inspection industrielle, la maintenance en hauteur et les chantiers de construction. Il convient cependant de souligner qu'il s'agit d'un preprint de recherche, non d'un produit commercialisé, et que les vidéos publiées sur ladderman-robot.github.io restent sélectionnées par les auteurs.

Ce travail s'inscrit dans une vague active de recherche poussant les humanoïdes vers des environnements contraints et à risque élevé. Aucune entreprise commerciale n'est identifiée dans le preprint, ce qui suggère une origine académique. Sur le plan concurrentiel, aucun constructeur humanoïde majeur, ni Boston Dynamics (Atlas), ni Figure (Figure 03), ni Tesla (Optimus Gen 3), ni Agility Robotics (Digit), n'a à ce jour publié de démonstration d'escalade d'échelle à ce niveau de robustesse et de transfert zéro-shot. Les prochaines étapes logiques seraient un test sur une gamme plus large de robots humanoïdes commerciaux et une intégration de la manipulation autonome, sans télé-opération.

Dans nos dossiers

Figure Tesla Optimus Boston Dynamics Agility Robotics — Digit

À lire aussi

1arXiv cs.RO

Acte, ressent, agit : l'apprentissage de la perception active à partir de données égocentriques humaines à grande échelle

Un article de robotique/IA en français, prêt à publier : CoMe-VLA (Cognitive and Memory-aware Vision-Language-Action) est un nouveau framework de recherche présenté dans un article arXiv (version révisée, réf. 2602.04600v2) qui s'attaque à la perception active en robotique manipulatrice, c'est-à-dire la capacité d'un robot à chercher activement de l'information plutôt que d'agir sur des données figées. Le système combine une tête cognitive auxiliaire chargée de gérer les transitions entre sous-tâches de façon autonome, et une mémoire à double piste qui fusionne les signaux proprioceptifs (position, effort) et visuels dans le temps pour maintenir une conscience cohérente de soi et de l'environnement. L'entraînement se déroule en trois étapes progressives et s'appuie sur de larges volumes de données égocentriques humaines (vidéos captées à la première personne), alignées avec l'espace d'action du robot pour transférer la coordination main-œil humaine vers la machine. Les tests ont été menés sur un humanoïde à roues, sur des tâches longues et variées impliquant plusieurs scénarios de perception active. L'enjeu dépasse la démonstration technique isolée. La plupart des modèles VLA actuellement médiatisés, qu'il s'agisse de Pi-0, GR00T N2 ou Helix, fonctionnent principalement en supposant une observabilité quasi complète de la scène, ce qui limite leur robustesse dès que l'environnement devient incertain ou partiellement caché, un cas fréquent en usine ou en entrepôt réel. En formalisant la perception active comme une boucle perception-action dépendante de l'historique, cet article propose une catégorisation structurée utile à toute l'industrie pour comparer les approches, et illustre une piste concrète pour réduire l'écart entre démonstrations en laboratoire et déploiement en environnement non contrôlé, un point sensible que les intégrateurs surveillent de près. Ce travail s'inscrit dans une tendance de fond de la recherche en robotique généraliste : exploiter les vidéos humaines à grande échelle, bien plus abondantes que les données de téléopération robotique, pour apprendre des priors d'exploration et de manipulation. Il ne s'agit ici que d'un article de recherche à un stade préliminaire, sans partenaire industriel ni déploiement annoncé, à distinguer clairement des annonces produits de type Figure ou Tesla Optimus. Les prochaines étapes attendues concernent l'extension à des plateformes bipèdes et la validation sur des tâches manipulatrices plus complexes en conditions réelles.

RechercheOpinion

1 source

2arXiv cs.RO

HALOMI : apprentissage de la loco-manipulation humanoïde avec perception active à partir de démonstrations humaines

Une équipe de chercheurs vient de publier sur arXiv (réf. 2606.18772) HALOMI, un framework permettant à un humanoïde d'apprendre la "loco-manipulation" -- navigation et manipulation d'objets combinées -- à partir de démonstrations humaines captées en conditions réelles. Le système étend l'Universal Manipulation Interface (UMI) avec une perception égocentrique double : caméras en vue subjective (ego-view) et au niveau du poignet (wrist-view), enregistrant simultanément les trajectoires tête-mains de l'opérateur. La validation s'effectue sur le Unitree G1, humanoïde équipé d'un cou motorisé, sur cinq catégories de tâches réelles : navigation, préhension, manipulation bimane, coordination corps entier, et comportements dynamiques incluant lancer d'objets et accroupissement profond. HALOMI atteint un taux de réussite moyen de 85 % sur les trois tâches évaluées quantitativement. Ce résultat cible l'un des obstacles fondamentaux du retargeting humain-humanoïde : au-delà du sim-to-real gap, il existe un "human-to-humanoid gap" dans la perception égocentrique et l'exécution motrice. HALOMI l'attaque sur deux fronts : un alignement de la vue subjective, et une adaptation de trajectoire dite "controller-aware" qui intègre les contraintes dynamiques propres au robot. Le contrôleur de suivi tête-main opère dans un espace latent appris (manifold contraint), ce qui le rend plus robuste face aux cibles hors distribution -- écueil classique du retargeting direct. Le 85 % est à nuancer : les tâches qualitatives comme le lancer dynamique n'ont pas de métriques publiées, et les conditions expérimentales exactes (nombre d'essais, variabilité de scène) restent non précisées dans le papier. HALOMI s'inscrit dans la tendance qui exploite les démonstrations humaines pour réduire le coût de collecte de données sur robot, dans la lignée directe d'UMI (Stanford, 2023), et en parallèle des approches Vision-Language-Action comme Pi-Zero (Physical Intelligence) ou GR00T N2 (NVIDIA). La particularité ici est l'accent mis sur la perception active : le cou motorisé du G1 est un élément fonctionnel du pipeline, pas un détail cosmétique. Le Unitree G1, commercialisé autour de 16 000 dollars, s'est imposé comme banc de test académique commun depuis 2024. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans le papier : HALOMI reste pour l'heure une contribution de recherche, sans annonce de commercialisation.

RechercheOpinion

1 source

3arXiv cs.RO

Mouvements du bras d'un humanoïde économes en énergie par apprentissage par renforcement profond et modèles de puissance

Un framework d'apprentissage par renforcement conçu pour minimiser la consommation énergétique des mouvements d'atteinte brachiale d'un humanoïde vient d'être publié sur arXiv (preprint 2606.15918, juin 2026), avec pour application cible la récolte automatisée de pommes en plein champ. Le bras gauche à 7 degrés de liberté (DOF) du Unitree G1 est la plateforme de validation. L'algorithme Soft Actor-Critic (SAC) est entraîné dans un simulateur de dynamique rigide Pinocchio, couplé à un modèle électrique de puissance identifié expérimentalement sur le robot physique. Après 5 millions de pas d'entraînement, le policy atteint 69,9 % de succès sur 1 000 cibles aléatoires en simulation, avec une consommation moyenne de 98,16 joules par épisode réussi. Sur le Unitree G1 réel, validé sur trois séries indépendantes de 10 cibles chacune, les mesures sont : 71,5 ± 48,3 J, erreur de position 2,64 ± 1,04 cm, erreur d'orientation 6,92 ± 1,33°, dans les tolérances d'entraînement de 4 cm et 8,6°. Ce travail s'attaque à un problème rarement quantifié dans la littérature : combien de cycles d'atteinte un humanoïde peut-il exécuter par charge de batterie ? En agriculture robotique, où les robots opèrent loin des prises de courant, cette contrainte est directement opérationnelle. La contribution méthodologique centrale est l'intégration d'un modèle de puissance calibré expérimentalement dans la fonction de récompense, baptisée "Hybrid Constellation Reward", qui combine distance à l'effecteur terminal et proxy énergétique basé sur la norme des couples articulaires. Le fait que le policy consomme environ 27 % moins sur le robot réel qu'en simulation (71,5 J vs 98,16 J) est un résultat sim-to-real encourageant, tempéré toutefois par un écart-type élevé (48,3 J) révélant une variabilité substantielle selon la configuration de la cible. Il s'agit d'un preprint académique posant une brique méthodologique, pas d'un déploiement terrain. Le Unitree G1, humanoïde compact commercialisé à environ 16 000 dollars, est devenu une plateforme de recherche courante aux côtés du Fourier GR-1 et du 1X Neo. Les travaux sur l'efficacité énergétique en manipulation robotique concernent davantage les bras industriels sériels (ANYmal de l'ETH Zurich, Franka Emika) que les humanoïdes polyarticulés, ce qui rend cette approche originale dans son segment. Les prochaines étapes logiques incluent l'intégration de la vision pour la localisation des fruits et des tests en conditions réelles de verger sur cycles prolongés. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans ce preprint.

RecherchePaper

1 source

4arXiv cs.RO

MARCH : apprentissage par renforcement assisté par modèle pour le contrôle perceptif de robots humanoïdes sur appuis rares

Des chercheurs ont publié sur arXiv (2606.10288) MARCH, un cadre d'apprentissage par renforcement assisté par modèles pour la locomotion bipedale sur appuis épars. La méthode repose sur trois étapes : générer une trajectoire de référence sûre à partir de modèles dynamiques simplifiés, entraîner une politique "enseignante" guidée par un reward basé sur une Control Lyapunov Function (CLF), puis distiller cette politique dans une politique "étudiante" visuelle déployable sur robot réel. L'ensemble a été validé en simulation et déployé sur un Unitree G1, humanoïde commercialisé autour de 16 000 dollars, naviguant sur des appuis épars avec contraintes latérales. L'enjeu est de réconcilier deux familles de méthodes historiquement opposées : les approches basées modèle (MPC, optimisation de contact) sont précises mais fragiles face à l'incertitude de terrain, tandis que le RL pur est robuste mais peine à découvrir les mouvements finement contraints nécessaires à la locomotion safety-critical, où une erreur de quelques centimètres peut provoquer une chute. Le reward CLF injecte une connaissance physique dans la boucle d'apprentissage sans curriculum d'entraînement complexe, améliorant l'efficacité d'échantillonnage et produisant une locomotion plus fluide. Les performances sur stepping stones sont déclarées comparables aux baselines RL purs, ce qui suggère que l'hybridation modèle/apprentissage est viable à coût computationnel comparable. Ce travail s'inscrit dans l'axe locomotion perceptive porté par ETH Zurich (parkour RL, 2023), Carnegie Mellon et Berkeley. La distillation teacher-student, popularisée par Agility Robotics et ANYbotics dans leurs pipelines de développement, est ici enrichie d'une contrainte CLF théoriquement fondée. Le Unitree G1 est devenu une plateforme quasi-standard dans les labos de locomotion pour sa documentation et son prix accessible. Il s'agit d'un preprint arXiv non évalué par les pairs, sans déploiement industriel ni timeline commerciale annoncés. Les prochaines étapes naturelles seraient une validation sur terrain extérieur non structuré et une comparaison directe avec les approches MPC de nouvelle génération.

UEImpact marginal : ETH Zurich (Suisse, hors UE) est cité en travaux connexes, mais aucun labo ou industriel européen n'est directement impliqué dans ce preprint.

RecherchePaper

1 source