Aller au contenu principal
RecherchearXiv cs.RO1h

Mouvements du bras d'un humanoïde économes en énergie par apprentissage par renforcement profond et modèles de puissance

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Un framework d'apprentissage par renforcement conçu pour minimiser la consommation énergétique des mouvements d'atteinte brachiale d'un humanoïde vient d'être publié sur arXiv (preprint 2606.15918, juin 2026), avec pour application cible la récolte automatisée de pommes en plein champ. Le bras gauche à 7 degrés de liberté (DOF) du Unitree G1 est la plateforme de validation. L'algorithme Soft Actor-Critic (SAC) est entraîné dans un simulateur de dynamique rigide Pinocchio, couplé à un modèle électrique de puissance identifié expérimentalement sur le robot physique. Après 5 millions de pas d'entraînement, le policy atteint 69,9 % de succès sur 1 000 cibles aléatoires en simulation, avec une consommation moyenne de 98,16 joules par épisode réussi. Sur le Unitree G1 réel, validé sur trois séries indépendantes de 10 cibles chacune, les mesures sont : 71,5 ± 48,3 J, erreur de position 2,64 ± 1,04 cm, erreur d'orientation 6,92 ± 1,33°, dans les tolérances d'entraînement de 4 cm et 8,6°.

Ce travail s'attaque à un problème rarement quantifié dans la littérature : combien de cycles d'atteinte un humanoïde peut-il exécuter par charge de batterie ? En agriculture robotique, où les robots opèrent loin des prises de courant, cette contrainte est directement opérationnelle. La contribution méthodologique centrale est l'intégration d'un modèle de puissance calibré expérimentalement dans la fonction de récompense, baptisée "Hybrid Constellation Reward", qui combine distance à l'effecteur terminal et proxy énergétique basé sur la norme des couples articulaires. Le fait que le policy consomme environ 27 % moins sur le robot réel qu'en simulation (71,5 J vs 98,16 J) est un résultat sim-to-real encourageant, tempéré toutefois par un écart-type élevé (48,3 J) révélant une variabilité substantielle selon la configuration de la cible. Il s'agit d'un preprint académique posant une brique méthodologique, pas d'un déploiement terrain.

Le Unitree G1, humanoïde compact commercialisé à environ 16 000 dollars, est devenu une plateforme de recherche courante aux côtés du Fourier GR-1 et du 1X Neo. Les travaux sur l'efficacité énergétique en manipulation robotique concernent davantage les bras industriels sériels (ANYmal de l'ETH Zurich, Franka Emika) que les humanoïdes polyarticulés, ce qui rend cette approche originale dans son segment. Les prochaines étapes logiques incluent l'intégration de la vision pour la localisation des fruits et des tests en conditions réelles de verger sur cycles prolongés. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans ce preprint.

À lire aussi

RoboNaldo : tirs précis, stables et puissants pour humanoïdes via apprentissage par renforcement à programme progressif guidé par le mouvement
1arXiv cs.RO 

RoboNaldo : tirs précis, stables et puissants pour humanoïdes via apprentissage par renforcement à programme progressif guidé par le mouvement

Des chercheurs d'OpenDriveLab ont publié le 13 juin 2026 RoboNaldo (arXiv:2606.11092), un framework d'apprentissage par renforcement en curriculum à trois étapes conçu pour entraîner un humanoïde à tirer au football avec précision et puissance. Déployé sur un Unitree G1 avec perception embarquée, le système atteint une erreur de tir moyenne de 0,73 m depuis 3 m en situation de coup franc (balle stationnaire), et 0,86 m sur balle en mouvement. La vitesse post-contact de la balle atteint 13,10 m/s, soit 59 à 71 % de la vitesse mesurée chez des joueurs professionnels en match ouvert. En simulation, RoboNaldo réduit l'erreur de tir de 48,6 % et multiplie la vélocité de frappe par 2,96 par rapport aux baselines de référence antérieures. L'intérêt technique réside dans la combinaison de deux approches qui s'avèrent complémentaires plutôt qu'opposées : le motion tracking-driven RL (stable mais rigide face à des positions de balle variables) et le task reward-driven RL (flexible mais inefficace à explorer des kicks valides de zéro). RoboNaldo hybride les deux via un curriculum progressif : le robot apprend d'abord un prior de coup de pied corps entier stable à partir d'une seule référence humaine, puis l'adapte à des positions de balle aléatoires, puis à une balle en mouvement via une interface locomotion-commande/kick-trigger. Un planificateur heuristique haut niveau pilote l'entraînement, mais le même policy bas niveau peut être conduit par n'importe quel contrôleur alternatif à l'inférence, ce qui est une propriété utile pour l'intégration dans des systèmes plus larges. Il reste que les résultats présentés s'appuient sur des vidéos et métriques de laboratoire contrôlé, sans terrain irrégulier ni adversaires dynamiques. OpenDriveLab, lab de recherche en autonomie embodied associé à Shanghai AI Lab, se positionne ici dans un espace de plus en plus disputé. Boston Dynamics, Agility Robotics (Figure, Tesla Optimus) concentrent leurs démonstrations sur la manipulation industrielle et la locomotion bipède en entrepôt, tandis que des travaux comme DribbleBot (CMU, 2023) ou les robots footballeurs de l'équipe NimbRo avaient déjà exploré le jeu avec ballon, mais sur des plateformes quadrupèdes ou plus légères. RoboNaldo est présenté comme une démonstration de recherche (preprint non peer-reviewed à ce stade) : aucun pilote industriel ni timeline de commercialisation n'est annoncé. La prochaine étape logique serait l'évaluation en conditions non structurées et l'intégration d'un contrôleur haut niveau appris plutôt qu'heuristique.

RecherchePaper
1 source
MARCH : apprentissage par renforcement assisté par modèle pour le contrôle perceptif de robots humanoïdes sur appuis rares
2arXiv cs.RO 

MARCH : apprentissage par renforcement assisté par modèle pour le contrôle perceptif de robots humanoïdes sur appuis rares

Des chercheurs ont publié sur arXiv (2606.10288) MARCH, un cadre d'apprentissage par renforcement assisté par modèles pour la locomotion bipedale sur appuis épars. La méthode repose sur trois étapes : générer une trajectoire de référence sûre à partir de modèles dynamiques simplifiés, entraîner une politique "enseignante" guidée par un reward basé sur une Control Lyapunov Function (CLF), puis distiller cette politique dans une politique "étudiante" visuelle déployable sur robot réel. L'ensemble a été validé en simulation et déployé sur un Unitree G1, humanoïde commercialisé autour de 16 000 dollars, naviguant sur des appuis épars avec contraintes latérales. L'enjeu est de réconcilier deux familles de méthodes historiquement opposées : les approches basées modèle (MPC, optimisation de contact) sont précises mais fragiles face à l'incertitude de terrain, tandis que le RL pur est robuste mais peine à découvrir les mouvements finement contraints nécessaires à la locomotion safety-critical, où une erreur de quelques centimètres peut provoquer une chute. Le reward CLF injecte une connaissance physique dans la boucle d'apprentissage sans curriculum d'entraînement complexe, améliorant l'efficacité d'échantillonnage et produisant une locomotion plus fluide. Les performances sur stepping stones sont déclarées comparables aux baselines RL purs, ce qui suggère que l'hybridation modèle/apprentissage est viable à coût computationnel comparable. Ce travail s'inscrit dans l'axe locomotion perceptive porté par ETH Zurich (parkour RL, 2023), Carnegie Mellon et Berkeley. La distillation teacher-student, popularisée par Agility Robotics et ANYbotics dans leurs pipelines de développement, est ici enrichie d'une contrainte CLF théoriquement fondée. Le Unitree G1 est devenu une plateforme quasi-standard dans les labos de locomotion pour sa documentation et son prix accessible. Il s'agit d'un preprint arXiv non évalué par les pairs, sans déploiement industriel ni timeline commerciale annoncés. Les prochaines étapes naturelles seraient une validation sur terrain extérieur non structuré et une comparaison directe avec les approches MPC de nouvelle génération.

UEImpact marginal : ETH Zurich (Suisse, hors UE) est cité en travaux connexes, mais aucun labo ou industriel européen n'est directement impliqué dans ce preprint.

RecherchePaper
1 source
Modèles du monde locaux et globaux couplés pour un apprentissage par renforcement efficace du premier ordre
3arXiv cs.RO 

Modèles du monde locaux et globaux couplés pour un apprentissage par renforcement efficace du premier ordre

Des chercheurs ont publié en février 2026 une méthode d'entraînement de politiques de contrôle robotique entièrement à l'intérieur de modèles du monde appris depuis des données réelles, sans aucun simulateur physique. L'approche, baptisée FoG (First-order Gradient découplé), repose sur un couplage inédit : un modèle du monde global, basé sur un modèle de diffusion à grande échelle, génère des trajectoires précises dans l'espace image, tandis qu'un modèle local léger opérant dans un espace latent approche les dynamiques locales pour calculer les gradients de manière tractable. Les auteurs valident la méthode sur la tâche Push-T, un benchmark standard de manipulation planaire, où FoG surpasse significativement PPO (Proximal Policy Optimization) en efficacité d'échantillons. Une deuxième évaluation porte sur de la manipulation d'objets en vue égocentrique avec un robot quadrupède. Ce travail s'attaque à un verrou majeur de la robotique de manipulation : les simulateurs physiques classiques peinent à modéliser fidèlement les contacts, la non-rigidité des objets et les perceptions visuelles complexes, créant un écart sim-to-real difficile à combler. En substituant entièrement le simulateur par un modèle du monde appris sur des interactions réelles, FoG contourne ce problème structurellement plutôt que de l'atténuer par du domain randomization ou du fine-tuning. Le découplage local/global est la contribution centrale : utiliser le modèle de diffusion complet pour le déroulé (roll-out) garantit la fidélité, tandis que le substitut latent rend le calcul du gradient computationnellement viable, une tension que les approches précédentes ne résolvaient pas proprement. Les world models comme levier pour l'apprentissage robotique constituent un axe de recherche en forte accélération depuis les travaux fondateurs de Dreamer (DeepMind, 2019-2023) et de MBPO. Les modèles de diffusion, d'abord dominants en génération d'images, sont progressivement intégrés comme modèles de transition dynamique dans des travaux récents chez Google DeepMind, Berkeley et le MIT. FoG se positionne dans cette veine mais avec un angle d'optimisation first-order qui le distingue des approches model-based RL classiques. Les résultats sont préliminaires, limités à deux tâches de complexité modérée, et les auteurs ne présentent pas de métriques de temps de calcul détaillées ni de comparaison sur des benchmarks de manipulation plus exigeants comme ManiSkill ou RoboSuite. La prochaine étape naturelle serait de tester la méthode sur des tâches dextères en environnement non structuré, où le gap sim-to-real est le plus pénalisant.

RecherchePaper
1 source
WOMBET : transfert d'expérience par modèle du monde pour un apprentissage par renforcement robuste et efficace
4arXiv cs.RO 

WOMBET : transfert d'expérience par modèle du monde pour un apprentissage par renforcement robuste et efficace

Une équipe de chercheurs présente WOMBET (World Model-Based Experience Transfer), un cadre d'apprentissage par renforcement (RL) publié sur arXiv sous la référence 2604.08958 (troisième version, indiquant un travail en révision active). Le constat de départ est simple : en robotique, collecter des données d'entraînement est coûteux et potentiellement risqué, ce qui freine l'adoption du RL réel. WOMBET répond à ce problème en deux temps. D'abord, un modèle du monde (world model) est appris sur une tâche source, et sert à générer synthétiquement un jeu de données hors-ligne via une planification pénalisée par l'incertitude épistémique. Les trajectoires générées sont ensuite filtrées selon deux critères : rendement cumulé élevé et faible incertitude. Ensuite, un agent s'affine en ligne sur la tâche cible, avec un échantillonnage adaptatif qui équilibre progressivement données offline (issues du world model) et données online (issues de l'environnement réel), assurant une transition stable. Les auteurs formalisent également que l'objectif pénalisé constitue une borne inférieure du rendement vrai, et décomposent l'erreur finie en termes de décalage de distribution et d'erreur d'approximation. Le gain pratique est réel : WOMBET améliore la vitesse de convergence et les performances finales sur des benchmarks de contrôle continu (probablement DeepMind Control Suite ou MuJoCo, non précisés dans l'abstract) par rapport à des baselines solides. Pour la robotique industrielle, où chaque heure de collecte sur robot physique se paie cher, la capacité à générer des données fiables via un modèle appris, tout en contrôlant leur qualité par l'incertitude, est un levier concret. La double garantie -- théorique et empirique -- est rare dans ce domaine et renforce la crédibilité de l'approche au-delà d'un simple résultat expérimental. Ce travail s'inscrit dans un courant actif qui associe world models et RL offline-to-online, où des systèmes comme DreamerV3 ou TD-MPC2 font référence. WOMBET se distingue en ciblant explicitement le problème du transfert inter-tâche, là où la majorité des approches existantes supposent un jeu de données fixe et pré-collecté. Aucune entreprise ni partenariat industriel n'est mentionné ; il s'agit de recherche académique à stade préprint. Trois versions déposées suggèrent des révisions significatives en cours, possiblement vers une soumission en conférence (NeurIPS, ICML, CoRL). Les prochaines étapes naturelles seraient une validation sur hardware réel et une comparaison avec des méthodes de sim-to-real transfer plus classiques.

RecherchePaper
1 source