SPRINT : a priori spectraux efficaces pour les sprints …

ADP : a priori dynamiques adverses pour une locomotion humanoïde ancrée physiquement

42

1arXiv cs.RO

ADP : a priori dynamiques adverses pour une locomotion humanoïde ancrée physiquement

Des chercheurs publient sur arXiv (arXiv:2607.03454) une nouvelle methode d'apprentissage baptisee Adversarial Dynamics Priors (ADP), destinee a rendre la marche des robots humanoides plus resistante aux chocs et poussees exterieures. Les approches actuelles de type AMP (Adversarial Motion Priors) imposent un style de demarche naturel en imitant des caracteristiques cinematiques du mouvement, mais elles ne regulent pas directement les grandeurs dynamiques sous jacentes: trajectoire du centre de masse, moment centroidal, forces de contact et etats de contact au sol. ADP change la cible de l'apprentissage adversarial en remplacant ces indices de style par des trajectoires generees via optimisation de trajectoire, utilisees comme jeu de reference. Un discriminateur est ensuite entraine a juger si les sequences temporelles produites par la politique de controle du robot restent coherentes avec cette distribution de reference, sans suivi explicite de mouvement imprime a l'avance. Compare a AMP, la reference la plus solide testee, ADP ameliore de 16,7% le seuil de reussite a 80% face a une impulsion (J80, une mesure de la force de choc absorbable sans chute), tout en reduisant de 47,9% le temps de recuperation moyen et de 35,4% l'erreur de suivi de vitesse apres perturbation. Pour l'industrie robotique, ce travail cible un angle mort frequent des demonstrations commerciales: la resilience a des perturbations reelles et non scriptees, plutot que la seule fluidite du mouvement en conditions de laboratoire. Les controleurs entraines par imitation de style de mouvement produisent souvent des demarches visuellement convaincantes en video mais fragiles des qu'un choc imprevu survient, un ecart classique entre demonstration et deploiement reel evoque regulierement dans le secteur des humanoides. En regulant directement la dynamique plutot que l'apparence du mouvement, ADP fournit une piste concrete pour combler cet ecart, un enjeu direct pour les integrateurs qui envisagent des humanoides en environnements industriels non controles. Ce travail s'inscrit dans la lignee des methodes d'apprentissage par imitation adversariale de mouvement (AMP), largement adoptees depuis plusieurs annees pour entrainer des politiques de controle de robots bipedes et quadrupedes en simulation avant transfert au reel. Il ne s'accompagne pas, a ce stade, d'annonce de deploiement sur une plateforme commerciale identifiee: il s'agit d'une contribution de recherche methodologique, evaluee en simulation, dont la generalisation a du materiel physique reste a demontrer dans de futurs travaux.

RecherchePaper

1 source

Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes

42

2arXiv cs.RO

Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes

Une équipe de chercheurs a publié le 9 juin 2026 sur arXiv (2606.08278) SIMPLE, un banc de test de simulation unifié pour l'apprentissage et l'évaluation de politiques de contrôle de robots humanoïdes. La plateforme couple la simulation de dynamique de contact de MuJoCo avec le rendu photoréaliste d'IsaacSim, et propose 60 tâches de loco-manipulation plein corps, 50 scènes d'intérieur et plus de 1 000 assets d'objets. Pour la collecte de données, deux pipelines sont intégrés : génération automatisée de trajectoires par planification de mouvement, et interface de téléopération VR à faible latence. Les auteurs y benchmarkent plusieurs familles de politiques humanoïdes : réseaux d'imitation légers, grands modèles vision-langage-action (VLA) et les récents modèles d'action du monde (WAM, World Action Models). Les expériences démontrent, selon les auteurs, un transfert zero-shot vers des robots humanoïdes physiques dans des configurations similaires. L'enjeu central est un goulot d'étranglement d'évaluation : les modèles fondationnels humanoïdes progressent plus vite que les protocoles pour les tester. Les benchmarks existants se concentrent sur la robotique de table ou les robots à roues, sans couvrir la loco-manipulation plein corps, compétence clé pour les humanoïdes déployés en environnement industriel ou domestique. Si la corrélation sim-to-real revendiquée dans l'article se confirme à plus grande échelle, elle légitime le recours massif à la simulation pour entraîner des politiques de contrôle, réduisant drastiquement les coûts de collecte de données en conditions réelles. C'est précisément le pari industriel de Physical Intelligence avec pi-0, et de Figure AI avec Figure 02 : remplacer les démos téléopérées coûteuses par des pipelines simulés reproductibles. La fragmentation des benchmarks est un problème structurel en robotique humanoïde : chaque laboratoire publie sur ses propres protocoles, rendant toute comparaison inter-équipes difficile. Des initiatives comme HumanoidBench, RoboVerse ou Isaac Lab ont tenté d'y répondre, mais sans couvrir la chaîne complète loco-manipulation avec rendu photoréaliste et pipelines de données intégrés. SIMPLE se positionne à cette intersection. Les équipes de Google DeepMind (GR00T N2, Helix), Agility Robotics (Digit) et Boston Dynamics sont directement concernées. Ce preprint arXiv n'est pas encore évalué par les pairs ; l'adoption par la communauté dépendra de la disponibilité publique du code et des assets, non encore confirmée.

RecherchePaper

1 source

HOIST : optimisation d'humanoïde par imitation et ajustement efficace pour la manipulation de charges suspendues

42

3arXiv cs.RO

HOIST : optimisation d'humanoïde par imitation et ajustement efficace pour la manipulation de charges suspendues

Des chercheurs publient ce mois-ci sur arXiv (2606.00252) une approche hybride baptisée HOIST pour apprendre à un robot humanoïde à manipuler des charges suspendues, c'est-à-dire des objets oscillants accrochés à des câbles ou des crochets, sans contact direct permanent. Le système fonctionne en deux temps : une politique de type VLA (vision-language-action) est d'abord fine-tunée à partir de démonstrations humaines capturées en téléopération sous casque de réalité virtuelle, puis ses commandes sont exécutées par un contrôleur de corps entier (whole-body controller). Dans un second temps, des rollouts de cette politique VLA servent de données d'amorçage pour un apprentissage par renforcement itératif par lots, ce qui améliore la précision de placement final sans exposer le robot réel à des trajectoires aléatoires dangereuses. Par rapport à la politique VLA seule, HOIST réduit l'erreur de placement translationnel de 19,9 cm et l'erreur angulaire brute de 3,56 degrés, mesurées en simulation et sur un humanoïde physique. Ce résultat est significatif pour un problème longtemps jugé difficile : une charge suspendue est un système sous-actionné, c'est-à-dire que le robot ne peut l'influencer qu'indirectement via sa propre cinématique et des contacts intermittents. L'imitation seule ne suffit pas à garantir la précision de dépose, et le RL from scratch sur robot réel est à la fois dangereux et prohibitivement coûteux en échantillons. HOIST démontre qu'un pipeline VLA + RL itératif peut combler ce gap sim-to-real sur une tâche de manutention industrielle concrète, ce qui intéresse directement les intégrateurs travaillant sur la logistique d'entrepôt ou l'assemblage assisté. La manipulation de charges suspendues est un cas d'usage récurrent en industrie (accrochage de pièces, convoyage aérien, montage) que peu d'équipes humanoïdes ont adressé frontalement. Les travaux antérieurs sur les VLA humanoïdes, notamment ceux de Physical Intelligence avec pi0 ou les pipelines whole-body de Figure et 1X, se concentrent surtout sur la manipulation d'objets rigides posés sur des surfaces. HOIST, dont les auteurs n'indiquent pas encore d'affiliation institutionnelle claire dans cette version préprint, ouvre une piste de spécialisation sectorielle. Les prochaines étapes annoncées incluent des tests sur des scénarios de manutention plus complexes ; aucun déploiement industriel ni partenariat n'est mentionné à ce stade.

RechercheOpinion

1 source

Marche, course et récupération unifiées pour robots humanoïdes via des priors de mouvement adversariaux adaptatifs

49

4arXiv cs.RO

Marche, course et récupération unifiées pour robots humanoïdes via des priors de mouvement adversariaux adaptatifs

Une équipe de chercheurs a publié fin mai 2026 sur arXiv (arXiv:2605.18611) un framework d'apprentissage par renforcement unifié permettant à un seul contrôleur de faire marcher, courir et se relever après une chute le robot humanoïde Unitree G1, sans commande explicite de changement de mode au déploiement. L'approche étend les Adversarial Motion Priors (AMP) en remplaçant la distribution de référence globale par un mécanisme de routage conditionné à l'état : un seuil fixe sur la gravité projetée (|gz+1| > 0,6, soit environ 37° d'inclinaison du torse par rapport à la verticale) aiguille chaque transition d'entraînement soit vers un discriminateur dédié à la récupération, soit vers un discriminateur de locomotion conditionné par la vitesse commandée, qui couvre à la fois la marche et la course. Seuls trois clips de motion capture extraits du jeu de données LAFAN1 sont nécessaires pour régulariser l'ensemble du comportement. Sur hardware réel, la politique tourne à 50 Hz sous forme d'un fichier ONNX figé, sans aucune logique de mode à l'exécution, et valide des relevés réussis depuis les positions ventrale et dorsale ainsi que des transitions fluides marche-course. Ce résultat s'attaque directement à un problème d'intégration récurrent dans la robotique humanoïde commerciale : la fragmentation en contrôleurs spécialisés par mode, reliés par des automates à états qui génèrent des zones de transition fragiles et coûteuses à maintenir. Démontrer qu'une politique apprise par RL couvre ces régimes de façon continue sur hardware réel, et non uniquement en simulation, affaiblit l'argument du sim-to-real gap rédhibitoire pour les comportements complexes. Le coût d'annotation est lui aussi remarquablement bas : trois clips de reference suffisent là où d'autres travaux en exigent des dizaines, ce qui rend la méthode potentiellement transférable à d'autres plateformes avec un effort de données limité, qu'il s'agisse du PAL Robotics TALOS, du MIROKAÏ d'Enchanted Tools, ou de tout humanoïde léger à faible budget de motion capture. La publication s'inscrit dans une course dense à la locomotion humanoïde robuste, où Boston Dynamics (Atlas), Figure (Figure 03), Agility Robotics (Digit) et Tesla (Optimus Gen 3) investissent massivement, mais publient peu. Sur le plan académique, des approches concurrentes comme les VLA (Vision-Language-Action models) de Physical Intelligence ou les travaux de Berkeley visent des politiques encore plus générales, mais sacrifient souvent la robustesse physique au profit de la flexibilité sémantique. L'utilisation du Unitree G1, disponible à environ 16 000 dollars et largement répandu dans les laboratoires, confère à ces travaux une reproductibilité pratique supérieure aux publications sur plateformes fermées. L'article ne précise pas de timeline de déploiement industriel, mais la compatibilité ONNX et l'absence de logique embarquée à l'exécution réduisent la barrière à l'intégration pour un OEM ou un intégrateur souhaitant évaluer la méthode sur sa propre plateforme.

UELa méthode, compatible ONNX et nécessitant seulement 3 clips de motion capture, est explicitement identifiée comme transférable au MIROKAÏ d'Enchanted Tools (FR) et au TALOS de PAL Robotics (EU), réduisant le coût d'adaptation pour les équipes de recherche et les intégrateurs européens.

RecherchePaper

1 source

SPRINT : a priori spectraux efficaces pour les sprints athlétiques des humanoïdes

À lire aussi

ADP : a priori dynamiques adverses pour une locomotion humanoïde ancrée physiquement

Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes

HOIST : optimisation d'humanoïde par imitation et ajustement efficace pour la manipulation de charges suspendues

Marche, course et récupération unifiées pour robots humanoïdes via des priors de mouvement adversariaux adaptatifs