Aller au contenu principal
ADAPT : entraînement de politique analytique intégrant les perturbations pour la locomotion humanoïde
IA physiquearXiv cs.RO4h

ADAPT : entraînement de politique analytique intégrant les perturbations pour la locomotion humanoïde

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié le 16 juin 2026 sur arXiv (2606.16542) une méthode baptisée ADAPT (Analytical Disturbance-Aware Policy Training), destinée à améliorer la robustesse locomotrice des robots humanoïdes soumis à des perturbations externes. Le système a été validé sur un Unitree G1 dans trois scénarios représentatifs : poussées au niveau du torse, perturbations en posture statique, et charges asymétriques appliquées aux mains. Dans chaque cas, ADAPT surpasse une politique de référence basée uniquement sur la proprioception (capteurs internes articulaires), avec un meilleur suivi de vitesse et une meilleure stabilité, y compris face à des perturbations hors distribution, c'est-à-dire non rencontrées lors de l'entraînement. La méthode n'exige aucun capteur de force/couple externe : elle s'appuie uniquement sur la dynamique interne du robot pour estimer en ligne les résidus de force et de couple appliqués au corps entier.

L'intérêt technique d'ADAPT tient à son observateur de perturbations analytique, fondé sur la physique du corps rigide plutôt que sur un réseau de neurones ou une large randomisation de domaine. Les approches existantes présentent chacune un défaut structurel : la randomisation de domaine dégrade la précision, les objectifs de force spécifiques à une tâche limitent la transférabilité, et les estimateurs appris depuis l'historique de mouvement peinent hors distribution. ADAPT contourne ces compromis en fournissant à la politique un signal d'entrée explicite et physiquement fondé sur les forces et couples perturbateurs estimés, ce qui lui permet de se généraliser à des scénarios jamais vus. Un bénéfice secondaire notable : en pénalisant les perturbations inférées au niveau des articulations inférieures, le système favorise une locomotion plus légère, réduisant les impacts au sol, ce qui peut prolonger la durée de vie mécanique et améliorer la discrétion sonore en milieu de travail.

Le Unitree G1 est une plateforme humanoïde commerciale abordable, largement utilisée dans la recherche sur la locomotion apprise, ce qui confère à ces résultats une portée pratique directe. Ce travail s'inscrit dans une tendance plus large où les laboratoires cherchent à combler le fossé sim-to-real sans ajouter de capteurs coûteux, une contrainte forte pour les déploiements industriels à grande échelle. Côté concurrence, des approches similaires ont été explorées par des équipes travaillant sur Boston Dynamics Atlas, Agility Robotics Digit et les humanoïdes Figure et 1X, mais souvent avec des capteurs de force dédiés. ADAPT représente une direction sensorless qui, si elle se confirme sur d'autres plateformes, pourrait simplifier l'intégration matérielle. L'article étant un preprint arXiv non encore évalué par les pairs, la reproductibilité reste à confirmer indépendamment, et les conditions exactes des expériences (vitesses testées, amplitude des poussées) ne sont pas précisées dans le résumé disponible.

À lire aussi

Contrôle corps entier généraliste et adaptable pour la locomotion de divers humanoïdes
1arXiv cs.RO 

Contrôle corps entier généraliste et adaptable pour la locomotion de divers humanoïdes

Des chercheurs ont publié sur arXiv (référence 2602.05791) un framework baptisé XHugWBC, conçu pour entraîner un contrôleur de locomotion whole-body universel sur une large distribution de morphologies humanoïdes, puis le déployer en zero-shot sur des robots non vus durant l'entraînement. Les expériences couvrent douze humanoïdes simulés et sept robots réels. Le système repose sur trois briques techniques : une randomisation morphologique physiquement cohérente (masse des segments, longueur des membres, inertie), des espaces d'observation et d'action alignés sémantiquement entre châssis hétérogènes, et une architecture de politique qui encode explicitement les propriétés morphologiques et dynamiques de chaque instance. L'entraînement est unique, "one-time training" : aucun fine-tuning par robot n'est requis à l'inférence. L'enjeu industriel est direct. Aujourd'hui, chaque équipe robotique entraîne ses contrôleurs de locomotion depuis zéro pour chaque châssis, ce qui représente des semaines de simulation et d'itérations sim-to-real. XHugWBC déplace ce coût vers une phase d'entraînement généraliste unique, ouvrant la voie à un modèle de déploiement où un intégrateur peut adopter un nouveau châssis humanoïde sans reconstruire l'intégralité de sa stack de contrôle. La validation sur sept robots physiques est plus convaincante que les résultats purement simulés habituels, même si la nature exacte des tâches testées et les taux de succès détaillés ne figurent pas dans le résumé disponible. La capacité de transfert zero-shot sur morphologies inédites renforce l'hypothèse que les biais structuraux appris sur distributions larges surpassent les politiques spécialisées sur certains régimes de locomotion, ce que le secteur débattait encore il y a dix-huit mois. Ce travail s'inscrit dans un mouvement vers les contrôleurs dits "fondation" pour la robotique incarnée. En manipulation, des systèmes comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) ont déjà exploré la généralisation cross-embodiment sur bras et effecteurs; l'extension à la locomotion whole-body humanoïde est plus contrainte par la stabilité dynamique. Les acteurs du secteur, Figure Robotics (Figure 03), Unitree (G1, H1), Agility Robotics (Digit), Fourier Intelligence et 1X Technologies, maintiennent tous des pipelines de contrôle propriétaires et spécialisés. Si XHugWBC tient ses promesses à l'échelle, il réduirait significativement la barrière à l'entrée pour les nouveaux constructeurs, notamment les acteurs européens comme Enchanted Tools (Mirokaï) ou Wandercraft, qui ne disposent pas des ressources d'entraînement des géants américains. Le preprint n'a pas encore fait l'objet d'une évaluation par les pairs.

UELes constructeurs humanoïdes français Wandercraft et Enchanted Tools (Mirokaï) sont explicitement identifiés comme bénéficiaires potentiels, ce framework pouvant réduire significativement leurs coûts d'entraînement de locomotion sans nécessiter les ressources des géants américains.

💬 C'est le genre de papier qui résout un vrai problème industriel : chaque robot humanoïde qui sort oblige aujourd'hui à tout réentraîner depuis zéro. Sept robots physiques en zero-shot, c'est pas du tout la même chose que des résultats simulés, ça valide quelque chose de sérieux. Pour Wandercraft ou Enchanted Tools, bien plus contraints en ressources que Figure ou Unitree, ce type de contrôleur généraliste c'est du concret.

IA physiqueOpinion
1 source
SCRIPT : politique de diffusion extensible, entraînement multi-étapes, contrôle physique d'humanoïdes par le langage
2arXiv cs.RO 

SCRIPT : politique de diffusion extensible, entraînement multi-étapes, contrôle physique d'humanoïdes par le langage

Une équipe de chercheurs a publié le 28 mai 2026 sur arXiv (2605.22894) SCRIPT, un système de contrôle de robots humanoïdes en simulation physique piloté par des instructions en langage naturel. L'architecture centrale, baptisée JAST-DiT (Joint Action-State-Text Diffusion Transformer), représente simultanément les actions du robot, ses états physiques et les commandes textuelles sous forme de flux de tokens distincts, reliés par un mécanisme d'attention conjointe. Cette conception permet une interaction directe entre la sémantique linguistique et la dynamique de contrôle, sans passer par une couche de traduction intermédiaire. Pour stabiliser le contrôle sur des horizons longs, SCRIPT intègre un conditionnement d'historique non linéaire qui conserve un contexte récent dense tout en échantillonnant des repères de plus en plus épars dans l'historique à long terme. Le pré-entraînement par imitation supervisée est ensuite renforcé par une phase RLHR (Reinforcement Learning with Hybrid Rewards), qui injecte un bruit apprenable dans le processus de diffusion pour améliorer la qualité de mouvement et le suivi d'instruction en boucle fermée. Les évaluations quantitatives montrent que SCRIPT dépasse les méthodes antérieures sur trois métriques : alignement textuel, qualité de mouvement et réalisme physique. Les études de passage à l'échelle sur le dataset MotionMillion, qui totalise 1 200 heures de données de mouvement, confirment une progression continue des performances à mesure que le modèle grossit. L'intérêt technique de SCRIPT est de s'attaquer frontalement à la tension structurelle du domaine : entre expressivité sémantique (un humanoïde qui comprend des ordres variés) et faisabilité physique (un humanoïde qui ne tombe pas). Les approches existantes sacrifient généralement l'un pour l'autre. Le fait que SCRIPT améliore simultanément les trois métriques en boucle fermée est notable, car les simulations en boucle ouverte masquent souvent les dérives accumulées. La démonstration de scalabilité sur 1 200 heures de données suggère que l'architecture n'est pas un artefact de surapprentissage sur un corpus réduit, ce qui est un signal positif pour quiconque envisage un pré-entraînement à grande échelle de fondations motrices. Pour les intégrateurs et les équipes R&D, cela valide partiellement l'hypothèse selon laquelle les politiques de diffusion à grande échelle peuvent absorber la variabilité des commandes en langage naturel sans sacrifier la stabilité physique. Ce travail s'inscrit dans la vague des VLA (Vision-Language-Action models) appliqués aux humanoïdes en simulation physique, un axe de recherche très actif depuis 2024. Il entre en concurrence directe avec des approches comme PHC, UniHSI ou les variantes récentes de contrôle par diffusion de Nvidia (GR00T N2), qui ciblent des problèmes similaires de contrôle conditionné par le langage. SCRIPT se distingue par sa composante RLHR post-entraînement et son protocole de scaling explicite, deux éléments souvent absents des publications académiques concurrentes. Il s'agit ici d'une annonce de recherche préprint, pas d'un produit déployé : le code sera rendu public mais aucun calendrier de transfert vers du matériel réel n'est mentionné. Les prochaines étapes naturelles seront le transfert sim-to-real et l'évaluation sur des plateformes physiques comme Unitree H1 ou Figure 03.

💬 Tout le monde fait du contrôle d'humanoïde en simu physique en ce moment, mais SCRIPT se distingue par quelque chose de rare en académique : une phase de renforcement post-entraînement documentée. Sur 1 200 heures de données, les perfs progressent sans s'effondrer, ce qui élimine le scénario "artefact de sur-entraînement". Maintenant faut juste que ça tienne sur un vrai robot, et là c'est une autre histoire.

IA physiqueOpinion
1 source
CoRe-MoE : un mélange d'experts contrastif pour la locomotion multi-terrain des robots humanoïdes avec adaptation de la démarche
3arXiv cs.RO 

CoRe-MoE : un mélange d'experts contrastif pour la locomotion multi-terrain des robots humanoïdes avec adaptation de la démarche

Une équipe de recherche publie sur arXiv (2606.04718) CoRe-MoE, un framework d'apprentissage par renforcement en deux étapes conçu pour permettre à un robot humanoïde de marcher et de courir sur des terrains variés sans politique distincte par surface. L'architecture repose sur un Mixture-of-Experts (MoE) augmenté d'un objectif contrastif : une première phase entraîne une politique de locomotion de base produisant marche et course avec transitions fluides, puis une seconde phase greffe une branche MoE sensible au terrain, dont le réseau de gating est formé à distinguer structurellement les représentations de sol. L'action finale est une fusion pondérée entre la politique de base et la branche adaptative. Validé en simulation puis déployé en zero-shot sur le Unitree G1, le système traverse escaliers, rampes, marches, obstacles et terrains extérieurs non structurés tout en maintenant un placement de pied précis face à des perturbations externes. L'intérêt de ce travail pour les intégrateurs et décideurs robotiques tient moins à la performance brute qu'à la méthode de découplage. Le problème classique dans l'entraînement multi-tâches est l'interférence de gradients : une politique unifiée marche/course/terrain provoque des conflits d'apprentissage qui dégradent chaque sous-compétence. CoRe-MoE contourne cela en séparant explicitement génération de démarche et adaptation terrain. L'objectif contrastif force une spécialisation claire des experts MoE, défaillance récurrente des implémentations MoE naïves. Le zero-shot sim-to-real sur G1 suggère une réduction du reality gap, point de friction central dans le passage de la simulation au déploiement industriel, bien que le papier ne fournisse pas de métriques de cycle ou de données de déploiement à l'échelle. Le Unitree G1 est un humanoïde 23 degrés de liberté à environ 16 000 dollars, devenu référence de facto pour la recherche en locomotion académique, face au Boston Dynamics Atlas et à l'Agility Robotics Digit plus orientés industrie. CoRe-MoE s'inscrit dans un courant actif de politiques visuomotrices pour humanoïdes, aux côtés de travaux comme GR00T N2 de NVIDIA ou Pi-0 de Physical Intelligence, qui cherchent tous à unifier mobilité et manipulation sous une seule politique généraliste. La prochaine étape naturelle de ce type d'architecture est l'extension aux tâches de manipulation en locomotion, et le test sur des humanoïdes plus lourds à charge utile élevée, où la stabilité dynamique devient critique.

IA physiqueOpinion
1 source
APEX : exécution adaptative de politiques pour la manipulation de précision
4arXiv cs.RO 

APEX : exécution adaptative de politiques pour la manipulation de précision

Une équipe de chercheurs a publié sur arXiv (référence 2606.16504) un framework baptisé APEX, Adaptive Policy Execution, conçu pour combler le fossé d'exécution qui dégrade les performances des robots manipulateurs pilotés par des politiques d'imitation. Dans les benchmarks rapportés, APEX réduit l'erreur de suivi induite par le contrôleur de 41,2 % sur la relecture de démonstrations, et améliore le taux de succès en manipulation de 4,8 à 25,8 points de pourcentage selon la classe de politique testée, visuomoteur ou VLA (Vision-Language-Action). Ces résultats couvrent quatre familles de politiques distinctes, ce qui constitue une base de comparaison plus large que la plupart des papiers du genre. Le problème que APEX adresse est structurel dans le domaine : les politiques d'imitation modernes génèrent des références d'action de haut niveau (positions cibles, trajectoires) que des contrôleurs bas niveau exécutent ensuite. Or ces politiques sont entraînées sans modéliser la dynamique du contrôleur sous-jacent, ce qui crée un écart systématique entre les actions commandées et les actions réalisées, un problème particulièrement critique pour les tâches de manipulation de précision (assemblage, insertion, saisie fine). Les approches existantes nécessitaient soit de modifier l'architecture de la politique pré-entraînée, soit de reprogrammer le contrôleur bas niveau. APEX se positionne comme une couche intermédiaire plug-and-play, traitant la politique et le contrôleur comme des boîtes noires inaccessibles. Il reconstruit une référence dynamiquement faisable à partir des sorties de la politique, puis s'adapte en temps réel via le feedback d'état bas niveau. Les auteurs fournissent une garantie formelle de convergence, ce qui est notable dans un champ souvent dominé par des résultats empiriques sans fondement théorique. Le contexte est celui d'une course intense au déploiement des VLA dans des environnements industriels réels : des modèles comme pi0 (Physical Intelligence), OpenVLA ou RT-2 (Google DeepMind) affichent des résultats impressionnants en simulation ou en laboratoire, mais peinent à translater leurs performances sur des robots physiques en raison précisément de ce sim-to-real gap d'exécution. APEX s'inscrit dans une tendance émergente, sans toucher aux poids du modèle, améliorer l'exécution physique, qui concurrence les approches de fine-tuning sur robot réel. La publication ne mentionne pas de partenaires industriels ni de timeline de déploiement ; il s'agit d'une contribution de recherche, pas d'un produit annoncé. L'enjeu pour les intégrateurs est direct : si le framework tient ses promesses à plus grande échelle, il pourrait devenir un composant standard entre n'importe quelle politique foundation et n'importe quel bras robot commercial, sans nécessiter d'accès au code source de l'un ou de l'autre.

IA physiqueOpinion
1 source