Aller au contenu principal
MAPL : apprentissage des préférences multi-objectifs pour la locomotion robotique
RecherchearXiv cs.RO3h

MAPL : apprentissage des préférences multi-objectifs pour la locomotion robotique

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs présentent MAPL (Multi-Objective AI-Informed Preference Learning), un cadre d'apprentissage par renforcement pour la locomotion quadrupède qui remplace les fonctions de récompense manuelles par des préférences générées par LLM. Publié sur arXiv (réf. 2606.25398) en juin 2025, le système soumet des paires de trajectoires à un grand modèle de langage, qui les évalue selon plusieurs critères sémantiques distincts, formulés en langage naturel générique et invariants selon le terrain. Ces préférences par objectif alimentent un modèle de scoring à plusieurs têtes, dont les sorties sont agrégées en récompense scalaire pour l'optimisation de politique. Sur quatre environnements de simulation quadrupède, les auteurs rapportent des performances comparables ou supérieures à des récompenses conçues par des experts du domaine.

L'intérêt de MAPL tient à sa décomposition structurée des objectifs, là où les méthodes LLM existantes se limitent à un jugement global entre comportements. En robotique industrielle, la conception de fonctions de récompense reste un goulot d'étranglement reconnu, exigeant de longues itérations entre ingénieurs RL et spécialistes métier. Substituer ce travail par des descriptions en langage naturel, réutilisables sans réécriture d'équations, réduirait le coût d'adaptation à de nouvelles tâches. La décomposition en critères distincts offre aussi une meilleure interprétabilité : il devient possible d'identifier quels objectifs sont en tension, ce qui facilite le débogage comportemental.

MAPL s'inscrit dans la vague d'automatisation de la conception de récompenses via LLM, initiée notamment par EUREKA (NVIDIA, 2023), qui générait directement du code de récompense via GPT-4, et par RL-VLM-F, qui exploite des modèles vision-langage pour évaluer les comportements. La locomotion quadrupède est un benchmark standard utilisé par des projets comme ANYmal (ETH Zurich) et les plateformes Unitree. Plusieurs limites méritent d'être signalées : l'article reste un preprint non relu par les pairs, les expériences sont menées uniquement en simulation sans validation physique, et le LLM utilisé pour générer les préférences n'est pas spécifié, ce qui complique la reproductibilité. Les extensions naturelles concernent la validation sur robot réel et l'application à des morphologies plus complexes, comme les humanoïdes, où l'ingénierie de récompense est particulièrement coûteuse.

Dans nos dossiers

À lire aussi

Apprentissage de priors d'action pour la manipulation robotique multi-morphologies
1arXiv cs.RO 

Apprentissage de priors d'action pour la manipulation robotique multi-morphologies

Des chercheurs ont soumis le 25 juin 2026 sur arXiv (réf. 2606.26095) un cadre d'entraînement en deux étapes pour les modèles Vision-Language-Action (VLA) appliqués à la manipulation robotique cross-embodiment. Le problème est structurel : dans l'architecture dominante, le module d'action est greffé sur un backbone Vision-Language Model (VLM) et co-optimisé dès le départ, ce qui contraint le modèle à découvrir simultanément la dynamique physique du mouvement et l'alignement visuo-linguistique. Les auteurs proposent de préentraîner d'abord le module d'action sur des trajectoires brutes via un encodeur-décodeur léger basé sur le flow-matching, sans aucune entrée visuelle ni linguistique, puis de transférer ce prior moteur à l'entraînement VLA par réutilisation du décodeur et distillation latente en début d'entraînement. La méthode est évaluée sur 13 tâches cross-embodiment en simulation et sur plateformes réelles. Le bénéfice principal est de découpler deux apprentissages que les VLA actuels co-optimisent de front : la structure temporelle du mouvement et la sémantique visuo-linguistique. Selon les résultats présentés, la méthode accélère la convergence, améliore les taux de succès globaux et génère des gains particulièrement nets sur les tâches à faible volume de données réelles, là où les pipelines existants décrochent. Le module encodeur joue par ailleurs le rôle de compresseur d'historique, résumant l'historique état-action en un unique token de contexte temporel à coût négligeable. Fait notable : augmenter le volume de données d'action en étape 1 améliore directement les performances downstream, sans requérir de nouvelles démonstrations robotiques coûteuses à collecter. Ce travail s'inscrit dans la compétition autour des politiques robotiques généralistes capables d'opérer sur des morphologies hétérogènes : Pi-0 (Physical Intelligence), OpenVLA, Octo (UC Berkeley) et RT-2 (Google DeepMind) constituent les références directes. La rareté des données réelles annotées et le sim-to-real gap restent les freins communs à l'ensemble du secteur, et une meilleure initialisation du prior moteur en offre une réponse partielle. Il s'agit d'un preprint non évalué par les pairs, sans déploiement industriel annoncé ; les suites naturelles seraient une intégration dans des frameworks open-source comme LeRobot (Hugging Face) ou une adoption par des équipes développant des humanoïdes généralistes.

UELa méthode pourrait être intégrée à LeRobot (Hugging Face, Paris), ce qui bénéficierait directement à l'écosystème de robotique open-source français.

RechercheOpinion
1 source
Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes
2arXiv cs.RO 

Apprentissage de politiques par simulation pour la loco-manipulation des robots humanoïdes

Une équipe de chercheurs a publié le 9 juin 2026 sur arXiv (2606.08278) SIMPLE, un banc de test de simulation unifié pour l'apprentissage et l'évaluation de politiques de contrôle de robots humanoïdes. La plateforme couple la simulation de dynamique de contact de MuJoCo avec le rendu photoréaliste d'IsaacSim, et propose 60 tâches de loco-manipulation plein corps, 50 scènes d'intérieur et plus de 1 000 assets d'objets. Pour la collecte de données, deux pipelines sont intégrés : génération automatisée de trajectoires par planification de mouvement, et interface de téléopération VR à faible latence. Les auteurs y benchmarkent plusieurs familles de politiques humanoïdes : réseaux d'imitation légers, grands modèles vision-langage-action (VLA) et les récents modèles d'action du monde (WAM, World Action Models). Les expériences démontrent, selon les auteurs, un transfert zero-shot vers des robots humanoïdes physiques dans des configurations similaires. L'enjeu central est un goulot d'étranglement d'évaluation : les modèles fondationnels humanoïdes progressent plus vite que les protocoles pour les tester. Les benchmarks existants se concentrent sur la robotique de table ou les robots à roues, sans couvrir la loco-manipulation plein corps, compétence clé pour les humanoïdes déployés en environnement industriel ou domestique. Si la corrélation sim-to-real revendiquée dans l'article se confirme à plus grande échelle, elle légitime le recours massif à la simulation pour entraîner des politiques de contrôle, réduisant drastiquement les coûts de collecte de données en conditions réelles. C'est précisément le pari industriel de Physical Intelligence avec pi-0, et de Figure AI avec Figure 02 : remplacer les démos téléopérées coûteuses par des pipelines simulés reproductibles. La fragmentation des benchmarks est un problème structurel en robotique humanoïde : chaque laboratoire publie sur ses propres protocoles, rendant toute comparaison inter-équipes difficile. Des initiatives comme HumanoidBench, RoboVerse ou Isaac Lab ont tenté d'y répondre, mais sans couvrir la chaîne complète loco-manipulation avec rendu photoréaliste et pipelines de données intégrés. SIMPLE se positionne à cette intersection. Les équipes de Google DeepMind (GR00T N2, Helix), Agility Robotics (Digit) et Boston Dynamics sont directement concernées. Ce preprint arXiv n'est pas encore évalué par les pairs ; l'adoption par la communauté dépendra de la disponibilité publique du code et des assets, non encore confirmée.

RecherchePaper
1 source
Apprentissage d'une variété d'actions par priors latents multi-vues pour la manipulation robotique
3arXiv cs.RO 

Apprentissage d'une variété d'actions par priors latents multi-vues pour la manipulation robotique

Une équipe de chercheurs publie sur arXiv (preprint 2605.11832, mai 2026) une méthode adressant deux limites structurelles des modèles Vision-Language-Action (VLA) appliqués à la manipulation robotique : l'ambiguïté de profondeur issue des capteurs monoculaires, et l'inefficacité de l'apprentissage d'actions par régression classique. La première contribution, le G3T (Geometry-Guided Gated Transformer), exploite un modèle de diffusion multi-vues pré-entraîné pour synthétiser des représentations latentes de nouvelles perspectives, alignées sous contrainte géométrique 3D, avec filtrage adaptatif du bruit d'occlusion. La seconde, l'Action Manifold Learning (AML), remplace la régression sur des cibles non structurées, bruit ou champ de vitesse, approches dominantes depuis Diffusion Policy (2023), par une prédiction directe sur la variété des actions valides. Testée sur les benchmarks LIBERO et RoboTwin 2.0, ainsi que sur des tâches en robot réel, la méthode affiche des taux de succès supérieurs aux baselines état de l'art actuelles. L'enjeu est précis : la quasi-totalité des déploiements industriels de manipulateurs n'embarquent qu'une caméra RGB, sans LiDAR ni stéréovision. Sans profondeur fiable, les VLA peinent à estimer distances et tailles relatives, ce qui dégrade directement la précision de préhension en conditions réelles. Le G3T propose de contourner ce manque sans ajout matériel, maintenant les contraintes hardware à un niveau réaliste pour l'intégration. L'AML, de son côté, questionne un paradigme issu des travaux sur la diffusion en robotique : prédire directement sur la variété d'actions valides pourrait réduire la variance d'entraînement et accélérer la convergence. Les résultats semblent valider l'hypothèse, bien qu'un preprint reste à soumettre à peer-review pour être pleinement crédité, les métriques annoncées sont issues des propres expériences des auteurs, sans reproductions indépendantes publiées à ce stade. Ce travail s'inscrit dans la course aux VLA généralistes ouverte par RT-2 (Google DeepMind, 2023), avec pour concurrents directs OpenVLA (UC Berkeley), π0 de Physical Intelligence et GR00T N2 de NVIDIA. RoboTwin 2.0, l'un des benchmarks retenus, cible spécifiquement la manipulation bi-manuelle de précision, parmi les scénarios les plus exigeants du domaine. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans le preprint ; l'impact concret dépendra des reproductions indépendantes et d'une éventuelle intégration dans des frameworks ouverts comme LeRobot (Hugging Face). Le code et la page projet sont annoncés disponibles publiquement.

RechercheOpinion
1 source
Apprentissage de politiques de trajectoire multi-modales pour la manipulation robotique efficace en données
4arXiv cs.RO 

Apprentissage de politiques de trajectoire multi-modales pour la manipulation robotique efficace en données

Des chercheurs ont publié le 1er juin 2026 sur arXiv (2606.01047) MATE (Multi-Modal Trajectory Policies), un cadre de prédiction de trajectoires pour la manipulation robotique construit sur une architecture Mixture-of-Experts (MoE). MATE traite simultanément des entrées hétérogènes, observations visuelles, instructions en langage naturel et représentations de trajectoires, en introduisant un routeur cosinus cross-modal qui garantit une affectation stable entre experts spécialisés, indépendamment de l'échelle des représentations. Un mécanisme de routage à température contrôlée avec injection de bruit stochastique prévient l'effondrement prématuré des experts (expert collapse). Sur le benchmark LIBERO, MATE améliore le taux de succès moyen de 4,75% par rapport aux politiques guidées par trajectoires existantes, particulièrement dans des scénarios à faible volume de données d'entraînement. Des tests en conditions réelles sur un robot jouant au ping-pong complètent la validation expérimentale. Le problème ciblé est la "modality interference" : quand une politique transformer unique traite dans le même espace de paramètres des signaux aussi disparates que des images RGB, du texte et des coordonnées de trajectoire, les représentations se perturbent mutuellement et les performances chutent. C'est un goulot d'étranglement bien documenté dans le développement des VLAs (Vision-Language-Action models) : les données de démonstration de qualité coûtent cher à collecter en environnement industriel. En proposant un découplage fin au niveau sub-token par spécialisation d'experts, MATE réduit cette interférence sans nécessiter de données supplémentaires. Pour les équipes robotique opérant avec des budgets de téléopération limités, c'est un signal positif, bien que les gains absolus (+4,75%) restent modestes et mesurés sur un benchmark académique contrôlé. La manipulation robotique généraliste est sous forte compétition depuis l'émergence des architectures transformer dédiées à la robotique vers 2022-2023. Des travaux comme ACT, Diffusion Policy, puis les VLAs OpenVLA (Berkeley/Stanford), pi0 de Physical Intelligence et GR00T N2 de NVIDIA ont progressivement unifié vision, langage et action. L'approche MoE reste moins explorée en robotique qu'en LLMs (GPT-4, Mixtral, DeepSeek-MoE), et MATE tente d'en résoudre les instabilités de routage propres aux modalités hétérogènes. Le benchmark LIBERO, développé par des institutions académiques américaines, est devenu une référence standard pour évaluer la généralisation en manipulation. À ce stade, il n'y a pas de déploiement industriel ni de partenariat annoncé : MATE est une preuve de concept académique, avec validation réelle limitée à un robot de ping-pong.

RechercheOpinion
1 source