Apprentissage par renforcement conditionné par objectif et informé par la physique sous dynamique de contact hybride
Des chercheurs ont publié sur arXiv (réf. 2605.30503) une analyse critique des méthodes de GCRL physico-informé (Pi-GCRL) appliquées à la manipulation robotique en contact, accompagnée de deux nouvelles formulations architecturales pour corriger leurs limites. Le GCRL (goal-conditioned reinforcement learning) vise à entraîner des agents capables d'atteindre des objectifs arbitraires à partir d'un signal de récompense rare, en apprenant une notion générale d'accessibilité dans l'espace état-but. Les approches Pi-GCRL enrichissent cette idée en injectant des biais inductifs issus de la commande optimale dans l'apprentissage de la fonction de valeur. L'article montre que, dès lors que les dynamiques deviennent hybrides, c'est-à-dire discontinues lors de transitions de contact, ces biais, appliqués naïvement, dégradent la performance : les paysages de valeur deviennent non-lisses, la contrôlabilité dépend du mode de contact actif, et les hypothèses de régularité sous-jacentes aux méthodes Pi-GCRL ne tiennent plus.
L'enjeu est structurel pour la robotique de manipulation industrielle. La quasi-totalité des tâches réelles, assemblage, insertion, saisie d'objets déformables, impliquent des contacts intermittents qui créent précisément ces dynamiques hybrides. Jusqu'ici, Pi-GCRL avait démontré sa robustesse sur la navigation et le goal-reaching sans contact, mais son extension aux tâches de manipulation restait une question ouverte. Ce travail répond en quantifiant rigoureusement l'échec et en proposant deux correctifs : une formulation contact-aware qui adapte les biais inductifs au mode de contact détecté, et une formulation hiérarchique qui décompose le problème de manipulation en sous-problèmes à dynamiques plus régulières. Ces contributions ouvrent une voie méthodologique précise, distincte des approches VLA (vision-language-action) et sim-to-real classiques qui dominent actuellement les annonces industrielles.
Le contexte est celui d'une compétition intense dans l'apprentissage pour la manipulation : DeepMind avec RoboCAT, Physical Intelligence avec pi0, Google avec RT-X, et des dizaines de labos universitaires cherchent à franchir le fossé démo-vers-réalité. Pi-GCRL représente une ligne de recherche distincte, héritée des travaux en commande optimale et en GCRL (Andrychowicz, Plappert et al., 2017 et suivants), qui mise sur la structure mathématique du problème plutôt que sur la puissance brute des données. Ce preprint est une contribution académique sans déploiement annoncé ni partenaire industriel identifié ; les suites probables sont des benchmarks sur des environnements contact-rich standardisés (MuJoCo, IsaacGym) et une éventuelle extension aux robots à plusieurs points de contact.




