Aller au contenu principal
Apprentissage parcimonieux guidé par la physique et adaptation en ligne sélective pour la dynamique d'Euler-Lagrange
RecherchearXiv cs.RO4h

Apprentissage parcimonieux guidé par la physique et adaptation en ligne sélective pour la dynamique d'Euler-Lagrange

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Un groupe de chercheurs publie sur arXiv (2606.09640v1, juin 2026) un framework d'apprentissage résiduel structuré pour corriger les modèles de dynamique robot basés sur le formalisme d'Euler-Lagrange. L'approche décompose l'écart entre le modèle nominal et la dynamique réelle en trois composantes : une correction d'inertie, le terme de Coriolis induit correspondant, et un résidu de force généralisée. La composante mécanique est apprise sous contraintes physiques explicites (symétrie, définie-positivité de la matrice d'inertie), tandis que la composante perturbatrice est représentée par un modèle d'interaction latent sparse dépendant de l'historique, adapté en ligne par régression linéaire bayésienne. Les validations couvrent trois types de plateformes : robots mobiles, systèmes aériens et bras manipulateurs, sur des scénarios de dynamique couplée et variable dans le temps.

L'enjeu est structurel. La quasi-totalité des méthodes de correction par apprentissage résiduel introduisent un unique terme additif sans contraindre sa forme physique, ce qui dégrade les invariants mécaniques fondamentaux : symétrie de la matrice d'inertie, couplage cohérent entre termes inertiels et termes de vitesse. En pratique, un contrôleur modèle embarquant un tel résidu non contraint risque de produire des prédictions physiquement incohérentes aux limites de l'espace de travail ou sous charges variables. La séparation proposée contraint structurellement la partie mécanique et réserve l'adaptation bayésienne en ligne à la seule composante de perturbation, là où la plasticité est réellement nécessaire. Les auteurs rapportent une amélioration mesurable de la prédiction de dynamique et du suivi de trajectoire, mais les résultats restent au stade expérimental sur plateformes de laboratoire, sans données de déploiement industriel.

Le contexte est celui d'une tension persistante dans la robotique à base de modèles : les formulations analytiques d'Euler-Lagrange sont précises en conditions nominales mais se dégradent sous variation de charge utile, friction non modélisée, effets aérodynamiques ou couplages imprévus. Ce travail s'inscrit dans un courant actif de physics-informed learning, aux côtés des Hamiltonian Neural Networks (Greydanus et al., 2019) et des approches par processus gaussiens à noyaux structurés. La différenciation réside dans l'adaptation online sélective via régression bayésienne, computationnellement plus légère que les GPs complets. Le preprint n'annonce ni partenariat industriel ni roadmap commerciale ; les extensions naturelles iraient vers les manipulateurs humanoïdes et la validation sous contraintes temps réel strictes.

Dans nos dossiers

À lire aussi

BORA : apprentissage par renforcement hors ligne et adaptation résiduelle en ligne pour modèles VLA dextériques
1arXiv cs.RO 

BORA : apprentissage par renforcement hors ligne et adaptation résiduelle en ligne pour modèles VLA dextériques

Des chercheurs ont publié sur arXiv (arXiv:2605.30226) BORA, un cadre de post-entraînement mêlant apprentissage par renforcement hors ligne et adaptation résiduelle en ligne, conçu pour les modèles VLA (Vision-Language-Action) appliqués à la manipulation dextre. Le système fonctionne en deux phases: hors ligne, un réseau critique est entraîné en prenant comme entrées les tokens cognitifs du modèle de langage-vision et les chunks d'actions, ce qui lui permet d'évaluer les mouvements de main au-delà du seul contexte visuel. En ligne, le modèle VLA de base est gelé et une couche d'adaptation résiduelle légère de type chunk-wise est introduite, guidée par un mécanisme Human-in-the-Loop (HiL) générant des récompenses à partir d'interventions humaines. Évalué sur cinq tâches réelles de manipulation dextre complexe, BORA affiche une hausse absolue de 33 points de pourcentage du taux de succès moyen face aux baselines standards, et jusqu'à +43 points sur des objets non vus lors de l'entraînement. Ces résultats s'attaquent à l'un des verrous persistants de la robotique dextre: les mains à haute dimensionnalité amplifient les erreurs d'exécution cumulées, rendant l'exploration RL en conditions réelles à la fois inefficace et risquée pour le matériel. L'approche de BORA, qui préserve le modèle pré-entraîné comme prior stable et n'ajoute qu'une couche corrective légère, circonscrit l'espace d'exploration plutôt que de le réouvrir entièrement. Le gain de 43% sur objets non vus suggère une généralisation réelle plutôt qu'un surapprentissage des démonstrations, ce qui distingue ce travail des pipelines d'imitation learning classiques. Pour un intégrateur ou un décideur B2B, cela valide une trajectoire concrète: spécialiser un VLA généraliste pour une tâche dextre sans repartir d'un entraînement complet. Les VLA ont connu une accélération notable depuis Pi-0 de Physical Intelligence, OpenVLA (Berkeley) ou RoboVLMs (Google DeepMind), mais la manipulation fine multi-doigts reste leur point faible documenté. BORA s'inscrit dans un mouvement offline-to-online concurrent d'approches comme RLPD ou Cal-QL, qui cherchent à rendre le RL online moins destructif pour les politiques pré-apprises. Aucun partenaire industriel ni calendrier de déploiement n'est mentionné dans la publication; il s'agit pour l'instant d'un résultat de recherche sans annonce de commercialisation. La dépendance au HiL en phase online reste par ailleurs une limite pratique non résolue pour un passage à l'échelle industrielle.

RechercheOpinion
1 source
ActivePusher : apprentissage actif et planification par physique résiduelle pour la manipulation non-préhensile
2arXiv cs.RO 

ActivePusher : apprentissage actif et planification par physique résiduelle pour la manipulation non-préhensile

Une équipe de recherche du laboratoire elpis-lab a publié sur arXiv en juin 2025 (identifiant 2506.04646, désormais à sa quatrième révision) un framework baptisé ActivePusher, dédié à la manipulation non-préhensile, c'est-à-dire le déplacement d'objets par poussée ou roulement, sans saisie. L'approche combine deux blocs techniques : un modèle de dynamique par physique résiduelle, qui superpose un correctif appris par réseau de neurones à un modèle physique analytique de base, et un mécanisme d'apprentissage actif guidé par l'incertitude, qui oriente automatiquement la collecte de données vers les paramètres de compétence les moins bien couverts. Le framework s'intègre avec des planificateurs kinodynamiques à base de modèle, en pondérant l'échantillonnage de commandes selon les zones de faible incertitude du modèle appris. Les auteurs valident l'approche en simulation et sur robot réel, avec des taux de succès de planification supérieurs aux méthodes de référence, à volume de données d'entraînement égal. L'enjeu est significatif pour les intégrateurs et équipes R&D travaillant sur la manipulation en environnement non structuré. La manipulation non-préhensile reste un goulot d'étranglement dans de nombreuses lignes d'assemblage et de tri, précisément parce que les modèles analytiques (friction, contact multipoint) sont difficiles à calibrer et fragiles face aux variations de surface ou de géométrie. ActivePusher attaque ce problème sous deux angles simultanément : réduire le coût de collecte de données en évitant les interactions aléatoires peu informatives, et rendre la planification longue-portée plus fiable en évitant les régions d'incertitude élevée. C'est une réponse directe au "sim-to-real gap" structurel qui plombe les déploiements industriels de bras manipulateurs sur tâches de contact. La manipulation non-préhensile est un axe de recherche actif depuis les travaux fondateurs sur la mécanique du contact des années 1990, mais les approches purement analytiques ont montré leurs limites face à la variabilité du monde réel. Des frameworks comme MPPI (Model Predictive Path Integral) ou les planificateurs kinodynamiques basés sur des modèles appris (travaux de Karol Hausman, Pieter Abbeel) forment le paysage concurrent direct. ActivePusher se distingue par le couplage explicite entre acquisition active et planification, là où la plupart des approches traitent ces deux problèmes séparément. Le code source est disponible publiquement sur GitHub (elpis-lab/ActivePusher), ce qui devrait favoriser la reproductibilité. Aucun partenaire industriel ni timeline de transfert n'est mentionné : il s'agit d'une contribution académique, sans déploiement annoncé à ce stade.

RecherchePaper
1 source
Apprentissage par renforcement conditionné par objectif et informé par la physique sous dynamique de contact hybride
3arXiv cs.RO 

Apprentissage par renforcement conditionné par objectif et informé par la physique sous dynamique de contact hybride

Des chercheurs ont publié sur arXiv (réf. 2605.30503) une analyse critique des méthodes de GCRL physico-informé (Pi-GCRL) appliquées à la manipulation robotique en contact, accompagnée de deux nouvelles formulations architecturales pour corriger leurs limites. Le GCRL (goal-conditioned reinforcement learning) vise à entraîner des agents capables d'atteindre des objectifs arbitraires à partir d'un signal de récompense rare, en apprenant une notion générale d'accessibilité dans l'espace état-but. Les approches Pi-GCRL enrichissent cette idée en injectant des biais inductifs issus de la commande optimale dans l'apprentissage de la fonction de valeur. L'article montre que, dès lors que les dynamiques deviennent hybrides, c'est-à-dire discontinues lors de transitions de contact, ces biais, appliqués naïvement, dégradent la performance : les paysages de valeur deviennent non-lisses, la contrôlabilité dépend du mode de contact actif, et les hypothèses de régularité sous-jacentes aux méthodes Pi-GCRL ne tiennent plus. L'enjeu est structurel pour la robotique de manipulation industrielle. La quasi-totalité des tâches réelles, assemblage, insertion, saisie d'objets déformables, impliquent des contacts intermittents qui créent précisément ces dynamiques hybrides. Jusqu'ici, Pi-GCRL avait démontré sa robustesse sur la navigation et le goal-reaching sans contact, mais son extension aux tâches de manipulation restait une question ouverte. Ce travail répond en quantifiant rigoureusement l'échec et en proposant deux correctifs : une formulation contact-aware qui adapte les biais inductifs au mode de contact détecté, et une formulation hiérarchique qui décompose le problème de manipulation en sous-problèmes à dynamiques plus régulières. Ces contributions ouvrent une voie méthodologique précise, distincte des approches VLA (vision-language-action) et sim-to-real classiques qui dominent actuellement les annonces industrielles. Le contexte est celui d'une compétition intense dans l'apprentissage pour la manipulation : DeepMind avec RoboCAT, Physical Intelligence avec pi0, Google avec RT-X, et des dizaines de labos universitaires cherchent à franchir le fossé démo-vers-réalité. Pi-GCRL représente une ligne de recherche distincte, héritée des travaux en commande optimale et en GCRL (Andrychowicz, Plappert et al., 2017 et suivants), qui mise sur la structure mathématique du problème plutôt que sur la puissance brute des données. Ce preprint est une contribution académique sans déploiement annoncé ni partenaire industriel identifié ; les suites probables sont des benchmarks sur des environnements contact-rich standardisés (MuJoCo, IsaacGym) et une éventuelle extension aux robots à plusieurs points de contact.

RecherchePaper
1 source
Apprendre aux robots à interpréter les interactions sociales via l'apprentissage sur graphes dynamiques guidé par le lexique
4arXiv cs.RO 

Apprendre aux robots à interpréter les interactions sociales via l'apprentissage sur graphes dynamiques guidé par le lexique

Une équipe de chercheurs publie SocialLDG (Social Lexically-guided Dynamic Graph learning), un cadre d'apprentissage multi-tâches destiné à doter les robots d'intelligence sociale. Déposé sur arXiv (2604.10895v2), le travail vise un problème central de l'interaction humain-robot : inférer les états internes d'un utilisateur (émotions, intentions, états cognitifs non directement observables), prédire ses comportements futurs et y répondre de façon adaptée. Le cadre modélise six tâches distinctes représentant la relation dynamique entre états latents et actions observables, en intégrant un modèle de langage pour introduire des priors lexicaux par tâche, et un apprentissage par graphe dynamique pour suivre l'évolution temporelle des affinités entre tâches. Les auteurs rapportent des performances état de l'art sur deux jeux de données publics d'interaction sociale humain-robot, sans que le résumé disponible précise les benchmarks ni les marges de gain exactes. L'apport le plus concret pour les équipes de R&D en robotique sociale est la résistance au catastrophic forgetting : SocialLDG intègre de nouvelles tâches comportementales sans dégrader les capacités acquises, une propriété critique pour des déploiements réels où l'étendue des interactions croît progressivement. L'usage de priors linguistiques pour structurer le raisonnement sur graphe est également original : il permet d'exploiter la sémantique du langage naturel comme contrainte sur la modélisation sociale du robot, ouvrant la voie à une adaptation sans réentraînement complet. La lisibilité des affinités entre tâches offre en outre un levier d'interprétabilité utile pour le debug et la validation industrielle. La compréhension sociale en robotique est un chantier actif de longue date, avec des contributions notables de CMU, du MIT, et des travaux sur OpenFace ou EMOTIC. SocialLDG se distingue des approches actuelles qui traitent séparément reconnaissance d'émotion, détection d'intention et prédiction de geste, en proposant un cadre unifié inspiré des sciences cognitives. Les travaux récents sur les vision-language agents et les VLA adressent partiellement ce champ, mais restent centrés sur la manipulation physique plutôt que sur la dynamique socio-cognitive. En tant que prépublication non encore évaluée par les pairs, les performances annoncées restent à confirmer indépendamment avant toute intégration.

RecherchePaper
1 source