Aller au contenu principal
RecherchearXiv cs.RO1h

Dynamique différentiable de corps rigides en batch sur GPU avec PyTorch pour l'apprentissage robotique

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs publie BARD (Batched Articulated Rigid-body Dynamics), une implémentation PyTorch des algorithmes de dynamique corps rigides de Featherstone, conçue pour l'évaluation GPU en batch et la différentiation automatique. Sur cinq modèles de robots allant de 7 à 23 degrés de liberté, BARD atteint un débit jusqu'à 64 fois supérieur à Pinocchio pour la cinématique directe et 63 fois supérieur pour les jacobiens, à une taille de batch de 4096 sur un NVIDIA H200. La bibliothèque repose sur trois choix d'architecture : un cache à évaluation paresseuse par niveaux qui évite les traversées redondantes de l'arbre cinématique, des transformées de joints sans multiplication matricielle grâce à des constantes de Rodrigues précalculées, et une propagation parallèle par niveaux qui ramène les opérations séquentielles à des étapes batchées proportionnelles à la profondeur de l'arbre. La précision numérique est validée par identification de système sur un manipulateur 7-DOF, avec une erreur moyenne de 1,24 % sur les masses des segments sous 5 % de bruit sur les couples. Intégré dans le pipeline d'entraînement Isaac Lab AMP pour un quadrupède à colonne vertébrale de 11 DOF avec 4096 environnements parallèles, BARD est 8,5 fois plus rapide que Pinocchio et 2 fois plus rapide qu'ADAM pour le calcul de dynamique en boucle d'entraînement. Le code est disponible en open source sur GitHub.

L'enjeu est structurel : à mesure que le contrôle robotique migre vers le reinforcement learning à grande échelle avec calcul de dynamique en boucle (in-loop), les librairies CPU comme Pinocchio deviennent un goulot d'étranglement dans les pipelines GPU. BARD élimine ce découplage CPU/GPU sans sacrifier la précision ni la différentiabilité, deux propriétés critiques pour l'optimisation par gradient. Pour les équipes qui entraînent des politiques de locomotion ou de manipulation sur des milliers d'environnements parallèles, ce gain de débit se traduit directement en temps de calcul réduit et en capacité à itérer plus vite sur l'architecture des récompenses et des politiques.

Pinocchio reste la référence académique et industrielle pour la dynamique articulée depuis plus de dix ans, mais son architecture CPU-first n'a pas été pensée pour les pipelines d'apprentissage modernes sur GPU. ADAM, autre alternative GPU, est ici surpassé d'un facteur 2 en contexte in-loop. BARD se positionne donc entre les simulateurs physiques complets comme Isaac Sim ou MuJoCo MJX et les librairies de dynamique symbolique, en ciblant explicitement l'usage comme composant différentiable dans une boucle d'entraînement. L'article est une prépublication arXiv (2605.31481), non encore soumise à révision par les pairs, et les benchmarks présentés portent sur des scénarios contrôlés : des tests en conditions de déploiement réel, notamment sur des robots industriels ou des plateformes commerciales, restent à venir.

Impact France/UE

BARD surpasse directement Pinocchio, bibliothèque de dynamique articulée développée et maintenue par LAAS-CNRS et INRIA, ce qui constitue un signal fort pour les équipes de recherche robotique françaises qui l'utilisent comme référence dans leurs pipelines d'apprentissage par renforcement.

À lire aussi

Modèles de diffusion séquentiels pour l'apprentissage méta en contexte de la dynamique des robots
1arXiv cs.RO 

Modèles de diffusion séquentiels pour l'apprentissage méta en contexte de la dynamique des robots

Des chercheurs ont publié sur arXiv (réf. 2604.13366) une étude comparative portant sur l'identification de systèmes robotiques par méta-apprentissage en contexte, en opposant des modèles de séquences déterministes à des approches génératives basées sur la diffusion. L'équipe reformule le problème classique de l'identification de dynamiques robotiques comme une tâche de méta-apprentissage in-context : le modèle observe une séquence de paires (commande, observation) pour inférer les paramètres dynamiques d'un robot sans re-entraînement. Deux architectures de diffusion sont introduites et évaluées face à une baseline Transformer déterministe : une diffusion par inpainting (inspirée de Diffuser), qui apprend la distribution jointe entrée-observation, et des modèles de diffusion conditionnés sur les entrées de contrôle, déclinés en versions CNN et Transformer. Les expériences sont menées à grande échelle dans des simulations randomisées couvrant des régimes en distribution et hors distribution. Ces résultats sont significatifs pour la commande basée sur modèle (model-based control), qui exige des prédictions de dynamique précises et robustes. L'étude montre que les modèles de diffusion surpassent nettement la baseline déterministe lorsque les conditions d'exécution s'écartent de la distribution d'entraînement, un scénario courant dans les déploiements industriels réels où les robots rencontrent des charges utiles variables, des surfaces inattendues ou de l'usure mécanique. La diffusion par inpainting obtient les meilleures performances globales. Un résultat clé concerne la contrainte temps réel : grâce à un échantillonnage à démarrage chaud (warm-started sampling), les modèles de diffusion parviennent à opérer dans les fenêtres temporelles exigées par les boucles de contrôle, levant ainsi un obstacle majeur à leur adoption pratique. Ce travail s'inscrit dans un courant de recherche actif qui cherche à combiner les capacités génératives des modèles de diffusion avec les exigences de robustesse et de latence du contrôle robotique. La diffusion appliquée à la planification de trajectoires et à la prédiction de dynamiques a émergé avec des travaux comme Diffuser (Janner et al., 2022) et se confronte ici à un scénario de méta-apprentissage, plus réaliste pour des robots déployés dans des environnements variables. Les concurrents directs incluent les approches probabilistes bayésiennes et les réseaux neuronaux récurrents pour l'identification en ligne. La prochaine étape naturelle sera une validation sur hardware réel, notamment pour confirmer que les gains hors distribution observés en simulation résistent au sim-to-real gap.

RecherchePaper
1 source
2arXiv cs.RO 

Politique de contrainte de surface pour l'apprentissage de compétences robotiques contraintes et dynamiquement réalisables

Des chercheurs ont déposé en mai 2026 sur arXiv (identifiant 2605.31321) un article présentant la Surface Constraint Policy (SCP), une méthode destinée à améliorer la fiabilité des robots dans des tâches de manipulation dextre impliquant des contraintes de surface complexes et de forme libre. L'approche encode la géométrie de surface à partir de démonstrations humaines via une fonction noyau gaussien pondérée en deux dimensions. Sur cette base, une politique de diffusion infère des intentions d'action à partir d'entrées multimodales (observations visuelles et retour d'état du robot), qui sont ensuite transformées en primitives de mouvement dynamique contraintes à la surface (DMPs, Dynamic Movement Primitives) via une méthode de mapping par similarité. Ce pipeline produit des trajectoires à la fois géométriquement admissibles et dynamiquement réalisables. Les auteurs font état de taux de succès et d'une stabilité de contact supérieurs aux méthodes comparées, sans que le résumé ne détaille les métriques précises ni les benchmarks utilisés. Ce travail pointe un angle mort persistant des approches actuelles d'apprentissage par imitation à base de diffusion : les politiques classiques génèrent des actions de manière stochastique, sans modéliser explicitement la géométrie de la surface de contact. En pratique, cela se traduit par des glissements, des décrochages ou des trajectoires physiquement inadmissibles, problèmes rédhibitoires pour des applications industrielles comme le polissage, l'assemblage surfacique ou le soudage. L'originalité de SCP tient à l'intégration des contraintes géométriques dès la génération d'action, couplée à des DMPs qui garantissent la faisabilité dynamique. Pour les intégrateurs et les équipes R&D, cette approche représente un pas concret vers la répétabilité requise en production, là où la stabilité du contact prime sur la généralisation toutes-tâches. Ce travail s'inscrit dans une vague de recherche intense autour des politiques de diffusion pour la manipulation robotique, initiée par Diffusion Policy (Chi et al., 2023, Columbia University) et accélérée par des acteurs comme Physical Intelligence avec pi0, Google DeepMind avec RT-2, ou encore ACT de Stanford. Les primitives de mouvement dynamique mobilisées ici sont un outil classique de la robotique depuis les travaux de Schaal dans les années 2000, mais leur couplage avec un pipeline de diffusion moderne pour gérer des contraintes surfaciques constitue l'apport original de la méthode. Les limitations pointées par les auteurs sont partagées par la plupart des architectures VLA actuelles, ce qui signale un axe de recherche pertinent pour quiconque vise le déploiement industriel. Les prochaines étapes naturelles incluraient une validation sur des surfaces déformables ou en mouvement, ainsi qu'un test de passage à l'échelle avec une plus grande diversité de tâches et de morphologies robotiques.

RecherchePaper
1 source
Revue complète des modèles du monde pour l'apprentissage robotique
3arXiv cs.RO 

Revue complète des modèles du monde pour l'apprentissage robotique

Un groupe de chercheurs a publié début mai 2026 une revue systématique sur les modèles de monde appliqués à l'apprentissage robotique (arXiv:2605.00080). Ces modèles sont des représentations prédictives qui modélisent l'évolution d'un environnement en réponse aux actions d'un agent. Utilisés dans six fonctions distinctes, policy learning, planification, simulation, évaluation, génération de données et entraînement à l'échelle fondation, ils sont devenus un composant central des architectures robotiques modernes. Le survey couvre les grandes familles d'architectures, leurs rôles fonctionnels et leurs applications dans l'embodied AI, en s'étendant à la navigation mobile et à la conduite autonome. Les auteurs inventorient également les benchmarks et protocoles d'évaluation disponibles dans le domaine, et maintiennent un dépôt GitHub mis à jour en continu pour intégrer les travaux émergents. L'intérêt de cette synthèse réside dans la fragmentation actuelle du domaine : les architectures de modèles de monde se développent en silos, reinforcement learning, génération vidéo, VLA (Vision-Language-Action models), avec peu de recoupement méthodologique. Le survey clarifie comment ces modèles s'articulent avec les politiques robotiques, comment ils servent de simulateurs appris pour le RL, et comment les modèles de monde vidéo ont évolué de la génération par imagination vers des formulations contrôlables à l'échelle fondation. Pour les équipes R&D et les intégrateurs industriels, cette cartographie facilite le choix architectural et réduit le risque de duplication des efforts. L'accélération récente du domaine est en partie portée par la montée en puissance des foundation models et de la génération vidéo large-scale depuis 2023. Les modèles de monde en robotique s'enracinent dans les travaux de Schmidhuber dans les années 1990 et ont connu un regain majeur avec DreamerV3 (Google DeepMind, 2023), UniSim, et les VLA récents intégrant une prédiction d'état futur comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Les acteurs dominants restent américains et chinois, DeepMind, NVIDIA, Physical Intelligence, Figure AI, avec des contributions académiques majeures de Stanford, MIT et Berkeley. En Europe, les contributions restent moins visibles à l'échelle internationale, bien que des acteurs comme Pollen Robotics (France) et l'INRIA travaillent sur des approches connexes. Le principal défi identifié est de combler le sim-to-real gap via des modèles suffisamment fidèles pour substituer partiellement les environnements physiques dans la boucle d'entraînement.

UEPollen Robotics et l'INRIA sont mentionnés comme acteurs connexes mais restent en retrait international ; cette cartographie peut aider les équipes européennes à identifier les lacunes à combler face à la domination américaine et chinoise.

RecherchePaper
1 source
Accessibilité différentiable parallèle pour l'apprentissage et la planification avec dynamiques neuronales et contrôleurs certifiés
4arXiv cs.RO 

Accessibilité différentiable parallèle pour l'apprentissage et la planification avec dynamiques neuronales et contrôleurs certifiés

Une équipe de recherche a publié en mai 2026 (arXiv:2605.25346) un cadre de vérification formelle parallélisable et différentiable pour systèmes robotiques pilotés par réseaux de neurones (NN). Implémenté en JAX pour exploiter le calcul GPU-batché, le framework combine la construction de "flowpipes" par modèles de Taylor avec la propagation de bornes linéaires de type CROWN, une technique issue de la vérification des NN adversariaux. Le résultat est une représentation unifiée qui préserve les dépendances affines tout en supportant la différentiation automatique. Sur cette base, les auteurs proposent deux applications concrètes : une méthode d'entraînement certifié qui pousse les modèles NN à produire des dynamiques "reachability-friendly", et un schéma de commande prédictive (MPC) combinant échantillonnage et raffinement par gradient. Les expériences couvrent la manipulation non préhensile (objets poussés sans saisie) et des drones quadrotors, avec des évaluations hardware et des systèmes allant jusqu'à 72 dimensions d'état. Le problème central que ce travail adresse est le fossé entre performance des NN et garanties formelles de sécurité : les outils de "reachability" existants (NNV, Veritex, CROWN-reach) produisent des sur-approximations valides des ensembles atteignables, mais sont trop lents pour être intégrés dans une boucle d'apprentissage ou de planification en ligne, et rarement différentiables. Rendre ce calcul GPU-compatible et différentiable ouvre la voie à une co-optimisation contrôleur/garantie, ce qui change la logique de déploiement : au lieu de vérifier après entraînement (post-hoc, coûteux), on certifie pendant l'entraînement. Pour les intégrateurs industriels et les équipes robotique, c'est un pas vers des robots NN-pilotés qui satisfont des contraintes de sécurité hard sans sacrifier la performance apprise. La vérification formelle pour les NN en robotique est un axe de recherche actif depuis 2018, porté notamment par les travaux CROWN (Zhang et al.), qui ciblaient initialement la robustesse adversariale en vision. L'extension à la dynamique continue et aux boucles fermées reste un problème ouvert, avec des groupes concurrents chez MIT, CMU et DeepMind. Ce preprint positionne JAX comme plateforme centrale pour ce type de pipeline hybride apprentissage/vérification, une tendance émergente face à PyTorch. Les prochaines étapes probables incluent des tests sur manipulateurs industriels à plus haute dimensionnalité et l'intégration dans des frameworks MPC embarqués.

UELa certification embarquée dans la boucle d'entraînement s'aligne directement avec les exigences de vérifiabilité formelle de l'AI Act pour les systèmes IA à haut risque (dont les robots industriels et autonomes), réduisant le coût de mise en conformité pour les équipes R&D européennes.

RecherchePaper
1 source