Dynamiques apprises, non dictées : découverte semi-supervisée des géométries latentes pour l'adaptation zéro-shot
Une équipe de chercheurs a publié le 2 juin 2026 le preprint arXiv:2606.02280, proposant une nouvelle méthode d'adaptation zéro-shot pour les politiques de contrôle en robotique. L'enjeu est concret : lorsque les conditions physiques d'un robot changent en déploiement (friction, masse, jeu mécanique, perturbations non modélisées), les politiques entraînées en simulation s'effondrent. Les approches dominantes encodent un vecteur de paramètres physiques explicitement identifiés dans un contexte latent. Les auteurs abandonnent ce paradigme centré sur les paramètres au profit d'une approche centrée sur les résultats : plutôt que de communiquer à la politique ce que sont les dynamiques, ils lui permettent d'apprendre comment ces dynamiques affectent les trajectoires d'interaction. Techniquement, la méthode s'appuie sur une relation monotone démontrée entre le regret dans le domaine cible et la constante de Lipschitz d'un encodeur de trajectoires. Cette constante est majorée en pratique par apprentissage contrastif, produisant une topologie latente lisse et pertinente pour la tâche, sans information privilégiée sur les dynamiques. Les résultats sur les benchmarks MuJoCo montrent une supériorité constante sur les baselines paramétriques sous des changements de dynamiques sévères, y compris des paramètres non modélisés et time-varying.
L'apport industriel porte sur la robustesse hors distribution. Un des verrous majeurs du déploiement de politiques apprises en simulation est précisément l'impossibilité d'énumérer à l'avance toutes les variations physiques rencontrées sur le terrain. La méthode ne nécessite pas de spécifier les axes de variation a priori, ce qui la rend adaptable à des environnements industriels où les perturbations sont composites ou inconnues. La démonstration d'une topologie latente interprétable ajoute un argument pour les équipes d'intégration qui cherchent à diagnostiquer les défaillances d'adaptation. Cela dit, les expériences restent confinées à MuJoCo : l'écart sim-to-real sur du matériel physique n'est pas adressé dans ce papier.
Ce travail s'inscrit dans un champ de recherche actif depuis la démocratisation des simulateurs physiques rapides. Les approches concurrentes incluent la randomisation de domaine (Domain Randomization), l'identification de système en ligne (e.g., RMA de Kumar et al.), et les méthodes meta-RL (MAML, PEARL). La distinction clé revendiquée ici est l'absence de supervision sur les paramètres physiques pendant l'entraînement du contexte latent. Aucun partenaire industriel ni calendrier de transfert matériel ne sont mentionnés dans le preprint ; l'étape suivante naturelle serait une validation sur robots réels en présence de perturbations non identifiées.
Applicable aux laboratoires de recherche européens travaillant sur le transfert sim-to-real, mais aucun partenariat ni institution FR/UE n'est mentionné dans le preprint.
Dans nos dossiers




