RecherchearXiv cs.RO 2 juin 2026

Dynamiques apprises, non dictées : découverte semi-supervisée des géométries latentes pour l'adaptation zéro-shot

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié le 2 juin 2026 le preprint arXiv:2606.02280, proposant une nouvelle méthode d'adaptation zéro-shot pour les politiques de contrôle en robotique. L'enjeu est concret : lorsque les conditions physiques d'un robot changent en déploiement (friction, masse, jeu mécanique, perturbations non modélisées), les politiques entraînées en simulation s'effondrent. Les approches dominantes encodent un vecteur de paramètres physiques explicitement identifiés dans un contexte latent. Les auteurs abandonnent ce paradigme centré sur les paramètres au profit d'une approche centrée sur les résultats : plutôt que de communiquer à la politique ce que sont les dynamiques, ils lui permettent d'apprendre comment ces dynamiques affectent les trajectoires d'interaction. Techniquement, la méthode s'appuie sur une relation monotone démontrée entre le regret dans le domaine cible et la constante de Lipschitz d'un encodeur de trajectoires. Cette constante est majorée en pratique par apprentissage contrastif, produisant une topologie latente lisse et pertinente pour la tâche, sans information privilégiée sur les dynamiques. Les résultats sur les benchmarks MuJoCo montrent une supériorité constante sur les baselines paramétriques sous des changements de dynamiques sévères, y compris des paramètres non modélisés et time-varying.

L'apport industriel porte sur la robustesse hors distribution. Un des verrous majeurs du déploiement de politiques apprises en simulation est précisément l'impossibilité d'énumérer à l'avance toutes les variations physiques rencontrées sur le terrain. La méthode ne nécessite pas de spécifier les axes de variation a priori, ce qui la rend adaptable à des environnements industriels où les perturbations sont composites ou inconnues. La démonstration d'une topologie latente interprétable ajoute un argument pour les équipes d'intégration qui cherchent à diagnostiquer les défaillances d'adaptation. Cela dit, les expériences restent confinées à MuJoCo : l'écart sim-to-real sur du matériel physique n'est pas adressé dans ce papier.

Ce travail s'inscrit dans un champ de recherche actif depuis la démocratisation des simulateurs physiques rapides. Les approches concurrentes incluent la randomisation de domaine (Domain Randomization), l'identification de système en ligne (e.g., RMA de Kumar et al.), et les méthodes meta-RL (MAML, PEARL). La distinction clé revendiquée ici est l'absence de supervision sur les paramètres physiques pendant l'entraînement du contexte latent. Aucun partenaire industriel ni calendrier de transfert matériel ne sont mentionnés dans le preprint ; l'étape suivante naturelle serait une validation sur robots réels en présence de perturbations non identifiées.

Impact France/UE

Applicable aux laboratoires de recherche européens travaillant sur le transfert sim-to-real, mais aucun partenariat ni institution FR/UE n'est mentionné dans le preprint.

Dans nos dossiers

arXiv cs.RO

À lire aussi

1arXiv cs.RO

SkillPlug : extraction non supervisée de compétences pour l'adaptation en few-shot dans la manipulation robotique

Une équipe de recherche publie sur arXiv (arXiv:2607.08354v1, soumission nouvelle) SkillPlug, un framework destiné à l'apprentissage par imitation visuomotrice en robotique de manipulation. Le système se présente comme un module "plug-in" qui vient s'ajouter à une politique visuomotrice existante : il ajoute un module de conditionnement par compétences ("skill-conditioning") et extrait, à partir de démonstrations multi-tâches brutes et sans supervision, une bibliothèque de compétences partagée et réutilisable. L'extraction repose sur des objectifs auto-supervisés conçus pour produire des primitives comportementales compactes, non redondantes et transférables d'une tâche à l'autre. Une fois cette bibliothèque figée, l'adaptation à une nouvelle tâche ne nécessite plus qu'un réentraînement léger : seuls un routeur et une tête d'action sont ajustés, sans réentraînement complet de bout en bout. Les auteurs rapportent des tests sur deux bancs d'essai en simulation et sur un robot réel, avec une amélioration observée à la fois en performance multi-tâches et en adaptation à partir de peu de démonstrations (few-shot). L'abstract ne fournit toutefois aucun chiffre précis de gain de taux de réussite ni détail sur les bancs de test utilisés, ce qui limite la portée vérifiable des résultats à ce stade. L'enjeu pratique visé est réel pour les intégrateurs robotiques : la plupart des politiques actuelles sont entraînées de bout en bout et n'offrent aucune structure explicite pour réutiliser des comportements déjà appris, ce qui rend le transfert vers de nouvelles tâches coûteux en données. En figeant une bibliothèque de compétences et en ne réentraînant qu'un routeur léger, SkillPlug promet une adaptation à moindre coût de calcul et de données, un point sensible pour tout déploiement industriel où recollecter des centaines de démonstrations par nouvelle tâche n'est pas viable économiquement. Ce travail s'inscrit dans un courant de recherche plus large qui cherche à réintroduire une structure compositionnelle (bibliothèques de compétences, primitives réutilisables) dans des politiques d'apprentissage par imitation de plus en plus dominées par des modèles monolithiques de type VLA (vision-language-action). Il s'agit ici d'une publication de recherche académique, sans acteur industriel ni produit commercial associé, et sans mention de comparaison directe avec des systèmes VLA à grande échelle déployés dans l'industrie. Les prochaines étapes attendues seraient une évaluation à plus grande échelle et une comparaison chiffrée face aux approches de politique de bout en bout dominantes.

RecherchePaper

1 source

2arXiv cs.RO

FADA : adaptation de domaine few-shot par alignement des dynamiques pour le contrôle humanoïde

Des chercheurs du LECAR Lab (Learning, Computing and Autonomous Robots) ont publié le 30 juin 2026 sur arXiv (référence 2506.28476) un préprint décrivant FADA, un cadre d'adaptation en quelques exemples pour le contrôle de robots humanoïdes. L'architecture, baptisée Planner-IDM (Planner–Inverse Dynamics Model), fonctionne en trois étapes : entraînement d'une politique oracle avec accès à des informations privilégiées (état complet du simulateur), distillation de ce comportement dans un modèle étudiant déployable via DAgger, puis fine-tuning ciblé du seul module IDM à partir d'environ deux minutes de données collectées dans l'environnement réel. La supervision ne requiert ni démonstrations expertes ni signal de récompense : uniquement les paires (actions, observations) enregistrées lors de ces brefs rollouts. Les expériences montrent que FADA surpasse les baselines d'adaptation in-context et d'adaptation end-to-end sur des tâches whole-body à haute précision exécutées sur robot physique. L'enjeu pratique est réel : le "dynamics mismatch", écart entre les dynamiques simulées et celles du domaine cible dues aux variations de terrain, de charge utile ou de réponse actionneur, reste l'un des principaux freins au déploiement industriel des humanoïdes. Les approches actuelles forcent un compromis inconfortable entre la randomisation de domaine (zero-shot, mais sous-spécialisée) et le recalibrage complet du modèle ou le ré-entraînement de politique (précis, mais coûteux en données et en temps). Deux minutes de rollouts pour aligner un IDM représentent un point d'équilibre opérationnellement crédible pour des intégrateurs qui ne peuvent pas interrompre une ligne de production plusieurs heures. Cela dit, les vidéos hardware présentées sur le site du projet sont sélectionnées par les auteurs ; aucune évaluation statistique robuste sur variété de terrains ou charges n'est encore disponible dans ce préprint non relu par les pairs. Le sim-to-real gap est un problème structurel que l'ensemble de l'écosystème humanoïde, Figure (02/03), Tesla Optimus, Boston Dynamics Atlas, Physical Intelligence (pi-zero), tente de résoudre, principalement par randomisation massive en simulation ou par apprentissage en contexte (in-context RL). FADA s'inscrit dans une troisième voie, plus proche des travaux sur l'adaptation rapide de politiques (MAML, RMA) mais appliquée à l'architecture Planner-IDM. Le LECAR Lab, affilié à l'Université de Californie San Diego, capitalise ici sur des travaux antérieurs en locomotion et manipulation whole-body. Prochaine étape attendue : validation sur une plus large variété de dynamiques et de morphologies robotiques, ainsi qu'une soumission à conférence (ICRA ou CoRL) pour passer le filtre de la revue par les pairs.

RecherchePaper

1 source

3arXiv cs.RO

Latents de mouvement sensibles à la géométrie pour des politiques de manipulation robustes

Ils entraînent GeoMoLa (Geometry-Aware Motion Latents) en prédisant l'évolution de nuages de points plutôt qu'en reconstruisant des images, pour capturer les transformations géométriques 3D sous-jacentes aux gestes de manipulation. Contrairement aux approches existantes qui nécessitent une reconstruction multi-vues, GeoMoLa atteint des performances état de l'art avec une seule caméra RGB-D en entrée. Les auteurs valident la méthode sur plusieurs bancs d'essai de manipulation robotique standards, ainsi que sur des expériences en conditions réelles, où le système parvient à manipuler des objets dans des environnements encombrés avec un nombre minimal de démonstrations. Leurs études d'ablation confirment que c'est la prédiction géométrique, et non la richesse visuelle, qui pilote la performance du modèle. Ce résultat pèse sur un débat central de la robotique manipulative actuelle: faut-il apprendre le mouvement à partir de motifs visuels (pixels, textures, apparence) ou à partir de la géométrie sous-jacente de la scène (formes, profondeur, déplacement des points dans l'espace)? En montrant que des latents entraînés sur la géométrie 4D (espace + temps) généralisent à des scènes visuellement inédites tout en produisant des transformations physiquement cohérentes, l'étude apporte un argument empirique en faveur d'une abstraction du mouvement indépendante de l'apparence. Pour les équipes qui développent des politiques de manipulation type VLA (vision-language-action) destinées à des bras robotiques ou des humanoïdes, cela suggère une voie pour réduire la dépendance à des configurations multi-caméras coûteuses, tout en gagnant en robustesse face au bruit visuel et au clutter, un problème récurrent des déploiements industriels réels. Cette recherche s'inscrit dans la lignée des travaux sur les représentations latentes discrètes pour le contrôle robotique, où plusieurs équipes académiques cherchent depuis quelques années à dépasser les limites des politiques purement pixel-to-action, jugées fragiles hors distribution. L'approche par nuages de points 4D rejoint des efforts plus larges en robotique combinant perception 3D (depth, LiDAR, RGB-D) et apprentissage de politiques, un axe également exploré par des laboratoires travaillant sur les modèles VLA généralistes comme Pi-0 ou GR00T N2. Le papier, publié sur arXiv début juillet 2026, ne précise pas de partenariat industriel ni de déploiement commercial: il s'agit à ce stade d'une contribution de recherche fondamentale, dont la prochaine étape naturelle serait une validation à plus grande échelle sur des plateformes robotiques commerciales.

RecherchePaper

1 source

4arXiv cs.RO

Apprentissage de dynamiques neuronales ODE adaptées au contexte pour le contrôle robotique adaptatif

Des chercheurs ont proposé un modèle de dynamique contextuel fondé sur les équations différentielles ordinaires neuronales (Neural ODE) pour améliorer le contrôle de robots opérant dans des environnements incertains et variables. Le travail, déposé en juin 2026 sur arXiv (référence 2606.15469), cible les perturbations que les contrôleurs classiques peinent à absorber: variations des conditions de contact, effets aérodynamiques et perturbations externes imprévues. La méthode repose sur une procédure d'entraînement en deux phases: le modèle inspecte l'historique des états et des actions du robot pour inférer les facteurs environnementaux courants, sans capteurs dédiés supplémentaires. La compatibilité avec le MPC (Model Predictive Control) est intégrée dès la conception. Les validations portent sur trois plateformes distinctes: un drone quadrirotor en simulation, un robot sphérique Sphero BOLT et un bras manipulateur industriel Fanuc, ces deux derniers testés en conditions réelles. L'enjeu central est la dérive de modèle lors du déploiement: un robot calibré en laboratoire voit ses performances se dégrader dès que l'environnement change, que ce soit un sol différent, une charge variable ou des turbulences. Par rapport aux approches récurrentes classiques (LSTM, GRU), les Neural ODE présentent un avantage structurel: elles modélisent la dynamique en temps continu, ce qui améliore la cohérence physique et simplifie l'interface avec les solveurs MPC. L'inférence du contexte depuis le seul historique actions-états, sans instrumentation additionnelle, réduit la barrière d'intégration pour les industriels. Le test sur un Fanuc, bras omniprésent en production manufacturière, ancre les résultats dans une réalité opérationnelle tangible. Point de réserve: l'article est un preprint et l'abstract ne publie aucune métrique chiffrée de performance, ce qui rend l'évaluation indépendante difficile à ce stade. Les Neural ODE ont été introduites en 2018 par Chen et al. (NeurIPS) comme alternative aux réseaux récurrents pour modéliser des systèmes dynamiques continus. Leur application au contrôle robotique adaptatif répond à un obstacle persistant du secteur: le sim-to-real gap, qui fragilise la fiabilité des systèmes autonomes hors conditions contrôlées. Les approches concurrentes comprennent les processus gaussiens (GP) pour l'adaptation en ligne, les algorithmes méta-apprenants (MAML, PEARL) et l'identification de systèmes en temps réel. Ce travail se distingue par l'inférence contextuelle implicite, couplée nativement au MPC plutôt qu'ajoutée en couche. Le code source est ouvert sur GitHub et des démonstrations vidéo sont accessibles. La prochaine étape logique serait une validation sur des tâches de manipulation à charge variable ou un déploiement en environnement industriel non contrôlé.

RecherchePaper

1 source