Aller au contenu principal
RecherchearXiv cs.RO4h

Dynamiques apprises, non dictées : découverte semi-supervisée des géométries latentes pour l'adaptation zéro-shot

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié le 2 juin 2026 le preprint arXiv:2606.02280, proposant une nouvelle méthode d'adaptation zéro-shot pour les politiques de contrôle en robotique. L'enjeu est concret : lorsque les conditions physiques d'un robot changent en déploiement (friction, masse, jeu mécanique, perturbations non modélisées), les politiques entraînées en simulation s'effondrent. Les approches dominantes encodent un vecteur de paramètres physiques explicitement identifiés dans un contexte latent. Les auteurs abandonnent ce paradigme centré sur les paramètres au profit d'une approche centrée sur les résultats : plutôt que de communiquer à la politique ce que sont les dynamiques, ils lui permettent d'apprendre comment ces dynamiques affectent les trajectoires d'interaction. Techniquement, la méthode s'appuie sur une relation monotone démontrée entre le regret dans le domaine cible et la constante de Lipschitz d'un encodeur de trajectoires. Cette constante est majorée en pratique par apprentissage contrastif, produisant une topologie latente lisse et pertinente pour la tâche, sans information privilégiée sur les dynamiques. Les résultats sur les benchmarks MuJoCo montrent une supériorité constante sur les baselines paramétriques sous des changements de dynamiques sévères, y compris des paramètres non modélisés et time-varying.

L'apport industriel porte sur la robustesse hors distribution. Un des verrous majeurs du déploiement de politiques apprises en simulation est précisément l'impossibilité d'énumérer à l'avance toutes les variations physiques rencontrées sur le terrain. La méthode ne nécessite pas de spécifier les axes de variation a priori, ce qui la rend adaptable à des environnements industriels où les perturbations sont composites ou inconnues. La démonstration d'une topologie latente interprétable ajoute un argument pour les équipes d'intégration qui cherchent à diagnostiquer les défaillances d'adaptation. Cela dit, les expériences restent confinées à MuJoCo : l'écart sim-to-real sur du matériel physique n'est pas adressé dans ce papier.

Ce travail s'inscrit dans un champ de recherche actif depuis la démocratisation des simulateurs physiques rapides. Les approches concurrentes incluent la randomisation de domaine (Domain Randomization), l'identification de système en ligne (e.g., RMA de Kumar et al.), et les méthodes meta-RL (MAML, PEARL). La distinction clé revendiquée ici est l'absence de supervision sur les paramètres physiques pendant l'entraînement du contexte latent. Aucun partenaire industriel ni calendrier de transfert matériel ne sont mentionnés dans le preprint ; l'étape suivante naturelle serait une validation sur robots réels en présence de perturbations non identifiées.

Impact France/UE

Applicable aux laboratoires de recherche européens travaillant sur le transfert sim-to-real, mais aucun partenariat ni institution FR/UE n'est mentionné dans le preprint.

Dans nos dossiers

À lire aussi

De zéro à l'autonomie en temps réel : adaptation en ligne de la dynamique dans des environnements non structurés
1arXiv cs.RO 

De zéro à l'autonomie en temps réel : adaptation en ligne de la dynamique dans des environnements non structurés

Une équipe de chercheurs propose, dans un préprint arXiv (réf. 2509.12516 v2, septembre 2025), une méthode d'adaptation en ligne des dynamiques robotiques capable de passer de zéro connaissance préalable à un contrôle sûr en quelques secondes. L'algorithme combine des encodeurs de fonctions ("function encoders") avec les moindres carrés récursifs (RLS) : les coefficients de l'encodeur sont traités comme des états latents mis à jour en continu depuis l'odométrie du robot en streaming. L'estimation s'effectue en temps constant, sans boucle interne à base de gradients, ce qui la distingue structurellement des approches de méta-apprentissage. Les expériences portent sur trois configurations : un système de Van der Pol pour valider le comportement algorithmique, un simulateur Unity pour la navigation tout-terrain haute fidélité, et un robot Clearpath Jackal en conditions réelles, notamment sur la glace d'une patinoire locale. Dans toutes ces configurations, la méthode réduit le nombre de collisions par rapport aux baselines statiques et de méta-apprentissage. L'enjeu opérationnel est direct : les transitions abruptes de terrain, comme du bitume vers de la glace ou du gravier vers de la boue, déstabilisent les planificateurs de trajectoire si le modèle dynamique ne se met pas à jour assez vite. Là où des approches comme MAML nécessitent de nombreux pas de gradient pour converger vers un nouveau régime dynamique, ce système extrait une représentation exploitable à partir de quelques secondes de données odométriques. La validation sur glace physique, environnement à très faible coefficient de frottement, renforce la crédibilité de la démonstration au-delà du seul simulateur et constitue un argument sérieux contre le "dynamics gap" souvent reproché aux méthodes d'adaptation sim-to-real. Cette recherche s'inscrit dans un courant actif autour de l'adaptation rapide pour robots mobiles, en concurrence directe avec RMA (Rapid Motor Adaptation, ETH Zürich) pour les quadrupèdes et les travaux de Berkeley sur l'adaptation contextuelle via réseaux d'encodage. Le Clearpath Jackal, plateforme différentielle de référence dans la recherche académique, facilite la reproductibilité des résultats. L'article ne mentionne aucun déploiement industriel ni partenariat commercial, mais la complexité temporelle constante de l'algorithme le rend compatible avec des contraintes embarquées réelles. La prochaine étape logique serait une validation sur flottes AMR en environnement logistique ou sur des quadrupèdes exposés à des changements de surface similaires.

RecherchePaper
1 source
Apprentissage de compétences motrices transférables pour des tâches robotiques adaptées à la géométrie des surfaces
2arXiv cs.RO 

Apprentissage de compétences motrices transférables pour des tâches robotiques adaptées à la géométrie des surfaces

Des chercheurs ont déposé sur arXiv (référence 2605.24881) un cadre modulaire visant à améliorer la robotique de surface sur des tâches comme la peinture par pulvérisation ou le soudage. L'idée centrale : séparer la planification géométrique du chemin et l'exécution experte du mouvement, deux problèmes que les approches actuelles couplent trop étroitement. Le savoir-faire opérateur est formalisé comme un vocabulaire de règles motrices atomiques interprétables - scaling de vitesse, offsets d'orientation - appliquées en surcouche d'un chemin planifié classiquement. Un réseau de neurones multimodal apprend à inférer les paramètres de ces règles à partir de trajectoires cinématiques et de géométrie CAO. L'évaluation porte sur des objets en L et en forme de fenêtre en simulation dynamique, où le modèle extrait correctement les règles de vitesse et d'orientation sur les deux topologies. L'enjeu est direct pour les intégrateurs industriels : la peinture et le soudage robotisés restent des domaines où les opérateurs experts surpassent les robots sur la qualité de surface. Le principal apport de l'approche est la transferabilité géométrique - une limitation connue du learning from demonstration, où les modèles entraînés sur une pièce échouent généralement sur des géométries différentes. En découplant expertise et géométrie, le framework permet théoriquement d'appliquer des règles apprises sur une forme simple à des pièces variées sans réentraînement complet. La représentation interprétable par règles atomiques offre également un levier de validation pour les ingénieurs procédés, critère souvent déterminant en aéronautique et automobile où les certifications imposent une traçabilité des décisions système. Cette publication s'inscrit dans la lignée des travaux sur les primitives motrices (DMP, ProDMP) mais avec une couche d'inférence CAO explicite, une direction explorée aussi par des équipes à Berkeley, ETH Zurich et l'INRIA. À noter que l'évaluation reste entièrement en simulation - aucun résultat sur robot physique n'est présenté, ce qui limite les conclusions sur le transfert sim-to-real effectif. Les prochaines étapes naturelles seraient une validation sur bras 6-DOF (UR10, FANUC) et un test sur des surfaces courbées continues, bien plus représentatives des conditions industrielles réelles que les géométries à arêtes vives utilisées ici.

UELa recherche sur les primitives motrices transférables appliquées à la peinture et au soudage intéresse directement les intégrateurs robotiques européens (aéronautique, automobile), et l'INRIA travaille sur des directions similaires, mais l'absence totale de validation sur robot physique limite l'impact opérationnel immédiat.

RecherchePaper
1 source
CLUE : indices contextuels à priorité adaptative et carte sémantique unifiée pour la navigation zero-shot vers des objets cibles
3arXiv cs.RO 

CLUE : indices contextuels à priorité adaptative et carte sémantique unifiée pour la navigation zero-shot vers des objets cibles

Des chercheurs ont publié sur arXiv (référence 2605.19206) un framework de navigation baptisé CLUE, conçu pour résoudre le problème de la navigation vers des objets cibles sans entraînement préalable sur ces objets, un défi connu sous le nom de zero-shot object-goal navigation (ZSON). L'idée centrale : un agent robotique doit localiser un objet donné dans un environnement inconnu en exploitant deux types d'indices contextuels, les pièces (un réfrigérateur se trouve presque toujours dans une cuisine) et les objets voisins co-localisés (des ciseaux peuvent se trouver partout, mais souvent près d'un bureau ou d'un plan de travail). CLUE extrait des connaissances de bon sens à partir d'un grand modèle de langage (LLM) utilisé hors ligne, calcule un score d'association entre la cible et les types de pièces, puis construit une carte sémantique unifiée pondérant dynamiquement ces deux sources d'information selon l'ambiguïté de la cible. Un mécanisme de vérification multi-points de vue complète le système. Les expériences menées en simulation et dans des environnements réels montrent que CLUE dépasse les baselines de l'état de l'art sur les métriques de taux de succès (SR) et de succès pondéré par la longueur du chemin (SPL), sans que des chiffres absolus ne soient communiqués dans l'abstract. L'intérêt pratique de cette approche tient à une critique implicite des méthodes existantes : traiter tous les indices contextuels avec le même poids conduit à une exploration inefficace. Pour un intégrateur de robots de service, cela signifie des trajectoires plus courtes et une meilleure résilience dans des environnements non cartographiés, comme les hôpitaux, les entrepôts ou les environnements domestiques. L'utilisation d'un LLM hors ligne, plutôt qu'en inférence temps réel, réduit la latence et les dépendances cloud, un avantage concret pour le déploiement industriel. La démonstration en environnement réel, même si ses conditions exactes ne sont pas précisées, distingue CLUE de nombreux travaux restés en simulation pure. Ce travail s'inscrit dans un champ de recherche actif sur la navigation sémantique, aux côtés de méthodes comme ESC, VLFM ou SemEXP, issues principalement de laboratoires américains (CMU, Georgia Tech, Berkeley). CLUE se positionne comme une couche d'arbitrage contextuel au-dessus de ces approches plutôt que comme une refonte complète de l'architecture. Le papier est une prépublication arXiv, non encore évalué par les pairs, ce qui invite à la prudence sur la généralisabilité des résultats. Aucune affiliation industrielle ni plateforme matérielle spécifique n'est mentionnée. Les prochaines étapes naturelles seraient une validation sur des robots commerciaux (AMR de type Boston Dynamics Spot, Hello Robot Stretch ou plateformes mobiles ROS2-compatibles) et une comparaison sur les benchmarks standardisés HM3D ou Gibson.

RecherchePaper
1 source
Modèles de diffusion séquentiels pour l'apprentissage méta en contexte de la dynamique des robots
4arXiv cs.RO 

Modèles de diffusion séquentiels pour l'apprentissage méta en contexte de la dynamique des robots

Des chercheurs ont publié sur arXiv (réf. 2604.13366) une étude comparative portant sur l'identification de systèmes robotiques par méta-apprentissage en contexte, en opposant des modèles de séquences déterministes à des approches génératives basées sur la diffusion. L'équipe reformule le problème classique de l'identification de dynamiques robotiques comme une tâche de méta-apprentissage in-context : le modèle observe une séquence de paires (commande, observation) pour inférer les paramètres dynamiques d'un robot sans re-entraînement. Deux architectures de diffusion sont introduites et évaluées face à une baseline Transformer déterministe : une diffusion par inpainting (inspirée de Diffuser), qui apprend la distribution jointe entrée-observation, et des modèles de diffusion conditionnés sur les entrées de contrôle, déclinés en versions CNN et Transformer. Les expériences sont menées à grande échelle dans des simulations randomisées couvrant des régimes en distribution et hors distribution. Ces résultats sont significatifs pour la commande basée sur modèle (model-based control), qui exige des prédictions de dynamique précises et robustes. L'étude montre que les modèles de diffusion surpassent nettement la baseline déterministe lorsque les conditions d'exécution s'écartent de la distribution d'entraînement, un scénario courant dans les déploiements industriels réels où les robots rencontrent des charges utiles variables, des surfaces inattendues ou de l'usure mécanique. La diffusion par inpainting obtient les meilleures performances globales. Un résultat clé concerne la contrainte temps réel : grâce à un échantillonnage à démarrage chaud (warm-started sampling), les modèles de diffusion parviennent à opérer dans les fenêtres temporelles exigées par les boucles de contrôle, levant ainsi un obstacle majeur à leur adoption pratique. Ce travail s'inscrit dans un courant de recherche actif qui cherche à combiner les capacités génératives des modèles de diffusion avec les exigences de robustesse et de latence du contrôle robotique. La diffusion appliquée à la planification de trajectoires et à la prédiction de dynamiques a émergé avec des travaux comme Diffuser (Janner et al., 2022) et se confronte ici à un scénario de méta-apprentissage, plus réaliste pour des robots déployés dans des environnements variables. Les concurrents directs incluent les approches probabilistes bayésiennes et les réseaux neuronaux récurrents pour l'identification en ligne. La prochaine étape naturelle sera une validation sur hardware réel, notamment pour confirmer que les gains hors distribution observés en simulation résistent au sim-to-real gap.

RecherchePaper
1 source