Apprentissage du pliage : solution primée au LeHome Cha…

Découpage Q adaptatif pour l'apprentissage par renforcement hors ligne vers en ligne

45

1arXiv cs.RO

Découpage Q adaptatif pour l'apprentissage par renforcement hors ligne vers en ligne

Des chercheurs ont publié sur arXiv (arXiv:2605.05544, mai 2026) une méthode appelée Adaptive Q-Chunking (AQC), visant à résoudre une limitation structurelle de l'apprentissage par renforcement offline-to-online avec action chunking. Toutes les approches existantes appliquent une taille de chunk fixe à chaque état, ce qui est sous-optimal : près d'un contact physique, des chunks courts sont nécessaires pour un contrôle réactif ; en déplacement libre, des chunks longs améliorent l'attribution du crédit temporel. La solution naïve, entraîner un critique par taille de chunk puis comparer les valeurs Q, échoue systématiquement par désalignement des échelles de remise (discount-scale mismatch) et dégénère en bruit dans les états à faible valeur. AQC corrige ce double problème en comparant l'avantage relatif de chaque horizon par rapport à une baseline normalisée par le facteur de remise, rendant les comparaisons non biaisées même en l'absence de signal discriminant. La méthode atteint des taux de succès état de l'art sur les benchmarks OGBench et Robomimic, et améliore significativement les performances de modèles VLA à grande échelle sur les tâches RoboCasa-GR1. L'enjeu est concret pour les équipes qui intègrent des modèles Vision-Language-Action en production. Ces architectures, dont Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et Helix de Figure AI, prédisent des séquences d'actions dont l'efficacité dépend directement de la granularité temporelle de ces séquences. AQC est applicable sans modifier l'architecture sous-jacente, ce qui en fait un correctif plug-and-play pour des pipelines existants. Les auteurs fournissent également des bornes formelles sur l'immunité au bruit du sélecteur d'avantage et sur la dominance en valeur du chunking adaptatif face à toute taille fixe, donnant une assise théorique à des performances que les benchmarks confirment empiriquement. L'action chunking s'est imposé comme paradigme de référence en manipulation apprise depuis ACT (Action Chunking with Transformers, Chi et al., 2023) et Diffusion Policy. La limitation d'une taille fixe était documentée mais sans solution rigoureuse. Des approches concurrentes adressent la granularité temporelle via la planification hiérarchique ou le fine-tuning online de politiques de diffusion, sans résoudre le biais de comparaison entre horizons. AQC se positionne comme correctif algorithmique orthogonal, applicable en surcouche de ces méthodes. Les résultats présentés portent intégralement sur des environnements simulés ; la validation sur plateformes physiques reste à établir, le gap sim-to-real demeurant une variable non résolue dans ce domaine.

RechercheOpinion

1 source

Apprentissage en ligne auto-supervisé pour la co-adaptation dans les politiques de diffusion hiérarchiques

42

2arXiv cs.RO

Apprentissage en ligne auto-supervisé pour la co-adaptation dans les politiques de diffusion hiérarchiques

Des chercheurs proposent ORCHID, un cadre d'auto-entraînement présenté sur arXiv (2603.05291) qui s'attaque à un problème structurel de la manipulation robotique longue durée : la désynchronisation entre planificateur haut niveau et contrôleur bas niveau au sein des politiques hiérarchiques. Dans ces architectures, un planificateur décompose une instruction en langage naturel en sous-objectifs intermédiaires, que le contrôleur exécute physiquement. La difficulté est que les deux modules, entraînés séparément, opèrent sur des distributions de sous-objectifs incompatibles. ORCHID corrige cela en ligne : le système génère des trajectoires, les filtre selon le feedback de l'environnement (réussite ou échec de la tâche complète), puis distille les trajectoires conjointement réussies dans les deux modules via apprentissage supervisé. Il en résulte une co-adaptation bidirectionnelle : le planificateur ancre ses sous-objectifs dans les capacités réelles du contrôleur, tandis que le contrôleur se spécialise dans les structures de trajectoire que produit le planificateur. Sur le benchmark CALVIN, référence pour la manipulation séquentielle guidée par le langage, un modèle léger entraîné avec ORCHID surpasse les méthodes purement offline, y compris un modèle Vision-Language-Action (VLA) deux fois plus grand en paramètres. L'impact est notable sur deux points. En termes d'efficacité paramétrique, qu'un modèle léger dépasse un VLA deux fois plus lourd remet en question l'hypothèse courante que l'échelle seule suffit pour les tâches complexes. En termes de stabilité d'entraînement, combiner RL hiérarchique et modèles de diffusion est notoirement instable à cause de la propagation des gradients. ORCHID contourne ce problème en substituant la distillation supervisée sur échantillons filtrés au RL gradient classique, une voie potentiellement plus praticable dans les contextes industriels où la reproductibilité de l'entraînement est critique. Le mécanisme de co-adaptation proposé constitue un principe architectural plus général, transférable à d'autres familles de politiques hiérarchiques au-delà des modèles de diffusion. Le travail s'inscrit dans la dynamique actuelle autour des politiques de diffusion pour la robotique, portée par des frameworks comme Diffusion Policy (Chi et al., 2023) et π₀ de Physical Intelligence. ORCHID se distingue en ciblant non l'architecture mais la coordination inter-niveaux, un aspect souvent sous-traité par les approches VLA end-to-end qui fusionnent planification et contrôle dans un seul réseau. Le benchmark CALVIN, développé à l'Université de Freiburg, est la référence principale pour évaluer la généralisation en manipulation séquentielle sur des tâches à horizon long. Les prochaines étapes naturelles incluent une validation sur robots physiques et une extension à des horizons temporels plus longs, deux points que cet article n'aborde pas encore.

RechercheOpinion

1 source

Quand les robots dorment : consolidation hors ligne des compétences pour l'apprentissage à politique partagée

45

3arXiv cs.RO

Quand les robots dorment : consolidation hors ligne des compétences pour l'apprentissage à politique partagée

Des chercheurs ont publié mi-juin 2026 un article sur arXiv (réf. 2606.17493) présentant "Sleeping Robots", un framework d'apprentissage continu pour robots opérant sur de longues périodes. Le problème central visé est le suivant : lorsqu'un robot doit acquérir de nouvelles compétences séquentiellement, sans accès aux trajectoires ou aux fonctions de coût des tâches précédentes, les politiques partagées -- c'est-à-dire les contrôleurs unifiés sans têtes de décision ou adaptateurs spécifiques à chaque tâche -- tendent à se dégrader. Les auteurs mesurent une amélioration de 64 % du taux de succès moyen et un facteur x2,0 sur la fiabilité pairée par rapport à la meilleure baseline non-oracle sur le benchmark Meta-World MT5, composé de cinq tâches de manipulation. Des gains sont également rapportés sur SurgicAI, un benchmark de robotique chirurgicale. Ce travail adresse un angle mort structurel de la robotique déployée en conditions réelles : le "skill-coupling collapse". Ce phénomène, formalisé ici pour la première fois, désigne une pathologie subtile dans laquelle chaque compétence individuelle maintient un taux de succès acceptable, mais la fiabilité inter-tâches -- c'est-à-dire la capacité du robot à enchaîner ou alterner des tâches apparentées -- se détériore progressivement. Pour les intégrateurs industriels et les équipes R&D en robotique d'entrepôt ou chirurgicale, c'est une distinction critique : les métriques classiques de succès par tâche masquent une fragilité systémique qui ne se manifeste qu'en exploitation longue durée. La solution proposée, le cycle éveil-sommeil, apprend chaque nouvelle compétence en phase "wake" puis consolide hors-ligne la politique partagée en phase "sleep", en s'appuyant sur des "skill memories" gelées compactes -- des critiques gelés avec buffers d'états non ordonnés pour le renforcement, et des snapshots d'acteurs gelés avec buffers d'observations pour l'imitation. Les gradients issus de ces objectifs différentiables sont combinés via le théorème de négociation de Nash, avec ancrage adaptatif et excitabilité locale pour stabiliser la consolidation, ce qui représente une contribution algorithmique non triviale. L'apprentissage continu en robotique est un champ actif depuis plusieurs années, animé par la crainte du "catastrophic forgetting" documenté dans les réseaux de neurones depuis Kirkpatrick et al. (EWC, 2017). Les approches concurrentes incluent les méthodes à tête de décision par tâche (qui abandonnent l'idée d'une politique unifiée), le routage dynamique (mixture-of-experts), ou le rejeu d'expérience classique (Experience Replay) -- toutes supposant soit un accès aux données historiques, soit une architecture modulaire. Sleeping Robots se distingue en travaillant exclusivement avec des mémoires gelées compactes, sans accès aux données brutes passées, ce qui le rend compatible avec des contraintes de confidentialité ou de bande passante en déploiement embarqué. Côté acteurs, Google DeepMind (RT-2, SayCan), Physical Intelligence (Pi-0) et Figure (politique partagée sur Figure 02) travaillent tous sur des politiques générales multi-tâches, mais aucun n'a publié de mécanisme formalisé de consolidation hors-ligne comparable. Les prochaines étapes naturelles seraient une validation sur robots physiques réels (les résultats actuels sont en simulation) et un test sur des horizons temporels plus longs incluant des dizaines de tâches.

UEAucun acteur européen impliqué directement, mais les laboratoires EU (INRIA, CEA-List) et intégrateurs industriels travaillant sur des déploiements robotiques longue durée pourraient exploiter ce framework pour adresser la fragilité systémique inter-tâches non détectée par les métriques classiques.

RecherchePaper

1 source

Estimation simultanée de l'état et apprentissage du modèle en ligne dans un système robotique souple

40

4arXiv cs.RO

Estimation simultanée de l'état et apprentissage du modèle en ligne dans un système robotique souple

Des chercheurs proposent, dans une prépublication arXiv (2602.14092v2), une méthode permettant d'estimer simultanément la pose d'un robot souple et d'apprendre en ligne son modèle de rigidité à la flexion, à partir des seules mesures des forces exercées à la base du robot. L'approche repose sur un filtre particulaire marginalisé (marginalized particle filter) interfacé avec un processus gaussien (GP) chargé de modéliser la rigidité en flexion, sans capteurs proprioceptifs distribués le long du corps du robot. Le modèle nominal utilisé est le classique modèle à courbure constante (constant-curvature), réputé simple mais inexact dès que les charges ou les déformations deviennent hétérogènes. La méthode a été validée sur un robot souple physique, et les résultats montrent une réduction mesurable de l'erreur sur les prédictions multi-pas (multi-step forward predictions), signe que le GP appris améliore effectivement la qualité globale du modèle. L'enjeu est de taille pour quiconque cherche à déployer des robots souples dans des contextes industriels ou médicaux : ces systèmes sont intrinsèquement difficiles à modéliser car leur rigidité varie avec la charge, la fatigue du matériau et les conditions environnementales. La majorité des schémas de contrôle prédictif (MPC, par exemple) exigent un modèle précis et stable, condition rarement remplie en pratique. En remplaçant l'hypothèse d'une rigidité constante par un GP appris en temps réel, les auteurs montrent qu'il est possible de réduire le sim-to-real gap sans capteurs supplémentaires ni phase de calibration longue. Cela distingue cette approche des méthodes de marche aléatoire sur les paramètres de rigidité, qui permettent l'estimation mais pas la prédiction. Les robots souples connaissent un regain d'intérêt dans la manipulation de précision, la chirurgie mini-invasive et l'interaction humain-robot, portés notamment par des groupes académiques comme le Soft Robotics Lab de l'ETH Zurich, le CHARM Lab de Stanford ou des acteurs industriels comme Festo (bionic cobotics). Le verrou historique reste la modélisation : un corps déformable infiniment dimensionnel réduit à quelques paramètres discrets. L'identification gray-box, hybride entre modèle physique et apprentissage données, est aujourd'hui l'une des pistes les plus prometteuses pour franchir ce verrou à coût computationnel raisonnable. La prochaine étape naturelle serait d'intégrer cette estimation en boucle fermée dans un contrôleur MPC temps réel et de tester la robustesse sur des charges variables ou des matériaux vieillissants.

UEFesto (Allemagne) et l'ETH Zurich (Suisse) sont explicitement cités comme acteurs clés de la robotique souple ; une meilleure modélisation en ligne bénéficierait directement à leurs programmes de cobotics biologique et de chirurgie mini-invasive.

RecherchePaper

1 source

Apprentissage du pliage : solution primée au LeHome Challenge 2026 (1re en ligne, 2e hors ligne)

À lire aussi

Découpage Q adaptatif pour l'apprentissage par renforcement hors ligne vers en ligne

Apprentissage en ligne auto-supervisé pour la co-adaptation dans les politiques de diffusion hiérarchiques

Quand les robots dorment : consolidation hors ligne des compétences pour l'apprentissage à politique partagée

Estimation simultanée de l'état et apprentissage du modèle en ligne dans un système robotique souple