Apprentissage par imitation sur des variétés…

Apprentissage continu de politiques robotiques via des dynamiques neuronales variationnelles

42

1arXiv cs.RO

Apprentissage continu de politiques robotiques via des dynamiques neuronales variationnelles

Des chercheurs ont publié en juin 2026 (arXiv:2606.27353) un framework d'apprentissage continu permettant à un robot de s'adapter en temps réel à des dynamiques changeantes et non observées, sans nécessiter de réentraînement complet. Le système combine un modèle de dynamique analytique (prior physique) avec un résidu neuronal entraîné à capturer les effets non modélisés. Un encodeur récurrent infère en ligne la "condition cachée" courante du robot, c'est-à-dire l'état du système non directement mesurable (charge utile variable, usure mécanique, perturbations aérologiques), à partir des trajectoires état-action récentes. Cette condition estimée pilote à la fois le modèle résiduel et la politique de contrôle. Lors de l'apprentissage, la politique est optimisée par simulation différentiable en échantillonnant un ensemble de dynamiques plausibles issues du modèle latent. Sur un quadrotor réel soumis à des vents récurrents, le système récupère une perturbation connue en environ 1 seconde, soit cinq fois plus rapidement qu'un réentraînement résiduel en ligne classique, et réduit les erreurs de vol stationnaire et de suivi de trajectoire respectivement de 65,7 % et 53,3 % par rapport aux approches d'adaptation en ligne de l'état de l'art. L'enjeu industriel est direct : la quasi-totalité des contrôleurs appris actuels sont entraînés une fois, puis déployés statiquement, comme si la dynamique du robot restait constante. En pratique, batteries qui se déchargent, charges qui changent de mission en mission, surfaces de contact qui évoluent, conditions météo variables, tout cela dégrade les performances sans mécanisme de correction. L'originalité de cette approche tient à la distinction entre "reconnaissance" et "réadaptation" : plutôt que de réajuster un modèle depuis zéro à chaque perturbation rencontrée (coûteux en données et en temps), le système reconnaît une dynamique déjà vue et l'applique immédiatement via l'encodeur récurrent. Ce paradigme est particulièrement pertinent pour les intégrateurs de drones industriels, de robots manipulateurs en logistique ou de plateformes mobiles en environnement extérieur, où les cycles de déploiement sont longs et les recalibrages manuels coûteux. Les résultats valident aussi une hypothèse clé du champ sim-to-real : qu'un prior physique structuré couplé à un résidu neuronal permet de généraliser à des conditions non vues lors de l'entraînement, à condition que ces conditions aient été préalablement "vécues" lors d'autres déploiements. Ce travail s'inscrit dans une lignée de recherches sur l'adaptation dynamique de politiques robotiques incluant la randomisation de domaine (popularisée par OpenAI Robotics dès 2018), les approches méta-learning type MAML, et les méthodes d'adaptation en ligne par processus gaussiens. Le réentraînement résiduel en ligne, utilisé comme baseline de comparaison, est une technique établie mais limitée par sa latence de convergence, problème central que ce framework adresse directement par la reconnaissance latente. L'article est à ce stade un preprint non relu par les pairs, et les expériences réelles restent limitées au quadrotor ; la généralisation à des robots à pattes ou à des bras manipulateurs industriels reste à démontrer. Aucun partenaire industriel ni calendrier de transfert technologique n'est mentionné. Les prochaines étapes probables incluent des tests sur des plateformes à dynamiques plus complexes et une validation sur des dynamiques à distribution plus large.

RecherchePaper

1 source

Apprentissage par imitation : sélection efficace des données d'échec via les différences de distribution dans l'attention

35

2arXiv cs.RO

Apprentissage par imitation : sélection efficace des données d'échec via les différences de distribution dans l'attention

Des chercheurs ont déposé sur arXiv en mai 2026 (arXiv:2605.07560) une méthode visant à exploiter les démonstrations d'échec dans l'apprentissage par imitation pour la robotique. La quasi-totalité des politiques d'imitation sont actuellement entraînées exclusivement sur des démonstrations réussies, bien que la collecte humaine produise inévitablement une proportion significative d'échecs. La méthode proposée apprend des représentations latentes des divergences succès-échec et les intègre dans le mécanisme d'attention du réseau, permettant au système de sélectionner au moment de l'inférence un mode latent adapté à partir de l'observation initiale. Les auteurs introduisent également une métrique post-entraînement qui quantifie la divergence d'attention entre chaque démonstration d'échec et le corpus de succès, afin de filtrer automatiquement les échantillons d'échec réellement bénéfiques à l'apprentissage. L'enjeu est considérable pour les pipelines industriels de collecte de données robotiques : une fraction structurelle des démonstrations humaines sont des échecs, jusqu'ici systématiquement écartés ou nécessitant un traitement manuel coûteux. Les approches existantes pour exploiter ces données s'appuient généralement sur des mises à jour itératives de la politique via des rollouts autonomes, ce qui complique leur intégration stable et directe dans un pipeline de production. Cette méthode opère en revanche directement sur les données brutes collectées sans itérations supplémentaires, ce qui la rend potentiellement plus accessible pour des équipes travaillant en conditions réelles de déploiement. Les résultats en simulation montrent une amélioration des taux de succès par rapport à un entraînement basé uniquement sur des démonstrations réussies, et la métrique proposée identifie correctement les échantillons d'échec dont l'ajout est bénéfique. L'apprentissage par imitation est devenu un paradigme central en robotique manipulatrice, porté par des architectures comme ACT, Diffusion Policy ou pi-0 de Physical Intelligence, et la gestion des données hors-distribution reste un défi ouvert du domaine. Que faire des trajectoires partiellement réussies ou des démonstrations ambiguës constitue une question de recherche active, d'autant que les coûts de re-collecte sur robot physique sont prohibitifs à grande échelle. Ce travail s'inscrit dans ce courant sans rupture radicale : les résultats sont limités à la simulation et aucun déploiement sur hardware réel n'est mentionné dans le preprint, ce qui appelle une validation expérimentale indépendante. La prochaine étape naturelle sera la validation sur robots physiques en manipulation dextère, contexte où le taux d'échec lors de la collecte humaine est structurellement élevé et où le gain potentiel d'un tel filtrage automatique serait le plus significatif.

RecherchePaper

1 source

Apprentissage par imitation sans entraînement via des politiques de diffusion en forme close

44

3arXiv cs.RO

Apprentissage par imitation sans entraînement via des politiques de diffusion en forme close

Des chercheurs ont publié sur arXiv (réf. 2606.01238) une approche baptisée Closed-Form Diffusion Policies (CFDP), qui supprime entièrement la phase d'entraînement offline des politiques de diffusion pour l'apprentissage par imitation. Plutôt que d'entraîner un réseau de neurones pendant plusieurs heures, CFDP calcule analytiquement la fonction score directement à partir du jeu de démonstrations, en forme fermée. Résultat : une politique opérationnelle en quelques millisecondes, déployée et testée en temps réel sur un CPU mobile standard, sans GPU dédié. L'enjeu industriel est direct : dans le cycle données → politique → déploiement → nouvelles données, la phase d'entraînement constitue aujourd'hui le principal goulot d'étranglement. Pouvoir générer une politique compétitive à partir d'un dataset de démonstrations sans entraînement réduit ce délai de plusieurs heures à quelques millisecondes. Sur les benchmarks d'imitation learning testés, CFDP se montre compétitif face aux baselines neuronales classiques, qui nécessitent elles des heures de calcul. Cela remet en cause l'hypothèse selon laquelle la puissance expressive des politiques de diffusion est indissociable de leur coût computationnel. Pour les intégrateurs robotiques ou les équipes de recherche appliquée qui itèrent fréquemment sur leurs démos, ce type de pipeline sans entraînement change concrètement le rythme de développement. Les politiques de diffusion ont émergé comme référence en manipulation robotique ces deux dernières années, avec des travaux notables comme Diffusion Policy (Chi et al., 2023) ou Pi-0 (Physical Intelligence). Leur principal défaut reconnu reste précisément le coût d'entraînement et la rigidité vis-à-vis de nouvelles démonstrations. CFDP s'inscrit dans ce contexte comme un primitif composable : les auteurs montrent qu'il peut s'interfacer avec des politiques neuronales pré-entraînées existantes, permettant du policy guidance ou de l'augmentation de démonstrations à l'inférence. Aucun déploiement industriel ni partenariat applicatif n'est annoncé à ce stade ; il s'agit d'un preprint académique, dont les résultats restent à valider sur des tâches plus complexes et des robots à dextérité élevée.

RechercheOpinion

1 source

Planification de mouvements par échantillonnage sur variétés riemanniennes avec conscience géométrique

38

4arXiv cs.RO

Planification de mouvements par échantillonnage sur variétés riemanniennes avec conscience géométrique

Des chercheurs ont publié sur arXiv (arXiv:2602.00992) un cadre de planification de mouvement par échantillonnage opérant directement sur des variétés riemanniennes, adressant une limitation fondamentale des planificateurs classiques : l'usage de distances euclidiennes dans des espaces de configuration à géométrie non euclidienne. La contribution centrale est une approximation par point médian de la distance géodésique riemannienne, dont les auteurs prouvent la convergence au troisième ordre vers la distance réelle. Un planificateur local complète le système en traçant la variété via des rétractions du premier ordre guidées par des gradients naturels riemanniens. Les validations portent sur un bras plan à deux degrés de liberté, un manipulateur Franka à 7-DoF sous métrique d'énergie cinétique, et la planification de corps rigides dans SE(2) avec contraintes non holonomes. Dans chaque cas, l'approche produit des trajectoires de coût inférieur aux planificateurs euclidiens et aux solveurs géodésiques numériques de référence. L'enjeu industriel est direct : pour les bras manipulateurs redondants (6-DoF et plus), les métriques d'énergie cinétique ou de manipulabilité définissent une géométrie non euclidienne que les RRT et RRT standards ignorent, produisant des trajectoires sous-optimales en énergie et en usure des actionneurs. Ce travail comble le fossé entre deux familles de méthodes : les solveurs géodésiques numériques, fidèles géométriquement mais peu scalables en haute dimension, et les planificateurs par échantillonnage, efficaces mais géométriquement naïfs. La preuve de convergence au troisième ordre est un apport théorique solide ; les expériences restent cependant limitées à 2 et 7-DoF, et la tenue à l'échelle sur des systèmes corps entier (20-DoF et plus) n'est pas encore démontrée. La planification géodésique n'est pas une idée nouvelle : CHOMP et les méthodes de Gaussian Process Motion Planning avaient déjà exploité des métriques tâche-espace, mais dans des cadres d'optimisation sans garanties de complétude probabiliste. Ce travail se distingue en intégrant la géométrie riemannienne dans le paradigme par échantillonnage (famille RRT/PRM), ce qui offre des garanties de complétude asymptotique. Les concurrents directs incluent les variantes RRT à métriques personnalisées et les planificateurs sur graphes de visibilité riemanniens. La suite logique serait une validation sur des manipulateurs industriels courants (Universal Robots, KUKA iiwa) et une intégration dans MoveIt 2 ou NVIDIA Isaac/Lula, deux prérequis pour une adoption réelle en production.

RecherchePaper

1 source

Apprentissage par imitation sur des variétés riemanniennes via des équations différentielles ordinaires neuronales

À lire aussi

Apprentissage continu de politiques robotiques via des dynamiques neuronales variationnelles

Apprentissage par imitation : sélection efficace des données d'échec via les différences de distribution dans l'attention

Apprentissage par imitation sans entraînement via des politiques de diffusion en forme close

Planification de mouvements par échantillonnage sur variétés riemanniennes avec conscience géométrique