Aller au contenu principal
Apprentissage par imitation sur des variétés riemanniennes via des équations différentielles ordinaires neuronales
RecherchearXiv cs.RO2h

Apprentissage par imitation sur des variétés riemanniennes via des équations différentielles ordinaires neuronales

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié en juin 2026 (arXiv:2606.05422) un cadre d'apprentissage par démonstration (LfD) sur des variétés riemanniennes, en utilisant des équations différentielles ordinaires neuronales (Neural ODEs). Le problème de fond est connu : les approches LfD classiques supposent que l'état du robot évolue dans un espace euclidien plat, ce qui est inexact pour les données d'orientation ; les rotations habitent SO(3), un espace mathématiquement courbe. La méthode proposée encode conjointement position et orientation dans une variété riemannienne, calcule numériquement les chemins géodésiques (les plus courts chemins sur la variété) via un réseau de type Neural ODE, puis décode ces trajectoires dans l'espace de tâche avant déploiement sur le robot. Les résultats présentés proviennent exclusivement de simulations ; aucun déploiement matériel n'est rapporté. L'article est soumis comme "extended abstract", signalant une recherche en phase préliminaire.

L'enjeu industriel est réel : quand un système LfD ignore la géométrie courbe de l'espace d'orientation, il risque de produire des trajectoires discontinues ou non naturelles, particulièrement pénalisant pour l'assemblage de précision, la soudure ou toute manipulation fine requérant un contrôle strict de l'orientation de l'effecteur. Les méthodes existantes de calcul géodésique sur variétés riemanniennes sont coûteuses en calcul, un goulot d'étranglement qui freine leur adoption opérationnelle. L'usage de Neural ODEs, qui intègrent numériquement une équation différentielle plutôt que de la résoudre analytiquement, est présenté comme une voie pour réduire ce surcoût. Les auteurs comparent leur approche à d'autres mécanismes de calcul géodésique en simulation, sans pour l'instant de validation sur hardware réel.

Ce travail s'inscrit dans une trajectoire de recherche qui part du LfD de Schaal (1999) et des Dynamical Movement Primitives, passe par les GMM riemanniennes de Calinon (IDIAP) et les travaux de Zeestraten et al. (2017), et intègre désormais les Neural ODEs popularisés par Chen et al. à NeurIPS 2018. Les approches concurrentes incluent les réseaux équivariants SE(3), les politiques de diffusion (Diffusion Policy, Chi et al. 2023) et les modèles quaternion-aware. Aucun partenaire industriel, financement ou calendrier de déploiement n'est mentionné ; les auteurs eux-mêmes qualifient les suites de "défis et perspectives", ce qui situe clairement ce travail au stade de la preuve de concept en simulation.

Dans nos dossiers

À lire aussi

Apprentissage par imitation : sélection efficace des données d'échec via les différences de distribution dans l'attention
1arXiv cs.RO 

Apprentissage par imitation : sélection efficace des données d'échec via les différences de distribution dans l'attention

Des chercheurs ont déposé sur arXiv en mai 2026 (arXiv:2605.07560) une méthode visant à exploiter les démonstrations d'échec dans l'apprentissage par imitation pour la robotique. La quasi-totalité des politiques d'imitation sont actuellement entraînées exclusivement sur des démonstrations réussies, bien que la collecte humaine produise inévitablement une proportion significative d'échecs. La méthode proposée apprend des représentations latentes des divergences succès-échec et les intègre dans le mécanisme d'attention du réseau, permettant au système de sélectionner au moment de l'inférence un mode latent adapté à partir de l'observation initiale. Les auteurs introduisent également une métrique post-entraînement qui quantifie la divergence d'attention entre chaque démonstration d'échec et le corpus de succès, afin de filtrer automatiquement les échantillons d'échec réellement bénéfiques à l'apprentissage. L'enjeu est considérable pour les pipelines industriels de collecte de données robotiques : une fraction structurelle des démonstrations humaines sont des échecs, jusqu'ici systématiquement écartés ou nécessitant un traitement manuel coûteux. Les approches existantes pour exploiter ces données s'appuient généralement sur des mises à jour itératives de la politique via des rollouts autonomes, ce qui complique leur intégration stable et directe dans un pipeline de production. Cette méthode opère en revanche directement sur les données brutes collectées sans itérations supplémentaires, ce qui la rend potentiellement plus accessible pour des équipes travaillant en conditions réelles de déploiement. Les résultats en simulation montrent une amélioration des taux de succès par rapport à un entraînement basé uniquement sur des démonstrations réussies, et la métrique proposée identifie correctement les échantillons d'échec dont l'ajout est bénéfique. L'apprentissage par imitation est devenu un paradigme central en robotique manipulatrice, porté par des architectures comme ACT, Diffusion Policy ou pi-0 de Physical Intelligence, et la gestion des données hors-distribution reste un défi ouvert du domaine. Que faire des trajectoires partiellement réussies ou des démonstrations ambiguës constitue une question de recherche active, d'autant que les coûts de re-collecte sur robot physique sont prohibitifs à grande échelle. Ce travail s'inscrit dans ce courant sans rupture radicale : les résultats sont limités à la simulation et aucun déploiement sur hardware réel n'est mentionné dans le preprint, ce qui appelle une validation expérimentale indépendante. La prochaine étape naturelle sera la validation sur robots physiques en manipulation dextère, contexte où le taux d'échec lors de la collecte humaine est structurellement élevé et où le gain potentiel d'un tel filtrage automatique serait le plus significatif.

RecherchePaper
1 source
Apprentissage par imitation sans entraînement via des politiques de diffusion en forme close
2arXiv cs.RO 

Apprentissage par imitation sans entraînement via des politiques de diffusion en forme close

Des chercheurs ont publié sur arXiv (réf. 2606.01238) une approche baptisée Closed-Form Diffusion Policies (CFDP), qui supprime entièrement la phase d'entraînement offline des politiques de diffusion pour l'apprentissage par imitation. Plutôt que d'entraîner un réseau de neurones pendant plusieurs heures, CFDP calcule analytiquement la fonction score directement à partir du jeu de démonstrations, en forme fermée. Résultat : une politique opérationnelle en quelques millisecondes, déployée et testée en temps réel sur un CPU mobile standard, sans GPU dédié. L'enjeu industriel est direct : dans le cycle données → politique → déploiement → nouvelles données, la phase d'entraînement constitue aujourd'hui le principal goulot d'étranglement. Pouvoir générer une politique compétitive à partir d'un dataset de démonstrations sans entraînement réduit ce délai de plusieurs heures à quelques millisecondes. Sur les benchmarks d'imitation learning testés, CFDP se montre compétitif face aux baselines neuronales classiques, qui nécessitent elles des heures de calcul. Cela remet en cause l'hypothèse selon laquelle la puissance expressive des politiques de diffusion est indissociable de leur coût computationnel. Pour les intégrateurs robotiques ou les équipes de recherche appliquée qui itèrent fréquemment sur leurs démos, ce type de pipeline sans entraînement change concrètement le rythme de développement. Les politiques de diffusion ont émergé comme référence en manipulation robotique ces deux dernières années, avec des travaux notables comme Diffusion Policy (Chi et al., 2023) ou Pi-0 (Physical Intelligence). Leur principal défaut reconnu reste précisément le coût d'entraînement et la rigidité vis-à-vis de nouvelles démonstrations. CFDP s'inscrit dans ce contexte comme un primitif composable : les auteurs montrent qu'il peut s'interfacer avec des politiques neuronales pré-entraînées existantes, permettant du policy guidance ou de l'augmentation de démonstrations à l'inférence. Aucun déploiement industriel ni partenariat applicatif n'est annoncé à ce stade ; il s'agit d'un preprint académique, dont les résultats restent à valider sur des tâches plus complexes et des robots à dextérité élevée.

RechercheOpinion
1 source
Planification de mouvements par échantillonnage sur variétés riemanniennes avec conscience géométrique
3arXiv cs.RO 

Planification de mouvements par échantillonnage sur variétés riemanniennes avec conscience géométrique

Des chercheurs ont publié sur arXiv (arXiv:2602.00992) un cadre de planification de mouvement par échantillonnage opérant directement sur des variétés riemanniennes, adressant une limitation fondamentale des planificateurs classiques : l'usage de distances euclidiennes dans des espaces de configuration à géométrie non euclidienne. La contribution centrale est une approximation par point médian de la distance géodésique riemannienne, dont les auteurs prouvent la convergence au troisième ordre vers la distance réelle. Un planificateur local complète le système en traçant la variété via des rétractions du premier ordre guidées par des gradients naturels riemanniens. Les validations portent sur un bras plan à deux degrés de liberté, un manipulateur Franka à 7-DoF sous métrique d'énergie cinétique, et la planification de corps rigides dans SE(2) avec contraintes non holonomes. Dans chaque cas, l'approche produit des trajectoires de coût inférieur aux planificateurs euclidiens et aux solveurs géodésiques numériques de référence. L'enjeu industriel est direct : pour les bras manipulateurs redondants (6-DoF et plus), les métriques d'énergie cinétique ou de manipulabilité définissent une géométrie non euclidienne que les RRT et RRT standards ignorent, produisant des trajectoires sous-optimales en énergie et en usure des actionneurs. Ce travail comble le fossé entre deux familles de méthodes : les solveurs géodésiques numériques, fidèles géométriquement mais peu scalables en haute dimension, et les planificateurs par échantillonnage, efficaces mais géométriquement naïfs. La preuve de convergence au troisième ordre est un apport théorique solide ; les expériences restent cependant limitées à 2 et 7-DoF, et la tenue à l'échelle sur des systèmes corps entier (20-DoF et plus) n'est pas encore démontrée. La planification géodésique n'est pas une idée nouvelle : CHOMP et les méthodes de Gaussian Process Motion Planning avaient déjà exploité des métriques tâche-espace, mais dans des cadres d'optimisation sans garanties de complétude probabiliste. Ce travail se distingue en intégrant la géométrie riemannienne dans le paradigme par échantillonnage (famille RRT/PRM), ce qui offre des garanties de complétude asymptotique. Les concurrents directs incluent les variantes RRT à métriques personnalisées et les planificateurs sur graphes de visibilité riemanniens. La suite logique serait une validation sur des manipulateurs industriels courants (Universal Robots, KUKA iiwa) et une intégration dans MoveIt 2 ou NVIDIA Isaac/Lula, deux prérequis pour une adoption réelle en production.

RecherchePaper
1 source
X-Imitator : apprentissage par imitation spatial via interaction bidirectionnelle action-pose
4arXiv cs.RO 

X-Imitator : apprentissage par imitation spatial via interaction bidirectionnelle action-pose

Des chercheurs ont déposé le 13 mai 2026 sur arXiv (2605.12162) X-Imitator, un cadre d'apprentissage par imitation pour la manipulation robotique fondé sur un couplage bidirectionnel entre perception spatiale et génération d'actions. L'architecture duale fonctionne par conditionnement mutuel : les prédictions de pose courante sont conditionnées sur les actions passées, et les actions générées tiennent compte des estimations de pose réactualisées en retour. Évalué sur 24 tâches simulées et 3 tâches en environnement réel, X-Imitator surpasse selon les auteurs les politiques visuomotrices de base ("vanilla policies") ainsi que les méthodes exploitant un guidage de pose explicite mais unidirectionnel. Le code source sera rendu public. Le verrou adressé est bien identifié dans la littérature : les approches actuelles traitent perception et exécution comme deux modules découplés, ou reliés au mieux de façon unidirectionnelle. X-Imitator instaure une boucle de raffinement mutuel continu, que les auteurs rapprochent des modèles prospectifs internes ("forward models") du système moteur humain. En pratique, la politique corrige ses estimations de pose à la lumière de ses propres actions passées, mécanisme potentiellement utile dans les tâches à contacts multiples ou à déformation d'objet, où les erreurs de perception s'accumulent. L'architecture modulaire est conçue pour s'intégrer à diverses politiques visuomotrices existantes, ce qui lui confère une portée plus large qu'un système monolithique. À noter cependant : l'évaluation réelle se limite à 3 tâches, et le papier reste un preprint non encore relu par les pairs. X-Imitator s'inscrit dans le courant de l'apprentissage par imitation appliqué à la manipulation fine, discipline en forte expansion depuis Diffusion Policy (Chi et al., 2023) et ACT (Zhao et al., 2023). Face aux politiques hybrides perception-action portées par des groupes comme DeepMind, Stanford ou Physical Intelligence avec pi-zero, le système se positionne comme un module d'amélioration orthogonal plutôt qu'une architecture concurrente de remplacement. Aucun partenaire industriel ni calendrier de transfert applicatif n'est mentionné dans la publication : X-Imitator reste un résultat académique. La mise en open source annoncée du code permettra à la communauté de valider les performances sur des benchmarks partagés comme RLBench ou ManiSkill, étape nécessaire avant toute adoption à plus grande échelle.

RecherchePaper
1 source