Aller au contenu principal
VFILC : extrapolations de fréquence précises en apprentissage par imitation via ILC à fréquence d'échantillonnage
RecherchearXiv cs.RO2j

VFILC : extrapolations de fréquence précises en apprentissage par imitation via ILC à fréquence d'échantillonnage

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs présentent dans un preprint arXiv (2606.20056) VFILC, une méthode d'apprentissage par imitation pour robots qui résout le problème de l'extrapolation en fréquence de mouvement. Les approches classiques à base de réseaux de neurones pour les mouvements à vitesse variable se limitaient à interpoler dans la plage d'entraînement ou produisaient des trajectoires imprévisibles au-delà. VFILC combine VFIL (Variable-Frequency Imitation Learning), qui couple la fréquence d'échantillonnage du modèle à la fréquence de mouvement souhaitée, avec une commande par apprentissage itératif (ILC) dotée d'un terme feedforward et d'un terme feedback correcteur. Sur trois tâches de manipulation, les résultats montrent une réduction des erreurs de fréquence de 81 % sur une tâche d'essuyage et de 50 % sur une tâche de secouage, comparé à VFIL seul, lorsque le robot opère au double de la vitesse moyenne présente dans les données d'entraînement. Sur une tâche de malaxage riche en contacts, où la friction complexe perturbe le mouvement même en régime interpolé, VFILC améliore la précision de 27 % par rapport à VFIL seul.

L'enjeu est la programmabilité par démonstration à des allures variables, cas courant en robotique manufacturière : adapter la cadence d'une tâche apprise sans recollecter de nouvelles démonstrations. Le fait que le composant ILC feedback corrige les erreurs de fréquence sans déstabiliser le comportement global est significatif pour les tâches à contact (essuyage, assemblage par insertion), où la dynamique réelle diverge du modèle nominal. Les réductions annoncées sont concrètes, mais les auteurs ne précisent pas le contexte de charge ni la durée des cycles, ce qui limite la comparabilité directe avec d'autres benchmarks de manipulation publiés.

L'apprentissage par imitation est une approche de plus en plus adoptée pour programmer les robots manipulateurs sans modèle explicite, popularisée par des méthodes comme ACT (Action Chunking with Transformers, Stanford) ou Diffusion Policy. La gestion des vitesses variables y reste un angle mort : la plupart des méthodes supposent une fréquence de contrôle fixe. VFIL avait ouvert la voie en couplant fréquence d'échantillonnage et fréquence de mouvement, mais souffrait de son architecture en boucle ouverte. VFILC apporte la boucle de correction manquante via l'ILC, technique bien établie en contrôle industriel (presses, robots de soudage à répétition). La prochaine étape logique serait l'intégration dans des pipelines VLA (Vision-Language-Action) pour adapter dynamiquement la cadence sur commande en langage naturel, une direction que Physical Intelligence, CMU et ETH Zurich explorent activement.

À lire aussi

Apprentissage par imitation sans entraînement via des politiques de diffusion en forme close
1arXiv cs.RO 

Apprentissage par imitation sans entraînement via des politiques de diffusion en forme close

Des chercheurs ont publié sur arXiv (réf. 2606.01238) une approche baptisée Closed-Form Diffusion Policies (CFDP), qui supprime entièrement la phase d'entraînement offline des politiques de diffusion pour l'apprentissage par imitation. Plutôt que d'entraîner un réseau de neurones pendant plusieurs heures, CFDP calcule analytiquement la fonction score directement à partir du jeu de démonstrations, en forme fermée. Résultat : une politique opérationnelle en quelques millisecondes, déployée et testée en temps réel sur un CPU mobile standard, sans GPU dédié. L'enjeu industriel est direct : dans le cycle données → politique → déploiement → nouvelles données, la phase d'entraînement constitue aujourd'hui le principal goulot d'étranglement. Pouvoir générer une politique compétitive à partir d'un dataset de démonstrations sans entraînement réduit ce délai de plusieurs heures à quelques millisecondes. Sur les benchmarks d'imitation learning testés, CFDP se montre compétitif face aux baselines neuronales classiques, qui nécessitent elles des heures de calcul. Cela remet en cause l'hypothèse selon laquelle la puissance expressive des politiques de diffusion est indissociable de leur coût computationnel. Pour les intégrateurs robotiques ou les équipes de recherche appliquée qui itèrent fréquemment sur leurs démos, ce type de pipeline sans entraînement change concrètement le rythme de développement. Les politiques de diffusion ont émergé comme référence en manipulation robotique ces deux dernières années, avec des travaux notables comme Diffusion Policy (Chi et al., 2023) ou Pi-0 (Physical Intelligence). Leur principal défaut reconnu reste précisément le coût d'entraînement et la rigidité vis-à-vis de nouvelles démonstrations. CFDP s'inscrit dans ce contexte comme un primitif composable : les auteurs montrent qu'il peut s'interfacer avec des politiques neuronales pré-entraînées existantes, permettant du policy guidance ou de l'augmentation de démonstrations à l'inférence. Aucun déploiement industriel ni partenariat applicatif n'est annoncé à ce stade ; il s'agit d'un preprint académique, dont les résultats restent à valider sur des tâches plus complexes et des robots à dextérité élevée.

RechercheOpinion
1 source
Apprentissage par imitation : sélection efficace des données d'échec via les différences de distribution dans l'attention
2arXiv cs.RO 

Apprentissage par imitation : sélection efficace des données d'échec via les différences de distribution dans l'attention

Des chercheurs ont déposé sur arXiv en mai 2026 (arXiv:2605.07560) une méthode visant à exploiter les démonstrations d'échec dans l'apprentissage par imitation pour la robotique. La quasi-totalité des politiques d'imitation sont actuellement entraînées exclusivement sur des démonstrations réussies, bien que la collecte humaine produise inévitablement une proportion significative d'échecs. La méthode proposée apprend des représentations latentes des divergences succès-échec et les intègre dans le mécanisme d'attention du réseau, permettant au système de sélectionner au moment de l'inférence un mode latent adapté à partir de l'observation initiale. Les auteurs introduisent également une métrique post-entraînement qui quantifie la divergence d'attention entre chaque démonstration d'échec et le corpus de succès, afin de filtrer automatiquement les échantillons d'échec réellement bénéfiques à l'apprentissage. L'enjeu est considérable pour les pipelines industriels de collecte de données robotiques : une fraction structurelle des démonstrations humaines sont des échecs, jusqu'ici systématiquement écartés ou nécessitant un traitement manuel coûteux. Les approches existantes pour exploiter ces données s'appuient généralement sur des mises à jour itératives de la politique via des rollouts autonomes, ce qui complique leur intégration stable et directe dans un pipeline de production. Cette méthode opère en revanche directement sur les données brutes collectées sans itérations supplémentaires, ce qui la rend potentiellement plus accessible pour des équipes travaillant en conditions réelles de déploiement. Les résultats en simulation montrent une amélioration des taux de succès par rapport à un entraînement basé uniquement sur des démonstrations réussies, et la métrique proposée identifie correctement les échantillons d'échec dont l'ajout est bénéfique. L'apprentissage par imitation est devenu un paradigme central en robotique manipulatrice, porté par des architectures comme ACT, Diffusion Policy ou pi-0 de Physical Intelligence, et la gestion des données hors-distribution reste un défi ouvert du domaine. Que faire des trajectoires partiellement réussies ou des démonstrations ambiguës constitue une question de recherche active, d'autant que les coûts de re-collecte sur robot physique sont prohibitifs à grande échelle. Ce travail s'inscrit dans ce courant sans rupture radicale : les résultats sont limités à la simulation et aucun déploiement sur hardware réel n'est mentionné dans le preprint, ce qui appelle une validation expérimentale indépendante. La prochaine étape naturelle sera la validation sur robots physiques en manipulation dextère, contexte où le taux d'échec lors de la collecte humaine est structurellement élevé et où le gain potentiel d'un tel filtrage automatique serait le plus significatif.

RecherchePaper
1 source
SynthICL : apprentissage par imitation en contexte à grande échelle avec données synthétiques
3arXiv cs.RO 

SynthICL : apprentissage par imitation en contexte à grande échelle avec données synthétiques

Des chercheurs ont publié SynthICL (arXiv:2606.08154), un framework d'apprentissage par imitation en contexte (ICIL) capable d'entraîner une politique robotique entièrement à partir de données synthétiques RGB. Le principe de l'ICIL consiste à conditionner une politique pré-entraînée sur quelques démonstrations fournies au moment du test, sans réentraînement, à l'image du prompting en contexte des grands modèles de langage. SynthICL construit un pipeline de génération de données pour produire des jeux d'entraînement ICIL haute fidélité, puis entraîne un transformer basé sur le flow-matching sur ce corpus. Le modèle intègre également un module de prédiction de sous-objectifs visuels (subgoal prediction), qui génère des images intermédiaires cibles pour ancrer visuellement le contrôle. Évalué sur 16 tâches de manipulation inédites en environnement réel, SynthICL atteint un taux de succès moyen de 79 % avec une seule démonstration fournie à l'inférence, surpassant les méthodes comparables. Le résultat le plus significatif n'est pas tant le score brut que ce qu'il ne requiert pas : ni capteur de profondeur, ni calibration précise de caméra, ni données d'entraînement collectées en conditions réelles. Ces trois contraintes constituent des frictions majeures dans le déploiement de politiques robotiques généralisables, en particulier pour les intégrateurs industriels qui opèrent sur des lignes hétérogènes. Un taux de transfert sim-to-real de 79 % sur des tâches non vues, avec une seule démonstration, commence à réduire sérieusement le fossé entre preuve de concept et déploiement opérationnel, même si les 16 tâches testées restent des manipulations relativement contraintes et que les conditions de tournage des vidéos de démonstration ne sont pas détaillées dans l'abstract. Le champ de l'ICIL robotique s'est structuré en parallèle de l'essor des VLA (Vision-Language-Action models). Des approches comme Octo (UC Berkeley), RT-2 (Google DeepMind) ou pi-zero de Physical Intelligence explorent des paradigmes comparables de généralisation multi-tâches, mais s'appuient en grande partie sur des données réelles coûteuses à collecter. La dépendance croissante aux simulateurs physiques (IsaacSim, Genesis, MuJoCo) pour générer des données d'entraînement est une tendance de fond que SynthICL illustre directement. Le projet dispose d'une page dédiée (synth-icl.github.io) ; aucun partenariat industriel ni calendrier de déploiement n'est mentionné à ce stade, ce qui en fait pour l'instant une contribution académique solide plutôt qu'un produit annoncé.

RechercheActu
1 source
RoboSSM : apprentissage par imitation contextuel et extensible via les modèles à espace d'états
4arXiv cs.RO 

RoboSSM : apprentissage par imitation contextuel et extensible via les modèles à espace d'états

Des chercheurs ont publié sur arXiv (réf. 2509.19658v2) RoboSSM, une architecture d'apprentissage par imitation en contexte (ICIL, pour in-context imitation learning) qui remplace les Transformers par des modèles à espace d'état (SSM, state-space models), et plus précisément par Longhorn, un SSM récent présenté comme état de l'art. L'apprentissage par imitation en contexte permet à un robot d'apprendre une nouvelle tâche à partir d'une poignée de démonstrations fournies à l'inférence, sans aucune mise à jour des paramètres du modèle. Les expériences ont été conduites sur le benchmark LIBERO, référence standard pour l'évaluation des politiques robotiques multi-tâches, et montrent que RoboSSM dépasse les méthodes ICIL à base de Transformers sur les tâches non vues à l'entraînement ainsi que sur les tâches à horizon long. L'enjeu est architectural : les Transformers ont une complexité quadratique en fonction de la longueur du contexte, ce qui les pénalise dès que le prompt contient de nombreuses démonstrations ou des séquences longues. Les SSM, eux, offrent une inférence en temps linéaire et une capacité d'extrapolation à des contextes plus longs que ceux vus à l'entraînement, deux propriétés directement utiles pour l'ICIL en conditions réelles, où l'on peut vouloir fournir cinq ou dix démonstrations plutôt qu'une seule. Les auteurs affirment démontrer pour la première fois qu'un SSM peut servir de colonne vertébrale efficace et scalable pour l'ICIL. Les résultats restent toutefois confinés au simulateur LIBERO ; aucun transfert sim-to-real ni déploiement industriel n'est documenté dans ce travail. L'ICIL s'est imposée ces deux dernières années comme alternative aux politiques entraînées tâche par tâche, portée notamment par des travaux comme ICRT ou HPT, tous basés sur des Transformers. RoboSSM s'inscrit dans une tendance plus large de remplacement des Transformers par des SSM (famille Mamba, Longhorn) dans les pipelines séquentiels, tendance déjà observée en NLP et en vision. Le code est publié sur GitHub, ce qui ouvre la voie à une reproduction communautaire. Les prochaines étapes attendues sont une validation sur robot physique et une comparaison à l'échelle avec des VLA (vision-language-action) de plus grande taille.

RecherchePaper
1 source