ChronoFlow-Policy : unifier le flux d'interaction passé…

Apprentissage de politiques visuomotrices robustes par correspondance de flux à trajectoires cohérentes

44

1arXiv cs.RO

Apprentissage de politiques visuomotrices robustes par correspondance de flux à trajectoires cohérentes

Une équipe de recherche publie sur arXiv (arXiv:2605.08511, mai 2026) une méthode pour corriger un défaut structurel des politiques de type flow matching appliquées à la manipulation robotique. Ces architectures apprennent des champs de vitesse continus pour convertir du bruit en séquences d'actions, permettant une inférence déterministe rapide. Le problème identifié est un écart fondamental entre entraînement et inférence : l'objectif d'entraînement optimise une vitesse ponctuelle, tandis que l'inférence requiert l'intégration numérique de ce champ sur une trajectoire complète. Les erreurs s'accumulent et dégradent les performances. La méthode proposée, baptisée TC-Flow, associe quatre correctifs complémentaires : une régression de vitesse par rectified flow auxiliaire pour une supervision uniforme sur l'intervalle temporel, un entraînement par cohérence de trajectoire multi-étapes qui supervise directement le déplacement intégré, une régularisation du champ de vitesse pour forcer la continuité temporelle, et un intégrateur de Runge-Kutta d'ordre 4 (RK4) à l'inférence pour réduire l'erreur de discrétisation. Un encodeur de nuage de points 3D à double vue, basé sur deux PointNet indépendants, complète l'architecture. Validée sur un bras Franka et un robot quadrupède Boston Dynamics Spot, la méthode atteint 70 % et 60 % de succès sur deux tâches longue-horizon multi-phases où les deux baselines de référence stagnent à 0 %, et 100 % sur une tâche de placement d'outil de précision. Trois tâches de simulation MetaWorld confirment les gains. Ce résultat est significatif pour les équipes qui développent des VLAs (vision-language-action) basées sur le flow matching : il démontre que le sim-to-real gap et l'échec sur les tâches longue-horizon ne viennent pas nécessairement de la représentation sensorielle ou de la politique en elle-même, mais du désalignement train-inférence. Le passage de 0 % à 60-70 % sur les mêmes tâches en corrigeant uniquement cet écart est un signal fort. L'ablation confirme que les quatre composants sont nécessaires en synergie : RK4 seul sans champ lisse échoue, et la régularisation sans supervision trajectoire dérive quand même. Dans le contexte du marché, le flow matching pour la robotique a été popularisé par Physical Intelligence avec pi-0, qui domine aujourd'hui les benchmarks de manipulation généraliste, et par des travaux comme ACT ou Diffusion Policy. TC-Flow se positionne comme une correction algorithmique orthogonale, applicable à toute architecture flow matching existante. Il s'agit d'un preprint arXiv sans code public annoncé à ce stade, ni déploiement industriel. Les prochaines étapes naturelles seraient une validation sur des tâches bi-manuelles ou sur des plateformes humanoïdes, terrain où les erreurs cumulées de trajectoire sont particulièrement pénalisantes.

RechercheOpinion

1 source

Multi-apprentissage continu : adapter des politiques visuomotrices préentraînées à la force

52

2arXiv cs.RO

Multi-apprentissage continu : adapter des politiques visuomotrices préentraînées à la force

Voici l'article en français : Des chercheurs ont présenté MuSe (Multisensory Continual Learning), une méthode permettant d'adapter une politique de manipulation robotique pré-entraînée sur la seule vision à de nouvelles modalités sensorielles, sans dégrader ses performances initiales. Publiée sur arXiv (2606.30988v1) le 30 juin 2026, l'étude part d'un constat pratique : les capteurs de force, de toucher ou audio sont souvent spécifiques à un matériel ou une tâche donnée, et les jeux de données robotiques multisensoriels à grande échelle restent rares. Il est donc impossible de pré-entraîner une politique avec tous les capteurs qu'elle pourrait rencontrer en production. MuSe résout ce problème via trois mécanismes combinés : une fusion multi-étages des signaux, une prédiction future multisensorielle, et un rejeu d'expérience (experience replay) sur les données de pré-entraînement d'origine. Les chercheurs ont testé l'approche en ajoutant un capteur de force-couple à une politique vision-seule existante, sur des tâches de manipulation réelles impliquant du contact physique. Cette méthode répond à un problème central pour l'industrie des politiques vision-langage-action (VLA) de type Pi-0, GR00T N2 ou RT-2/OpenVLA : ces modèles, entraînés quasi exclusivement sur des flux vidéo, échouent souvent sur les tâches à contact riche (insertion de pièces, assemblage, préhension d'objets déformables) où la seule vision ne suffit pas à détecter un glissement ou une collision. Pour les intégrateurs industriels, l'enjeu est d'ajouter un capteur de force sans devoir ré-entraîner un modèle depuis zéro ni perdre les compétences déjà acquises, un phénomène classique d'oubli catastrophique. Les résultats montrent que MuSe améliore les performances sur les tâches de contact tout en préservant, voire en améliorant légèrement, les performances sur les tâches de pré-entraînement d'origine, ce qui suggère qu'un jeu de données multisensoriel modeste suffit à étendre les capacités générales d'un robot au-delà de sa distribution initiale d'entraînement. Le travail s'inscrit dans la tendance actuelle du secteur à généraliser des politiques robotiques pré-entraînées à grande échelle (à l'image des fondations VLA déployées par les principaux laboratoires de robotique humanoïde), plutôt qu'à ré-entraîner des modèles spécialisés par tâche. La rareté des données tactiles et de force reste un frein reconnu du secteur, contrairement à l'abondance de données vidéo. Le site du projet (jadenvc.github.io/multisensory-continual-learning) propose des démonstrations complémentaires ; les prochaines étapes annoncées concernent l'extension à d'autres modalités, comme le tactile ou l'audio, selon la même approche de fusion incrémentale.

RecherchePaper

1 source

Politique CoLA-Flow : apprentissage par imitation temporellement cohérent via le flux d'actions latentes continues pour la manipulation robotique

42

3arXiv cs.RO

Politique CoLA-Flow : apprentissage par imitation temporellement cohérent via le flux d'actions latentes continues pour la manipulation robotique

Une équipe de chercheurs a publié sur arXiv (2501.23087, version 3 en mai 2026) CoLA-Flow Policy, un framework d'apprentissage par imitation conçu pour la manipulation robotique sur des horizons d'action longs. L'approche combine le flow matching, une technique générative plus rapide que la diffusion, avec un espace d'action latent continu dans lequel les trajectoires sont encodées avant l'apprentissage du flux. Sur bancs de simulation et sur robots réels, les expériences affichent une amélioration de la régularité des trajectoires allant jusqu'à 93,7 % et un gain de taux de succès allant jusqu'à 25 points de pourcentage par rapport aux baselines de flow matching opérant directement dans l'espace d'action brut. L'inférence s'effectue en quasi-un seul pas, soit une vitesse nettement supérieure aux politiques basées sur la diffusion, qui nécessitent plusieurs étapes de débruitage. Le principal apport de CoLA-Flow est de découpler la structure globale du mouvement du bruit de contrôle bas niveau : en encodant les séquences d'actions en trajectoires latentes temporellement cohérentes, le modèle évite les oscillations et incohérences qui affectent les politiques de flow matching en espace brut. Pour un intégrateur ou un décideur industriel, cela signifie qu'une même architecture peut traiter des tâches de manipulation complexes sans latence rédhibitoire ni comportement erratique entre les étapes. Le conditionnement par nuages de points (point cloud) et la modulation multimodale à l'exécution via des indices visuels renforcent la robustesse dans des environnements réels non contrôlés, deux exigences critiques pour tout déploiement hors laboratoire. Ce travail s'inscrit dans une compétition intense entre architectures génératives pour les politiques robotiques. Diffusion Policy (Chi et al., 2023) a établi la référence en termes d'expressivité comportementale, mais son coût computationnel freine l'usage temps réel. Pi-0 de Physical Intelligence et GR00T N2 de NVIDIA ont validé le flow matching comme alternative viable, au prix d'une instabilité accrue sur les horizons longs, précisément le problème que CoLA-Flow tente de résoudre via l'espace latent. Le framework s'apparente conceptuellement aux approches d'action chunking (ACT), mais opère au niveau du flux plutôt que de la prédiction directe. La troisième version de l'article suggère des révisions itératives significatives depuis janvier 2026 ; aucun déploiement industriel ni partenariat commercial n'est mentionné à ce stade, et les benchmarks présentés restent limités à des environnements de manipulation contrôlés.

RechercheOpinion

1 source

Apprentissage de la coordination visuomotrice prédictive

38

4arXiv cs.RO

Apprentissage de la coordination visuomotrice prédictive

Des chercheurs ont publié sur arXiv (référence 2503.23300, version 2, juin 2026) un système de prédiction de la coordination visuomotrice humaine à partir de flux égocentrés. Concrètement, le modèle prend en entrée des images capturées par une caméra portée par l'utilisateur ainsi que des données cinématiques (positions et orientations corporelles), et prédit en sortie la pose de la tête, la direction du regard et les mouvements du haut du corps. L'architecture proposée, baptisée Visuomotor Coordination Representation (VCR), apprend des dépendances temporelles structurées entre ces signaux multimodaux. Elle s'appuie sur un cadre de modélisation du mouvement par diffusion, une famille de modèles génératifs capables de produire des trajectoires cohérentes dans le temps. L'évaluation porte sur EgoExo4D, le jeu de données à grande échelle de Meta combinant vidéos égocentrées et exocentrées d'activités du quotidien, ce qui confère aux résultats une portée de généralisation sur des scénarios variés. L'enjeu pratique est significatif pour la robotique collaborative et les interfaces homme-machine. Anticiper où un opérateur va regarder et comment il va bouger son bras dans la seconde à venir est une brique fondamentale pour des robots industriels capables d'adapter leur trajectoire sans collision, ou pour des exosquelettes qui doivent pré-charger l'assistance musculaire avant le geste. L'approche démontre que la fusion vision-cinématique surpasse les approches unimodales, ce qui valide l'hypothèse que le regard et le mouvement corporel sont couplés de façon prévisible et exploitable par un modèle appris. Pour les technologies d'assistance (aide à la mobilité, interfaces de compensation du handicap), la prédiction de l'intention motrice ouvre des pistes concrètes de réduction de latence. Ce travail s'inscrit dans un courant de recherche en pleine accélération autour de la modélisation du comportement humain en vue première personne, nourri par la montée en puissance de dispositifs portables comme les lunettes AR et les capteurs inertiels embarqués. Les approches concurrentes incluent les modèles de prédiction de gaze sur vidéo statique (Aleatoric, GazeTR) et les frameworks de prédiction de mouvement full-body comme HumanMAC ou MDM, mais peu croisent explicitement regard et cinématique dans un cadre de prédiction temporelle unifiée. La publication ne mentionne pas de calendrier de déploiement industriel ni de partenariat applicatif ; il s'agit pour l'instant d'une contribution académique, avec page projet disponible, dont la suite naturelle serait une intégration dans des pipelines d'imitation learning pour robots humanoïdes ou cobots.

RecherchePaper

1 source

ChronoFlow-Policy : unifier le flux d'interaction passé-présent-futur dans l'apprentissage de politiques visuomotrices

À lire aussi

Apprentissage de politiques visuomotrices robustes par correspondance de flux à trajectoires cohérentes

Multi-apprentissage continu : adapter des politiques visuomotrices préentraînées à la force

Politique CoLA-Flow : apprentissage par imitation temporellement cohérent via le flux d'actions latentes continues pour la manipulation robotique

Apprentissage de la coordination visuomotrice prédictive