Aller au contenu principal
RecherchearXiv cs.RO50min

Multi-apprentissage continu : adapter des politiques visuomotrices préentraînées à la force

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Voici l'article en français :

Des chercheurs ont présenté MuSe (Multisensory Continual Learning), une méthode permettant d'adapter une politique de manipulation robotique pré-entraînée sur la seule vision à de nouvelles modalités sensorielles, sans dégrader ses performances initiales. Publiée sur arXiv (2606.30988v1) le 30 juin 2026, l'étude part d'un constat pratique : les capteurs de force, de toucher ou audio sont souvent spécifiques à un matériel ou une tâche donnée, et les jeux de données robotiques multisensoriels à grande échelle restent rares. Il est donc impossible de pré-entraîner une politique avec tous les capteurs qu'elle pourrait rencontrer en production. MuSe résout ce problème via trois mécanismes combinés : une fusion multi-étages des signaux, une prédiction future multisensorielle, et un rejeu d'expérience (experience replay) sur les données de pré-entraînement d'origine. Les chercheurs ont testé l'approche en ajoutant un capteur de force-couple à une politique vision-seule existante, sur des tâches de manipulation réelles impliquant du contact physique.

Cette méthode répond à un problème central pour l'industrie des politiques vision-langage-action (VLA) de type Pi-0, GR00T N2 ou RT-2/OpenVLA : ces modèles, entraînés quasi exclusivement sur des flux vidéo, échouent souvent sur les tâches à contact riche (insertion de pièces, assemblage, préhension d'objets déformables) où la seule vision ne suffit pas à détecter un glissement ou une collision. Pour les intégrateurs industriels, l'enjeu est d'ajouter un capteur de force sans devoir ré-entraîner un modèle depuis zéro ni perdre les compétences déjà acquises, un phénomène classique d'oubli catastrophique. Les résultats montrent que MuSe améliore les performances sur les tâches de contact tout en préservant, voire en améliorant légèrement, les performances sur les tâches de pré-entraînement d'origine, ce qui suggère qu'un jeu de données multisensoriel modeste suffit à étendre les capacités générales d'un robot au-delà de sa distribution initiale d'entraînement.

Le travail s'inscrit dans la tendance actuelle du secteur à généraliser des politiques robotiques pré-entraînées à grande échelle (à l'image des fondations VLA déployées par les principaux laboratoires de robotique humanoïde), plutôt qu'à ré-entraîner des modèles spécialisés par tâche. La rareté des données tactiles et de force reste un frein reconnu du secteur, contrairement à l'abondance de données vidéo. Le site du projet (jadenvc.github.io/multisensory-continual-learning) propose des démonstrations complémentaires ; les prochaines étapes annoncées concernent l'extension à d'autres modalités, comme le tactile ou l'audio, selon la même approche de fusion incrémentale.

À lire aussi

Apprentissage de politiques visuomotrices robustes par correspondance de flux à trajectoires cohérentes
1arXiv cs.RO 

Apprentissage de politiques visuomotrices robustes par correspondance de flux à trajectoires cohérentes

Une équipe de recherche publie sur arXiv (arXiv:2605.08511, mai 2026) une méthode pour corriger un défaut structurel des politiques de type flow matching appliquées à la manipulation robotique. Ces architectures apprennent des champs de vitesse continus pour convertir du bruit en séquences d'actions, permettant une inférence déterministe rapide. Le problème identifié est un écart fondamental entre entraînement et inférence : l'objectif d'entraînement optimise une vitesse ponctuelle, tandis que l'inférence requiert l'intégration numérique de ce champ sur une trajectoire complète. Les erreurs s'accumulent et dégradent les performances. La méthode proposée, baptisée TC-Flow, associe quatre correctifs complémentaires : une régression de vitesse par rectified flow auxiliaire pour une supervision uniforme sur l'intervalle temporel, un entraînement par cohérence de trajectoire multi-étapes qui supervise directement le déplacement intégré, une régularisation du champ de vitesse pour forcer la continuité temporelle, et un intégrateur de Runge-Kutta d'ordre 4 (RK4) à l'inférence pour réduire l'erreur de discrétisation. Un encodeur de nuage de points 3D à double vue, basé sur deux PointNet indépendants, complète l'architecture. Validée sur un bras Franka et un robot quadrupède Boston Dynamics Spot, la méthode atteint 70 % et 60 % de succès sur deux tâches longue-horizon multi-phases où les deux baselines de référence stagnent à 0 %, et 100 % sur une tâche de placement d'outil de précision. Trois tâches de simulation MetaWorld confirment les gains. Ce résultat est significatif pour les équipes qui développent des VLAs (vision-language-action) basées sur le flow matching : il démontre que le sim-to-real gap et l'échec sur les tâches longue-horizon ne viennent pas nécessairement de la représentation sensorielle ou de la politique en elle-même, mais du désalignement train-inférence. Le passage de 0 % à 60-70 % sur les mêmes tâches en corrigeant uniquement cet écart est un signal fort. L'ablation confirme que les quatre composants sont nécessaires en synergie : RK4 seul sans champ lisse échoue, et la régularisation sans supervision trajectoire dérive quand même. Dans le contexte du marché, le flow matching pour la robotique a été popularisé par Physical Intelligence avec pi-0, qui domine aujourd'hui les benchmarks de manipulation généraliste, et par des travaux comme ACT ou Diffusion Policy. TC-Flow se positionne comme une correction algorithmique orthogonale, applicable à toute architecture flow matching existante. Il s'agit d'un preprint arXiv sans code public annoncé à ce stade, ni déploiement industriel. Les prochaines étapes naturelles seraient une validation sur des tâches bi-manuelles ou sur des plateformes humanoïdes, terrain où les erreurs cumulées de trajectoire sont particulièrement pénalisantes.

RechercheOpinion
1 source
Apprentissage de la coordination visuomotrice prédictive
2arXiv cs.RO 

Apprentissage de la coordination visuomotrice prédictive

Des chercheurs ont publié sur arXiv (référence 2503.23300, version 2, juin 2026) un système de prédiction de la coordination visuomotrice humaine à partir de flux égocentrés. Concrètement, le modèle prend en entrée des images capturées par une caméra portée par l'utilisateur ainsi que des données cinématiques (positions et orientations corporelles), et prédit en sortie la pose de la tête, la direction du regard et les mouvements du haut du corps. L'architecture proposée, baptisée Visuomotor Coordination Representation (VCR), apprend des dépendances temporelles structurées entre ces signaux multimodaux. Elle s'appuie sur un cadre de modélisation du mouvement par diffusion, une famille de modèles génératifs capables de produire des trajectoires cohérentes dans le temps. L'évaluation porte sur EgoExo4D, le jeu de données à grande échelle de Meta combinant vidéos égocentrées et exocentrées d'activités du quotidien, ce qui confère aux résultats une portée de généralisation sur des scénarios variés. L'enjeu pratique est significatif pour la robotique collaborative et les interfaces homme-machine. Anticiper où un opérateur va regarder et comment il va bouger son bras dans la seconde à venir est une brique fondamentale pour des robots industriels capables d'adapter leur trajectoire sans collision, ou pour des exosquelettes qui doivent pré-charger l'assistance musculaire avant le geste. L'approche démontre que la fusion vision-cinématique surpasse les approches unimodales, ce qui valide l'hypothèse que le regard et le mouvement corporel sont couplés de façon prévisible et exploitable par un modèle appris. Pour les technologies d'assistance (aide à la mobilité, interfaces de compensation du handicap), la prédiction de l'intention motrice ouvre des pistes concrètes de réduction de latence. Ce travail s'inscrit dans un courant de recherche en pleine accélération autour de la modélisation du comportement humain en vue première personne, nourri par la montée en puissance de dispositifs portables comme les lunettes AR et les capteurs inertiels embarqués. Les approches concurrentes incluent les modèles de prédiction de gaze sur vidéo statique (Aleatoric, GazeTR) et les frameworks de prédiction de mouvement full-body comme HumanMAC ou MDM, mais peu croisent explicitement regard et cinématique dans un cadre de prédiction temporelle unifiée. La publication ne mentionne pas de calendrier de déploiement industriel ni de partenariat applicatif ; il s'agit pour l'instant d'une contribution académique, avec page projet disponible, dont la suite naturelle serait une intégration dans des pipelines d'imitation learning pour robots humanoïdes ou cobots.

RecherchePaper
1 source
CLAMP : préentraînement par apprentissage contrastif multi-vues 3D pour la manipulation robotique conditionnée par l'action
3arXiv cs.RO 

CLAMP : préentraînement par apprentissage contrastif multi-vues 3D pour la manipulation robotique conditionnée par l'action

Des chercheurs ont publié en 2026 sur arXiv (référence 2502.00937v2) un nouveau framework de pré-entraînement 3D pour la manipulation robotique, baptisé CLAMP, pour Contrastive Learning for 3D Multi-View Action-Conditioned Robotic Manipulation Pretraining. Le principe : fusionner des images RGB-D avec les paramètres extrinsèques des caméras pour reconstruire un nuage de points 3D unifié, puis re-rendre des observations multi-vues à quatre canaux (RGB, profondeur, coordonnées 3D), incluant une vue dynamique au niveau du poignet du robot. Un encodeur est pré-entraîné par apprentissage contrastif sur de larges jeux de trajectoires simulées, en associant la géométrie spatiale des objets aux séquences d'actions du robot. Simultanément, une Diffusion Policy est pré-entraînée pour initialiser les poids lors du fine-tuning, avant d'être affinée sur un nombre limité de démonstrations réelles. CLAMP surpasse les baselines état de l'art sur six tâches en simulation et cinq tâches en environnement réel. La valeur opérationnelle de CLAMP tient principalement à son impact sur l'efficacité d'apprentissage. Les approches standards de behavior cloning s'appuient sur des représentations 2D pré-entraînées (ViT, ResNet), qui ignorent la profondeur et la géométrie spatiale, critiques pour les tâches de manipulation de précision. En injectant cette information 3D dès le pré-entraînement, CLAMP réduit le nombre de démonstrations humaines nécessaires pour atteindre des performances satisfaisantes sur de nouvelles tâches, ce qui est un levier concret pour les intégrateurs industriels. L'architecture hybride contrastive plus Diffusion Policy est potentiellement transférable. Prudence toutefois : les résultats en conditions réelles portent sur cinq tâches seulement, et le preprint ne détaille pas les protocoles de sélection des vidéos, ce qui invite à nuancer la portée des résultats. CLAMP s'inscrit dans un champ de recherche actif visant à dépasser les limites des politiques purement 2D et des VLA (Vision-Language-Action models) pour la manipulation. Il dialogue directement avec des travaux comme R3M, MVP, DP3 (Diffusion Policy 3D) ou SpatialVLA. La principale originalité est le conditionnement par les actions dans l'apprentissage contrastif 3D, combinaison peu explorée jusqu'ici. Le code et les vidéos sont disponibles sur clamp3d.github.io. Aucun déploiement industriel ni partenariat n'est annoncé ; il s'agit d'un résultat académique. La suite logique serait une évaluation à plus grande échelle, avec davantage de robots et de scénarios hors distribution, pour confirmer la généralisation sim-to-real à l'échelle.

RecherchePaper
1 source
Apprentissage continu de politiques robotiques via des dynamiques neuronales variationnelles
4arXiv cs.RO 

Apprentissage continu de politiques robotiques via des dynamiques neuronales variationnelles

Des chercheurs ont publié en juin 2026 (arXiv:2606.27353) un framework d'apprentissage continu permettant à un robot de s'adapter en temps réel à des dynamiques changeantes et non observées, sans nécessiter de réentraînement complet. Le système combine un modèle de dynamique analytique (prior physique) avec un résidu neuronal entraîné à capturer les effets non modélisés. Un encodeur récurrent infère en ligne la "condition cachée" courante du robot, c'est-à-dire l'état du système non directement mesurable (charge utile variable, usure mécanique, perturbations aérologiques), à partir des trajectoires état-action récentes. Cette condition estimée pilote à la fois le modèle résiduel et la politique de contrôle. Lors de l'apprentissage, la politique est optimisée par simulation différentiable en échantillonnant un ensemble de dynamiques plausibles issues du modèle latent. Sur un quadrotor réel soumis à des vents récurrents, le système récupère une perturbation connue en environ 1 seconde, soit cinq fois plus rapidement qu'un réentraînement résiduel en ligne classique, et réduit les erreurs de vol stationnaire et de suivi de trajectoire respectivement de 65,7 % et 53,3 % par rapport aux approches d'adaptation en ligne de l'état de l'art. L'enjeu industriel est direct : la quasi-totalité des contrôleurs appris actuels sont entraînés une fois, puis déployés statiquement, comme si la dynamique du robot restait constante. En pratique, batteries qui se déchargent, charges qui changent de mission en mission, surfaces de contact qui évoluent, conditions météo variables, tout cela dégrade les performances sans mécanisme de correction. L'originalité de cette approche tient à la distinction entre "reconnaissance" et "réadaptation" : plutôt que de réajuster un modèle depuis zéro à chaque perturbation rencontrée (coûteux en données et en temps), le système reconnaît une dynamique déjà vue et l'applique immédiatement via l'encodeur récurrent. Ce paradigme est particulièrement pertinent pour les intégrateurs de drones industriels, de robots manipulateurs en logistique ou de plateformes mobiles en environnement extérieur, où les cycles de déploiement sont longs et les recalibrages manuels coûteux. Les résultats valident aussi une hypothèse clé du champ sim-to-real : qu'un prior physique structuré couplé à un résidu neuronal permet de généraliser à des conditions non vues lors de l'entraînement, à condition que ces conditions aient été préalablement "vécues" lors d'autres déploiements. Ce travail s'inscrit dans une lignée de recherches sur l'adaptation dynamique de politiques robotiques incluant la randomisation de domaine (popularisée par OpenAI Robotics dès 2018), les approches méta-learning type MAML, et les méthodes d'adaptation en ligne par processus gaussiens. Le réentraînement résiduel en ligne, utilisé comme baseline de comparaison, est une technique établie mais limitée par sa latence de convergence, problème central que ce framework adresse directement par la reconnaissance latente. L'article est à ce stade un preprint non relu par les pairs, et les expériences réelles restent limitées au quadrotor ; la généralisation à des robots à pattes ou à des bras manipulateurs industriels reste à démontrer. Aucun partenaire industriel ni calendrier de transfert technologique n'est mentionné. Les prochaines étapes probables incluent des tests sur des plateformes à dynamiques plus complexes et une validation sur des dynamiques à distribution plus large.

RecherchePaper
1 source