Adaptateur de réseau de neurones inversible pour…

SUREFlow : appariement de flux résiduel adapté à l'incertitude dans l'espace d'états pour une manipulation robotique robuste

40

1arXiv cs.RO

SUREFlow : appariement de flux résiduel adapté à l'incertitude dans l'espace d'états pour une manipulation robotique robuste

Des chercheurs publient sur arXiv (2607.10504v1) SUREFlow, une nouvelle politique de manipulation robotique fondée sur le state-space model Mamba plutôt que sur les architectures Transformer habituelles. Le nom complet, State-space Uncertainty-aware REsidual Flow matching, résume l'idée centrale: le modèle prédit conjointement les vitesses d'action et une incertitude résiduelle dépendant de l'entrée, ce qui lui permet de raffiner sélectivement les dimensions d'action jugées peu fiables, sans retour de l'environnement, tout en gardant un coût de calcul contenu. Sur le benchmark de simulation LIBERO, SUREFlow atteint un taux de réussite moyen de 92,5%, contre un score inférieur de 34,2 points pour MaIL, l'autre politique bâtie sur Mamba. Sur la variante plus difficile LIBERO-PRO, il obtient environ 49% de réussite avec seulement 179 millions de paramètres, un résultat que les auteurs présentent comme comparable à celui de grands modèles VLA (vision-langage-action) pesant entre 3 et 7 milliards de paramètres. Le code source est publié sur GitHub. L'enjeu dépassé le simple gain de score: les politiques génératives par diffusion ou flow matching, aujourd'hui dominantes pour piloter des bras robotiques à partir d'images et de langage, souffrent d'instabilité lors de rollouts longs, où de petites erreurs de vitesse s'accumulent et dégradent l'exécution. La plupart des approches existantes supposent une incertitude homogène et ne la modélisent pas explicitement pendant la génération d'action. En ciblant ce point précis, SUREFlow s'attaque directement au fossé entre démonstration en simulation et fiabilité en conditions réelles, un problème central pour les intégrateurs qui cherchent des politiques VLA robustes sans devoir recourir à des modèles massifs coûteux à faire tourner en embarqué. Le travail s'inscrit dans la lignée des politiques de manipulation compactes inspirées de Mamba, alternative aux Transformers pour réduire la complexité de calcul sur des séquences longues, après des tentatives comme MaIL. Il se positionne aussi face aux grands VLA généralistes tels que Pi-0 ou GR00T N2, en misant sur l'efficacité paramétrique plutôt que sur l'échelle. À ce stade, il s'agit d'une publication de recherche évaluée uniquement en simulation sur LIBERO et LIBERO-PRO, sans validation annoncée sur robot physique ni partenariat industriel identifié.

RechercheActu

1 source

SoMA : un simulateur neuronal réel-vers-simulation pour la manipulation robotique de corps mous

39

2arXiv cs.RO

SoMA : un simulateur neuronal réel-vers-simulation pour la manipulation robotique de corps mous

SoMA, un simulateur neuronal de type "real-to-sim" pour la manipulation robotique d'objets déformables, vient d'être présenté dans un article arXiv (référence 2602.02402v2, version révisée). Le système s'appuie sur des Gaussian Splats 3D pour modéliser les dynamiques d'objets souples (tissus, matériaux déformables) en couplant trois éléments dans un espace latent neuronal unifié : la dynamique de déformation propre à l'objet, les forces environnementales, et les actions des articulations du robot. Contrairement aux simulateurs existants qui reposent soit sur des modèles physiques prédéfinis, soit sur des dynamiques apprises à partir de données mais sans conditionnement par les commandes du robot, SoMA intègre directement le contrôle robotique dans sa boucle de simulation. Les auteurs rapportent un gain de précision de resimulation et de généralisation de 20% sur des tâches de manipulation robotique réelles, avec une démonstration sur du pliage de tissu à horizon long. Cette approche s'attaque à un problème central pour l'industrie robotique : la manipulation d'objets souples reste l'un des angles morts des pipelines actuels de simulation-vers-réel, largement optimisés pour les objets rigides. Un simulateur capable de représenter fidèlement la déformation de matériaux tout en restant stable sur de longues séquences d'actions ouvrirait la voie à un entraînement plus fiable de politiques de manipulation pour du linge, des câbles, ou des emballages souples, sans dépendre de modèles physiques manuels coûteux à calibrer. Le gain de 20% en généralisation, s'il se confirme sur d'autres tâches que le pliage de tissu, suggérerait que les architectures neuronales conditionnées par le robot peuvent combler une partie de l'écart entre simulation et réalité pour les objets déformables, un domaine où les benchmarks restent encore peu standardisés. Le champ de la simulation "real-to-sim" pour la robotique s'est largement développé autour des Gaussian Splatting comme représentation de scène, en particulier pour les objets rigides ou articulés. SoMA prolonge cette ligne de recherche vers les corps mous, un défi documenté de longue date en raison de la difficulté à modéliser des dynamiques non linéaires avec peu de données réelles. L'article ne précise pas de plan de déploiement industriel ni de partenariat commercial à ce stade : il s'agit d'une contribution de recherche académique, dont la reproductibilité et l'extension à d'autres classes d'objets déformables (mousses, liquides, objets composites) restent à démontrer par la communauté.

RecherchePaper

1 source

SkillPlug : extraction non supervisée de compétences pour l'adaptation en few-shot dans la manipulation robotique

36

3arXiv cs.RO

SkillPlug : extraction non supervisée de compétences pour l'adaptation en few-shot dans la manipulation robotique

Une équipe de recherche publie sur arXiv (arXiv:2607.08354v1, soumission nouvelle) SkillPlug, un framework destiné à l'apprentissage par imitation visuomotrice en robotique de manipulation. Le système se présente comme un module "plug-in" qui vient s'ajouter à une politique visuomotrice existante : il ajoute un module de conditionnement par compétences ("skill-conditioning") et extrait, à partir de démonstrations multi-tâches brutes et sans supervision, une bibliothèque de compétences partagée et réutilisable. L'extraction repose sur des objectifs auto-supervisés conçus pour produire des primitives comportementales compactes, non redondantes et transférables d'une tâche à l'autre. Une fois cette bibliothèque figée, l'adaptation à une nouvelle tâche ne nécessite plus qu'un réentraînement léger : seuls un routeur et une tête d'action sont ajustés, sans réentraînement complet de bout en bout. Les auteurs rapportent des tests sur deux bancs d'essai en simulation et sur un robot réel, avec une amélioration observée à la fois en performance multi-tâches et en adaptation à partir de peu de démonstrations (few-shot). L'abstract ne fournit toutefois aucun chiffre précis de gain de taux de réussite ni détail sur les bancs de test utilisés, ce qui limite la portée vérifiable des résultats à ce stade. L'enjeu pratique visé est réel pour les intégrateurs robotiques : la plupart des politiques actuelles sont entraînées de bout en bout et n'offrent aucune structure explicite pour réutiliser des comportements déjà appris, ce qui rend le transfert vers de nouvelles tâches coûteux en données. En figeant une bibliothèque de compétences et en ne réentraînant qu'un routeur léger, SkillPlug promet une adaptation à moindre coût de calcul et de données, un point sensible pour tout déploiement industriel où recollecter des centaines de démonstrations par nouvelle tâche n'est pas viable économiquement. Ce travail s'inscrit dans un courant de recherche plus large qui cherche à réintroduire une structure compositionnelle (bibliothèques de compétences, primitives réutilisables) dans des politiques d'apprentissage par imitation de plus en plus dominées par des modèles monolithiques de type VLA (vision-language-action). Il s'agit ici d'une publication de recherche académique, sans acteur industriel ni produit commercial associé, et sans mention de comparaison directe avec des systèmes VLA à grande échelle déployés dans l'industrie. Les prochaines étapes attendues seraient une évaluation à plus grande échelle et une comparaison chiffrée face aux approches de politique de bout en bout dominantes.

RecherchePaper

1 source

Dépasser le piège de la diversité en manipulation robotique via l'adaptation centrée sur les ancres

45

4arXiv cs.RO

Dépasser le piège de la diversité en manipulation robotique via l'adaptation centrée sur les ancres

Une équipe de chercheurs a publié le 10 mai 2026 sur arXiv un travail (2605.07381) remettant en cause une pratique répandue dans l'adaptation des modèles Vision-Language-Action (VLA) à des robots réels : la collecte de démonstrations aussi variées que possible. Leur étude formalise ce qu'ils appellent un "piège de la diversité", le fait que, sous un budget de données fixe et limité, multiplier les conditions uniques introduit un bruit d'estimation qui ne converge pas vers zéro, dégradant finalement la fiabilité de la politique apprise. Pour le quantifier, ils décomposent l'erreur de politique en deux composantes : un terme d'estimation lié à la densité des démonstrations, et un terme d'extrapolation lié à la couverture des conditions. Ils montrent qu'il existe un point optimal intérieur, c'est-à-dire non aux extrêmes, pour l'allocation des configurations uniques avec un budget contraint. Sur cette base, ils proposent l'Anchor-Centric Adaptation (ACA), un cadre en deux étapes : d'abord stabiliser un squelette de politique via des démonstrations répétées sur des ancres centrales, puis étendre sélectivement la couverture vers des zones à haut risque d'erreur via un "teacher-forced error mining" et des mises à jour résiduelles contraintes. Des expériences sur robot réel valident l'approche et montrent des taux de succès supérieurs à la stratégie diversifiée standard avec le même budget. Ce résultat a des implications directes pour les équipes qui tentent de déployer des VLA généralistes, tels que pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA, sur des plateformes matérielles spécifiques. Le coût de collecte de démonstrations physiques est élevé, et la pratique habituelle consistant à "maximiser la diversité" repose sur une intuition empruntée au machine learning classique qui ne tient pas ici. ACA suggère qu'un protocole structuré, ciblant d'abord la répétabilité sur des configurations critiques avant d'explorer les marges, peut réduire significativement les besoins en données tout en améliorant la robustesse. Cela touche directement le "reality gap" : les VLA entraînés en simulation ou en général échouent souvent à l'adaptation fine non pas par manque de couverture, mais par instabilité statistique sur les ancres critiques. Le travail s'inscrit dans un mouvement plus large de rationalisation du fine-tuning des VLA pour des applications industrielles, où chaque heure de télé-opération coûte cher. Les approches concurrentes incluent DAgger, des méthodes de résidual policy learning, et diverses stratégies de curriculum. Ce papier est un preprint non encore évalué par les pairs ; les expériences réelles décrites restent à reproduire indépendamment. Les prochaines étapes probables incluent une validation sur plusieurs plateformes (bras industriels, manipulateurs mobiles) et une intégration dans des pipelines de déploiement VLA existants.

RechercheOpinion

1 source

Adaptateur de réseau de neurones inversible pour la correspondance de flux en une étape dans la manipulation robotique

À lire aussi

SUREFlow : appariement de flux résiduel adapté à l'incertitude dans l'espace d'états pour une manipulation robotique robuste

SoMA : un simulateur neuronal réel-vers-simulation pour la manipulation robotique de corps mous

SkillPlug : extraction non supervisée de compétences pour l'adaptation en few-shot dans la manipulation robotique

Dépasser le piège de la diversité en manipulation robotique via l'adaptation centrée sur les ancres