Aller au contenu principal
DiffusionVS : un cadre génératif pour l'asservissement visuel robuste basé sur la politique de diffusion
RecherchearXiv cs.RO2h

DiffusionVS : un cadre génératif pour l'asservissement visuel robuste basé sur la politique de diffusion

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

DiffusionVS, déposé sur arXiv (2506.19397) en juin 2026, propose un cadre génératif pour le visual servoing robotique fondé sur la Diffusion Policy. Le système prend en entrée les coordonnées normalisées des coins de marqueurs visuels observés par la caméra embarquée, et génère des commandes de vitesse caméra via un processus de débruitage conditionnel. Pour contourner les limitations de généralisation propres aux modèles entraînés sur jeux de données statiques, les auteurs adoptent un paradigme d'entraînement en ligne : le modèle collecte continuellement de nouvelles expériences interactives pour diversifier sa distribution d'apprentissage. Les résultats rapportés atteignent un taux de succès de quasi 100% en simulation et 93% en expériences physiques réelles.

Le visual servoing par régression classique souffre de deux problèmes structurels : le jitter de trajectoire causé par des mappings mono-étape sensibles au bruit, et l'accumulation d'erreurs lors de distribution shifts en cours de trajectoire. La Diffusion Policy adresse ces deux points simultanément. En prédisant des séquences d'actions plutôt que des commandes isolées, elle maintient la cohérence temporelle. L'augmentation implicite de données inhérente au processus de débruitage renforce par ailleurs la robustesse aux perturbations. Ce qui est notable, au-delà des performances brutes, c'est la généricité démontrée du module : intégré à des architectures de visual servoing existantes, il améliore systématiquement leurs résultats, sans modification de leur pipeline de base. Cela valide le mécanisme diffusion comme composant réutilisable, pas seulement comme architecture ad hoc.

La Diffusion Policy, popularisée par Chi et al. en 2023 (Columbia/MIT), s'est imposée en apprentissage par imitation pour la manipulation, puis adoptée par Physical Intelligence dans pi-0 et d'autres systèmes VLA. Son application au visual servoing, problème classique de robotique de précision, était moins explorée. Les approches concurrentes restent dominées par la régression directe ou les contrôleurs IBVS/PBVS à base de features géométriques. La contribution principale ici est l'entraînement en ligne, qui contourne le problème de covariate shift sans nécessiter un dataset exhaustif pré-collecté, contrainte majeure en déploiement industriel. Les limites actuelles sont notables : le système repose sur des marqueurs visuels structurés (AprilTags), et les expériences physiques ne précisent pas le type de robot ni les conditions d'environnement, ce qui rend difficile l'évaluation de la maturité pour un déploiement réel.

À lire aussi

SID : glissement dans la distribution pour une manipulation robotique robuste à partir de peu de démonstrations
1arXiv cs.RO 

SID : glissement dans la distribution pour une manipulation robotique robuste à partir de peu de démonstrations

Des chercheurs ont présenté SID (Sliding into Distribution), un cadre structuré pour la manipulation robotique capable de généraliser à partir de seulement deux démonstrations humaines. Évalué sur six tâches réelles variées (saisies, manipulations d'objets), SID atteint environ 90 % de taux de succès dans des configurations hors-distribution (OOD), c'est-à-dire avec des poses d'objets, des points de vue ou des conditions d'éclairage non vus lors de l'entraînement. La dégradation reste inférieure à 10 % en présence de distracteurs visuels ou de perturbations physiques externes. Le système s'appuie sur deux composants clés : un champ de mouvement centré sur l'objet, appris depuis des démonstrations "canonicalisées" (normalisées en pose), et une politique d'exécution égocentrique légère entraînée par flow matching conditionné, complétée par une augmentation de données par reprojection de nuage de points cinématiquement cohérente. L'intérêt de SID tient à sa frugalité en données : là où les politiques visuomotrices end-to-end standard (type ACT, Diffusion Policy) réclament des dizaines à centaines de démonstrations, SID opère à deux. C'est un signal fort pour les intégrateurs industriels qui peinent à collecter des données en volume sur cellule réelle. Le mécanisme de correction distributional est particulièrement notable : le champ de mouvement génère de larges corrections quand le robot s'écarte de la trajectoire démontrée, puis s'annule naturellement à l'approche de la zone fiable, avant de passer la main à la politique locale. Ce découplage explicite entre récupération hors-distribution et exécution fine constitue une alternative architecturale aux approches purement régressives. Les résultats suggèrent que le "sim-to-real gap" n'est pas le seul problème à résoudre : gérer le glissement distributional en ligne, sans recollecte de données, est un levier sous-exploité. Cette publication s'inscrit dans une vague de travaux sur la manipulation à faible donnée qui cherchent à dépasser les limites des transformeurs d'actions (ACT, π0 de Physical Intelligence, GR00T N2 de NVIDIA) en introduisant des structures géométriques explicites plutôt que de tout apprendre de bout en bout. Le flow matching, popularisé ces deux dernières années comme alternative plus stable à la diffusion pour la génération de trajectoires, est ici combiné à une représentation canonique de l'objet, une approche qui rappelle les travaux sur les réseaux de catégorie neurale (NCF) ou les politiques basées sur des keypoints. Le papier ne mentionne pas de partenaires industriels ni de timeline de déploiement, et reste pour l'instant au stade de preuve de concept académique sur banc réel. Les prochaines étapes naturelles seraient une extension à des objets déformables et une validation sur des bras commerciaux (Franka, xArm) dans des environnements moins contrôlés que le labo.

RecherchePaper
1 source
HyperSim : un cadre complet de transfert simulation-réel pour la manipulation robotique robuste
2arXiv cs.RO 

HyperSim : un cadre complet de transfert simulation-réel pour la manipulation robotique robuste

Des chercheurs ont publié sur arXiv (arXiv:2605.26638) HyperSim, un framework bout-en-bout conçu pour transférer des politiques de manipulation robotique de la simulation vers le monde réel. La méthode repose sur trois piliers : la synthèse d'environnements haute fidélité visuelle, la génération de trajectoires adversariales, et un co-entraînement mixte simulation/réel. Validée sur 400 exécutions de tâches en conditions réelles, HyperSim atteint des taux de succès sim-to-real de 80 % avec le modèle ACT et 95 % avec π₀ (le modèle VLA de Physical Intelligence). Les politiques entraînées avec des trajectoires adversariales affichent par ailleurs un taux de complétion supérieur de 35 % sous perturbations physiques dynamiques, par rapport aux baselines sans ce module. Ces résultats adressent directement l'un des verrous les plus cités dans le déploiement de robots manipulateurs industriels : le sim-to-real gap, c'est-à-dire la dégradation de performance entre une politique entraînée en simulation et son comportement réel. Un taux de 95 % avec π₀ sur des tâches de manipulation représente un niveau de robustesse rarement publié à cette échelle d'évaluation (400 runs, trois métriques granulaires). Pour les intégrateurs et les équipes R&D, cela valide concrètement l'hypothèse que la donnée synthétique, lorsqu'elle est correctement augmentée et diversifiée, peut substituer en grande partie la collecte physique coûteuse. À noter cependant : l'article ne détaille pas les types de tâches ni les objets testés, ce qui limite l'interprétation de la généralité des résultats. La problématique sim-to-real est au cœur des efforts de plusieurs équipes concurrentes : Google DeepMind (avec RoboVerse et ses pipelines de données synthétiques), Physical Intelligence (dont le modèle π₀ est justement l'un des deux benchmarks utilisés ici), et des laboratoires académiques comme Stanford et CMU. HyperSim se distingue par son approche intégrée plutôt que modulaire, cherchant à traiter simultanément le gap visuel et le gap dynamique. La prochaine étape naturelle, non précisée dans le preprint, serait de tester la généralisation à des plateformes humanoïdes ou des scénarios multi-objet en environnement non structuré.

UELes laboratoires européens en manipulation robotique (CEA-List, INRIA) pourraient intégrer ce framework pour réduire leur dépendance aux démonstrations physiques coûteuses, sans implication institutionnelle directe.

RecherchePaper
1 source
VANDERER : exploration sans carte par politique de diffusion guidée par la curiosité visuelle et l'anticipation
3arXiv cs.RO 

VANDERER : exploration sans carte par politique de diffusion guidée par la curiosité visuelle et l'anticipation

Des chercheurs ont publié sur arXiv (arXiv:2606.14879, juin 2026) un framework d'exploration baptisé VANDERER, conçu pour permettre à des agents mobiles de naviguer dans des environnements inconnus sans construire de carte d'occupation traditionnelle. Le système repose sur un module de curiosité visuelle (Visual Curiosity Module, VCM) qui pilote une politique de diffusion pré-entraînée en s'appuyant exclusivement sur des images monoculaires, sans LiDAR ni caméra de profondeur. Concrètement, le VCM intègre un modèle du monde de navigation qui prédit les conséquences des actions candidates, leur attribue un coût de curiosité, puis oriente le processus de diffusion vers les actions qui maximisent la superficie explorée. Évalué sur des environnements simulés variés, VANDERER explore en moyenne 13,4 % de superficie supplémentaire par rapport à NoMaD, une baseline reconnue dans le domaine de la navigation sans carte. L'intérêt du travail tient à la contrainte matérielle assumée : une seule caméra monoculaire, omniprésente sur les plateformes robotiques à bas coût, là où LiDAR et caméras stéréo restent onéreux ou volumineux. Pour les intégrateurs et les équipes de robotique mobile, VANDERER ouvre la voie à une exploration autonome efficace sur des robots à budget capteur limité, drones, robots de surveillance périmétrique ou AGV en extérieur, sans reconstruction 3D préalable de l'environnement. Les résultats établissent aussi une corrélation directe entre curiosité visuelle (texture, nouveauté apparente de l'image) et curiosité géométrique (zones non cartographiées), ce qui valide l'hypothèse que le signal caméra seul peut servir de proxy fiable à la couverture spatiale réelle dans des contextes extérieurs. C'est un résultat non trivial qui renforce la crédibilité des politiques de diffusion comme couche de planification active, au-delà du simple suivi de waypoints. VANDERER s'inscrit dans un courant de recherche sur la navigation sans carte qui a gagné en traction avec des travaux comme NoMaD et les politiques de navigation de type VLA (Vision-Language-Action). L'approche diffusion policy, popularisée dans la manipulation robotique et reprise dans des projets comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, est ici détournée vers l'exploration spatiale pure. Le papier reste au stade de preprint arXiv et toutes les évaluations sont conduites en simulation : le gap sim-to-real n'est pas adressé, ce qui constitue une limite explicite avant tout déploiement terrain. Les étapes suivantes naturelles seraient des validations sur robots réels en extérieur et l'extension à des scénarios multi-bâtiments ou en environnements intérieurs encombrés.

RechercheOpinion
1 source
Apprentissage en ligne auto-supervisé pour la co-adaptation dans les politiques de diffusion hiérarchiques
4arXiv cs.RO 

Apprentissage en ligne auto-supervisé pour la co-adaptation dans les politiques de diffusion hiérarchiques

Des chercheurs proposent ORCHID, un cadre d'auto-entraînement présenté sur arXiv (2603.05291) qui s'attaque à un problème structurel de la manipulation robotique longue durée : la désynchronisation entre planificateur haut niveau et contrôleur bas niveau au sein des politiques hiérarchiques. Dans ces architectures, un planificateur décompose une instruction en langage naturel en sous-objectifs intermédiaires, que le contrôleur exécute physiquement. La difficulté est que les deux modules, entraînés séparément, opèrent sur des distributions de sous-objectifs incompatibles. ORCHID corrige cela en ligne : le système génère des trajectoires, les filtre selon le feedback de l'environnement (réussite ou échec de la tâche complète), puis distille les trajectoires conjointement réussies dans les deux modules via apprentissage supervisé. Il en résulte une co-adaptation bidirectionnelle : le planificateur ancre ses sous-objectifs dans les capacités réelles du contrôleur, tandis que le contrôleur se spécialise dans les structures de trajectoire que produit le planificateur. Sur le benchmark CALVIN, référence pour la manipulation séquentielle guidée par le langage, un modèle léger entraîné avec ORCHID surpasse les méthodes purement offline, y compris un modèle Vision-Language-Action (VLA) deux fois plus grand en paramètres. L'impact est notable sur deux points. En termes d'efficacité paramétrique, qu'un modèle léger dépasse un VLA deux fois plus lourd remet en question l'hypothèse courante que l'échelle seule suffit pour les tâches complexes. En termes de stabilité d'entraînement, combiner RL hiérarchique et modèles de diffusion est notoirement instable à cause de la propagation des gradients. ORCHID contourne ce problème en substituant la distillation supervisée sur échantillons filtrés au RL gradient classique, une voie potentiellement plus praticable dans les contextes industriels où la reproductibilité de l'entraînement est critique. Le mécanisme de co-adaptation proposé constitue un principe architectural plus général, transférable à d'autres familles de politiques hiérarchiques au-delà des modèles de diffusion. Le travail s'inscrit dans la dynamique actuelle autour des politiques de diffusion pour la robotique, portée par des frameworks comme Diffusion Policy (Chi et al., 2023) et π₀ de Physical Intelligence. ORCHID se distingue en ciblant non l'architecture mais la coordination inter-niveaux, un aspect souvent sous-traité par les approches VLA end-to-end qui fusionnent planification et contrôle dans un seul réseau. Le benchmark CALVIN, développé à l'Université de Freiburg, est la référence principale pour évaluer la généralisation en manipulation séquentielle sur des tâches à horizon long. Les prochaines étapes naturelles incluent une validation sur robots physiques et une extension à des horizons temporels plus longs, deux points que cet article n'aborde pas encore.

RechercheOpinion
1 source