DIPOLE : fusion vision et géométrie pour une…

DiffusionVS : un cadre génératif pour l'asservissement visuel robuste basé sur la politique de diffusion

38

1arXiv cs.RO

DiffusionVS : un cadre génératif pour l'asservissement visuel robuste basé sur la politique de diffusion

DiffusionVS, déposé sur arXiv (2506.19397) en juin 2026, propose un cadre génératif pour le visual servoing robotique fondé sur la Diffusion Policy. Le système prend en entrée les coordonnées normalisées des coins de marqueurs visuels observés par la caméra embarquée, et génère des commandes de vitesse caméra via un processus de débruitage conditionnel. Pour contourner les limitations de généralisation propres aux modèles entraînés sur jeux de données statiques, les auteurs adoptent un paradigme d'entraînement en ligne : le modèle collecte continuellement de nouvelles expériences interactives pour diversifier sa distribution d'apprentissage. Les résultats rapportés atteignent un taux de succès de quasi 100% en simulation et 93% en expériences physiques réelles. Le visual servoing par régression classique souffre de deux problèmes structurels : le jitter de trajectoire causé par des mappings mono-étape sensibles au bruit, et l'accumulation d'erreurs lors de distribution shifts en cours de trajectoire. La Diffusion Policy adresse ces deux points simultanément. En prédisant des séquences d'actions plutôt que des commandes isolées, elle maintient la cohérence temporelle. L'augmentation implicite de données inhérente au processus de débruitage renforce par ailleurs la robustesse aux perturbations. Ce qui est notable, au-delà des performances brutes, c'est la généricité démontrée du module : intégré à des architectures de visual servoing existantes, il améliore systématiquement leurs résultats, sans modification de leur pipeline de base. Cela valide le mécanisme diffusion comme composant réutilisable, pas seulement comme architecture ad hoc. La Diffusion Policy, popularisée par Chi et al. en 2023 (Columbia/MIT), s'est imposée en apprentissage par imitation pour la manipulation, puis adoptée par Physical Intelligence dans pi-0 et d'autres systèmes VLA. Son application au visual servoing, problème classique de robotique de précision, était moins explorée. Les approches concurrentes restent dominées par la régression directe ou les contrôleurs IBVS/PBVS à base de features géométriques. La contribution principale ici est l'entraînement en ligne, qui contourne le problème de covariate shift sans nécessiter un dataset exhaustif pré-collecté, contrainte majeure en déploiement industriel. Les limites actuelles sont notables : le système repose sur des marqueurs visuels structurés (AprilTags), et les expériences physiques ne précisent pas le type de robot ni les conditions d'environnement, ce qui rend difficile l'évaluation de la maturité pour un déploiement réel.

RecherchePaper

1 source

Latents de mouvement sensibles à la géométrie pour des politiques de manipulation robustes

40

2arXiv cs.RO

Latents de mouvement sensibles à la géométrie pour des politiques de manipulation robustes

Ils entraînent GeoMoLa (Geometry-Aware Motion Latents) en prédisant l'évolution de nuages de points plutôt qu'en reconstruisant des images, pour capturer les transformations géométriques 3D sous-jacentes aux gestes de manipulation. Contrairement aux approches existantes qui nécessitent une reconstruction multi-vues, GeoMoLa atteint des performances état de l'art avec une seule caméra RGB-D en entrée. Les auteurs valident la méthode sur plusieurs bancs d'essai de manipulation robotique standards, ainsi que sur des expériences en conditions réelles, où le système parvient à manipuler des objets dans des environnements encombrés avec un nombre minimal de démonstrations. Leurs études d'ablation confirment que c'est la prédiction géométrique, et non la richesse visuelle, qui pilote la performance du modèle. Ce résultat pèse sur un débat central de la robotique manipulative actuelle: faut-il apprendre le mouvement à partir de motifs visuels (pixels, textures, apparence) ou à partir de la géométrie sous-jacente de la scène (formes, profondeur, déplacement des points dans l'espace)? En montrant que des latents entraînés sur la géométrie 4D (espace + temps) généralisent à des scènes visuellement inédites tout en produisant des transformations physiquement cohérentes, l'étude apporte un argument empirique en faveur d'une abstraction du mouvement indépendante de l'apparence. Pour les équipes qui développent des politiques de manipulation type VLA (vision-language-action) destinées à des bras robotiques ou des humanoïdes, cela suggère une voie pour réduire la dépendance à des configurations multi-caméras coûteuses, tout en gagnant en robustesse face au bruit visuel et au clutter, un problème récurrent des déploiements industriels réels. Cette recherche s'inscrit dans la lignée des travaux sur les représentations latentes discrètes pour le contrôle robotique, où plusieurs équipes académiques cherchent depuis quelques années à dépasser les limites des politiques purement pixel-to-action, jugées fragiles hors distribution. L'approche par nuages de points 4D rejoint des efforts plus larges en robotique combinant perception 3D (depth, LiDAR, RGB-D) et apprentissage de politiques, un axe également exploré par des laboratoires travaillant sur les modèles VLA généralistes comme Pi-0 ou GR00T N2. Le papier, publié sur arXiv début juillet 2026, ne précise pas de partenariat industriel ni de déploiement commercial: il s'agit à ce stade d'une contribution de recherche fondamentale, dont la prochaine étape naturelle serait une validation à plus grande échelle sur des plateformes robotiques commerciales.

RecherchePaper

1 source

Politique de latence latente : apprendre des politiques visuomotrices robustes en restant dans la distribution

39

3arXiv cs.RO

Politique de latence latente : apprendre des politiques visuomotrices robustes en restant dans la distribution

Une équipe de recherche publie sur arXiv (2508.05941v2, version révisée) un nouveau cadre baptisé Latent Policy Barrier, ou LPB, destiné à rendre plus robustes les politiques visuomotrices entraînées par apprentissage par imitation (behavior cloning). Le problème ciblé est bien connu des roboticiens : le covariate shift, c'est à dire le fait qu'un robot qui s'écarte même légèrement des trajectoires démontrées par un expert humain voit cette petite déviation s'amplifier jusqu'à provoquer un échec complet de la tâche. Pour y remédier, LPB s'inspire des fonctions barrières de contrôle (Control Barrier Functions) issues de la théorie du contrôle, et traite les représentations latentes des démonstrations expertes comme une frontière implicite séparant les états "dans la distribution", donc sûrs, des états hors distribution, potentiellement dangereux. Concrètement, l'architecture sépare deux rôles dans deux modules distincts : une politique de diffusion entraînée uniquement sur les données expertes pour l'imitation précise, et un modèle de dynamique entraîné à la fois sur les données expertes et sur des trajectoires sous optimales générées par la politique elle même. Au moment de l'inférence, ce modèle de dynamique prédit les futurs états latents et les optimise pour qu'ils restent dans la distribution experte. Les auteurs valident l'approche par des expériences en simulation et sur robot réel. Cette séparation entre qualité de l'imitation et récupération face aux écarts est significative pour l'industrie de la manipulation robotique, où la collecte de démonstrations reste le goulot d'étranglement principal. Les méthodes existantes pour limiter le covariate shift, correction humaine en boucle (type DAgger) ou augmentation synthétique des données, sont coûteuses en main d'œuvre, reposent sur des hypothèses fortes propres à chaque tâche, ou dégradent la qualité de l'imitation elle même. Si LPB tient ses promesses de robustesse et d'efficacité des données sans annotation supplémentaire, cela réduirait un coût réel pour les intégrateurs qui doivent aujourd'hui multiplier les démonstrations ou les interventions correctives pour fiabiliser un déploiement. Le travail s'inscrit dans la lignée des politiques de diffusion appliquées à la manipulation robotique, popularisées ces dernières années comme alternative aux politiques déterministes classiques, et emprunte au corpus des fonctions barrières utilisé en contrôle de sécurité pour véhicules et robots mobiles. Il se positionne face aux approches par correction humaine en boucle ou par augmentation de données synthétiques, qu'il cherche explicitement à remplacer. S'agissant d'une publication arXiv, il s'agit d'un résultat de recherche à ce stade, sans annonce de déploiement industriel ni de partenaire commercial identifié.

RecherchePaper

1 source

RCT : un jeu de données tactiles vision-langage collecté par robot pour la généralisation du toucher

44

4arXiv cs.RO

RCT : un jeu de données tactiles vision-langage collecté par robot pour la généralisation du toucher

Des chercheurs du Faerber Lab publient RCT (Robotic Contact Tactile), un jeu de données touch-vision-language collecté par robot pour évaluer la généralisation tactile des systèmes robotiques. Le dataset comprend 29 279 frames tactiles issues de pressions complètes effectuées par un bras robotique sur 122 matériaux de référence industriels répartis en 7 catégories, enregistrées à l'aide de trois capteurs DIGIT positionnés à plusieurs points de contact. Particularité méthodologique : RCT conserve chaque pression comme une séquence de contact continue plutôt que comme des frames isolées, ce qui permet des évaluations "held-out" rigoureuses par matériau, catégorie, capteur, position de contact ou séquence entière. Les auteurs démontrent que les frames issues d'une même pression sont fortement corrélées entre elles : un découpage aléatoire des frames (frame-random split), pratique courante dans le domaine, place des observations quasi-identiques de la même interaction physique à la fois dans les jeux d'entraînement et de test. En supprimant ce chevauchement de séquences, le score de Recall@1 en correspondance tactile-texte chute de 17,7 points de pourcentage à encodeur fixe. Lorsque les matériaux sont également exclus à l'entraînement, la performance s'effondre davantage, avec un Recall@1 de seulement 25,1 % (± 6,1 %) en moyenne sur trois tirages de matériaux non vus. Le jeu de données est open source, disponible sur faerber-lab.github.io/RCT. Cette étude expose un biais méthodologique qui gonflait artificiellement les résultats publiés sur la perception tactile robotique. En analysant le split public TVL/HCT, référence largement utilisée dans le domaine, les auteurs montrent que chaque séquence de contact du jeu de test apparaît déjà dans l'entraînement : une simple recherche du plus proche voisin en pixels bruts, sans aucun apprentissage, retrouve la bonne séquence dans 98,3 % des cas. Autrement dit, les benchmarks existants mesurent en grande partie de la mémorisation plutôt que de la généralisation réelle. Pour les équipes qui développent des systèmes de manipulation tactile destinés à des environnements ouverts (tri de déchets, logistique, inspection de pièces), cela signifie que des modèles annoncés comme performants pourraient largement sous-performer face à des matériaux jamais rencontrés. L'étude montre aussi une piste corrective concrète : échantillonner uniformément les frames au sein d'une pression, plutôt que de façon aléatoire, améliore l'entraînement contrastif, et les embeddings entraînés sur RCT améliorent les probes de catégorisation sur des matériaux inédits. Le travail s'inscrit dans la lignée des jeux de données touch-vision-language existants comme TVL (Touch-Vision-Language) et HCT, dont RCT réutilise la structure de split pour illustrer le problème de fuite de données. Le choix des capteurs DIGIT, développés initialement par Meta AI et largement adoptés en recherche tactile académique, ancre RCT dans l'écosystème matériel dominant du secteur plutôt que dans des capteurs propriétaires. Aucun acteur français ou européen n'est mentionné dans cette publication, qui reste un travail de recherche fondamentale plutôt qu'une annonce produit. Les prochaines étapes attendues pour le domaine concernent l'adoption de protocoles d'évaluation "contact-sequence-aware" par les équipes travaillant sur la manipulation tactile, ainsi que l'extension de ce type de benchmark held-out-material à d'autres modalités sensorielles combinées, à mesure que les architectures VLA (vision-language-action) intègrent de plus en plus le retour tactile comme signal de contrôle.

RecherchePaper

1 source

DIPOLE : fusion vision et géométrie pour une généralisation visuomotrice robuste

À lire aussi

DiffusionVS : un cadre génératif pour l'asservissement visuel robuste basé sur la politique de diffusion

Latents de mouvement sensibles à la géométrie pour des politiques de manipulation robustes

Politique de latence latente : apprendre des politiques visuomotrices robustes en restant dans la distribution

RCT : un jeu de données tactiles vision-langage collecté par robot pour la généralisation du toucher