Dossier arXiv cs.RO — page 10

1981 articles · page 10 sur 40

Les preprints robotique sur arXiv cs.RO : les avancées techniques avant publication, dont planification, learning from demos, sim2real, manipulation.

451arXiv cs.RO RecherchePaper

VE2VF : distillation vision vers sans vision par apprentissage par renforcement pour la manipulation robuste avec contacts

Des chercheurs ont présenté VE2VF (Vision-Enabled to Vision-Free), un cadre d'apprentissage par renforcement (RL) pour la manipulation robotique en contact riche, publié en préprint sur arXiv (2605.29564). La méthode repose sur une distillation enseignant-élève conduite intégralement sur robot réel, sans simulation ni randomisation de domaine. Un module "enseignant" équipé de vision apprend d'abord la tâche, puis transfère sa politique à un "élève" n'utilisant que la pose, le twist et le wrench (position/orientation, vitesse et couple de force), sans aucun flux caméra. Sur le benchmark NIST d'assemblage, référence standardisée pour les tâches d'insertion de précision, le système atteint 95 % de taux de succès global après environ 50 minutes d'entraînement sur 3 tâches représentatives, et généralise à 8 variantes non vues lors de l'entraînement. Un fine-tuning par distillation permet d'atteindre 100 % de succès sur la variante la plus difficile. Ce résultat adresse un problème structurel en robotique industrielle: les politiques basées sur la vision surapprennent les conditions d'éclairage et de fond vues à l'entraînement, ce qui fragilise leur déploiement en environnement de production variable. En éliminant la vision à l'inférence tout en l'exploitant pendant l'apprentissage, VE2VF produit des politiques robustes aux perturbations visuelles sans coût supplémentaire en données. Plus significatif encore: atteindre cette généralisation en moins d'une heure d'entraînement réel suggère qu'on peut contourner le sim-to-real gap sans simulateur haute-fidélité ni dataset synthétique massif. Pour les intégrateurs déployant des cellules d'assemblage de précision, la combinaison rapidité d'adaptation et robustesse proprioceptive est directement actionnable. Le benchmark NIST Assembly Task Board est utilisé depuis plusieurs années comme terrain de comparaison inter-équipes en manipulation de précision, ce qui confère à ces résultats une lisibilité relative face aux travaux antérieurs. Les approches concurrentes combinent généralement simulation, randomisation de domaine et larges volumes de données synthétiques avant transfert sur robot réel. VE2VF se positionne comme une alternative ancrée dans le réel, avec une boucle human-in-the-loop permettant de superviser l'apprentissage en cours de session. Il s'agit à ce stade d'un préprint de recherche, non d'un système en production ni d'un produit commercialisé. Les suites naturelles incluent des tests sur d'autres plateformes matérielles et des tâches industrielles plus complexes, ainsi qu'une confrontation directe avec les approches de type VLA (Vision-Language-Action) qui ciblent elles aussi la généralisation en manipulation contact-riche à grande échelle.

Dossier arXiv cs.RO — page 10

VE2VF : distillation vision vers sans vision par apprentissage par renforcement pour la manipulation robuste avec contacts

Qwen-VLA : un modèle vision-langage-action (VLA) unifié pour les tâches, environnements et morphologies de robots

VLAConf : confiance calibrée dans la réussite des tâches pour les modèles VLA

POINav : évaluation et amélioration de l'arrivée aux derniers mètres en navigation vision-langage réelle

Ce que les VLA gelés savent déjà du succès : sondage des structures de type valeur dans les politiques fondation pour robots

HyperSim : un cadre complet de transfert simulation-réel pour la manipulation robotique robuste

SOLE-R1 : le raisonnement vidéo-langage comme unique récompense pour l'apprentissage par renforcement sur robot

Exploiter un potentiel variable : quand le contrôle réactif suffit aux comportements multi-objectifs

Optimisation par données des configurations de capteurs tactiles pour la manipulation dextérique

SpecPrune-VLA : accélérer les modèles vision-langage-action via un élagage auto-spéculatif sensible aux actions

Étude de l'effet d'un retrofit à actionnement élastique en série sur des actionneurs boîte noire

SFG-ROS : un framework de perception multi-agents dense adaptatif aux ressources

TacO : évaluation comparative des capteurs tactiles pour la manipulation d'objets

PGDG : génération de données physiquement ancrée pour l'apprentissage robuste de politiques bimanuelles à partir d'une seule démonstration

Apprendre à évoluer : champs interactifs multimodaux pour la navigation humanoïde robuste en environnements dynamiques

Analyse des capacités incarnées dans les modèles de langage multimodaux par évaluation et diagnostic par compétences

WestWorld : un modèle du monde de trajectoires évolutif intégrant des connaissances pour systèmes robotiques variés

Explications contrefactuelles temporelles des décisions d'arbres de comportement

SubTGraph : synthèse d'environnements souterrains à grande échelle avec variabilité topologique contrôlable pour la validation de l'autonomie robotique

DISC : découplage instruction-contrôle conditionné par l'état via la génération de politique

DEFLECT : exécution robuste aux délais par ajustement contrefactuel estimé par flow-matching pour les politiques VLA

TwinRL : apprentissage par renforcement piloté par jumeau numérique pour la manipulation robotique réelle

COAST : débloquer les modèles vision-langage-action (VLA) par les états cachés

Fusion multimodale tactile en IA incarnée : tour d'horizon des paradigmes vision, langage et contact

Pas ce que vous avez demandé : attaques typographiques dans la manipulation par robots ménagers

Autonomie robotique à seuil de confiance : quand l'incertitude est-elle vraiment utile ?

Dexora : un modèle VLA open source pour la dextérité bimmanuelle à haute DOF

PRIME : estimation inertielle et de mouvement physiquement cohérente pour robots à pattes et humanoïdes

Apprentissage par renforcement efficace pour les VLA par masquage probabiliste de séquences

frax : cinématique et dynamique robotique rapide en JAX

Des quadrillages aux entrepôts : adapter la planification multi-agents légère en un coup pour les robots à guidage automatique

Any3D-VLA : améliorer la robustesse des modèles VLA grâce à des nuages de points diversifiés

VER : Transformer expert en vision pour l'apprentissage robotique par distillation de modèle fondation et routage dynamique

Exploration des goulots d'étranglement dans la navigation VLM-LLM : l'impact de la compréhension de scènes 3D sur la navigation sans apprentissage préalable

Vers l'intelligence des mains dextériques en robotique : un état de l'art

QuickLAP : apprentissage rapide des préférences langage-action pour systèmes semi-autonomes

Mise en cache adaptative par blocs pour accélérer les politiques de diffusion

Realtime-VLA FLASH : un cadre d'inférence spéculative pour les modèles VLA à base de diffusion

Quels sont les facteurs limitants de la navigation vision-langage ?

Apprentissage d'une variété d'actions par priors latents multi-vues pour la manipulation robotique

RIO : un système d'entrées/sorties robotiques flexible et en temps réel pour l'apprentissage multi-plateforme

Évaluation hors-ligne des politiques de manipulation via une formulation de vivacité actualisée

DreamAvoid : rêverie au moment du test sur les phases critiques pour éviter les échecs des politiques VLA

VEGA : alignement par ancrage de l'encodeur visuel pour les modèles VLA à conscience spatiale

StereoPolicy : améliorer les politiques de manipulation robotique grâce à la perception stéréoscopique

Théorie non asymptotique de la dynamique d'erreur dépendante du gain en clonage comportemental

SABER : jeu de données incarné, évolutif et axé sur les actions pour l'adaptation VLA au monde réel

VP-VLA : le prompting visuel comme interface pour les modèles vision-langage-action

IA incarnée : conditionnement géométrique explicite des escaliers pour une locomotion humanoïde robuste

Dépasser le piège de la diversité en manipulation robotique via l'adaptation centrée sur les ancres