Dossier arXiv cs.RO — page 15

2263 articles · page 15 sur 46

Les preprints robotique sur arXiv cs.RO : les avancées techniques avant publication, dont planification, learning from demos, sim2real, manipulation.

701arXiv cs.RO IA physiqueActu

VLA-Corrector : inférence légère de détection-correction pour un horizon d'action adaptatif

Des chercheurs présentent VLA-Corrector, un module de correction en ligne pour les modèles vision-langage-action (VLA) utilisés en robotique manipulatrice, décrit dans un article publié sur arXiv (2607.01804) début juillet 2026. Le problème visé est celui du "chunking" d'actions : pour limiter la fréquence d'appel au modèle, la plupart des politiques VLA génératives prédisent un bloc de plusieurs actions futures et les exécutent en boucle ouverte, sans réévaluation intermédiaire. Or dans les tâches à contact riche (préhension, insertion, manipulation fine), une simple perturbation locale peut s'amplifier pendant cette fenêtre "aveugle" et faire échouer la tâche par accumulation d'erreurs. VLA-Corrector ajoute deux briques légères sans toucher aux poids du modèle de base : un moniteur visuel en espace latent (LVM) qui compare en continu l'évolution visuelle prédite et réelle pour détecter les écarts de dynamique, et un mécanisme de replanification par gradient en ligne (OGG) qui, en cas de dérive persistante, tronque le bloc d'actions restant et recalcule une trajectoire corrective. L'intérêt pour les intégrateurs et décideurs robotique tient à l'horizon d'action adaptatif que ce système induit automatiquement : long horizon tant que l'exécution reste fiable, replanification courte dès que la dérive apparaît. Cela répond directement à un compromis connu du secteur entre robustesse d'exécution et fréquence d'appel au modèle, sans nécessiter de réentraînement du backbone. Si les résultats se confirment à plus grande échelle, ce type de correcteur "greffable" pourrait devenir un composant standard pour fiabiliser des VLA déployés en usine ou en logistique, là où les erreurs de contact restent le principal frein à la mise en production au-delà des démonstrations en laboratoire. Ce travail s'inscrit dans la lignée des efforts pour combler l'écart entre modèles VLA génériques (de type Pi-0 ou GR00T) et exigences de fiabilité industrielle, en ciblant spécifiquement les tâches manipulatrices longues et sensibles au contact. Les auteurs présentent VLA-Corrector comme compatible avec différents modèles VLA existants, sans détailler pour l'instant de déploiement matériel réel ni de partenariat industriel : il s'agit à ce stade d'une contribution de recherche méthodologique, dont la prochaine étape logique serait une validation sur des plateformes robotiques physiques variées plutôt que uniquement en simulation.

Dossier arXiv cs.RO — page 15

VLA-Corrector : inférence légère de détection-correction pour un horizon d'action adaptatif

Iterated Invariant EKF pour navigation inertielle 3D assistée par repères visuels

Modélisation structurelle-hydrodynamique unifiée des mécanismes sous-actionnés sous-marins et des robots souples

Apprentissage de la préhension dextérique à partir d'une taxonomie clairsemée

UniTac : modèle multimodal unifié pour la compréhension et la génération tactiles multi-capteurs

Motion planning dans des espaces de représentation compressée

Apprentissage de dynamiques transférables : des modèles d'action aux modèles du monde

HUMEMBR : apprentissage des routines humaines pour la navigation incarnée prédictive

Voir ce qui compte : élagage différentiable par grille pour un modèle VLA généralisable

Apprentissage continu par démonstration : un modèle à dynamique stable généré par hyperréseau

Auto-cohérence guidée par la géométrie pour l'IA physique

Au-delà de l'isolement : un benchmark unifié pour la navigation polyvalente

Politique de flux stochastique guidé par interpolation

La dérive est une erreur d'échantillonnage : distributions de puissance adaptées au RSB pour la planification robotique à long horizon

Apprentissage de politiques visuomotrices robustes par correspondance de flux à trajectoires cohérentes

Planification d'inspection évolutive par programmation linéaire en nombres entiers à base de flots

NEXUS : apprentissage continu de contraintes symboliques pour une planification incarnée sûre et robuste

Latent Reasoning VLA : pensée latente et prédiction pour les modèles vision-langage-action

Filtrage de l'information par régularisation variationnelle pour la manipulation robotique

AsyncVLA : correspondance de flux asynchrone pour les modèles vision-langage-action (VLA)

Évolution supervisée des capacités des agents incarnés : mise à niveau sûre, vérification de compatibilité et retour arrière en temps réel

De la saisie à l'insertion : assemblage de précision assisté par retour tactile sous tolérances inférieures au millimètre

Préhension dextérique réactive par planification RL hiérarchique en espace de tâche et contrôle QP en espace articulaire

RoboEval : un cadre structuré et extensible pour évaluer la manipulation robotique

Latent Bridge : prédiction de delta de caractéristiques pour une inférence efficace des modèles VLA à double système

Un cadre d'autonomie sémantique pour robots mobiles d'intérieur intégrant un VLM : raisonnement déterministe hybride et mémoire adaptative inter-robots

Hydra-DP3 : dimensionnement adapté aux fréquences des politiques de diffusion 3D pour le contrôle visuomoteur

Bonne démonstration dans les mauvaises : filtrer les données d'utilisateurs pour apprendre une politique plus robuste

Autonomie partagée assistée par un champ de guidage anisotrope à impédance variable

NaviMaster : un modèle unifié pour la navigation dans les interfaces graphiques et dans les environnements physiques

LaST-R1 : renforcement de l'action par raisonnement latent physique adaptatif pour les modèles VLA

PRTS : un système de raisonnement et de planification primitifs via des représentations contrastives

Apprentissage de politiques de loco-manipulation quadrupède avec perception tactile

M2R2 : représentation robotique multimodale pour la segmentation temporelle des actions

ViTaPEs : encodages de position visuo-tactiles pour l'alignement cross-modal dans les transformeurs multimodaux

Modèles VLA robustes aux scènes encombrées par ancrage géométrique centré sur les objets

Apprentissage par renforcement avec priors fondation : vers un agent incarné qui apprend efficacement de manière autonome

ExpressMM : des comportements de manipulation mobile expressifs dans les interactions humain-robot

Compréhension neuro-symbolique de la manipulation par chaînes d'événements sémantiques enrichies

Simulé ou réel : robustesse des VLM au décalage de domaine en compréhension de scène robotique

Hi-WM : un modèle du monde centré sur l'humain pour l'entraînement robotique à grande échelle

Agent de sécurité guidé par LLM pour la robotique embarquée avec une architecture perception-calcul-contrôle conforme ISO

Politique d'accès mémoire contrôlé

Transformer de navigation multimodal sensible à l'incarnation physique

GenerativeMPC : contrôle prédictif corps entier guidé par VLM-RAG, impédance virtuelle et manipulation mobile bimanuelle

Des contraintes de faisabilité physique explicites améliorent-elles l'apprentissage VLA ? Une étude empirique

ICAT : tests adaptatifs fondés sur des incidents réels pour la prédiction de risques physiques dans les modèles du monde incarnés

ST-π : VLA spatio-temporel structuré pour la manipulation robotique

Assemblage robotique à contacts multiples dans la construction par politique de diffusion

VeriGraph : graphes de scène pour la vérification de plans de robots