Dossier arXiv cs.RO

2862 articles

Les preprints robotique sur arXiv cs.RO : les avancées techniques avant publication, dont planification, learning from demos, sim2real, manipulation.

Figure 1X Technologies Tesla Optimus Boston Dynamics Unitree AgiBot Apptronik Apollo Agility Robotics — Digit UBTech Fourier Intelligence Sanctuary AI Wandercraft Tous les dossiers →

1arXiv cs.RO IA physiqueActu

CycleVLA : correction proactive et autonome des modèles vision-langage-action par retour en arrière des sous-tâches et décodage à risque bayésien minimal

Des chercheurs présentent CycleVLA, un système qui dote les modèles Vision-Language-Action (VLA) d'une capacité d'autocorrection proactive, c'est à dire anticiper un échec avant qu'il ne se produise plutôt que le corriger après coup comme le font les approches existantes. L'architecture combine trois briques : un VLA conscient de sa progression qui repère les points de transition critiques entre sous-tâches, là où les échecs surviennent le plus souvent, un prédicteur d'échec basé sur un VLM qui déclenche un retour en arrière ciblé (subtask backtracking) dès qu'un risque est détecté, et une stratégie de test-time scaling fondée sur le décodage à risque bayésien minimal (Minimum Bayes Risk, MBR) pour améliorer les chances de réussite lors des tentatives suivantes. Sur les bancs d'essai en simulation LIBERO et LIBERO-Plus, CycleVLA dépasse le modèle de référence pi-0.5 et améliore les taux de réussite sur des politiques VLA de maturité variable, des modèles sous-entraînés aux versions pleinement convergées. Sur robot réel, le système atteint un taux de réussite moyen de 91% sur trois tâches de manipulation, dont une exigeant une grande précision et deux à horizon long. Des tests de robustesse avec perturbations injectées manuellement, comme l'échange d'un objet distracteur à l'emplacement attendu pendant que la vraie cible est déplacée en cours d'exécution, montrent que CycleVLA corrige environ 80% des échecs provoqués artificiellement. Ce travail s'attaque à un point faible connu des VLA en conditions réelles : la plupart des systèmes actuels ne réagissent qu'après l'échec constaté, ce qui coûte du temps et de la fiabilité en environnement industriel ou domestique. Démontrer une correction proactive, avant la manifestation complète de l'erreur, constitue un argument concret pour rapprocher les démonstrations en simulation des déploiements réels, un écart qui reste l'un des principaux freins à l'adoption des VLA par les intégrateurs robotiques. CycleVLA s'inscrit dans la lignée des travaux récents sur la détection et la correction d'échecs pour les modèles de type VLA, aux côtés de références comme GR00T N2 ou Helix, et se positionne explicitement contre pi-0.5 dans ses comparaisons de performance. Les auteurs présentent leur travail comme une réplique (replace) sur arXiv, signe d'une itération après une première version, et mettent à disposition une page projet dédiée avec démonstrations vidéo pour documenter les résultats sur robot réel.

Dossier arXiv cs.RO

CycleVLA : correction proactive et autonome des modèles vision-langage-action par retour en arrière des sous-tâches et décodage à risque bayésien minimal

FIRMGrasp : une marge de risque tenant compte du frottement pour une synthèse de prise robuste

Localisation intervues à l'échelle d'une ville grâce aux cartes sémantiques

Quand les données héritées commencent-elles à aider ? Transfert émergent dans l'apprentissage robotique multi-configurations

RoboMME-Interference : évaluation de la mémoire des robots sous interférence

πR²: politiques de flux réactives en temps réel

Amortissement de l'optimisation de trajectoire pour la MPC résiduelle via différentiation implicite du contact

Transformer Transformer : un modèle unifié pour la co-conception de robots conditionnée par le mouvement

Tripody : un robot parallèle surcontraint de type 3-SPR pour les tâches de construction en hauteur

Station holding égocentrique d'un poisson robotique dans un écoulement turbulent inconnu

HOME : méthode robuste de correspondance dans l'espace de Hough pour vidéos structurées et sans texture

SONG : une plateforme de simulation 3D en Gaussian Splatting photoréaliste pour évaluer la navigation sociale

DC-WAM : supervision et raisonnement visuels centrés sur la dynamique pour les modèles monde-action

Belief-Aware Influence and Trust (BAIT) : façonner les croyances humaines lors d'interactions répétées avec un robot

Décomposer et réorganiser : planification par primitives et politiques visuomotrices apprises par démonstration

Cadre de politique adaptatif au contexte pour une manipulation robotique robuste et réactive via apprentissage par imitation sensible à l'incertitude

Adaptation de modalité en test, un cadre causal d'inférence-diagnostic-raffinement pour les modèles VLA

Pyramide de données pour la manipulation incarnée

N₀-TWAM : passage à l'échelle d'un modèle monde-action tactile natif pour la manipulation à contacts riches

Real2Sim2Real pour la manipulation vision-langage-action : un pipeline basé sur AMD ROCm

τ : apprendre des modèles vision-langage-action augmentés par le toucher à partir d'une supervision visuelle future

Modèle de fondation à base d'agents : combler la lacune d'orchestration des robots généralistes grâce à l'agentivité physique

StARS : recommandation d'actions robotiques socialement appropriées via un système de recommandation

ACME : jeu de données multiculturel et multi-incarnation pour la navigation sociale

Robot conforme : cadre modulaire pour l'impédance variable en ligne avec axes de compliance orientés arbitrairement

AXIS : un moteur de données communautaire évolutif pour la manipulation robotique à grande échelle

Pense quand c'est important : raisonnement VLM conditionnel pour la navigation sociale avec des politiques RL

Xiaomi-Robotics-U0 : synthèse incarnée unifiée avec modèle fondation du monde

Point de vue : comment la perspective influence la sociabilité perçue des robots

Humanoid Everyday : un jeu de données robotique complet pour la manipulation humanoïde en monde ouvert

SoK : Sécurité et vie privée des robots à base de modèles fondation

Jumeau numérique pour la classification textile et la détection d'objets étrangers dans les systèmes de tri automatisé

BadRobot : contourner les garde-fous des agents LLM incarnés dans le monde physique

Prise de contrôle adversariale en temps réel des politiques de diffusion robotique

Exploration des robots à base de modèles fondation dans les soins aux patients et aux personnes âgées

Vulnérabilités des modèles vision-langage-action (VLA) face aux défauts physiques d'articulation

Évaluation des modèles vision-langage-action (VLA) sur SO-101 : analyse des échecs et de la récupération

vla.cpp : un moteur d'inférence unifié pour les modèles vision-langage-action (VLA)

La diversité est-elle tout ce qu'il faut pour la manipulation robotique à grande échelle ?

Ce que mesurent réellement les benchmarks en manipulation robotique

Cosmos 3 : des modèles du monde omnimodaux pour l'IA physique

TRAP : détournement du raisonnement CoT dans les VLA par patches adversariaux

SilentDrift : exploiter le découpage en actions pour des attaques par porte dérobée furtives sur les modèles VLA

Erreur par groupe, pas MSE totale : affinage de modèles VLA pour la manipulation mobile à 11 DOF

Wall-OSS-0.5 : rapport technique

Déploiement de pipelines VLA en atelier d'emballage industriel : étude de cas, flux de travail, échecs et enseignements

SEVO : observation virtuelle enrichie sémantiquement pour la manipulation VLA robuste par éclairage actif et collecte de données

QDTraj : exploration de primitives de trajectoires variées pour la manipulation robotique d'objets articulés

Démasquer l'illusion du raisonnement incarné dans les modèles vision-langage-action (VLA)

ROBOGATE : détection adaptative des défaillances pour un déploiement sûr des politiques de robots via un échantillonnage en deux étapes axé sur les limites