Dossier arXiv cs.RO — page 33

2842 articles · page 33 sur 57

Les preprints robotique sur arXiv cs.RO : les avancées techniques avant publication, dont planification, learning from demos, sim2real, manipulation.

1601arXiv cs.RO RecherchePaper

ManipArena : évaluation exhaustive en conditions réelles de la manipulation robotique généraliste orientée raisonnement

Le laboratoire à l'origine de ce papier arXiv (identifiant 2603.28545, version 2, soumission de type remplacement) présente ManipArena, un cadre d'évaluation standardisé pour la manipulation robotique en conditions réelles. Le benchmark couvre 20 tâches distinctes, s'appuie sur 10 812 trajectoires expertes et 13,5 millions d'images, pour un total d'environ 188 heures de fonctionnement robotique cumulées sur des scénarios de manipulation de table et de manipulation mobile. Le protocole combine variation de tâches définie par schéma, essais stratifiés en distribution, en décalage visuel et hors distribution sémantique, notation par crédit partiel au niveau des sous-tâches, annotations linguistiques à trois niveaux de granularité, signaux moteurs bas niveau, et environnements simulés jumeaux reconstruits à partir de scènes physiques réelles. Les chercheurs ont utilisé ce dispositif pour évaluer sept configurations de manipulation de table, couvrant à la fois des modèles vision-langage-action (VLA) et des modèles dits world-action. L'enjeu dépasse la simple création d'un nouveau jeu de tests. Les benchmarks en simulateur, bien que reproductibles et faciles à mettre à l'échelle, ne capturent pas fidèlement l'écart entre simulation et réel, ce dernier étant causé par le bruit de perception, la dynamique de contact, la latence et les erreurs de calibration. À l'inverse, les évaluations sur robots physiques existantes sont dispersées entre plateformes, scènes et règles de notation différentes, ce qui rend toute comparaison rigoureuse quasi impossible. Résultat clé de l'étude: les performances mesurées sur robot réel ne dépendent pas seulement de l'architecture du modèle, mais aussi de sa provenance, du régime de fine-tuning, de l'échantillonnage des données d'entraînement et de la granularité des annotations. Pour les intégrateurs et décideurs industriels, ce constat invite à relativiser fortement les annonces de performance basées uniquement sur des démonstrations vidéo ou des scores en simulation. Ce travail s'inscrit dans la course actuelle autour des modèles généralistes de contrôle robotique (VLA et world-action), un domaine où les affirmations de généralisation restent difficiles à vérifier faute de méthodologie commune. En proposant un référentiel reproductible avec attribution fine des échecs, ManipArena vise à devenir un outil diagnostique de référence pour mesurer les véritables limites de capacité de ces modèles, plutôt qu'un simple classement de plus.

Dossier arXiv cs.RO — page 33

ManipArena : évaluation exhaustive en conditions réelles de la manipulation robotique généraliste orientée raisonnement

Distiller les dynamiques collaboratives dans un espace latent pour une coordination implicite en manipulation multi-agents décentralisée

Bridge-WA : prédire où et comment le monde change pour l'action robotique

Modélisation de représentations volumétriques pour l'apprentissage de politiques de manipulation : VolumeDP

Domain Arithmetic : adaptation VLA en un essai face aux changements environnementaux

Robustesse de la manipulation robotique : fondations et perspectives

TacEvo : découverte d'architectures auto-évolutives pour la perception tactile robotique via une recherche qualité-diversité pilotée par LLM

AeroPlace-Flow : placement d'objets guidé par le langage pour manipulateurs aériens via prévision visuelle et flux d'objets

CSAR : architecture système conteneurisée pour la robotique

PAMAE : mélange d'experts d'action sensible aux phases pour des politiques VLA fiables par flow matching

RelAfford6D : graphes d'affordance 6D relationnels pour la manipulation robotique guidée par contraintes

RoDyn : apprivoiser un modèle du monde 2.5D interactif pour la manipulation robotique

ARTOO-DARTU : étude de la collaboration humain-robot en réalité augmentée avec atténuation des occlusions pour les tâches d'entrepôt

ReaDy-Go : simulation dynamique réel-vers-sim par Gaussian Splatting 3D pour la navigation visuelle avec obstacles mobiles

Reflective VLA : les conséquences d'actions en contexte améliorent la généralisation des modèles VLA

Cadre de détection et reconnaissance des interactions humain-humain pour robots mobiles de service

SWAP : modèle du monde symétrique équivariant pour le parkour robotique agile

Allocation de tâches et planification du mouvement en environnements dynamiques encombrés via CBBA et graphes d'ensembles convexes

GCNGrasp-VP : planification de vue guidée par les affordances pour une préhension efficace orientée tâche

C-ARC : le clustering adaptatif continu pour capteurs LiDAR non répétitifs

Commande prédictive par modèle basée sur MuJoCo via dérivées d'espaces affines : robustesse et efficacité

Voir malgré l'occlusion : correction cinématique déterministe du bras pour la téléopération robotique

Comparaison des espaces d'action en apprentissage par renforcement pour la manipulation robotique basée sur la vision

ThinkingVLA : raisonnement vision-langage entrelacé pour la manipulation robotique

Planification de mouvement de bras robotique par intégrale de chemin prédictive en une étape via les champs de distance dans l'espace de configuration

MotionVLA : un modèle vision-langage-action pour les robots humanoïdes

LaWAM : des modèles du monde latents pour des politiques robotiques efficaces et dynamiques

PATCH : suivi des innovations de patchs latents conditionné par les séquences d'actions pour la manipulation robotique

Le gant haptique N2D : un gant multi-doigts pour le retour de force directionnel 2D en manipulation multi-contact

Apprentissage de la sécurité robotique à partir de rares retours humains par prédiction conforme

Pilotage du comportement multi-robots par édition affine des activations en boucle fermée

Politiques hiérarchiques à partir de signaux verbaux et égocentrés pour l'interaction naturelle homme-robot

HandCept : un cadre de fusion visuo-inertielle pour la proprioception précise des mains dextériques

MemoryVLA++ : modélisation temporelle par mémoire et imagination dans les modèles vision-langage-action (VLA)

Modélisation par réseau de Petri et ordonnancement sans interblocage pour systèmes AGV hétérogènes attachables

Revisiter la perception des parties articulées en manipulation robotique

Objectifs définis par ensembles, pas par états : des buts de robots interrogeables via le réétiquetage rétrospectif par ensemble d'objectifs

Politiques de récupération sensibles aux différences pour l'apprentissage par imitation

ReCoVLA : un système de récompense guidé par VLM pour la récupération d'échecs dans les politiques VLA

Q-VGM : un guidage par gradient de valeur pour les politiques VLA à flux normalisants

Planification et commande de mouvement sûres par polytopes imbriqués et fonctions de barrière de contrôle

Accélérer et étendre l'apprentissage par renforcement guidé par MPC pour la locomotion et la manipulation humanoïdes

DexFuture : ciblage visuomoteur hiérarchique par états futurs pour la manipulation bimanuelle d'outils

VASO : des compétences formellement vérifiables et auto-évolutives pour agents d'IA physique

Flow matching guidé par le potentiel pour l'amélioration des politiques VLA

WAM-Nav : modélisation monde-action asymétrique en espace latent pour la navigation visuelle unifiée

MineXplore : un benchmark d'exploration open-source par apprentissage par renforcement pour environnements souterrains sans GNSS

Génération de mouvements extrêmes par contrôle hybride en espace nul pour le suivi de trajectoire en ligne droite

EaDex : un cadre de manipulation dextérique multi-plateforme à partir de démonstrations à faible coût

SpaceTools : raisonnement spatial augmenté par des outils via apprentissage par renforcement interactif double