Dossier arXiv cs.RO — page 12

2027 articles · page 12 sur 41

Les preprints robotique sur arXiv cs.RO : les avancées techniques avant publication, dont planification, learning from demos, sim2real, manipulation.

551arXiv cs.RO RecherchePaper

Entraînement et évaluation des politiques de diffusion avec de longs contextes

Une équipe de recherche a publié le 20 juin 2026 sur arXiv (arXiv:2606.16447) une étude systématique sur l'impact de la longueur de contexte dans l'apprentissage par imitation pour la manipulation robotique. Les politiques diffusion actuelles, celles qui apprennent des trajectoires motrices à partir d'observations RGB, ne conditionnent généralement les actions du robot que sur une courte fenêtre temporelle d'observations passées. Les auteurs ont construit un benchmark couvrant un spectre de tâches à stabilité locale et à exigences mémoire variables, en faisant varier progressivement la longueur du contexte de courte à longue, et ce dans plusieurs régimes de données. Leur résultat central : avec le bon backbone de débruitage (UNet avec cross-attention), les politiques single-task atteignent des taux de succès élevés même en scalant naïvement le contexte, y compris dans les régimes de données standards. Les chercheurs proposent également un algorithme d'entraînement qui entraîne conjointement les politiques sur plusieurs longueurs de contexte, réduisant ainsi la complexité d'échantillonnage de l'apprentissage à long contexte. Cette étude remet directement en cause un consensus répandu dans la littérature sur les VLA (Vision-Language-Action models) et les diffusion policies : l'idée que l'extension naïve du contexte serait fragile et nécessiterait des solutions architecturales spécifiques. Si ce résultat se confirme sur des benchmarks plus larges, il simplifie considérablement le pipeline de développement pour les intégrateurs robotiques, qui n'auraient plus besoin d'architectures mémoire spécialisées (LSTM, state-space models) pour résoudre des tâches séquentielles longues. C'est aussi un signal que le "memory gap" souvent invoqué pour justifier des approches complexes était peut-être surestimé, au moins dans les régimes de données courants. Les diffusion policies sont devenues un axe central de la robotique de manipulation depuis les travaux de Diffusion Policy (Chi et al., 2023) et leurs déclinaisons comme pi-0 de Physical Intelligence. La question du contexte long était jusqu'ici traitée par des approches ad hoc, recurrence, attention causale, mémoire externe. Cette étude offre la première analyse systématique à ce niveau de granularité, selon les auteurs eux-mêmes. Les prochaines étapes naturelles incluent la validation sur des tâches de manipulation industrielle réelle, la généralisation multi-tâche, et l'évaluation contre des baselines comme ACT ou des variantes de pi-0, dont les benchmarks publics permettraient une comparaison directe.

Dossier arXiv cs.RO — page 12

Entraînement et évaluation des politiques de diffusion avec de longs contextes

OmniVTLA : modèles vision-tactile-langage-action avec perception tactile à alignement sémantique

Apprentissage de la manipulation dextérique à partir de vidéos monoculaires de mains humaines

Prise de décision bio-inspirée dans les essaims de robots soumis à des biais

Contrôle EMG haute densité bimanuel pour la manipulation mobile à domicile par des personnes tétraplégiques

Robots collaborants : imitation séquentielle asymétrique pour l'apprentissage de politiques couplées

Étude de cas : automatisation robotique dans l'habillement, jumeaux numériques, interopérabilité et formation des équipes

ReactVLA : manipulation robotique rapide et légère par génération d'actions Mean Flow améliorée

Robustesse sans faux plis : simulation parallèle et MPC robuste pour la manipulation certifiée d'objets déformables

GAIT : estimation proprioceptive de l'état d'un robot à pattes par attention sur tokens inertiels

Capteurs tactiles dynamiques et évolutifs grâce à des guides d'ondes acoustiques passifs et flexibles

EgoGuide : guidage égocentrique pour collecter des démonstrations sans robot et apprendre efficacement

Politiques VLA auto-améliorantes : lissage d'actions robuste aux artefacts par bruit de diffusion sélectionné

AssemLM : un modèle de langage multimodal pour le raisonnement spatial en assemblage robotique

WT-UMI : manipulation corps entier guidée par le toucher via planification consciente des contacts supervisée par la force

SAFER-Nav : améliorer la sécurité de la navigation visuelle des robots par fine-tuning orienté segmentation

Robot de tennis de table : combler l'écart sim-vers-réel avec un prédicteur d'états de balle par transformeur

UniDexTok : un tokeniseur unifié pour mains dextériques à partir de données réelles

Modèles de tiges pour le contrôle des robots continus et souples : une revue

RoboGPT-R1 améliore la planification des tâches robotiques grâce à l'apprentissage par renforcement

Agir sur ce que l'on voit : vers une navigation sociale sûre dans les modèles vision-langage-action (VLA)

X-OP : téléopération corps entier entre morphologies différentes via MPC

CT-VAM : un modèle vision-action inspiré du circuit cérébello-thalamique pour le contrôle visuomoteur

Coordination continue de robots quadrupèdes par découverte de compétences sémantiques

Video2Sim2Real : apprentissage autonome et complet de compétences dextériques à partir d'une seule vidéo humaine

Avatar androïde cybernétique Yui : intégration système, déploiement terrain et évaluation

Dream-Tac : un modèle d'action monde tactile unifié pour la manipulation robotique riche en contacts

Récupération après chute sur terrains variés par apprentissage à phases et terrains découplés

Nouveau manipulateur redondant à câbles et joints quaternions : commande par FABRIK et renforcement résiduel

PiL-World : un modèle du monde par segments pour l'évaluation VLA en boucle fermée

Adaptation de politique sans mise à jour du modèle par flux normalisant

RealDexUMI : interface portable universelle pour l'apprentissage de la manipulation dextérique

L'équipe de l'Université du Zhejiang développe un système de raisonnement visuel permettant aux robots de "penser avec les yeux", 22 fois plus rapide que le texte

IA incarnée fiable : un programme communautaire du test à la vérification formelle

Les budgets de preuves visuelles pour des VLA plus généralisables : voir moins, spécifier davantage

IA incarnée et chaîne de pensée : vers une manipulation robotique généralisable

VLESA : un agent de sécurité incarnée vision-langage pour la surveillance des activités humaines

Saisie puis planification avec attribution d'échecs : un cadre fermé en deux étapes pour la manipulation robotique précise et généralisable

RynnVLA-002 : un modèle unifié vision-langage-action (VLA) et du monde

StressDream : piloter des modèles du monde vidéo pour évaluer et améliorer la robustesse des politiques

Sécurité permissive par inférence vérifiable : filtres neuronaux en espace de croyance pour la robotique interactive

Des démonstrations aux récompenses : optimisation de prompts au moment du test pour les modèles de récompense VLM

Cohérence des croyances entre modèles fondation et perception géométrique dans les cartes robotiques persistantes

Construction d'un jeu de données robotique modélisée comme un processus de build par artefacts

Combler le fossé 2D-3D : une carte sémantique-géométrique hiérarchique pour la navigation vision-langage

Apprentissage par imitation sans entraînement via des politiques de diffusion en forme close

Caspar : un accélérateur CUDA pour la programmation symbolique avec réordonnancement adaptatif

ELAN4D : supervision 4D centrée sur l'incarnation pour les modèles VLA via adaptation plug-and-play

Notes à soi-même : VLA augmentées d'un bloc-notes pour les tâches de manipulation à mémoire

Régularisation contrastive des représentations pour les modèles vision-langage-action (VLA)