Dossier arXiv cs.RO — page 20

2427 articles · page 20 sur 49

Les preprints robotique sur arXiv cs.RO : les avancées techniques avant publication, dont planification, learning from demos, sim2real, manipulation.

951arXiv cs.RO RechercheOpinion

Découplage de la sémantique et de l'ancrage géométrique : prompts visuels spatiaux pour l'apprentissage par imitation guidé par le langage

Une équipe de chercheurs présente SVP-IL dans un préprint publié sur arXiv le 25 juin 2026 (arXiv:2606.25360), une architecture destinée à l'apprentissage par imitation conditionné par le langage naturel en robotique de manipulation. Le constat de départ est précis : les modèles Vision-Language-Action (VLA) de bout en bout actuels couplent dans un même réseau le raisonnement sémantique et le contrôle spatial, ce qui génère un goulot d'étranglement d'alignement quand les données d'entraînement sont rares. SVP-IL découple ces deux fonctions : un modèle fondation vision-langage analyse les instructions textuelles pour produire des masques géométriques zero-shot, traduits en "Spatial Visual Prompts" (SVP), qui sont ensuite injectés dans un générateur d'actions continu via une fusion légère au niveau des features. Résultats sur des tâches à ambiguïté linguistique élevée : avec seulement 50 à 100 démonstrations, le taux de succès moyen passe de 24,0 % à 39,5 %, et atteint 67,8 % sur les benchmarks standards. Des expériences en environnement physique non structuré ont validé la robustesse de l'approche hors laboratoire. L'enjeu industriel de ce résultat est le coût de collecte de données. Les VLA monolithiques comme RT-2, OpenVLA ou π0 (Physical Intelligence) exigent des milliers à des dizaines de milliers de démonstrations pour généraliser à de nouvelles tâches ou de nouveaux environnements, ce qui rend leur déploiement chez les intégrateurs robotiques coûteux et lent. SVP-IL ramène ce seuil à 50-100 démos, soit une réduction d'un ou deux ordres de grandeur, tout en surpassant l'état de l'art sur les tâches à désambiguïsation difficile. Pour un COO industriel ou un intégrateur, cela signifie un temps de mise en service radicalement plus court pour chaque nouvelle cellule de travail. L'approche valide aussi l'hypothèse que le couplage sémantique-spatial n'est pas une nécessité architecturale mais un choix de conception contournable. Les architectures VLA ont émergé à partir de 2022-2023 avec les travaux de Google DeepMind (RT-2), avant d'être popularisées par des modèles open-source et des acteurs comme Physical Intelligence avec π0 ou l'initiative GR00T N2 de NVIDIA. La tendance dominante reste le paradigme monolithique de bout en bout, considéré comme plus simple à scaler. SVP-IL conteste cette hypothèse en montrant qu'un découplage explicite donne de meilleurs résultats en régime de faibles données, sans compromis sur la généralisation. Le préprint ne mentionne pas de partenaire industriel ni de calendrier de déploiement, ce qui en fait pour l'instant une contribution académique ouverte, sans produit shipé associé. Les prochaines étapes naturelles seraient une validation sur des robots commerciaux multi-DOF (bras industriels 6-7 axes, manipulateurs mobiles) et une intégration avec des pipelines de collecte de données synthétiques pour réduire encore davantage le besoin en démonstrations humaines.

Dossier arXiv cs.RO — page 20

Découplage de la sémantique et de l'ancrage géométrique : prompts visuels spatiaux pour l'apprentissage par imitation guidé par le langage

FORCE : affinage par renforcement efficace de modèles VLA via préchauffage calibré par valeur et auto-distillation

TIDAL : boucle diffusion-action à entrelacement temporel pour le contrôle VLA haute fréquence

InSight : acquisition autonome de compétences via des VLA pilotables

Superviser ce qui subsiste : adaptation VLA guidée par la géométrie depuis des vidéos synthétiques de robots

MinInter : minimiser l'interpolation de trajectoire lors de l'augmentation de données pour l'apprentissage par imitation

ReST-MCTS centré sur la récompense : un cadre robuste de prise de décision pour la manipulation robotique en environnement incertain

CoMo : apprendre le mouvement latent continu depuis des vidéos internet pour un apprentissage robotique à grande échelle

Apprentissage de la navigation au dernier mètre par catégorie à partir de démonstrations RGB d'une instance unique

Étude comparative sur l'agilité, l'efficacité et l'absorption des chocs des robots bipèdes à orteils actifs

VFILC : extrapolations de fréquence précises en apprentissage par imitation via ILC à fréquence d'échantillonnage

VOiLA : planification en ligne vectorisée avec modèle de diffusion pour agents POMDP

Une démonstration vaut mille trajectoires : augmentation vue-action pour les politiques visuomotrices

Pose6DAug : substitution d'objets multi-vues physiquement plausible pour l'augmentation de données en robotique

Co-VLA : modélisation structurée des actions intégrant la coordination pour systèmes VLA bi-bras

Coordination par dépliage profond

One-to-Two Acting : un cadre pour étendre les actions d'un agent mono-bras à deux bras

Fail-RAG : un cadre fondé sur la RAG pour l'identification des défaillances des robots

ImageWAM : les modèles action-monde ont-ils vraiment besoin de génération vidéo, ou seulement d'édition d'images ?

Génération d'actions robotiques continues et cohérentes par correspondance de flux sensible aux fréquences

HALOMI : apprentissage de la loco-manipulation humanoïde avec perception active à partir de démonstrations humaines

L'action latente axée sur le mouvement permet l'entraînement VLA multi-morphologie depuis des vidéos subjectives humaines

R2BC : apprentissage par imitation multi-agents à partir de démonstrations d'un agent unique

Récupérer, Découvrir, Planifier : apprendre des compétences et des concepts à partir des échecs des robots

SC3-Eval : évaluer les modèles fondation pour la robotique via la génération vidéo auto-cohérente

VEGA : apprentissage de VLA de navigation depuis des vidéos égocentriques réelles avec supervision géométrique

Adaptation aux dommages en quelques secondes pour les matériaux architecturés

VISTA : navigation visuelle à l'échelle par conditionnement sur l'historique d'actions

Au-delà de la récupération d'erreur : un cadre de contrôle humain adaptatif pour les systèmes robotiques

GASE : système automatisé basé sur le Gaussian Splatting pour la reconstruction d'environnements de simulation incarnée

Quand les robots dorment : consolidation hors ligne des compétences pour l'apprentissage à politique partagée

MuseVLA : un modèle VLA multimodal adaptatif pour la manipulation robotique

Pré-entraînement contrastif action-image pour le contrôle visuomoteur

ACE-Ego-0 : unification des données égocentrées humaines et robotiques pour le préentraînement VLA

Robots comme tokens : un transformeur de diffusion unifié pour la génération de trajectoires multi-robots coordonnées

Apprentissage de la manipulation dextérique à partir de vidéos monoculaires de mains humaines

DemoDiffusion : imitation humaine en une seule démonstration avec une politique de diffusion pré-entraînée

Robots collaborants : imitation séquentielle asymétrique pour l'apprentissage de politiques couplées

Penser moins, agir tôt : raisonnement latent renforcé avec sortie anticipée dans les modèles VLA

La curation localisée par phase n'améliore pas le filtrage de démonstrations : un résultat négatif

FlashNav : entraînement ultra-rapide d'une politique de navigation robotique en 20 secondes

PO-PDDL : apprentissage de POMDP symboliques à partir de démonstrations visuelles pour la planification robotique sous incertitude

Modèle d'action géométrique pour l'apprentissage de politiques robotiques

Entraînement et évaluation des politiques de diffusion avec de longs contextes

Compréhension vidéo découplée centrée sur les objets pour la génération de commandes de manipulation robotique

AVA-VLA : améliorer les modèles vision-langage-action avec l'attention visuelle active

Transférer le contact, pas seulement le mouvement : préhension souple entre mains dextériques

LaST₀ : raisonnement spatio-temporel latent en chaîne pour les modèles VLA robotiques

λ-Atteignabilité : équations de Bellman de sécurité à horizon géométrique pour les humanoïdes

ROVE : l'apprentissage par renforcement pour débloquer les interventions humaines dans la manipulation par humanoïdes