Dossier OpenVLA / RT-X — page 3

642 articles · page 3 sur 13

OpenVLA, RT-2, RT-X : la famille des Robotic Transformers Open et Google DeepMind, datasets multi-robots, benchmark de référence VLA.

101arXiv cs.RO RecherchePaper

AISPO : estimation de profondeur fiable pour la manipulation d'objets non lambertiens via a priori de forme invariant affine

Une équipe de chercheurs a publié sur arXiv (identifiant 2606.25503) un système de complétion de profondeur baptisé AISPO, destiné à améliorer la fiabilité de la perception 3D lors de la manipulation robotique d'objets à surfaces non-lambertiennes, c'est-à-dire transparents (verres, flacons, plastiques) ou fortement spéculaires (pièces métalliques polies). Ces matériaux posent un problème structurel aux capteurs RGB-D : les mesures de profondeur y sont systématiquement corrompues ou absentes, car ces surfaces ne diffusent pas la lumière infrarouge de façon prévisible. AISPO combine une fusion multi-échelle de caractéristiques RGB-D avec un prior de forme affine-invariant, qui impose une cohérence géométrique locale et corrige les défaillances de profondeur avant qu'elles ne se propagent au planificateur de mouvement et ne génèrent des poses de préhension invalides. L'intérêt industriel est direct : les objets non-lambertiens sont omniprésents en logistique pharmaceutique, en agroalimentaire et en assemblage électronique. La plupart des méthodes de complétion de profondeur existantes sont optimisées pour la précision moyenne sur des benchmarks standardisés, sans garantir la plausibilité physique des cartes de profondeur produites, ce qui suffit pour la reconstruction 3D mais pas pour générer des trajectoires de grasping exécutables. AISPO se distingue en priorisant l'intégrité structurelle des prédictions plutôt que la métrique globale. Les expériences de préhension réelle montrent une amélioration des taux de succès sur objets transparents, bien que l'article ne quantifie pas précisément cet écart, un manque de rigueur notable pour un travail qui se positionne sur la fiabilité. AISPO s'inscrit dans un champ de recherche actif autour de la perception d'objets difficiles à mesurer, aux côtés de travaux comme ClearGrasp (Google Research, 2019) et des jeux de données TransCG et DREDS. La contribution clé est le prior de forme affine-invariant, qui permet une généralisation à des objets et scènes non vus à l'entraînement, un enjeu central du sim-to-real gap. Aucune entreprise industrielle ni laboratoire européen n'est associé à ce travail, qui reste un préprint arXiv sans évaluation par les pairs. Les prochaines étapes naturelles seraient une intégration dans des pipelines de manipulation existants comme OpenVLA ou Pi-0 de Physical Intelligence, et une comparaison quantitative plus rigoureuse sur des benchmarks comme GraspNet-1B.

Dossier OpenVLA / RT-X — page 3

AISPO : estimation de profondeur fiable pour la manipulation d'objets non lambertiens via a priori de forme invariant affine

Tri-Info : prédiction d'échec généralisable et interprétable pour les modèles VLA par la théorie de l'information

Les modèles VLA maîtrisent-ils les bases ? Évaluation de la rétention du sens commun et des connaissances du monde

IVRA : améliorer les relations entre tokens visuels pour la politique d'action des robots grâce à un guidage sans entraînement

X-Tokenizer : tokenizer d'actions multimodal pour le pré-entraînement VLA

APEX : exécution adaptative de politiques pour la manipulation de précision

SAPS : autonomie partagée pour orienter la politique en combinant téléopération et VLA pré-entraîné

Extension de la mémoire à court terme des politiques visuomotrices pour les tâches à long horizon

Agir en comprenant : découplage asynchrone sémantique-action pour les modèles VLA en temps réel

LaST₀ : raisonnement spatio-temporel latent en chaîne pour les modèles VLA robotiques

Modèle d'action géométrique pour l'apprentissage de politiques robotiques

Elastic Queries : apprentissage par renforcement pour l'exécution auto-consciente des politiques dans les modèles VLA

PhysVLA : vers un modèle VLA physiquement ancré pour la manipulation robotique

FTP-1 : une politique fondation généraliste pour la manipulation en contact, compatible tous capteurs tactiles

EWAM : un modèle d'action du monde amélioré pour l'adaptation en ligne en boucle fermée dans l'IA incarnée

Saisie guidée par le langage via planification neuro-symbolique avec boîtes englobantes comme objectifs

GAE : libérer le potentiel physique des VLM grâce à un expert d'action généralisable

GIVE : ancrage des gestes humains dans les modèles vision-langage-action (VLA)

DAM-VLA : modèle vision-langage-action multimodal asynchrone et découplé

Démarrage par modèle VLA pour l'apprentissage par renforcement des agents robotiques

Combler le fossé morphologique : adapter les modèles VLA à la manipulation dextérique par ajustement conditionné par l'intention

TacCoRL : intégration du retour tactile dans les modèles VLA par simulation

Transformer la prévoyance en action : réorientation de l'alignement des représentations dans les modèles action-monde

GHOST : politiques hiérarchiques à sous-objectifs pour généraliser la manipulation robotique

CAST : les étiquettes contrefactuelles améliorent le suivi d'instructions dans les modèles VLA

VeriSpace : une méthode de vérification spatiale des actions pour les modèles vision-langage-action

SAFE-Pruner : élagage de tokens guidé par l'attention sémantique pour les modèles VLA en manipulation robotique

Autoencodeurs épars : des caractéristiques interprétables et pilotables révélées dans les modèles VLA

GEAR-VLA : un modèle VLA intégrant la géométrie pour une manipulation robotique généralisable

Ego-Pi : affinage VLA sur données égocentriques humaines et robotiques

TORL-VLA : apprentissage par renforcement en ligne à guidage tactile pour la manipulation à contacts intensifs

Deux ponts, une voie : des VLMs aux VLAs généralisables avec des données de trajectoires couplées à l'IA incarnée

VoLo : un orchestrateur physique pour la manipulation à vocabulaire ouvert et horizon temporel long

La fonction des objets plutôt que leur nature : espaces latents fonctionnels pour le raisonnement sur les affordances

ActiveMimic : pré-entraînement sur vidéo égocentrique avec perception active

LDA-1B : mise à l'échelle d'un modèle d'action à dynamique latente via ingestion universelle de données incarnées

PHASER : rejeu d'expérience sémantique et par phase pour les modèles VLA

GeoAlign : au-delà de la sémantique avec l'alignement spatial guidé par l'état dans les modèles VLA

Apprentissage par renforcement multi-tâches sur GPU avec optimisation de politique guidée par démonstration

Apprendre la manipulation robotique à partir de vidéos humaines : un état de l'art sur l'apprentissage VLA à grande échelle avec données centrées sur l'humain

Discrete Diffusion VLA : la diffusion discrète appliquée au décodage d'actions dans les politiques VLA

PaCo-VLA : a priori de compliance protégé par passivité pour la manipulation VLA riche en contacts

Factorisation tâche-monde pour l'apprentissage robotique

Modèle du monde prédictif en espace latent pour la manipulation dynamique par VLA

Co-entraînement avec vidéo égocentrique et démonstration pour la navigation robotique

BOKBO : abstention calibrée pour les politiques de modèles vision-langage-action (VLA)

HARP-VLA : apprentissage de représentations alignées humain-robot pour modèle vision-langage-action

AnySlot : politiques vision-langage-action conditionnées par objectif pour le placement zéro-shot par emplacement

TIC-VLA : un modèle vision-langage-action (VLA) à raisonnement intégré pour la navigation robotique en environnements dynamiques

Détection de signaux d'échec dans les trajectoires pour la surveillance en temps réel des modèles VLA