Dossier OpenVLA / RT-X — page 2

726 articles · page 2 sur 15

OpenVLA, RT-2, RT-X : la famille des Robotic Transformers Open et Google DeepMind, datasets multi-robots, benchmark de référence VLA.

51arXiv cs.RO RechercheOpinion

Robot Sensor : préhension guidée par le langage dans des scènes complexes à plusieurs morphologies

Des chercheurs du Intelligent Systems Lab de l'Université de Toronto ont publié SeededGrasp, un nouveau framework de saisie robotique guidée par le langage, capable de fonctionner dans des scènes encombrées avec plusieurs types de robots (multi-embodiment). Plutôt que de demander à un modèle vision-langage (VLM) de prédire directement la prise à effectuer, ce qui limite sa compréhension spatiale, ou d'entraîner un VLM conjointement avec le modèle de saisie, ce qui exige un volume de données et de calcul considérable, l'équipe découple les deux étapes : le VLM se contente de désigner un point d'amorçage (seed point) sur l'objet cible, qui sert ensuite de conditionnement à un modèle de génération de prise léger et spécialisé. Pour entraîner cette architecture, les chercheurs publient également le premier jeu de données de saisie multi-embodiment sur table, comprenant plus de 2,5 millions de prises annotées dans des scènes encombrées. Les résultats expérimentaux font état de 72% de réussite en simulation et 78% en conditions réelles, surpassant les approches de référence existantes. Le code et les données sont disponibles sur le site du projet (uoft-isl.github.io/seeded-grasp). Pour les intégrateurs et les équipes de recherche en robotique, l'intérêt de SeededGrasp tient à son efficacité en données : en séparant le raisonnement sémantique de haut niveau (comprendre quel objet saisir et pourquoi) de l'exécution géométrique de bas niveau (calculer une prise stable), la méthode évite l'entraînement de bout en bout très coûteux qu'exigent les modèles VLA (vision-langage-action) intégrés. Elle permet aussi de réutiliser le même module de perception sémantique sur différents robots et pinces, un problème récurrent pour l'industrie qui doit aujourd'hui redévelopper des pipelines de saisie spécifiques à chaque plateforme. Le fait que le taux de réussite en réel (78%) dépasse celui en simulation (72%) est notable : il suggère que le découplage limite l'écart classique entre démonstration simulée et déploiement physique, plutôt que de le masquer par une simulation trop favorable. Cette publication s'inscrit dans un mouvement plus large de recherche sur les modèles vision-langage-action appliqués à la manipulation robotique, aux côtés de travaux comme RT-2, OpenVLA ou les approches de saisie zero-shot guidée par instructions textuelles, qui cherchent toutes à rapprocher la compréhension du langage naturel et le contrôle physique des robots. La contribution principale de SeededGrasp reste ici la mise à disposition ouverte d'un dataset de grande échelle spécifiquement conçu pour la généralisation entre plusieurs types de robots, une ressource rare dans le domaine et qui pourrait accélérer les travaux d'autres laboratoires sur la saisie en environnement encombré. Aucune date de déploiement industriel n'est mentionnée : il s'agit pour l'instant d'une contribution de recherche académique, publiée sur arXiv, sans partenariat commercial annoncé.

Dossier OpenVLA / RT-X — page 2

Robot Sensor : préhension guidée par le langage dans des scènes complexes à plusieurs morphologies

Action QFormer : structuration des représentations guidée par la supervision des actions dans les modèles vision-langage-action

IA généralisable par ancrage de représentation et alignement langage-action pour les modèles VLA

VIA : agent d'interface visuelle pour le contrôle de robots

SIEVE : sélection de données tenant compte de la structure pour l'apprentissage par imitation avec des modèles VLA

Behavior Uncloning : distiller la redirection de mode dans les poids de politique sans guidage à l'inférence

Vers un raisonnement par trace spatiale dans les modèles vision-langage pour la robotique

Entraîner des modèles vision-langage-action (VLA) avec une supervision dense par chaîne de pensée incarnée

Contrôle robotique sans démonstration via des agents LLM

Event-VLA : fusion d'événements conditionnée par l'action pour un modèle VLA robuste

Ancrage de la généralisation simulation-réel en manipulation robotique : étude empirique avec des modèles VLA

Politique de guidage comportemental : des démonstrations comme invites pour la manipulation

SA-VLA : un tokeniseur conscient de l'état pour améliorer les performances des modèles VLA

Planification séquentielle par points d'ancrage pour la robotique

TAP-VLA : annotation tactile pour les modèles vision-langage-action (VLA)

Lâcher-puis-récupérer : quelle est la redondance des modèles vision-langage-action (VLA) ?

LocalNav : distillation de VLMs frontière et RL incarné pour la navigation embarquée vers un objet cible

FailSafe : raisonnement et récupération face aux défaillances dans les modèles VLA

Combiner supervision manuelle et par téléopération pour la manipulation riche en contacts via des experts guidés par l'état

Clonage comportemental à grande échelle : données ouvertes, entraînement et évaluation

Apprentissage du pliage : solution primée au LeHome Challenge 2026 (1re en ligne, 2e hors ligne)

LA4VLA : apprendre à agir sans vision par pré-entraînement langage-action

Amélioration du fine-tuning des modèles VLA par supervision structurée des étapes et des images clés

ForesightSafety-VLA : un benchmark unifié de diagnostic de sécurité pour les modèles vision-langage-action (VLA)

Apprentissage de priors d'action pour la manipulation robotique multi-morphologies

Modélisation du monde en contexte pour le contrôle robotique

Champs de vitesse robotiques modélisés en flux de probabilité pour la manipulation d'objets

CRAFT : une main à tendons avec compliance hybride rigide-souple

SPACE : apprentissage inter-robots vers des politiques généralistes

EquiVLA : un cadre général pour les modèles VLA équivariants par rotation

RL résiduel centré sur les objets pour l'amélioration zéro-shot des VLA en transfert simulation-réel

Quantification de l'incertitude pour les modèles VLA à base de flux

ATOM-Bench : un benchmark réel pour les compétences atomiques et la généralisation compositionnelle dans les politiques de manipulation

IVRA : améliorer les relations entre tokens visuels pour la politique d'action des robots grâce à un guidage sans entraînement

DataLadder : une chaîne d'outils d'interconversion par simulation pour la pyramide de données de l'IA incarnée

APEX : exécution adaptative de politiques pour la manipulation de précision

SPARC : annotation spatiale fiable à partir de démonstrations robotiques à grande échelle

Exécution en temps réel avec des politiques autorégressives

Attaques par redirection de trajectoire sur les modèles vision-langage-action (VLA)

μVLA : mémoire récurrente pour la manipulation partiellement observable dans les modèles VLA

Apprentissage par imitation à partir de données sous-optimales en robotique : la politique de diffusion ambiante

La robotique ne connaîtra pas de moment Llama bien défini

Efficient-WAM : un modèle monde-action de 1 milliard de paramètres à faible coût d'anticipation

FiberTune : préserver les résidus visuels des fibres d'action dans le fine-tuning des modèles VLA

Votre modèle sait déjà : filtre de sécurité guidé par l'attention pour les modèles vision-langage-action (VLA)

HA-VLN 2.0 : un benchmark ouvert pour la navigation humain-robot en environnements discrets et continus avec interactions multi-personnes dynamiques

SynthICL : apprentissage par imitation en contexte à grande échelle avec données synthétiques

GEAR-VLA : un modèle VLA intégrant la géométrie pour une manipulation robotique généralisable

CT-VAM : un modèle vision-action inspiré du circuit cérébello-thalamique pour le contrôle visuomoteur

Au-delà de l'imitation : co-entraînement simulation-réel par apprentissage par renforcement pour les modèles VLA