Aller au contenu principal
RecherchearXiv cs.RO51min

Système d'automatisation de titres modulaire pour la robotique en intérieur, basé sur un modèle vision-langage-action

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Voici l'article en français :

Une équipe de recherche présente un système modulaire conçu pour le CMU Vision-Language-Action (VLA) Challenge, une compétition universitaire visant à faire exécuter des instructions en langage naturel par un agent robotique autonome évoluant en intérieur. L'architecture repose sur deux pipelines parallèles. Le premier, dédié à la perception, construit en temps réel une carte voxel sémantique de l'environnement à partir de flux caméra, en s'appuyant sur des embeddings issus du modèle OwlViT. Le second traite le langage : il classifie les commandes utilisateur grâce à un modèle vision-langage (VLM). La cartographie est bornée dans le temps, avec une limite d'exploration fixée à 500 secondes, au-delà de laquelle le système continue d'opérer avec une carte partielle plutôt que d'attendre une couverture complète. La requête classifiée est ensuite ancrée dans le contexte géométrique et sémantique de cette carte pour générer un prompt détaillé soumis au VLM, produisant en sortie une action exploitable par le robot.

L'intérêt de ce travail dépasse le cadre du concours : il illustre concrètement comment combler l'écart entre instruction en langage naturel et action robotique physique, un défi central pour toute la famille des modèles VLA actuellement en déploiement industriel, de Pi-0 à GR00T N2 en passant par Helix. En imposant une contrainte de temps stricte sur la cartographie, les auteurs mettent en lumière un problème rarement traité frontalement dans les démonstrations commerciales : la robustesse face à une perception incomplète, plus représentative des conditions réelles que des environnements soigneusement scannés en amont.

Le CMU VLA Challenge s'inscrit dans une vague de benchmarks académiques cherchant à standardiser l'évaluation des architectures VLA modulaires, en concurrence avec les approches end-to-end privilégiées par les laboratoires industriels. Les prochaines étapes attendues concernent la publication des résultats comparatifs de la compétition et l'éventuelle extension de cette architecture voxel-plus-VLM à des plateformes robotiques réelles au-delà du cadre expérimental du challenge.

À lire aussi

VISOR : un oracle de test basé sur un modèle vision-langage pour tester les robots
1arXiv cs.RO 

VISOR : un oracle de test basé sur un modèle vision-langage pour tester les robots

Une équipe de chercheurs a présenté VISOR, un oracle de test automatisé pour la robotique basé sur des modèles vision-langage (VLM). Publiée sur arXiv (2605.10408), la méthode vise à résoudre ce que le domaine nomme le "problème de l'oracle de test" : déterminer automatiquement si un robot a accompli une tâche de manière correcte et avec une qualité suffisante. Jusqu'ici, deux approches coexistaient : les oracles symboliques, limités à des jugements binaires pass/fail et spécifiques à chaque tâche, et l'évaluation humaine manuelle, coûteuse, subjective et sujette aux erreurs. VISOR s'appuie sur GPT (OpenAI) et Gemini (Google) pour évaluer à la fois la correction et la qualité d'exécution, et pour quantifier son propre niveau d'incertitude lors des assessments. Le système a été validé sur plus de 1 000 vidéos couvrant quatre tâches robotiques distinctes. Les résultats montrent des profils contrastés : Gemini obtient un meilleur rappel (recall), identifiant davantage de vraies défaillances, tandis que GPT affiche une meilleure précision avec moins de faux positifs. Ces résultats nuancent l'idée d'un VLM universellement fiable comme juge de comportements robotiques. Plus problématique : les deux modèles présentent une faible corrélation entre leur score d'incertitude auto-déclaré et la correction réelle de leurs jugements. L'incertitude ne peut donc pas servir d'indicateur fiable pour filtrer les erreurs d'évaluation, ce qui est une limite directe pour tout déploiement en pipeline de test continu, où un tel signal de fiabilité serait précieux. Le "problème de l'oracle de test" est une problématique classique du génie logiciel, qui prend une dimension particulière en robotique physique : les comportements y sont continus, bruités et difficiles à formaliser symboliquement. L'approche VLM-as-judge, popularisée dans l'évaluation des LLMs textuels via des benchmarks comme MT-Bench ou AlpacaEval, est ici transposée à des sorties vidéo de robots, ce qui constitue une extension non triviale. Des travaux concurrents explorent des métriques spécifiques aux tâches ou des simulateurs avec vérification formelle, mais VISOR mise sur la généralité au détriment d'une calibration encore insuffisante. La prochaine étape identifiée par les auteurs est précisément d'améliorer cette corrélation incertitude-correction, condition nécessaire avant toute intégration dans un pipeline CI/CD robotique.

RecherchePaper
1 source
Des pixels aux tokens : étude systématique de la supervision par actions latentes pour les modèles vision-langage-action (VLA)
2arXiv cs.RO 

Des pixels aux tokens : étude systématique de la supervision par actions latentes pour les modèles vision-langage-action (VLA)

Des chercheurs de l'Université Renmin de Chine (RUC) ont publié le 7 mai 2026 une étude systématique sur la supervision par actions latentes dans les modèles VLA (Vision-Language-Action), une architecture clé pour les robots capables de comprendre des instructions en langage naturel et d'agir dans le monde physique. L'article, référencé arXiv:2605.04678, pose une question concrète : comment entraîner efficacement un VLA sur des datasets hétérogènes, issus de robots différents avec des espaces d'action incompatibles ? La réponse explorée est l'action latente, une représentation intermédiaire abstraite qui sert de pivot commun entre perception visuelle, langage et commande motrice. Les auteurs comparent quatre stratégies d'intégration sous une baseline VLA unifiée, en distinguant deux familles : les actions latentes basées sur l'image (qui encodent les transitions visuelles entre frames) et celles basées sur l'action (qui compressent directement les commandes moteurs dans un espace latent). Les résultats révèlent une correspondance formulation-tâche claire, ce qui est utile pour tout intégrateur qui choisit une architecture : les actions latentes image-based sont plus efficaces sur les tâches longues nécessitant un raisonnement multi-étapes et une généralisation au niveau de la scène, tandis que les actions latentes action-based surperforment sur la coordination motrice fine et complexe. La découverte la plus opérationnelle est que superviser directement le modèle de langage vision (VLM) avec des tokens discrets d'actions latentes donne les meilleures performances globales, devançant les approches de supervision continue ou indirecte. L'étude apporte également des premières preuves que la supervision par actions latentes améliore l'entraînement en données mixtes (multi-robot, multi-tâche), un verrou majeur pour passer du lab au déploiement à grande échelle. Ce travail s'inscrit dans une course effrénée à la généralisation des VLA, après les succès récents de Pi-0 (Physical Intelligence), OpenVLA (UC Berkeley) et GR00T N2 (NVIDIA), qui ont tous démontré des capacités cross-embodiment limitées mais prometteuses. La contribution de RUC est moins un nouveau modèle qu'un benchmark de design choices, un type de contribution rare et précieux dans un domaine encore dominé par les démonstrations spectaculaires. La prochaine étape naturelle serait de valider ces résultats sur du matériel réel au-delà des benchmarks simulés, notamment sur des plateformes comme ALOHA 2 ou des manipulateurs industriels, pour confirmer que le gap sim-to-real ne neutralise pas les gains observés en simulation. Le code est disponible sur GitHub (RUCKBReasoning/FromPixelsto_Tokens).

RechercheOpinion
1 source
Modèles vision-langage-action (VLA) conditionnés par l'état de santé pour un contrôle robotique sensible aux pannes
3arXiv cs.RO 

Modèles vision-langage-action (VLA) conditionnés par l'état de santé pour un contrôle robotique sensible aux pannes

Une équipe de recherche publie sur arXiv (référence 2605.16056) un modèle VLA (Vision-Language-Action) capable d'adapter son comportement à la dégradation physique d'un robot, une problématique distincte des pannes de tâches habituellement ciblées par la littérature. L'approche repose sur l'injection d'un module "Health Projector" dans l'architecture VLA-Adapter : le modèle reçoit en entrée un vecteur de santé encodant l'amplitude articulaire et le couple disponible pour chaque joint. Entraîné sur 128 épisodes téléopérés collectés dans l'environnement de simulation LIBERO (benchmark Libero-Spatial), il parvient à compléter des tâches de manipulation spatiale avec des configurations de joints dégradés où le modèle de référence VLA-Adapter Libero-Spatial-Pro échoue systématiquement. Le code et le jeu de données seront prochainement disponibles sur GitHub (h-arslan/health-aware-vla). L'intérêt industriel est réel : dans les déploiements terrain, les robots accumulent des dégradations mécaniques progressives (usure articulaire, perte de couple, grippage de préhenseur) sans nécessairement déclencher d'alarme critique. Un contrôleur aveugle à cet état physique maintient ses consignes nominales et accumule les erreurs ; un modèle conditionné à la santé peut recalculer ses trajectoires à la volée. La modification proposée est présentée comme légère, ce qui suggère une intégration possible dans des pipelines VLA existants sans refonte complète. Cependant, les résultats restent limités à la simulation LIBERO avec 128 épisodes seulement, un jeu de données particulièrement restreint, et aucune validation sur robot physique n'est présentée, laissant le gap sim-to-real entièrement ouvert. Ce travail s'inscrit dans l'expansion rapide des VLA depuis 2023, portée par des modèles comme pi0 (Physical Intelligence), OpenVLA ou la famille RoboVLMs. VLA-Adapter, utilisé comme base ici, est une variante qui réduit les coûts de fine-tuning en gelant le backbone visio-langagier pour n'entraîner qu'un adaptateur léger. La résilience robotique est jusqu'ici majoritairement traitée côté contrôle bas niveau (détection de fautes, compensation par redondance articulaire) plutôt qu'au niveau de la politique visuo-langagière, ce qui rend l'angle de cette recherche original. Aucun acteur européen n'est impliqué dans cette publication. La prochaine étape logique serait une validation sur hardware réel avec des dégradations induites mécaniquement et un dataset substantiellement élargi pour crédibiliser le passage à l'échelle.

RechercheOpinion
1 source
RotVLA : action latente de rotation pour les modèles vision-langage-action (VLA)
4arXiv cs.RO 

RotVLA : action latente de rotation pour les modèles vision-langage-action (VLA)

Un groupe de chercheurs a publié en mai 2026 RotVLA (arXiv:2605.13403), un framework Vision-Language-Action (VLA) qui substitue la quantification discrète des modèles d'action latente (LAM) existants par une représentation continue dans l'espace de rotation SO(n). Entraîné sur plus de 1 700 heures de données robotiques multi-embodiment et de vidéos humaines, le modèle compte 1,7 milliard de paramètres. Son architecture associe un backbone de modèle vision-langage et une tête d'action par flow-matching, étendue en aval en un "action expert" unifié qui dénoise simultanément actions latentes et actions robot. Sur LIBERO, RotVLA atteint 98,2 % de taux de succès ; sur RoboTwin2.0, il obtient 89,6 % en configuration propre et 88,5 % en configuration randomisée, surpassant les modèles VLA antérieurs dans les deux cas. Des expériences sur des tâches de manipulation réelle confirment ces résultats hors simulation. L'enjeu est architectural : les LAMs actuels, basés sur des pipelines VQ-VAE ou similaires, induisent une reconstruction de frames souvent triviale et n'imposent aucune contrainte géométrique cohérente avec la physique du mouvement. En modélisant les actions latentes comme des éléments de SO(n), RotVLA garantit continuité et compositionnalité absentes des espaces discrets, avec un triplet frame learning qui force une dynamique temporelle non dégénérée. Pour les équipes d'intégration robotique, cela ouvre la voie à un modèle de fondation plus robuste au sim-to-real, l'un des goulots d'étranglement centraux des VLAs en conditions industrielles. L'approche suggère que la structure géométrique de l'espace d'action peut compter autant que l'échelle des données d'entraînement. Le domaine des politiques robotiques généralistes a été structuré par Pi-0 (Physical Intelligence, 2024) et GR00T N2 (NVIDIA, 2025), qui misaient sur des corpus cross-embodiment massifs pour entraîner des politiques généralisables. RotVLA s'inscrit dans cette lignée mais parie sur une représentation latente géométriquement structurée plutôt que sur le volume brut de paramètres, avec 1,7B contre plusieurs dizaines de milliards pour les modèles concurrents les plus ambitieux. Les scores LIBERO et RoboTwin2.0 sont des benchmarks académiques standardisés ; leur transposition sur des cellules industrielles réelles (bras collaboratifs, tri et picking) reste à démontrer. Aucun partenaire de déploiement ni calendrier commercial ne figure dans la publication : RotVLA est, à ce stade, une contribution de recherche.

RechercheOpinion
1 source