Dossier IA physique & VLA — page 5

633 articles · page 5 sur 13

L'IA physique : modèles vision-langage-action qui contrôlent des corps robotisés. État de l'art académique (CoRL, RSS) et premières productions industrielles.

201arXiv cs.RO RechercheOpinion

HAVE : un vérificateur sensible à l'historique qui raisonne sur les interactions passées

Des chercheurs présentent HAVE (History-Aware VErifier), une architecture de contrôle robotique publiée sur arXiv (2509.00271v2) et soumise à CoRL 2025. Le principe central est une dissociation explicite entre deux composants distincts : un générateur diffusif non conditionnel qui propose plusieurs actions candidates, et un vérificateur apprenant à sélectionner la meilleure action en raisonnant sur l'historique des interactions passées. Les expériences couvrent des environnements simulés et réels incluant des objets articulés, des portes à comportement multimodal (poussée ou tirée selon le contexte), et des scénarios de saisie d'objets sur surfaces inégales. Aucun chiffre de déploiement industriel ni de partenaire commercial n'est mentionné : il s'agit d'une contribution académique pure. L'intérêt de HAVE réside dans son diagnostic du problème plutôt que dans la solution elle-même. Les modèles génératifs récents, y compris ceux conditionnés sur l'historique d'actions, peinent à résoudre les ambiguïtés visuelles lors de la manipulation : un objet dont l'état interne est incertain (tiroir bloqué, poignée bimode) génère des échecs répétés même avec des VLA sophistiqués. Séparer génération et vérification permet au vérificateur de capitaliser sur les tentatives précédentes, là où un seul réseau intégré lisse ces signaux. Les auteurs fournissent une analyse théorique montrant que l'ajout d'un vérificateur améliore statistiquement la qualité d'action espérée, ce qui est moins courant dans la littérature robotique que les seules validations empiriques. Pour un intégrateur industriel, cela suggère une voie pour traiter les cas limites sans collecter massivement de données étiquetées sur chaque configuration ambiguë. HAVE s'inscrit dans la vague des politiques diffusives initiée par Diffusion Policy (Chi et al., 2023) et étendue par pi-0 de Physical Intelligence, qui applique ce paradigme aux robots humanoïdes. Face aux approches concurrentes comme GR00T N2 de NVIDIA ou OpenVLA, qui misent sur le conditionnement fort des transformeurs vision-langage-action, HAVE choisit une architecture modulaire où la vérification est un citoyen de première classe et non une post-correction. Aucun acteur européen ou français n'est impliqué dans cette publication. Les prochaines étapes naturelles seraient des tests sur des manipulateurs industriels en conditions non structurées et une intégration avec des modèles de fondation plus larges pour le raisonnement contextuel.

Dossier IA physique & VLA — page 5

HAVE : un vérificateur sensible à l'historique qui raisonne sur les interactions passées

GeneralVLA-2 : reconstruction géométrique et mémoire structurée pour la planification robotique

R2RDreamer : augmentation de données 3D pour des politiques de manipulation 2D spatialement généralisées

IA physique : le middleware robotique comme couche d'intégration

T-FunS3D : segmentation fonctionnelle 3D hiérarchique à vocabulaire ouvert guidée par les tâches

VOLT : segmentation de trajectoires vision-langage pour des politiques plus rapides que la démonstration

AffordanceVLA : un modèle VLA qui améliore la génération d'actions grâce à la compréhension des affordances

Flow matching guidé par le potentiel pour l'amélioration des politiques VLA

TTT-VLA : optimisation de prompts latents à l'inférence pour les modèles VLA

OneVLA : un cadre unifié pour les tâches d'IA incarnée

Completion at the Boundary (CaB) : commutation déployable avec contrôle par complétion sous calibration limitée

Feat2Go : estimation de valeur par ancrage visuel pour l'apprentissage par renforcement incarné

NVIDIA Research fait progresser la robotique de la simulation au monde réel

PrimitiveVLA : apprentissage de primitives de mouvement réutilisables pour une manipulation robotique efficace et généralisable

Afford-VLA : planification visuelle alignée sur les actions via l'affordance internalisée

Des ingénieurs américains franchissent une étape clé vers une conscience précise de l'environnement réel pour les robots autonomes

EvoScene-VLA : croyances de scène évolutives dans le décodeur d'action pour un contrôle robot par blocs

L'avenir de l'IA physique passe par des interfaces plus intelligentes, pas des robots plus capables

Fusion multimodale pour le transfert simulation-réel en apprentissage par renforcement visuel

ContextFlow : alignement hiérarchique tâche-état pour agents incarnés à long horizon

IA incarnée en chimiste quantique : Qumus automatise la recherche sur les matériaux quantiques

EgoKit : vers une collecte de données égocentriques unifiée et économique avec des dispositifs hétérogènes

Comment instruire un robot : les annotations linguistiques denses améliorent l'apprentissage de politiques

CompassAD : localisation d'affordance 3D guidée par l'intention parmi des objets fonctionnellement concurrents

SR-Platform : un pipeline à base d'agents pour la synthèse d'environnements de simulation robotique en langage naturel

IntentVLA : modélisation des intentions à court terme pour la manipulation robotique ambiguë

Des données de caméras corporelles sur des travailleurs humains servent à entraîner des cerveaux robotiques dans un essai coréen

Manipulation dextérique multi-doigts guidée par le langage grâce à la compliance physique et la commutation de contrôleurs

ProcVLM : un modèle VLA apprenant des récompenses de progression ancrées dans les procédures pour la manipulation robotique

SynapX lance SYNData : un système multimodal de collecte de données pour l'ère de l'IA incarnée

Tutor Intelligence crée une Data Factory pour entraîner ses robots par IA dans le monde réel

LLMs pour le comportement de recherche dans les essaims de robots décentralisés

MSACT : alignement spatial multi-étapes pour une manipulation fine, stable et à faible latence

Attention spatiale stéréo multi-étapes pour manipulation mobile en temps réel sous variations d'échelle et perturbations

Navigation sociale à long terme pour l'assistance extérieure centrée sur l'humain

JoyAI-RA 0.1 : un modèle de base pour l'autonomie robotique

IA incarnée multi-agents : allocation de puissance centrée sur la mémoire pour la réponse aux questions