
AIR-VLA+ : découplage mouvement-manipulation par décodeurs bi-actions en cascade avec MoE asymétrique pour robots aériens
Une équipe de chercheurs a publié en juin 2026 AIR-VLA+, une architecture de génération d'actions par flow matching conçue spécifiquement pour la manipulation aérienne, soit des systèmes combinant un drone (UAV) et un bras manipulateur embarqué. L'architecture repose sur deux décodeurs d'action en cascade distincts : l'un dédié à la manipulation du bras, l'autre au déplacement du UAV. Le décodeur de mouvement peut observer l'intention du manipulateur (via un projecteur visuel de saisie implicite), mais l'inverse n'est pas vrai, limitant l'impact du bruit de navigation sur la stabilité du bras. Un module MoE (Mixture of Experts) asymétrique, opérant au niveau des features plutôt qu'au niveau des tokens, permet à différents experts de mouvement de se spécialiser spontanément selon les phases de tâche au cours de l'entraînement. Sur le benchmark standardisé AIR-VLA, AIR-VLA+ obtient un score global de 48,0, soit une progression de 80,2 % par rapport à la politique single-head pi-0.5, surpassant tous les baselines testés.
Ce résultat pointe un problème structurel longtemps sous-estimé dans les VLA appliqués à la robotique composite : le couplage de représentation. Un drone et un bras manipulateur diffèrent radicalement en échelle d'action, en dynamique et en objectifs de contrôle. Les architectures end-to-end classiques, en traitant les deux dans le même espace de représentation, génèrent des conflits de gradient qui dégradent la stabilité de la manipulation. AIR-VLA+ démontre qu'un découplage asymétrique explicite -- avec flux d'information unidirectionnel -- permet de résoudre ce conflit sans sacrifier la coordination globale de la tâche. Pour les intégrateurs industriels travaillant sur l'inspection d'infrastructure ou la logistique verticale, c'est un signal que les politiques génériques entraînées sur des robots bipèdes ou mobiles au sol ne sont pas directement transférables.
La manipulation aérienne reste un sous-domaine peu industrialisé par rapport aux AMR au sol ou aux bras fixes. Les VLA de référence -- pi-0 (Physical Intelligence), GR00T N2 (NVIDIA), Helix (Figure) -- sont tous conçus pour des plateformes terrestres ou humanoïdes. AIR-VLA+ s'inscrit dans un effort de benchmarking spécifique à ce segment, avec la publication conjointe d'un benchmark dédié (AIR-VLA). Aucun déploiement terrain ni partenaire industriel n'est mentionné dans le preprint, ce qui le positionne clairement comme une contribution de recherche en amont. Les prochaines étapes logiques seraient une validation sim-to-real sur des tâches de saisie en environnement non structuré et une comparaison avec des architectures diffusion-based comme Diffusion Policy.
Dans nos dossiers




