
AERMANI-VLM : prompting structuré et raisonnement pour la manipulation aérienne avec des modèles vision-langage
AERMANI-VLM est un cadre logiciel publié sur arXiv (arXiv:2511.01472v2) conçu pour piloter des manipulateurs aériens (drones équipés de bras robotiques) à partir de commandes en langage naturel, sans réentraînement spécifique à la tâche. Le système décompose le problème en deux couches : un modèle de vision-langage (VLM) pré-entraîné génère un raisonnement pas-à-pas en réponse à des instructions textuelles enrichies de contraintes de sécurité, puis sélectionne parmi une bibliothèque prédéfinie de primitives de vol pour exécuter physiquement l'action. Les auteurs revendiquent une première mondiale dans l'adaptation de VLMs généralistes à la manipulation aérienne sans fine-tuning. Le cadre a été validé en simulation et sur matériel réel sur des tâches pick-and-place multi-étapes, avec généralisation à des objets, commandes et environnements non vus à l'entraînement. Aucun taux de succès chiffré n'est communiqué dans la publication.
L'enjeu central qu'AERMANI-VLM cherche à résoudre est le problème des hallucinations dans les systèmes de contrôle robotique basés sur des VLM. Un drone en vol ne tolère pas des commandes incohérentes ou dynamiquement infaisables : une sortie erronée du modèle peut provoquer une chute. En séparant explicitement le raisonnement symbolique du contrôle physique, et en contraignant les sorties à une bibliothèque de primitives flight-safe, les chercheurs contournent ce risque sans modifier les poids du modèle fondation. C'est une alternative architecturale aux approches de fine-tuning type Pi-0 (Physical Intelligence) ou GR00T N2 de NVIDIA, plus légère à déployer mais dont l'extensibilité dépend entièrement de la qualité et de l'exhaustivité de la bibliothèque de compétences. La généralisation annoncée reste à confirmer au-delà du pick-and-place, l'une des tâches les plus simples en manipulation robotique.
La manipulation aérienne reste un domaine de recherche confidentiel, distinct des humanoïdes terrestres ou des bras industriels à grande série, mais porteur d'applications en inspection d'infrastructures, logistique en hauteur et défense. AERMANI-VLM s'inscrit dans la tendance des architectures dites "skill library + LLM planner", popularisées par SayCan (Google DeepMind, 2022) et déclinées depuis dans de nombreux contextes robotiques. L'avantage du zero-shot sans collecte de données de démonstration est réel, mais l'approche suppose une bibliothèque de primitives couvrant l'ensemble des comportements attendus, une contrainte de conception souvent sous-estimée en conditions réelles. Les prochaines étapes attendues pour ce type de système incluent des validations en extérieur, des tâches de manipulation plus complexes et la publication de métriques quantitatives sur des benchmarks standardisés.




