
AERMANI-PLACE : placement d'objets guidé par le langage avec des manipulateurs aériens

Des chercheurs ont publié AERMANI-PLACE, un cadre logiciel permettant à un manipulateur aérien (drone équipé d'un bras robotique) de positionner des objets à partir d'instructions en langage naturel, sans que l'opérateur n'ait à saisir de coordonnées métriques. Le système fonctionne en deux étapes : une image de la scène combinée à une consigne textuelle est transmise à un modèle de génération d'images, qui produit une version modifiée de la scène avec un marqueur visuel indiquant l'emplacement cible. Ce marqueur est ensuite ancré dans l'espace physique via des observations de profondeur, permettant de récupérer un point de placement en coordonnées métriques, à partir duquel une trajectoire est calculée et exécutée par le drone. Sur un jeu de test de 100 tâches, le système affiche un taux de réussite de 87 % pour l'inférence des positions, et de 72 % lors du transfert sur une plateforme réelle de manipulation aérienne. L'article a été déposé sur arXiv (ref. 2606.14531) en juin 2026.
L'intérêt principal de cette approche réside dans l'élimination du fossé d'interface entre l'intention humaine et la commande robot. Jusqu'à présent, les systèmes de manipulation aérienne exigeaient que l'utilisateur raisonne explicitement sur les référentiels de coordonnées et la géométrie de la scène, ce qui freinait l'adoption opérationnelle hors laboratoire. AERMANI-PLACE propose une abstraction en langage naturel, plus proche des usages industriels réels où les opérateurs ne sont pas roboticiens. Le transfert sim-to-real reste partiel (écart de 15 points entre simulation et terrain), ce qui signale que les conditions d'éclairage, d'occultation ou de texture peuvent encore dégrader la robustesse, un point à surveiller avant tout déploiement critique.
La manipulation aérienne reste un domaine de recherche émergent, situé à l'intersection des UAV industriels et de la robotique de préhension. Les travaux précédents imposaient des interfaces semi-automatisées ou des pipelines de vision-to-pose classiques nécessitant une calibration fine. Dans l'écosystème concurrent, des équipes comme celles de l'ETH Zurich (ETHZ-ASL) ou de l'Université de Séville travaillent sur des plateformes similaires, mais peu ont intégré un grounding linguistique direct. L'approche d'AERMANI-PLACE, centrée sur un modèle d'édition d'image comme interface sémantique, est transposable à d'autres plateformes mobiles ou fixes. Les prochaines étapes naturelles incluent l'extension aux gestes de pointage combinés au langage, tel que mentionné dans la motivation du papier, ainsi qu'une validation sur des tâches à contraintes de précision plus élevées.
Impact indirect : des équipes européennes (ETH Zurich-ASL, Université de Séville) travaillent sur des plateformes concurrentes de manipulation aérienne, situant ce préprint dans un paysage de recherche partiellement européen.
Dans nos dossiers




