Aller au contenu principal
AERMANI-PLACE : placement d'objets guidé par le langage avec des manipulateurs aériens
IA physiquearXiv cs.RO2h

AERMANI-PLACE : placement d'objets guidé par le langage avec des manipulateurs aériens

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE
AERMANI-PLACE : placement d'objets guidé par le langage avec des manipulateurs aériens
▶ Voir sur YouTube

Des chercheurs ont publié AERMANI-PLACE, un cadre logiciel permettant à un manipulateur aérien (drone équipé d'un bras robotique) de positionner des objets à partir d'instructions en langage naturel, sans que l'opérateur n'ait à saisir de coordonnées métriques. Le système fonctionne en deux étapes : une image de la scène combinée à une consigne textuelle est transmise à un modèle de génération d'images, qui produit une version modifiée de la scène avec un marqueur visuel indiquant l'emplacement cible. Ce marqueur est ensuite ancré dans l'espace physique via des observations de profondeur, permettant de récupérer un point de placement en coordonnées métriques, à partir duquel une trajectoire est calculée et exécutée par le drone. Sur un jeu de test de 100 tâches, le système affiche un taux de réussite de 87 % pour l'inférence des positions, et de 72 % lors du transfert sur une plateforme réelle de manipulation aérienne. L'article a été déposé sur arXiv (ref. 2606.14531) en juin 2026.

L'intérêt principal de cette approche réside dans l'élimination du fossé d'interface entre l'intention humaine et la commande robot. Jusqu'à présent, les systèmes de manipulation aérienne exigeaient que l'utilisateur raisonne explicitement sur les référentiels de coordonnées et la géométrie de la scène, ce qui freinait l'adoption opérationnelle hors laboratoire. AERMANI-PLACE propose une abstraction en langage naturel, plus proche des usages industriels réels où les opérateurs ne sont pas roboticiens. Le transfert sim-to-real reste partiel (écart de 15 points entre simulation et terrain), ce qui signale que les conditions d'éclairage, d'occultation ou de texture peuvent encore dégrader la robustesse, un point à surveiller avant tout déploiement critique.

La manipulation aérienne reste un domaine de recherche émergent, situé à l'intersection des UAV industriels et de la robotique de préhension. Les travaux précédents imposaient des interfaces semi-automatisées ou des pipelines de vision-to-pose classiques nécessitant une calibration fine. Dans l'écosystème concurrent, des équipes comme celles de l'ETH Zurich (ETHZ-ASL) ou de l'Université de Séville travaillent sur des plateformes similaires, mais peu ont intégré un grounding linguistique direct. L'approche d'AERMANI-PLACE, centrée sur un modèle d'édition d'image comme interface sémantique, est transposable à d'autres plateformes mobiles ou fixes. Les prochaines étapes naturelles incluent l'extension aux gestes de pointage combinés au langage, tel que mentionné dans la motivation du papier, ainsi qu'une validation sur des tâches à contraintes de précision plus élevées.

Impact France/UE

Impact indirect : des équipes européennes (ETH Zurich-ASL, Université de Séville) travaillent sur des plateformes concurrentes de manipulation aérienne, situant ce préprint dans un paysage de recherche partiellement européen.

Dans nos dossiers

À lire aussi

Manipulation dextérique multi-doigts guidée par le langage grâce à la compliance physique et la commutation de contrôleurs
1arXiv cs.RO 

Manipulation dextérique multi-doigts guidée par le langage grâce à la compliance physique et la commutation de contrôleurs

Une équipe de chercheurs a publié sur arXiv (référence 2410.14022v2) une architecture de contrôle combinant des modèles Vision-Langage-Action (VLA) à grande échelle avec des politiques d'imitation légères pour la manipulation dextère multi-doigts. Le système repose sur une main robotique anthropomorphique propriétaire à 13 degrés de liberté (DOF), dotée d'une compliance mécanique modulable au niveau des doigts. Le cœur de l'approche est un contrôleur à commutation piloté par événements : le VLA assure la planification de haut niveau à partir d'instructions en langage naturel, tandis que des politiques dextères légères, entraînées par imitation sur des sous-tâches spécifiques, prennent le relais pour l'exécution précise. Les transitions entre les deux niveaux sont déclenchées par des signaux d'événement que le VLA apprend à prédire lui-même après fine-tuning sur un volume minimal de démonstrations. Ce travail s'attaque à un verrou bien identifié du secteur : les VLA (Pi-0, OpenVLA, GR00T N2) excellent en planification multi-tâches mais opèrent typiquement avec des préhenseurs pince à 2 DOF, insuffisants pour la manipulation fine. À l'inverse, les politiques d'imitation pour mains multi-doigts restent cantonnées à des tâches étroitement définies, sans généralisation par langage. En montrant que la compliance matérielle, soit la capacité d'une main à absorber passivement les perturbations de contact, améliore la stabilité sans complexifier le contrôle logiciel, les auteurs fournissent un argument concret en faveur de la co-conception hardware-software, encore trop souvent négligée dans la course au sim-to-real. La modularité revendiquée, à savoir l'ajout de nouvelles compétences ou le changement de main sans réentraîner le VLA, constitue une propriété potentiellement intéressante pour les intégrateurs industriels, même si les conditions d'évaluation restent strictement laboratoire. L'approche s'inspire de la "two-channel hypothesis" du contrôle moteur humain, qui distingue la planification corticale des réflexes spinaux. Sur le plan concurrentiel, elle se positionne face aux travaux de Physical Intelligence (Pi-0), de Google DeepMind sur la manipulation dextère, et aux architectures ACT ou Diffusion Policy appliquées à des mains haute-DOF. Ni institution d'appartenance ni métriques de performance chiffrées ne figurent dans l'abstract disponible, ce qui limite toute évaluation externe sérieuse de la contribution. La prochaine étape crédible serait une validation sur des benchmarks standardisés comme YCB et une comparaison directe avec des mains tierces commerciales, pour confirmer que la cross-embodiment claim tient hors du cadre contrôlé des auteurs.

IA physiqueOpinion
1 source
PLanAR : raisonnement à base d'agents ancré dans la planification et le langage pour la manipulation robotique
2arXiv cs.RO 

PLanAR : raisonnement à base d'agents ancré dans la planification et le langage pour la manipulation robotique

Des chercheurs ont présenté PLanAR (Planning-Language-Grounded Agentic Reasoning), un framework agent pour la manipulation robotique long-horizon en environnements ouverts, publié sous forme de préprint arXiv (2602.01662v4). Le système utilise des modèles vision-langage (VLMs) comme moteur de raisonnement, mais les contraint via une interface de planification symbolique structurée en trois composants : des prédicats d'objets encodant l'état de la scène, des schémas d'action définissant les compétences du robot avec leurs préconditions et effets attendus, et des plans symboliques servant de représentations intermédiaires exécutables. Après chaque action, PLanAR vérifie si les effets symboliques attendus ont été atteints via les observations embarquées, ce qui lui permet de détecter les échecs et de replanifier en cas de déviation. Les évaluations couvrent plusieurs morphologies de robots et backends VLM sur des tâches allant de l'empilement d'objets à la résolution de mots croisés, en passant par des séquences cuisine long-horizon. La manipulation long-horizon reste un défi majeur de la robotique incarnée : les architectures VLA (Vision-Language-Action) pures, comme Pi-0 (Physical Intelligence) ou OpenVLA, échouent souvent lorsque les séquences s'allongent et que les conditions d'exécution changent. PLanAR adresse ce problème en introduisant une boucle de vérification étape par étape qui sépare explicitement raisonnement et exécution, une propriété absente des approches end-to-end. Cette architecture hybride neurosymbolique est directement pertinente pour les intégrateurs industriels travaillant en environnements non contrôlés, car elle permet au robot de détecter et corriger ses propres erreurs sans intervention humaine. Les auteurs reconnaissent eux-mêmes que PLanAR révèle des limitations importantes dans le raisonnement incarné des VLMs actuels, une posture analytique rare dans la littérature récente. PLanAR s'inscrit dans une longue tradition d'approches TAMP (Task and Motion Planning) cherchant à combiner planification symbolique et exécution motrice, aux côtés de SayCan (Google DeepMind, 2022), Code as Policies (2023) et GR00T N2 (NVIDIA, 2025) qui intègre également un module de raisonnement symbolique. La distinction clé réside dans l'interface de planification formelle imposée au VLM, qui réduit l'espace de recherche au prix d'une expressivité moindre. Le preprint ne mentionne ni partenariat industriel ni timeline de déploiement, et les expériences restent en laboratoire : le passage à l'échelle en conditions réelles demeure la question ouverte centrale pour valider l'approche au-delà du benchmark académique.

IA physiqueOpinion
1 source
AnySlot : politiques vision-langage-action conditionnées par objectif pour le placement zéro-shot par emplacement
3arXiv cs.RO 

AnySlot : politiques vision-langage-action conditionnées par objectif pour le placement zéro-shot par emplacement

Des chercheurs ont publié sur arXiv (référence 2604.10432v3) un framework baptisé AnySlot, conçu pour permettre à des politiques de contrôle robotique de type Vision-Language-Action (VLA) de placer des objets avec précision dans des emplacements discrets, dits "slots", à partir d'instructions en langage naturel. L'approche introduit un objectif visuel intermédiaire : plutôt que de passer directement de la commande textuelle au mouvement moteur, le système génère d'abord un marqueur spatial rendu sur l'image, indiquant l'emplacement cible exact, puis confie l'exécution à une politique VLA conditionnée par ce but visuel. Cette architecture hiérarchique découple la compréhension sémantique de l'instruction et la précision géométrique de l'exécution. Les auteurs introduisent également SlotBench, un benchmark de simulation structuré autour de neuf catégories de tâches, destiné à évaluer le raisonnement spatial dans des scénarios de placement à l'échelle centimétrique. Les expériences montrent qu'AnySlot surpasse les baselines VLA plates et les méthodes de grounding modulaire en conditions zero-shot. Ce travail s'attaque à l'un des verrous les plus concrets des VLA généralistes : la précision de placement sous contraintes compositionnelles. Les politiques end-to-end peinent à combiner compréhension du langage et précision millimétrique, ce qui freine leur utilisation dans des applications industrielles comme l'assemblage, le tri ou la mise en casier. L'introduction d'un "but visuel" explicite comme couche intermédiaire est une réponse architecturale directe au gap sémantique-géométrique, et les résultats zero-shot suggèrent une meilleure généralisation que les approches purement end-to-end ou modulaires. Pour un intégrateur ou un COO industriel, cela signifie potentiellement réduire le coût de spécification des tâches de placement sans sacrifier la fiabilité. Le contexte est celui d'une intense activité autour des VLA depuis les travaux fondateurs de RT-2 (Google DeepMind, 2023) et des politiques récentes comme pi0 de Physical Intelligence ou OpenVLA. La difficulté du slot-level placement restait un angle mort de ces approches, qui performent mieux sur des tâches de saisie que de dépose précise. AnySlot ne provient pas d'un labo académique nommé explicitement dans l'abstract, et les résultats sont pour l'instant limités à la simulation via SlotBench, sans validation sur robot réel publiée. Les prochaines étapes naturelles seraient des expériences physiques et une comparaison avec des systèmes comme RoboPoint ou SpatialVLA, qui explorent des approches proches du grounding spatial. Ce preprint restera à suivre avant toute intégration industrielle.

IA physiqueOpinion
1 source
WT-UMI : manipulation corps entier guidée par le toucher via planification consciente des contacts supervisée par la force
4arXiv cs.RO 

WT-UMI : manipulation corps entier guidée par le toucher via planification consciente des contacts supervisée par la force

Une équipe de chercheurs présente WT-UMI dans un preprint arXiv déposé en juin 2026, une interface tactile portable conçue pour la manipulation corps entier par des robots humanoïdes. Le dispositif se porte sur un opérateur humain ou se monte directement sur un humanoïde, et capture simultanément des images tactiles, des mesures de force de contact et les poses des effecteurs terminaux, aussi bien en mode démonstration humaine qu'en téléopération. L'architecture repose sur deux modules complémentaires : un correcteur de pose cible conditionné par la force, qui apprend à traduire les poses humaines en commandes exécutables par le robot à partir de données de téléopération, et un planificateur supervisé par la force qui prédit conjointement les trajectoires de pose et les profils de force de contact. Ces prédictions servent de référence à un contrôleur d'admittance basé sur le retour tactile. Évalué sur cinq tâches à contacts riches couvrant des objets déformables, des charges rigides encombrantes et la collaboration humain-humanoïde, WT-UMI surpasse quatre politiques de référence en taux de succès et en précision de suivi des contacts. L'enjeu sous-jacent est structurel : la quasi-totalité des politiques d'imitation actuelles traitent les forces de contact de manière implicite, par le signal visuel ou proprioceptif uniquement, ce qui atteint ses limites physiques dès que l'objet manipulé est souple, encombrant ou porté à plusieurs agents. WT-UMI attaque directement le dilemme classique entre démonstrations humaines, riches en interactions de contact naturelles mais non exécutables telles quelles par un robot, et téléopération, précise dans les actions robot mais moins naturelle dans la régulation des forces. La fusion des deux sources via un module de correction appris propose une troisième voie. Pour les intégrateurs et les décideurs industriels, cela ouvre une piste concrète vers la manipulation de charges souples ou asymétriques, un verrou persistant en logistique et en assemblage. WT-UMI s'inscrit dans la lignée des interfaces UMI (Universal Manipulation Interface) apparues vers 2023-2024 pour faciliter la collecte de démonstrations à faible coût. L'extension "WT" ajoute la détection tactile distribuée sur l'ensemble du corps, au-delà des capteurs de poignet ou de doigts habituels. Il s'agit à ce stade d'un preprint de recherche sans déploiement industriel annoncé, ce point mérite d'être précisé face à des métriques présentées sans contexte de cadence de cycle ni de robustesse à l'échelle. Dans le paysage concurrent, Physical Intelligence avec Pi-0, Figure avec ses humanoïdes commerciaux et Boston Dynamics ciblent également la manipulation robuste, mais restent majoritairement dans une logique visuo-motrice ou de politiques VLA. WT-UMI se distingue en faisant du contact une variable de planification explicite plutôt qu'un résidu à corriger a posteriori. Les prochaines étapes logiques seraient une validation sur matériel humanoïde commercial et une comparaison frontale avec des architectures VLA, aujourd'hui dominantes dans la course à la généralisation.

IA physiquePaper
1 source