Aller au contenu principal
AERIS : intelligence à rôles en temps réel via un essaim orchestré de modèles de langage en périphérie aérienne
RecherchearXiv cs.RO2h

AERIS : intelligence à rôles en temps réel via un essaim orchestré de modèles de langage en périphérie aérienne

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs publie sur arXiv (référence 2606.30151, soumis fin juin 2026) AERIS, un framework de déploiement edge conçu pour embarquer des modèles de langage sur des plateformes aériennes autonomes. L'architecture organise plusieurs petits modèles de langage spécialisés (SLM), associés à des modules de perception et de contrôle allégés, en "rôles" réassignables dynamiquement à l'exécution selon les ressources disponibles à bord. Pour respecter les contraintes de scheduling cadencées par heartbeat propres aux systèmes aériens, AERIS découple un planificateur basse fréquence et un contrôleur haute fréquence, maintenant une boucle perception-décision-contrôle closed-loop en temps réel. La décomposition d'instructions à long horizon repose sur un mécanisme dit "attention-subgoal alignment" : l'étape active de l'instruction est annotée dans les messages entre modules, permettant une progression incrémentale vers l'objectif global. Le framework a été évalué sur un benchmark VLN (Vision-and-Language Navigation) haute fidélité pour UAV, et deux expériences en conditions réelles ont validé capacité de planification et réactivité.

Ce travail s'attaque à un verrou bien identifié : la quasi-totalité des architectures LLM+robot supposent une connectivité cloud continue ou des ressources de calcul embarquées peu réalistes pour un drone. AERIS démontre qu'un raisonnement en langage naturel peut tourner localement sur UAV en substituant la taille des modèles par une orchestration fine des rôles. Le rebinding dynamique est potentiellement utile pour des flottes hétérogènes où les ressources varient d'une unité à l'autre. La limite notable : les deux expériences terrain restent des preuves de concept ciblées, sans métriques de déploiement à l'échelle, ni taux de succès mesuré en environnement non structuré.

L'intégration de LLMs dans les robots mobiles est portée depuis 2023 par SayCan (Google DeepMind), PaLM-E et les frameworks VLA comme Pi-0 de Physical Intelligence, mais ces travaux visent principalement les manipulateurs terrestres. Dans l'aérien, les contraintes énergétiques et de latence sont plus sévères, ce qui explique que la plupart des démos LLM+drone restent connectées au cloud. Des approches concurrentes sur l'inférence embarquée légère, notamment autour d'EdgeLLM ou des travaux de Microsoft Research sur les modèles compressés, explorent un espace voisin, mais rarement sur UAV. Aucun acteur européen n'est impliqué dans ce preprint. AERIS demeure un résultat académique sans partenaire industriel identifié ni roadmap de commercialisation ; la suite logique serait une validation sur flotte multi-agents en milieu dynamique non contrôlé.

À lire aussi

Entraînement au moment de l'inférence pour les modèles vision-langage-action à prévision visuelle (VLA)
1arXiv cs.RO 

Entraînement au moment de l'inférence pour les modèles vision-langage-action à prévision visuelle (VLA)

Des chercheurs proposent T³VF (Test-Time Training Visual Foresight VLA), une méthode d'adaptation à l'inférence publiée sur arXiv en mai 2025 (réf. 2605.08215). Les architectures Visual Foresight VLA, qui figurent parmi les plus performantes pour le contrôle de robots manipulateurs, fonctionnent en deux temps : elles prédisent d'abord une image future représentant l'état visuel attendu après l'action, puis génèrent la commande motrice à partir de cette prédiction. Cette dépendance en cascade crée une vulnérabilité double aux situations hors-distribution (OOD) : une prédiction visuelle dégradée corrompt directement la décision motrice en aval. T³VF exploite l'écart entre l'image future prédite et l'observation réellement reçue comme signal de supervision naturel, permettant au modèle de s'ajuster en continu pendant l'exécution, sans modification architecturale ni modules auxiliaires. Un mécanisme de filtrage adaptatif sélectionne les mises à jour pertinentes pour éviter la dérive par accumulation d'erreurs indiscriminée. Pour les équipes de déploiement, l'enjeu est direct : les VLA sont benchmarkés en laboratoire mais confrontés en production à des variations de scène (éclairage, textures, disposition des objets) rarement couvertes par les données d'entraînement. T³VF propose une adaptation sans annotation humaine ni nouvelle session d'entraînement, le robot se corrigeant à partir de ses propres observations, avec un surcoût d'inférence qualifié de modeste par les auteurs, une affirmation à vérifier selon les environnements cibles. Si les résultats se confirment à plus grande échelle, la méthode pourrait réduire les cycles de re-fine-tuning lors du passage en production, un poste de coût opérationnel significatif pour les intégrateurs industriels. Les VLA s'imposent depuis 2023 comme architecture dominante en manipulation robotique, portés par des modèles comme RT-2 (Google DeepMind), OpenVLA ou Pi-0 de Physical Intelligence. Les variantes Visual Foresight, qui ajoutent une prédiction d'état futur avant l'action, ont montré des gains sur les tâches de précision, mais leur fragilité face aux shifts de distribution restait peu adressée dans la littérature. Ce travail s'inscrit dans un courant croissant de Test-Time Training (TTT) appliqué à la robotique, distinct du fine-tuning classique en ce qu'il n'exige aucune supervision externe. Aucun partenariat industriel ni timeline de transfert technologique n'est mentionné : ce pré-print académique ne décrit pas de produit ou de déploiement commercialisé associé.

RechercheOpinion
1 source
Lâcher-puis-récupérer : quelle est la redondance des modèles vision-langage-action (VLA) ?
2arXiv cs.RO 

Lâcher-puis-récupérer : quelle est la redondance des modèles vision-langage-action (VLA) ?

Une équipe de chercheurs a publié fin juin 2026 une étude (arXiv:2606.27755) examinant la redondance architecturale des modèles Vision-Language-Action (VLA), ces modèles de contrôle robotique qui combinent un backbone de langage préentraîné avec des modules vision et action. Le protocole, baptisé Drop-Then-Recovery (DTR), consiste à supprimer des blocs transformer sélectionnés d'un VLA préentraîné, puis à le fine-tuner pour mesurer si la capacité retirée était réellement nécessaire au contrôle en boucle fermée. Pour prioriser quels blocs supprimer, les auteurs introduisent GateProbe, une métrique de sensibilité en un seul passage (one-shot) qui classe les blocs selon leur contribution à la perte d'action en aval. Les expériences couvrent plusieurs architectures VLA, des benchmarks de manipulation standard (dont LIBERO) et des scénarios industriels sur robot réel. Résultat chiffré marquant : supprimer la moitié des blocs LLM d'OpenVLA-OFT fait passer le score LIBERO de 95,0 % à 98,3 %, et ne conserver que deux blocs de langage suffit à retrouver les performances de référence. Ce résultat remet en question un postulat implicite du domaine : que la profondeur des backbones de langage hérités des grands modèles (LLM) est nécessaire à la compréhension d'instructions robotiques. Les instructions typiques en manipulation sont courtes et peu compositionnelles ; le surcapacité linguistique ne sert pas le contrôle et peut même nuire via du bruit de gradient ou une compétition de capacité. En revanche, les voies vision et action se révèlent nettement moins tolérantes à la suppression, ce qui oriente clairement les priorités d'allocation pour les futures architectures VLA. Pour les intégrateurs industriels, cela ouvre la voie à des modèles plus légers, moins coûteux à inférer et à fine-tuner, sans dégradation de performance sur les tâches réelles. Les VLA ont émergé comme paradigme dominant du contrôle robotique généraliste depuis les travaux fondateurs sur RT-2 (Google DeepMind, 2023) et OpenVLA (Berkeley, 2024), qui ont montré qu'un backbone VLM préentraîné pouvait être réutilisé pour la manipulation. OpenVLA-OFT, utilisé comme modèle de référence dans cette étude, est une variante fine-tunable publiée par l'Université de Stanford. Parmi les concurrents directs sur ce terrain architectural : Physical Intelligence avec pi0 (basé sur un flow matching), qui a déjà opté pour une architecture plus légère côté langage, et les travaux de pruning de transformers en NLP (SparseGPT, Sheared LLaMA) dont DTR s'inspire méthodologiquement. Le code est disponible sur GitHub (s1ghhh/VLADrop). Les prochaines étapes logiques seraient de tester DTR sur des modèles plus récents (GR00T N2 de NVIDIA, Helix de Figure) et sur des tâches à instructions longues ou hiérarchiques, où la profondeur linguistique pourrait enfin devenir un facteur limitant.

RechercheOpinion
1 source
Embodied3DBench : évaluation de l'intelligence spatiale incarnée à bas niveau des modèles vision-langage
3arXiv cs.RO 

Embodied3DBench : évaluation de l'intelligence spatiale incarnée à bas niveau des modèles vision-langage

Une équipe de chercheurs a publié le 29 mai 2026 Embodied3DBench, un benchmark conçu pour évaluer les capacités de perception spatiale bas niveau des modèles de vision-langage (VLMs) dans des environnements 3D incarnés. Le benchmark couvre 6 catégories de tâches réparties en deux groupes : la compréhension structurelle spatiale (ancrage d'objets, prédiction de relations spatiales, correspondance multi-vues) et la perception orientée interaction (prédiction d'affordances, prédiction de points de saisie, prédiction de trajectoires). Il totalise 12 sous-catégories et plus de 21 000 paires questions-réponses annotées. Treize modèles de pointe ont été évalués sur ce corpus. En parallèle, les auteurs ont synthétisé un dataset d'entraînement à grande échelle de 1,3 million de paires QA pour tenter de combler les lacunes identifiées. Les résultats révèlent une dissociation nette dans les capacités des VLMs actuels : ces modèles affichent des performances raisonnables sur le raisonnement spatial de haut niveau, notamment les relations de position entre objets, mais restent très fragiles dès qu'il s'agit de perception orientée interaction, c'est-à-dire prédire où saisir un objet, anticiper une trajectoire de manipulation, ou estimer l'affordance d'une surface. Pour les équipes qui développent des modèles vision-langage-action (VLA) destinés à la manipulation robotique, ce résultat est structurant : il indique que les fondations perceptuelles nécessaires au déploiement réel restent insuffisantes dans les architectures actuelles, y compris les plus récentes. Le fine-tuning sur le dataset de 1,3M paires améliore significativement les scores bas niveau, ce qui suggère que le problème est en partie un déficit de données d'entraînement ciblées plutôt qu'une limite architecturale fondamentale. Ce travail s'inscrit dans un effort plus large de la communauté robotique pour doter les VLMs de capacités d'interaction physique, au-delà de la simple description de scènes. Des systèmes comme Pi-0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA) reposent sur ces mêmes briques perceptuelles pour passer de la compréhension sémantique à l'action motrice. Jusqu'ici, l'évaluation de ces capacités bas niveau manquait d'un cadre standardisé : la plupart des benchmarks existants (ScanQA, EmbodiedScan) ciblent la compréhension de scènes plutôt que la manipulation. Embodied3DBench comble ce vide méthodologique en proposant à la fois un protocole d'évaluation reproductible et un levier de progression via son dataset synthétique. L'article est disponible en preprint (arXiv:2605.29074) et le code devrait être rendu public prochainement.

RechercheActu
1 source
AERMANI-VLM : prompting structuré et raisonnement pour la manipulation aérienne avec des modèles vision-langage
4arXiv cs.RO 

AERMANI-VLM : prompting structuré et raisonnement pour la manipulation aérienne avec des modèles vision-langage

AERMANI-VLM est un cadre logiciel publié sur arXiv (arXiv:2511.01472v2) conçu pour piloter des manipulateurs aériens (drones équipés de bras robotiques) à partir de commandes en langage naturel, sans réentraînement spécifique à la tâche. Le système décompose le problème en deux couches : un modèle de vision-langage (VLM) pré-entraîné génère un raisonnement pas-à-pas en réponse à des instructions textuelles enrichies de contraintes de sécurité, puis sélectionne parmi une bibliothèque prédéfinie de primitives de vol pour exécuter physiquement l'action. Les auteurs revendiquent une première mondiale dans l'adaptation de VLMs généralistes à la manipulation aérienne sans fine-tuning. Le cadre a été validé en simulation et sur matériel réel sur des tâches pick-and-place multi-étapes, avec généralisation à des objets, commandes et environnements non vus à l'entraînement. Aucun taux de succès chiffré n'est communiqué dans la publication. L'enjeu central qu'AERMANI-VLM cherche à résoudre est le problème des hallucinations dans les systèmes de contrôle robotique basés sur des VLM. Un drone en vol ne tolère pas des commandes incohérentes ou dynamiquement infaisables : une sortie erronée du modèle peut provoquer une chute. En séparant explicitement le raisonnement symbolique du contrôle physique, et en contraignant les sorties à une bibliothèque de primitives flight-safe, les chercheurs contournent ce risque sans modifier les poids du modèle fondation. C'est une alternative architecturale aux approches de fine-tuning type Pi-0 (Physical Intelligence) ou GR00T N2 de NVIDIA, plus légère à déployer mais dont l'extensibilité dépend entièrement de la qualité et de l'exhaustivité de la bibliothèque de compétences. La généralisation annoncée reste à confirmer au-delà du pick-and-place, l'une des tâches les plus simples en manipulation robotique. La manipulation aérienne reste un domaine de recherche confidentiel, distinct des humanoïdes terrestres ou des bras industriels à grande série, mais porteur d'applications en inspection d'infrastructures, logistique en hauteur et défense. AERMANI-VLM s'inscrit dans la tendance des architectures dites "skill library + LLM planner", popularisées par SayCan (Google DeepMind, 2022) et déclinées depuis dans de nombreux contextes robotiques. L'avantage du zero-shot sans collecte de données de démonstration est réel, mais l'approche suppose une bibliothèque de primitives couvrant l'ensemble des comportements attendus, une contrainte de conception souvent sous-estimée en conditions réelles. Les prochaines étapes attendues pour ce type de système incluent des validations en extérieur, des tâches de manipulation plus complexes et la publication de métriques quantitatives sur des benchmarks standardisés.

RechercheActu
1 source