Aller au contenu principal
GA3T : jeu de données de traversabilité pour équipes de robots sol-aériens hétérogènes en milieux non structurés
RecherchearXiv cs.RO7sem

GA3T : jeu de données de traversabilité pour équipes de robots sol-aériens hétérogènes en milieux non structurés

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de chercheurs a publié GA3T (Ground-Aerial Team for Terrain Traversal), un jeu de données de perception collaborative multi-robots ciblant les environnements non structurés, déposé sur arXiv en mai 2026. La collecte a mobilisé deux plateformes complémentaires : un robot terrestre Clearpath Husky (UGV) équipé de LiDAR 3D, caméra stéréo, IMU et GPS, et un drone Autel EVO II fournissant images RGB, observations thermiques/infrarouges et GPS depuis un point de vue aérien surplombant. Quatre environnements distincts ont été couverts -- sentiers forestiers, chemins rocheux, terrains boueux, congères et prairies -- pour un total de plus de 13 000 frames synchronisées sur environ 29 minutes d'opération. Le jeu de données intègre une segmentation zero-shot basée sur SAM 3 (Segment Anything Model v3, Meta) et plus de 8 000 images labellisées manuellement. Sa particularité tient à la période de collecte, en début de printemps : la canopée encore peu dense permet au drone d'observer partiellement le robot terrestre à travers les arbres, enrichissant la perception collaborative d'une dimension explicite de gestion des occlusions.

GA3T comble un vide documenté dans la recherche sur la perception multi-robots en conditions réelles hors route. La quasi-totalité des datasets multi-robots existants se concentre sur le SLAM en environnements structurés ou sur la conduite coopérative simulée, sans fournir de capteurs multi-modaux chevauchants entre plateformes sol et air. La combinaison LiDAR terrestre et infrarouge aérien ouvre des pistes directes pour l'estimation de traversabilité -- problème central pour les déploiements autonomes en agriculture de précision, foresterie ou gestion de crise -- où les modèles doivent distinguer sol franchissable, boue instable et végétation dense sans balisage préalable. C'est précisément ce gap sim-to-real sur terrain non balisé que ce type de dataset vise à réduire, en fournissant des données brutes issues de conditions météo et de sol réelles.

Clearpath Robotics, filiale de Rockwell Automation depuis 2023 et fournisseur de référence pour les UGV de recherche universitaire, est associé ici à l'Autel EVO II, drone commercial grand public repositionné en plateforme de collecte scientifique. Aucun acteur européen n'est impliqué dans cette publication. Sur le plan concurrentiel, GA3T se positionne face à des datasets établis comme RUGD, RELLIS ou le corpus DARPA SubT, mais avec l'angle inédit de la fusion cross-view air-sol sur terrain naturel non aménagé. Les auteurs ciblent explicitement comme applications prioritaires la fusion de points de vue hétérogènes, l'estimation de traversabilité et la compréhension de scènes collaboratives -- tâches directement pertinentes pour l'entraînement de modèles VLA (Vision-Language-Action) appliqués à la navigation hors route, un axe de recherche en forte accélération depuis 2024 dans plusieurs laboratoires américains et asiatiques.

Dans nos dossiers

À lire aussi

Des modèles de vision fondation adaptés à l'estimation fiable de la traversabilité en environnements extérieurs non structurés
1arXiv cs.RO 

Des modèles de vision fondation adaptés à l'estimation fiable de la traversabilité en environnements extérieurs non structurés

Une équipe de chercheurs propose ViTA (Vision-to-Traversability Adaptation), un framework publié sur arXiv (2605.29565) qui adapte les modèles de vision généralistes, en l'occurrence SAM2, le modèle de segmentation de Meta, à l'estimation de traversabilité en environnements extérieurs non structurés. L'objectif : déterminer, depuis une image RGB seule, quelles zones de terrain un robot mobile peut franchir en toute sécurité. ViTA introduit trois mécanismes distincts : des prompts de traversabilité appris (learnable traversability prompts) injectés dans SAM2 sans détruire sa capacité de généralisation ; un protocole d'entraînement "Perspective-Diversified Training" qui modélise l'incertitude sémantique pour éviter les prédictions trop confiantes aux frontières ambiguës ; et une distillation de connaissance géométrique à l'entraînement, permettant au modèle de raisonner sur la pente et l'élévation du terrain à l'inférence sans capteur de profondeur. La sortie finale est un score de traversabilité continu fusionnant incertitude sémantique et risque géométrique. Les évaluations sur plusieurs datasets hors-route réels montrent des résultats état de l'art en IoU et Précision, avec une réduction significative des faux positifs. L'enjeu pratique est considérable pour les intégrateurs de robots mobiles outdoor, véhicules agricoles autonomes, robots de livraison en terrain mixte, drones terrestres militaires ou de secours. Le taux de faux positifs est le talon d'Achille des approches actuelles : une zone identifiée à tort comme franchissable peut provoquer un basculement ou un enlisement. ViTA attaque ce problème à trois niveaux simultanément, ce qui le distingue des adaptations classiques par fine-tuning de segmentation sémantique. La capacité de généralisation cross-domain est également notable : un modèle entraîné sur un type de terrain (forêt, gravière, prairie) qui tient sur d'autres environnements sans ré-entraînement réduit drastiquement les coûts de déploiement. Il faut cependant souligner qu'il s'agit d'un preprint sans évaluation par les pairs, et que les benchmarks off-road restent hétérogènes, la comparaison directe entre systèmes n'est pas toujours possible. L'estimation de traversabilité visuelle est un problème central depuis les débuts de la robotique outdoor, initialement traité par des approches géométriques (LIDAR, stéréo), puis hybrides, et de plus en plus par des VFMs (Vision Foundation Models) depuis 2022. SAM2, publié par Meta en 2024, est devenu une base populaire d'adaptation grâce à sa robustesse et sa polyvalence. En parallèle, des frameworks comme DINOv2 (Meta) ou OpenCLIP sont aussi exploités pour la traversabilité. Sur ce segment, ViTA se positionne face à des travaux récents comme WayFASTER ou TerrainNet (NVIDIA). Aucun acteur français ou européen n'est mentionné dans ce preprint. Les prochaines étapes attendues pour ce type de travail incluent une validation sur des plateformes embarquées contraintes (edge computing) et une intégration dans des stacks ROS2 pour des tests terrain en conditions réelles.

RecherchePaper
1 source
Co-GLANCE : perception active sous incertitude pour équipes de robots hétérogènes
2arXiv cs.RO 

Co-GLANCE : perception active sous incertitude pour équipes de robots hétérogènes

Des chercheurs ont publié Co-GLANCE (arXiv:2606.09919), un système embarqué de perception active et de prise de décision pour équipes robotiques hétérogènes opérant en extérieur non structuré. Le problème central adressé est l'incertitude perceptuelle liée aux occlusions : selon la position d'un robot, certaines zones de la scène restent invisibles ou ambiguës, et aucun agent isolé ne dispose d'un point de vue suffisant pour une compréhension fiable. Co-GLANCE distille les capacités de raisonnement sémantique d'un vision-language model (VLM) dans un modèle embarqué end-to-end qui réalise simultanément la segmentation des occlusions et l'allocation des robots les plus adaptés pour résoudre ces zones d'incertitude. Pour quantifier cette incertitude de façon statistiquement garantie, le système combine la prédiction conforme (conformal prediction) et l'abstention sélective sur les sorties de segmentation, d'allocation et de détection. Comparé aux baselines VLM cloud, Co-GLANCE améliore la précision de segmentation des occlusions de 25% et l'allocation robotique de 36%, tout en réduisant la latence d'inférence par image d'un facteur 350. Un dataset air-sol est également publié en open source. Ce résultat est significatif pour les intégrateurs et les décideurs industriels déployant des flottes multi-robots sur des chantiers, des sites miniers ou des opérations de surveillance. L'élimination de la dépendance au cloud pour l'inférence VLM lève un verrou majeur : latence, connectivité intermittente et coûts d'API. Le gain de 350x en latence n'est pas un chiffre de laboratoire anecdotique, il rend la perception active temps-réel praticable sur du matériel embarqué contraint. La combinaison conformal prediction + abstention sélective apporte des garanties de couverture statistique, ce qui est rare dans les systèmes robotiques terrain : les incertitudes sont exploitables (elles déclenchent des actions), pas seulement affichées. Les travaux sur la coordination multi-robots hétérogènes air-sol s'inscrivent dans un champ actif depuis plusieurs années, avec des groupes comme MIT CSAIL, Stanford, ETH Zurich et CMU comme références principales. La tendance forte est le passage des VLM cloud-only vers des modèles distillés edge-capable, que l'on retrouve aussi dans des travaux comme OpenVLA ou octo. Co-GLANCE se positionne spécifiquement sur l'allocation robotique sous incertitude, un angle moins couvert que la simple navigation ou manipulation. Les prochaines étapes probables incluent des validations sur des flottes plus larges et des environnements dégradés (nuit, pluie), ainsi que l'intégration dans des stacks ROS2 existants. Le code et le dataset sont disponibles sur co-glance.github.io.

RecherchePaper
1 source
Voler ensemble : contrôle partagé immersif à guidage humain pour équipes de robots aériens en milieu inconnu
3arXiv cs.RO 

Voler ensemble : contrôle partagé immersif à guidage humain pour équipes de robots aériens en milieu inconnu

Des chercheurs ont présenté dans un preprint arXiv (2605.21680) un cadre de contrôle partagé en réalité virtuelle pour équipes de drones évoluant en environnements inconnus et contraints. Le système repose sur un planificateur à primitives de mouvement guidé par l'opérateur, qui calcule en temps réel des trajectoires continues sans collision tout en intégrant les inputs humains. Un contrôleur d'admittance permet à l'opérateur d'influer sur le comportement de la flotte sans prendre le contrôle direct de chaque appareil : il positionne des "points de migration" via un casque VR, et les drones les atteignent de manière coordonnée. L'interface est bilatérale, l'opérateur recevant un retour visuel immédiat de l'état de l'équipe. Le système a été validé en configuration mixte, combinant drones physiques et drones simulés dans le même environnement de réalité étendue. Les résultats expérimentaux montrent une meilleure évitement des obstacles, un espacement inter-agents maintenu, et une réduction de la charge cognitive opérateur. Ce travail s'attaque à une limite bien connue des systèmes multi-robots autonomes : leur rigidité face à des situations non prévues dans l'environnement opérationnel. Là où un planificateur purement autonome peut rater une zone d'intérêt ou bloquer sur une ambiguïté sémantique, le "human-in-the-loop" permet de ré-orienter l'exploration sans reprendre le contrôle à bas niveau. Le contrôleur d'admittance est la pièce centrale : il absorbe les intentions de l'opérateur comme une compliance mécanique, évitant les commandes brusques tout en préservant la cohérence de la flotte. Pour les intégrateurs industriels ou les opérateurs de drones en inspection d'infrastructures, c'est une architecture qui réduit le nombre d'opérateurs requis tout en maintenant une supervision humaine significative. Le contrôle partagé homme-robot est un champ de recherche actif depuis une décennie, mais son application aux flottes de drones en VR reste émergente. Les approches concurrentes vont des interfaces haptiques monorobot aux systèmes d'autonomie à niveaux (SAE-like pour l'aérien) développés par des équipes comme celle de GRASP Lab (UPenn) ou ETH Zurich. Ce preprint n'annonce pas de déploiement commercial ni de partenariat industriel identifié : il s'agit d'une démonstration de faisabilité académique. Les prochaines étapes logiques seraient une validation à plus grande échelle de flotte (l'article ne précise pas le nombre exact de drones testés) et des scénarios opérationnels réels, notamment search-and-rescue ou inspection de bâtiments.

RecherchePaper
1 source
Au-dessus et en dessous : SLAM multi-robots hétérogène pour domaines de surface et sous-marins
4arXiv cs.RO 

Au-dessus et en dessous : SLAM multi-robots hétérogène pour domaines de surface et sous-marins

Une équipe de chercheurs a publié sur arXiv (référence 2605.09811) un système de cartographie et localisation simultanées multi-robots (SLAM) capable de fusionner les données d'un véhicule de surface autonome (USV) et de plusieurs véhicules sous-marins autonomes (AUV) en une seule carte cohérente. Là où les approches existantes recouraient au ping acoustique entre robots pour mesurer les distances, ce travail exploite une observation géométrique : certaines structures présentes dans les environnements maritimes sont visibles à la fois depuis la surface et depuis le fond, ce qui permet d'établir des fermetures de boucle visuelles inter-robots. Chaque robot effectue sa propre estimation d'état en autonomie, puis un nœud centralisé détecte ces correspondances croisées USV-AUV et fusionne l'ensemble des trajectoires dans un graphe de poses unique couvrant la totalité de la mission. Le système a été validé sur des données perceptuelles réelles dans trois environnements distincts, montrant une réduction des erreurs de localisation pour les AUVs par rapport au SLAM mono-robot sur les mêmes trajectoires. L'intérêt opérationnel est direct : le ping acoustique impose que les robots se trouvent à portée mutuelle simultanément, que le signal ne soit pas obstrué, et souvent que les horloges soient synchronisées, contraintes difficiles à tenir dans des environnements encombrés (quais, infrastructures offshore, épaves). En s'affranchissant de ces dépendances, cette approche ouvre la voie à des missions d'inspection sous-marine plus longues et plus autonomes, notamment pour le monitoring de pipelines, de fondations d'éoliennes offshore ou de structures portuaires, sans déployer d'infrastructure acoustique dédiée. Le papier constitue également une preuve de faisabilité que le sim-to-real gap dans la mise en correspondance de features visuels cross-domaines (surface vs sous-eau) est franchissable sur données réelles. Ce travail s'inscrit dans un corpus de recherche récent sur la fermeture de boucle inter-robots entre USVs et AUVs, dont il représente l'extension vers un système complet multi-robots centralisé. Dans le paysage de la robotique maritime, les acteurs industriels comme Saildrone (USV), Kongsberg ou Hydroid (AUV) s'appuient encore largement sur l'USBL acoustique pour le positionnement sous-marin relatif. Une approche purement visuelle et géométrique comme celle-ci, si elle passe à l'échelle, pourrait réduire significativement le coût et la complexité logistique des flottes hétérogènes. Les auteurs ne mentionnent pas de partenaire industriel ni de calendrier de déploiement : il s'agit pour l'instant d'une contribution académique, validée sur terrain, mais sans annonce de commercialisation.

UEPertinent pour les opérateurs européens d'éoliennes offshore et d'infrastructures portuaires (Mer du Nord, Baltique) qui dépendent aujourd'hui de l'USBL acoustique coûteux pour les inspections sous-marines autonomes.

RecherchePaper
1 source