Aller au contenu principal
RecherchearXiv cs.RO30min

Trinity : segmentation unifiée de terrain et sémantique en milieux extérieurs non structurés via données synthétiques

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont soumis sur arXiv (arXiv:2605.27644v1) Trinity, une architecture transformer qui effectue simultanément deux tâches de segmentation visuelle pour robots mobiles en extérieur non structuré : la segmentation sémantique classique par classes prédéfinies, et une segmentation de terrain dite "class-agnostic", fondée uniquement sur l'apparence visuelle, sans étiquettes sémantiques ni scores de franchissabilité liés à un robot particulier. Pour entraîner ce réseau à grande échelle, les auteurs ont étendu le simulateur OAISYS et créé RUGDSynth, un dataset synthétique inspiré du benchmark RUGD avec des échantillons de terrain sans annotation de classe. Ils publient également EXTerra, un dataset réel annoté avec les deux types de labels. Les expériences confirment la faisabilité de l'approche en conditions extérieures complexes. Le code et les datasets seront disponibles après la revue par les pairs.

Le problème que Trinity cible est la portabilité des systèmes de franchissabilité (traversability estimation). Les méthodes actuelles requièrent des annotations spécifiques au robot ou des mappings de classes liés à ses capacités mécaniques : dès que le robot change de charge utile, de cinématique ou de mode de locomotion, toute l'annotation est à refaire, un coût élevé pour les intégrateurs. En apprenant des priors visuels de terrain indépendants du robot, Trinity vise un module de perception réutilisable entre plateformes, applicable à la planification de mission, à l'odométrie visuelle ou à la classification de zones franchissables, sans réentraînement complet à chaque nouveau déploiement.

La traversabilité en extérieur est un défi structurant de la robotique mobile depuis plus d'une décennie : des plateformes comme ANYmal (ANYbotics) ou Spot (Boston Dynamics) se heurtent en permanence à la variabilité des terrains naturels. RUGD, qui a inspiré RUGDSynth, est un benchmark académique sur la navigation tout-terrain largement utilisé dans la communauté. Le recours à des données synthétiques pour pallier le manque d'annotations réelles suit une tendance forte dans le domaine, avec des limites bien documentées sur le domain gap sim-to-real. Ce pré-print étant encore en cours de revue, les résultats présentés restent à confirmer par la communauté scientifique.

À lire aussi

GA3T : jeu de données de traversabilité pour équipes de robots sol-aériens hétérogènes en milieux non structurés
1arXiv cs.RO 

GA3T : jeu de données de traversabilité pour équipes de robots sol-aériens hétérogènes en milieux non structurés

Une équipe de chercheurs a publié GA3T (Ground-Aerial Team for Terrain Traversal), un jeu de données de perception collaborative multi-robots ciblant les environnements non structurés, déposé sur arXiv en mai 2026. La collecte a mobilisé deux plateformes complémentaires : un robot terrestre Clearpath Husky (UGV) équipé de LiDAR 3D, caméra stéréo, IMU et GPS, et un drone Autel EVO II fournissant images RGB, observations thermiques/infrarouges et GPS depuis un point de vue aérien surplombant. Quatre environnements distincts ont été couverts -- sentiers forestiers, chemins rocheux, terrains boueux, congères et prairies -- pour un total de plus de 13 000 frames synchronisées sur environ 29 minutes d'opération. Le jeu de données intègre une segmentation zero-shot basée sur SAM 3 (Segment Anything Model v3, Meta) et plus de 8 000 images labellisées manuellement. Sa particularité tient à la période de collecte, en début de printemps : la canopée encore peu dense permet au drone d'observer partiellement le robot terrestre à travers les arbres, enrichissant la perception collaborative d'une dimension explicite de gestion des occlusions. GA3T comble un vide documenté dans la recherche sur la perception multi-robots en conditions réelles hors route. La quasi-totalité des datasets multi-robots existants se concentre sur le SLAM en environnements structurés ou sur la conduite coopérative simulée, sans fournir de capteurs multi-modaux chevauchants entre plateformes sol et air. La combinaison LiDAR terrestre et infrarouge aérien ouvre des pistes directes pour l'estimation de traversabilité -- problème central pour les déploiements autonomes en agriculture de précision, foresterie ou gestion de crise -- où les modèles doivent distinguer sol franchissable, boue instable et végétation dense sans balisage préalable. C'est précisément ce gap sim-to-real sur terrain non balisé que ce type de dataset vise à réduire, en fournissant des données brutes issues de conditions météo et de sol réelles. Clearpath Robotics, filiale de Rockwell Automation depuis 2023 et fournisseur de référence pour les UGV de recherche universitaire, est associé ici à l'Autel EVO II, drone commercial grand public repositionné en plateforme de collecte scientifique. Aucun acteur européen n'est impliqué dans cette publication. Sur le plan concurrentiel, GA3T se positionne face à des datasets établis comme RUGD, RELLIS ou le corpus DARPA SubT, mais avec l'angle inédit de la fusion cross-view air-sol sur terrain naturel non aménagé. Les auteurs ciblent explicitement comme applications prioritaires la fusion de points de vue hétérogènes, l'estimation de traversabilité et la compréhension de scènes collaboratives -- tâches directement pertinentes pour l'entraînement de modèles VLA (Vision-Language-Action) appliqués à la navigation hors route, un axe de recherche en forte accélération depuis 2024 dans plusieurs laboratoires américains et asiatiques.

RecherchePaper
1 source
Apprentissage de politiques robotiques structurées à partir de modèles vision-langage par supervision neuro-symbolique synthétique
2arXiv cs.RO 

Apprentissage de politiques robotiques structurées à partir de modèles vision-langage par supervision neuro-symbolique synthétique

Une équipe de recherche publie sur arXiv (référence 2604.02812) une approche neuro-symbolique permettant à un modèle de langage vision (VLM) de générer automatiquement des politiques robotiques exécutables sous forme d'arbres de comportement (Behavior Trees, BTs), à partir d'observations visuelles, d'instructions en langage naturel et de spécifications système structurées. La contribution centrale est un pipeline entièrement automatisé qui produit un jeu de données synthétique multimodal : des scènes à randomisation de domaine sont générées procéduralement, chacune associée à des exemples instruction-politique produits par un modèle fondamental. Un modèle de 12 milliards de paramètres est ensuite entraîné exclusivement sur ces données synthétiques, sans annotation humaine. Les expériences physiques, conduites sur deux manipulateurs robotiques hétérogènes, confirment un transfert zéro-shot vers des environnements réels. L'enjeu industriel est direct : la grande majorité des politiques visuomotrices actuelles reposent sur des architectures end-to-end opaques, difficilement auditables ou certifiables pour un déploiement en production. En produisant des BTs, cette méthode offre interprétabilité, modularité et exécution réactive, trois propriétés que les intégrateurs industriels exigent mais que les approches VLA classiques (Pi-0, GR00T N2, OpenVLA) ne garantissent pas nativement. Le fait que le transfert sim-to-real soit obtenu sans aucune donnée réelle lors de l'entraînement contredit l'hypothèse persistante selon laquelle le gap simulation-réalité rendrait ce type d'approche impraticable pour la manipulation. C'est sur ce point que les résultats méritent attention, même si les auteurs ne détaillent pas la complexité des scènes testées ni les métriques de robustesse sur longues séquences. Les Behavior Trees sont un standard hérité du jeu vidéo et de la robotique classique, adoptés notamment dans ROS 2 via BehaviorTree.CPP, précisément pour leur lisibilité et leur capacité de reprise sur erreur. La tension entre contrôle symbolique et apprentissage end-to-end est au coeur des débats actuels, avec des acteurs comme 1X, Physical Intelligence ou Boston Dynamics cherchant des compromis différents. Cette recherche positionne les VLMs non plus comme générateurs de mouvements bruts, mais comme compilateurs de plans structurés, une distinction architecturale qui pourrait orienter les prochains cycles de développement vers des systèmes hybrides plus auditables. La prochaine étape naturelle serait de valider l'approche sur des manipulateurs commerciaux dans des environnements non contrôlés et sur des horizons de tâches plus longs.

RechercheOpinion
1 source
De zéro à l'autonomie en temps réel : adaptation en ligne de la dynamique dans des environnements non structurés
3arXiv cs.RO 

De zéro à l'autonomie en temps réel : adaptation en ligne de la dynamique dans des environnements non structurés

Une équipe de chercheurs propose, dans un préprint arXiv (réf. 2509.12516 v2, septembre 2025), une méthode d'adaptation en ligne des dynamiques robotiques capable de passer de zéro connaissance préalable à un contrôle sûr en quelques secondes. L'algorithme combine des encodeurs de fonctions ("function encoders") avec les moindres carrés récursifs (RLS) : les coefficients de l'encodeur sont traités comme des états latents mis à jour en continu depuis l'odométrie du robot en streaming. L'estimation s'effectue en temps constant, sans boucle interne à base de gradients, ce qui la distingue structurellement des approches de méta-apprentissage. Les expériences portent sur trois configurations : un système de Van der Pol pour valider le comportement algorithmique, un simulateur Unity pour la navigation tout-terrain haute fidélité, et un robot Clearpath Jackal en conditions réelles, notamment sur la glace d'une patinoire locale. Dans toutes ces configurations, la méthode réduit le nombre de collisions par rapport aux baselines statiques et de méta-apprentissage. L'enjeu opérationnel est direct : les transitions abruptes de terrain, comme du bitume vers de la glace ou du gravier vers de la boue, déstabilisent les planificateurs de trajectoire si le modèle dynamique ne se met pas à jour assez vite. Là où des approches comme MAML nécessitent de nombreux pas de gradient pour converger vers un nouveau régime dynamique, ce système extrait une représentation exploitable à partir de quelques secondes de données odométriques. La validation sur glace physique, environnement à très faible coefficient de frottement, renforce la crédibilité de la démonstration au-delà du seul simulateur et constitue un argument sérieux contre le "dynamics gap" souvent reproché aux méthodes d'adaptation sim-to-real. Cette recherche s'inscrit dans un courant actif autour de l'adaptation rapide pour robots mobiles, en concurrence directe avec RMA (Rapid Motor Adaptation, ETH Zürich) pour les quadrupèdes et les travaux de Berkeley sur l'adaptation contextuelle via réseaux d'encodage. Le Clearpath Jackal, plateforme différentielle de référence dans la recherche académique, facilite la reproductibilité des résultats. L'article ne mentionne aucun déploiement industriel ni partenariat commercial, mais la complexité temporelle constante de l'algorithme le rend compatible avec des contraintes embarquées réelles. La prochaine étape logique serait une validation sur flottes AMR en environnement logistique ou sur des quadrupèdes exposés à des changements de surface similaires.

RecherchePaper
1 source
Exploration multi-étages pour robots terrestres via un graphe atteignable incrémental et des priors structurels
4arXiv cs.RO 

Exploration multi-étages pour robots terrestres via un graphe atteignable incrémental et des priors structurels

Des chercheurs ont publié sur arXiv (réf. 2605.23350) un framework d'exploration autonome multi-étages pour robots terrestres, baptisé "incremental reachable graph". Le problème adressé est concret : les cartes 2D et 2.5D classiques, qui constituent la base de la quasi-totalité des systèmes SLAM embarqués aujourd'hui, sont incapables de représenter des surfaces traversables superposées comme les escaliers, les rampes ou les paliers intermédiaires. La méthode propose de construire un graphe clairsemé sur les surfaces d'appui atteignables, avec des éléments "tentatives" permettant de maintenir une connectivité plausible même en conditions d'observation sparse. Pour franchir un étage inexploré, le système projette des "task-zone priors" depuis le niveau déjà cartographié afin d'initialiser un graphe hypothétique sur l'étage cible, puis le réconcilie progressivement avec les observations réelles. Un planificateur hiérarchique raisonne ensuite conjointement sur les structures confirmées et hypothétiques pour guider l'exploration globale. Les expériences rapportées combinent simulation et validation embarquée en conditions réelles, avec des gains mesurés en efficacité d'exploration et en complétude de cartographie face aux baselines évaluées. L'enjeu industriel est direct pour les intégrateurs d'AMR (Autonomous Mobile Robots) opérant dans des environnements multi-niveaux : entrepôts à mezzanines, hôpitaux, usines avec niveaux de production distincts. La majorité des flottes commerciales actuelles, y compris celles de MiR, Locus Robotics ou Exotec, restent confinées à un seul niveau ou nécessitent une cartographie manuelle de chaque étage. Un système capable d'auto-explorer et de transférer des connaissances topologiques entre niveaux réduirait significativement le coût de déploiement initial. La contribution théorique clé est la notion de graphe hypothétique initialisé par prior structurel, qui évite le problème classique de l'exploration "à l'aveugle" d'un étage inconnu. Cette problématique de navigation multi-étages est étudiée depuis une dizaine d'années, notamment via les cartes d'élévation 2.5D et les volumes OctoMap 3D, mais ces approches peinent à produire des frontières d'exploration exploitables dans des environnements cloisonnés. Le preprint ne mentionne pas d'affiliation institutionnelle explicite dans l'abstract disponible, ni de plateforme robotique précise utilisée pour les tests réels. Il s'agit à ce stade d'un résultat de recherche, pas d'un système commercialisé ou en pilote industriel. La prochaine étape naturelle serait une validation à plus grande échelle sur des plateformes comme Spot (Boston Dynamics) ou des robots à roues avec capacité de franchissement d'escaliers, un segment encore émergent sur lequel des acteurs comme ANYbotics ou Ascento positionnent leurs offres.

UEImpact indirect : la problématique adressée concerne des opérateurs AMR comme Exotec dont les flottes restent aujourd'hui confinées à un seul niveau, mais le travail reste un preprint sans affiliation ou partenariat européen identifié.

RecherchePaper
1 source