Aller au contenu principal
ForEnt : un jeu de données multimodal pour caractériser le piégeage des robots quadrupèdes en milieu forestier
RecherchearXiv cs.RO2h

ForEnt : un jeu de données multimodal pour caractériser le piégeage des robots quadrupèdes en milieu forestier

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié ForEnt, un dataset multimodal destiné à caractériser les encastrements de robots quadrupèdes en milieu forestier. Collecté avec le Unitree Go2, un quadrupède d'entrée de gamme, sur huit sites du Southampton Common Woodlands au Royaume-Uni, le jeu de données couvre 1,7 km de traversées réparties en 11 séquences, au cours desquelles 69 événements d'encastrement ont été enregistrés. Un encastrement désigne une situation où les pattes du robot se retrouvent piégées dans des lianes, des racines ou d'autres végétaux, provoquant une perte de stabilité et un risque de chute. ForEnt combine des flux temporellement synchronisés : images RGB-D, nuages de points LiDAR, données proprioceptives et vidéo en vue tierce-personne. Chaque événement est labellisé, ce qui en fait un benchmark reproductible pour évaluer des stratégies de détection d'encastrement.

Les robots quadrupèdes sont de plus en plus déployés pour la surveillance écologique en forêt, mais leur autonomie est régulièrement interrompue par ces incidents mécaniques, qui nécessitent une intervention humaine et risquent d'endommager le matériel. L'absence d'un dataset dédié à ces modes de défaillance spécifiques freinait le développement d'algorithmes robustes. ForEnt comble ce manque : une base de données multimodale structurée permet désormais d'entraîner et d'évaluer des méthodes de détection in situ. Pour les chercheurs en navigation autonome, c'est une brique essentielle pour que des robots identifient proactivement les zones à risque et adaptent leur locomotion, condition nécessaire à des déploiements sans supervision prolongée dans des environnements non structurés.

Le Unitree Go2 est l'un des quadrupèdes les plus accessibles du marché (environ 2 700 dollars), ce qui explique son adoption croissante en recherche académique. La robotique forestière reste un segment de niche mais en expansion, porté par des besoins croissants en monitoring environnemental : inventaires d'espèces, suivi d'incendies, cartographie de biodiversité. Les plateformes plus robustes comme Boston Dynamics Spot ou ANYbotics ANYmal restent hors de portée budgétaire pour la plupart des équipes académiques, ce qui rend les travaux sur des systèmes low-cost d'autant plus stratégiques. Les suites naturelles de ForEnt incluent l'entraînement de modèles de détection en temps réel et leur intégration dans des politiques de locomotion adaptative.

Dans nos dossiers

À lire aussi

EgoWalk : un jeu de données multimodal pour la navigation robotique en conditions réelles
1arXiv cs.RO 

EgoWalk : un jeu de données multimodal pour la navigation robotique en conditions réelles

Une équipe de chercheurs a publié EgoWalk, un dataset multimodal de 50 heures de navigation humaine destiné à entraîner des algorithmes de navigation robotique en conditions réelles. Les données ont été collectées dans une grande variété d'environnements intérieurs et extérieurs, sur plusieurs saisons et sites géographiques différents. Le dataset comprend les données brutes ainsi qu'un format prêt pour l'apprentissage par imitation (Imitation Learning), accompagné de pipelines automatisés générant deux types de sous-datasets dérivés : des annotations d'objectifs en langage naturel et des masques de segmentation de traversabilité. L'ensemble des pipelines de traitement et la description de la plateforme matérielle utilisée pour la collecte sont publiés en open source. L'intérêt principal d'EgoWalk réside dans la rareté des datasets de navigation en conditions non contrôlées, à grande échelle et couvrant plusieurs saisons. La majorité des systèmes de navigation robotique actuels souffrent d'un écart sim-to-real persistant, faute de données réelles suffisamment diversifiées. En proposant simultanément des annotations langage naturel et des masques de traversabilité générés automatiquement, EgoWalk vise à réduire le coût de labellisation manuelle qui freine le développement de modèles vision-langage-action (VLA) pour la navigation outdoor. La publication open source des pipelines permet aux équipes de réplication de reconstruire des datasets similaires sur leur propre plateforme, ce qui est un signal positif pour la reproductibilité dans le domaine. La navigation autonome en environnements non structurés reste l'un des défis centraux de la robotique mobile, que ce soit pour les robots de livraison, les plateformes de surveillance ou les assistants mobiles. EgoWalk s'inscrit dans un mouvement plus large de constitution de datasets ego-centriques, aux côtés d'initiatives comme SCAND (UT Austin) ou des travaux de Boston Dynamics et de Google DeepMind sur la navigation en extérieur. Le fait que les données soient collectées du point de vue humain, plutôt que depuis un robot, soulève la question du transfert de domaine, que les auteurs reconnaissent implicitement en proposant des benchmarks et études de diversité. Les prochaines étapes naturelles seraient la validation sur des plateformes robotiques réelles et l'intégration dans des architectures de type foundation model pour la navigation.

RechercheActu
1 source
AssemLM : un modèle de langage multimodal pour le raisonnement spatial en assemblage robotique
2arXiv cs.RO 

AssemLM : un modèle de langage multimodal pour le raisonnement spatial en assemblage robotique

Des chercheurs ont publié AssemLM (arXiv:2604.08983), un modèle multimodal de raisonnement spatial pour la robotique d'assemblage. Le système fusionne trois sources (manuels d'assemblage, nuages de points 3D, instructions textuelles) pour prédire des poses 6D, c'est-à-dire la position et l'orientation complètes d'une pièce dans l'espace tridimensionnel. Un encodeur de nuages de points spécialisé extrait des caractéristiques géométriques et rotationnelles fines, transmises ensuite à un LLM multimodal pour le raisonnement spatial de haut niveau. Les auteurs publient également AssemBench, un benchmark de plus de 900 000 échantillons multimodaux avec annotations de poses 6D précises, étendant l'évaluation classique du grounding 2D à l'inférence géométrique 3D complète. Des tests sur robot réel valident des performances à l'état de l'art sur des tâches d'assemblage multi-étapes en conditions réelles. Le verrou ciblé est central en manipulation fine industrielle: les VLMs courants opèrent sur des images 2D et peinent à raisonner sur la géométrie précise qu'exigent le vissage, l'emboîtement ou l'alignement de composants au sous-millimètre. En intégrant les nuages de points comme modalité native, AssemLM raisonne sur l'orientation exacte d'une pièce, pas seulement sur sa présence dans le champ visuel. Pour un intégrateur ou une équipe R&D en automatisation industrielle, prédire des poses 6D depuis un manuel PDF et une capture 3D ouvre la voie à des cellules d'assemblage reconfigurables sans reprogrammation manuelle entre chaque référence produit. AssemBench, avec ses 900 000 échantillons annotés, comble par ailleurs un manque d'infrastructure de comparaison rigoureuse dans ce sous-domaine. Le raisonnement spatial est un défi persistant pour les modèles de vision-langage, majoritairement entraînés sur des tâches 2D (captioning, grounding d'objets, VQA). Les modèles VLA (Vision-Language-Action) récents, comme pi0 de Physical Intelligence, OpenVLA ou les travaux de Google DeepMind sur RoboVLMs, progressent sur la manipulation généraliste, mais l'assemblage industriel structuré avec ses contraintes de précision sub-millimétrique reste peu adressé par ces approches. AssemLM se positionne dans cette niche en ciblant explicitement les tâches avec documentation formalisée (manuels, nomenclatures). Les auteurs annoncent la mise à disposition publique du code, des modèles et du dataset AssemBench, point d'entrée potentiel pour la communauté académique et les industriels souhaitant affiner le modèle sur leurs propres composants. Aucun partenaire industriel ni déploiement commercial n'est mentionné: il s'agit à ce stade d'une publication de recherche, sans produit ni pilote planifié.

UELa publication en open-source d'AssemBench (900 000 échantillons annotés 6D) constitue une ressource d'entraînement et d'évaluation directement exploitable par les labos européens travaillant sur la manipulation industrielle précise, sans acteur FR/EU impliqué à ce stade.

RechercheOpinion
1 source
Apprentissage de politique par phases pour la conduite de skateboard par des robots quadrupèdes via modulation linéaire par caractéristiques
3arXiv cs.RO 

Apprentissage de politique par phases pour la conduite de skateboard par des robots quadrupèdes via modulation linéaire par caractéristiques

Des chercheurs ont publié sur arXiv (2602.09370v2) un cadre d'apprentissage par renforcement baptisé PAPL (Phase-Aware Policy Learning), conçu pour permettre à des robots quadrupèdes de se déplacer sur une planche de skateboard. Le défi central est la nature cyclique et multi-phasée de l'activité : pousser, glisser et freiner mobilisent des objectifs de contrôle distincts et des interactions fortement dépendantes de la perception. Pour y répondre, PAPL intègre des couches FiLM (Feature-wise Linear Modulation) conditionnées par phase dans les réseaux acteur et critique de l'agent, permettant à une politique unifiée de capturer les comportements propres à chaque phase tout en partageant la connaissance générale du robot entre elles. Les évaluations en simulation valident la précision du suivi de commande, des études d'ablation quantifient la contribution de chaque composant, et les auteurs comparent l'efficacité locomotrice à des baselines pattes seules et pattes-roues. Un transfert sim-to-real est également démontré sur plateforme physique, bien que l'abstract ne précise pas le modèle de robot utilisé ni les métriques de performance obtenues. L'intérêt principal de cette approche tient à sa capacité à gérer des comportements multi-modaux au sein d'une politique unique, sans multiplier les modules spécialisés par phase. Utiliser un skateboard comme vecteur de locomotion est économique en énergie et compact, ce qui ouvre des perspectives concrètes dans des environnements industriels ou logistiques où les robots doivent couvrir de longues distances sans recharger. La démonstration du transfert simulation-réel est l'élément le plus scruté par la communauté robotique : le sim-to-real gap reste l'obstacle central à la généralisation des politiques apprises par renforcement, et chaque validation hardware crédibilise un cadre. À noter toutefois que l'abstract ne fournit aucune métrique chiffrée précise (vitesse, taux de succès, distance), ce qui limite l'évaluation indépendante des performances avant lecture du papier complet. PAPL s'inscrit dans un courant de recherche plus large visant à doter les robots à pattes de modes de mobilité hybrides ou étendus. Les couches FiLM, initialement développées pour le raisonnement visuel conditionné en apprentissage automatique, trouvent ici une application originale dans le contrôle moteur cyclique. Sur le plan concurrentiel, les plateformes pattes-roues comme l'ANYmal WE d'ANYbotics ou les variantes hybrides de Unitree explorent une voie différente : l'intégration des roues y est mécanique, non comportementale. L'approche PAPL est donc structurellement distincte et potentiellement complémentaire à ces architectures. Ce travail reste à ce stade un preprint arXiv sans déploiement commercial annoncé ; les suites logiques seraient une validation sur plateforme standardisée et une soumission en conférence majeure comme ICRA ou IROS 2026.

RecherchePaper
1 source
TRANS : navigation agile de robots quadrupèdes par apprentissage par renforcement sensible au terrain en milieu social
4arXiv cs.RO 

TRANS : navigation agile de robots quadrupèdes par apprentissage par renforcement sensible au terrain en milieu social

Des chercheurs ont publié TRANS (Terrain-aware Reinforcement learning for Agile Navigation under Social interactions), un cadre d'apprentissage par renforcement profond destiné à la navigation de robots quadrupèdes sur des terrains non structurés en présence d'humains. Disponible sur arXiv (référence 2602.12724v3), la contribution se décompose en trois pipelines distincts : TRANS-Loco, un modèle acteur-critique asymétrique pour la locomotion sur terrain accidenté, sans observation explicite du contact ni du relief ; TRANS-Nav, un cadre acteur-critique symétrique pour la navigation sociale, qui transforme directement les données LiDAR brutes en commandes motrices sous cinématique différentielle ; et enfin le pipeline unifié TRANS, qui fusionne ces deux modules pour supporter simultanément la conscience du terrain et les environnements peuplés de piétons. Des expériences sur matériel physique confirment un transfert sim-to-real fonctionnel. La portée de ces travaux tient à leur approche intégrée. La grande majorité des systèmes de navigation quadrupède séparent encore la planification de mouvement du contrôle de locomotion, ce qui génère des violations de contraintes de corps entier et une ignorance du terrain. Les méthodes bout-en-bout corrigent cette fragmentation mais exigent un capteur haute fréquence, coûteux et sensible au bruit. Plus significatif encore, quasi toutes les approches publiées supposent un environnement statique, rendant leur déploiement en milieu industriel ou public très limité. TRANS adresse les trois lacunes simultanément, et la validation sur robot réel, point souvent défaillant dans la littérature robotique académique, renforce la crédibilité opérationnelle de la méthode. Ce travail s'inscrit dans un domaine très actif où Boston Dynamics (Spot), ANYbotics (ANYmal), Unitree et Ghost Robotics déploient des quadrupèdes commerciaux mais peinent à combiner locomotion complexe et navigation sociale adaptative dans un seul système cohérent. Les approches concurrentes basées sur des cartes de hauteur ou des contrôleurs hiérarchiques séparés restent largement dominantes en industrie. La prochaine étape crédible serait une validation en conditions industrielles réelles (entrepôt, chantier, aéroport) et une comparaison quantitative formelle contre ces plateformes sur des parcours standardisés, pour confirmer si les gains en simulation se maintiennent face aux non-linéarités du monde physique.

RecherchePaper
1 source