Système de navigation autonome pour robot de…

Système d'automatisation de titres modulaire pour la robotique en intérieur, basé sur un modèle vision-langage-action

39

1arXiv cs.RO

Système d'automatisation de titres modulaire pour la robotique en intérieur, basé sur un modèle vision-langage-action

Voici l'article en français : Une équipe de recherche présente un système modulaire conçu pour le CMU Vision-Language-Action (VLA) Challenge, une compétition universitaire visant à faire exécuter des instructions en langage naturel par un agent robotique autonome évoluant en intérieur. L'architecture repose sur deux pipelines parallèles. Le premier, dédié à la perception, construit en temps réel une carte voxel sémantique de l'environnement à partir de flux caméra, en s'appuyant sur des embeddings issus du modèle OwlViT. Le second traite le langage : il classifie les commandes utilisateur grâce à un modèle vision-langage (VLM). La cartographie est bornée dans le temps, avec une limite d'exploration fixée à 500 secondes, au-delà de laquelle le système continue d'opérer avec une carte partielle plutôt que d'attendre une couverture complète. La requête classifiée est ensuite ancrée dans le contexte géométrique et sémantique de cette carte pour générer un prompt détaillé soumis au VLM, produisant en sortie une action exploitable par le robot. L'intérêt de ce travail dépasse le cadre du concours : il illustre concrètement comment combler l'écart entre instruction en langage naturel et action robotique physique, un défi central pour toute la famille des modèles VLA actuellement en déploiement industriel, de Pi-0 à GR00T N2 en passant par Helix. En imposant une contrainte de temps stricte sur la cartographie, les auteurs mettent en lumière un problème rarement traité frontalement dans les démonstrations commerciales : la robustesse face à une perception incomplète, plus représentative des conditions réelles que des environnements soigneusement scannés en amont. Le CMU VLA Challenge s'inscrit dans une vague de benchmarks académiques cherchant à standardiser l'évaluation des architectures VLA modulaires, en concurrence avec les approches end-to-end privilégiées par les laboratoires industriels. Les prochaines étapes attendues concernent la publication des résultats comparatifs de la compétition et l'éventuelle extension de cette architecture voxel-plus-VLM à des plateformes robotiques réelles au-delà du cadre expérimental du challenge.

RecherchePaper

1 source

GuideWalk : apprentissage de la navigation autonome et de la locomotion unifiées pour robots humanoïdes sur terrains variés

33

2arXiv cs.RO

GuideWalk : apprentissage de la navigation autonome et de la locomotion unifiées pour robots humanoïdes sur terrains variés

Des chercheurs présentent GuideWalk (arXiv:2606.10449, juin 2026), un framework unifié qui couple navigation autonome et locomotion adaptative pour robots humanoïdes sur terrains variés. L'architecture repose sur trois composantes : un module de navigation qui génère des guidances de vitesse explicites en tenant compte de la traversabilité du terrain, un schéma de distillation à enseignants composites qui agrège commandes directionnelles et actions dynamiquement cohérentes dans une politique unique, puis un affinement par apprentissage par renforcement (RL) couplé à un objectif auxiliaire de clonage comportemental (behavior cloning). Ce dernier mécanisme vise à maintenir les comportements souhaitables issus des enseignants tout en favorisant l'exploration. L'article reste au stade de preprint arXiv sans déploiement industriel annoncé ni métriques benchmarkées publiées dans l'abstract. Le problème technique adressé est structurant pour la robotique humanoïde : l'évitement d'obstacles et la locomotion dynamique sont habituellement traités en silos, ce qui crée des incohérences lorsqu'un robot planifie sur escaliers, sol accidenté ou transitions sol dur/mou. GuideWalk découple explicitement la planification d'obstacles de l'état du terrain, ce qui est une approche architecturale plus propre que les solutions end-to-end brutes ou les pipelines hiérarchiques rigides. Pour les intégrateurs et décideurs B2B, le vrai enjeu est le sim-to-real gap sur locomotion hétérogène : si cette architecture tient ses promesses en évaluation externe, elle pourrait réduire le besoin d'ingénierie terrain-spécifique lors du déploiement en entrepôt ou en environnement industriel non structuré. La navigation humanoïde sur terrains complexes reste un des derniers verrous majeurs avant déploiement opérationnel large, là où la locomotion pure en terrain plat est désormais relativement résolue chez Unitree (H1, G1), Boston Dynamics (Atlas) ou Agility Robotics (Digit). Des approches concurrentes comme GR00T N2 de NVIDIA ou les travaux de Physical Intelligence (Pi-0) s'attaquent au même problème via des Visual Language Action models (VLA) généralisés, tandis que des labos académiques comme CMU ou Berkeley publient régulièrement sur le sim-to-real en locomotion adaptative. GuideWalk s'inscrit dans cette vague mais avec une contribution méthodologique spécifique sur le couplage navigation-locomotion. Les prochaines étapes naturelles seraient une évaluation sur hardware réel (le preprint ne précise pas le robot utilisé) et une comparaison quantitative avec des baselines établies.

RecherchePaper

1 source

SurveilNav : navigation collaborative vers des objets cibles avec robot et système de surveillance

37

3arXiv cs.RO

SurveilNav : navigation collaborative vers des objets cibles avec robot et système de surveillance

Une équipe de chercheurs propose SurveilNav, un système de navigation collaborative couplant un robot mobile à un réseau de caméras de surveillance fixes pour localiser des objets dans des espaces intérieurs de grande surface. Présenté sous forme de preprint arXiv (arXiv:2606.25119, juin 2026), le travail introduit un jeu de données inédit construit sur le simulateur Habitat-Sim, comportant 206 caméras réparties sur 74 étages. Le framework s'articule autour de quatre composants : un ordonnanceur de caméras actives, une cartographie conjointe 2D/3D, une estimation de valeur fondée sur un VLM (Vision-Language Model), et une vérification collaborative de la cible détectée. Évalué sur le benchmark HM3D (Habitat-Matterport 3D), SurveilNav atteint des résultats état de l'art en efficacité d'exploration et en taux de succès de navigation par rapport aux méthodes mono-agent existantes. L'intérêt technique tient à la complémentarité des deux types de perception : un robot mobile dispose d'une vue dynamique locale mais limitée par sa portée et ses angles morts, tandis qu'un réseau de caméras fixes offre une couverture globale statique, incomplète par construction. SurveilNav fusionne ces deux sources en temps réel via cartographie 3D partagée et estimation sémantique par VLM, permettant de prioriser les zones à explorer sans balayage exhaustif. Pour les intégrateurs industriels opérant dans des entrepôts ou usines déjà équipés d'infrastructure vidéo, la proposition est directement pertinente : elle exploite un actif existant (le réseau CCTV) pour augmenter les capacités des AMR sans modifier le matériel. L'usage du VLM pour l'estimation de valeur sémantique reste néanmoins un point à surveiller, les auteurs ne précisant pas la latence d'inférence ni sa compatibilité avec une navigation temps réel en conditions réelles. Le champ de l'Object Goal Navigation (OGN) s'est principalement construit sur des architectures mono-agent et des environnements simulés (Habitat, AI2-THOR, Gibson). L'extension vers un réseau de capteurs fixes hétérogènes représente une direction logique vers des scénarios industriels réels, où bâtiments tertiaires et usines sont massivement équipés de systèmes CCTV. Les travaux concurrents sur la navigation multi-robot, comme MultiON ou CoNav, restent centrés sur la coopération entre agents mobiles homogènes et ne tirent pas parti de l'infrastructure fixe existante. Aucun acteur européen n'est impliqué selon le résumé disponible. Les débouchés envisagés, dont la recherche en zone sinistrée (search-and-rescue) et la domotique, restent au stade de la validation en simulation : aucun déploiement terrain ni partenariat industriel n'est annoncé.

RecherchePaper

1 source

Modèle du monde pour la navigation sociale de robots guidée par la logique

38

4arXiv cs.RO

Modèle du monde pour la navigation sociale de robots guidée par la logique

Des chercheurs ont publié NaviWM (Navigation World Model), un système de navigation robotique socialement consciente qui couple un grand modèle de langage (LLM) avec un modèle de monde structuré et un module de raisonnement logique déductif. Le système repose sur deux composants principaux : un modèle spatio-temporel qui capture en temps réel les positions, vitesses et activités des agents présents dans l'environnement, et un module de raisonnement par chaîne-de-pensée (chain-of-thought) guidé par des règles formelles. La nouveauté centrale est l'encodage des normes sociales en logique du premier ordre (first-order logic), ce qui rend le raisonnement du robot vérifiable et interprétable, contrairement aux approches par prompt engineering ou fine-tuning. Les expériences menées montrent une amélioration du taux de succès de navigation et une réduction des violations sociales dans les environnements encombrés. L'article, disponible en version 2 sur arXiv (référence 2510.23509), est accompagné de vidéos de démonstration publiées par les auteurs. Ce travail s'attaque à une faille bien documentée des LLM appliqués à la planification de trajectoires en robotique mobile : le manque d'ancrage physique et de cohérence logique lorsqu'ils opèrent seuls. En environnements dynamiques peuplés d'humains, les LLM purs produisent des comportements imprévisibles, voire dangereux. En ajoutant une couche de raisonnement formel en aval du LLM sous des contraintes explicites (espace personnel, évitement de collision, gestion du timing), NaviWM propose une solution plus robuste. Pour un intégrateur travaillant sur des robots de service en intérieur, livraison hospitalière ou navigation en entrepôt mixte humain-robot, cela représente un levier concret pour réduire le gap entre démonstration en laboratoire et déploiement opérationnel. Le caractère interprétable du raisonnement constitue également un atout pour les exigences de traçabilité et de certification en milieu industriel ou médical. La navigation sociale pour robots mobiles est un champ en forte effervescence, où coexistent des approches classiques comme ORCA (Optimal Reciprocal Collision Avoidance), des prédicteurs à base de réseaux LSTM sociaux, et plus récemment des systèmes intégrant des VLA (Vision-Language-Action models) comme Pi-0 ou les architectures embarquées de Boston Dynamics et Figure. NaviWM se positionne dans un segment distinct : il ne cherche pas à remplacer le LLM mais à le contraindre via un modèle du monde explicite et des règles formelles, une approche hybride neuro-symbolique proche des travaux du MIT CSAIL sur la planification task-and-motion. Les prochaines étapes naturelles seront de valider l'architecture sur des plateformes physiques hors simulation et de tester la robustesse des règles logiques face à des scénarios sociaux non anticipés lors de leur encodage initial.

RecherchePaper

1 source

Système de navigation autonome pour robot de bibliothèque basé sur Unitree Go2 Edu

À lire aussi

Système d'automatisation de titres modulaire pour la robotique en intérieur, basé sur un modèle vision-langage-action

GuideWalk : apprentissage de la navigation autonome et de la locomotion unifiées pour robots humanoïdes sur terrains variés

SurveilNav : navigation collaborative vers des objets cibles avec robot et système de surveillance

Modèle du monde pour la navigation sociale de robots guidée par la logique