Aller au contenu principal
Perception sémantique active
RecherchearXiv cs.RO1j

Perception sémantique active

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (2510.05430v2) une méthode de perception sémantique active permettant à un robot mobile d'explorer un environnement intérieur en raisonnant sur les zones qu'il n'a pas encore observées. Le système construit un graphe de scène multi-couches et compact, structurant l'environnement à plusieurs niveaux d'abstraction : pièces, objets, murs, fenêtres, avec leur géométrie fine. En s'appuyant sur un grand modèle de langage (LLM), le pipeline génère des graphes de scène plausibles pour les régions inexplorées, en maintenant la cohérence avec les observations partielles déjà accumulées. L'approche calcule ensuite le gain d'information attendu à chaque point de passage candidat, afin de guider la trajectoire d'exploration. Les expériences ont été menées à la fois en simulation sur des appartements 3D réalistes et sur un robot quadrupède Unitree Go 2 en conditions réelles.

L'intérêt principal de cette approche réside dans la capacité à exploiter des connaissances sémantiques commonsense pour anticiper la topologie d'une scène non encore visitée. Plutôt que de se limiter à une cartographie géométrique réactive, le robot raisonne sur la probabilité qu'une porte donne sur une cuisine plutôt qu'une chambre selon le contexte observé, un type de raisonnement spatial jusqu'ici difficile à formaliser en robotique mobile. Pour les intégrateurs d'AMR (autonomous mobile robots) et les équipes R&D en navigation intérieure, cette architecture ouvre la voie à des explorations plus efficaces dans des environnements inconnus, avec moins de déplacements redondants. Les résultats quantitatifs montrent une localisation plus rapide et plus précise des informations sémantiques hautes et basses résolutions par rapport aux méthodes existantes, bien que les benchmarks retenus méritent une lecture critique puisqu'ils restent essentiellement contrôlés par les auteurs.

Ce travail s'inscrit dans un courant actif combinant graphes de scène hiérarchiques et LLMs pour la navigation sémantique, aux côtés de travaux comme SayPlan (Rana et al.) ou SceneGraph-Nav. Le Unitree Go 2, robot quadrupède à faible coût devenu plateforme standard pour la recherche en mobilité intérieure, sert ici de démonstrateur physique. Les acteurs concurrents incluent les approches par représentations neurales implicites (NeRF sémantiques) et les méthodes de frontier-based exploration enrichies par vision-langage. Le code n'est pas encore publié à la date de soumission, et aucun partenariat industriel ni calendrier de transfert n'est mentionné dans le papier.

À lire aussi

Planification robotique et gestion de situations par perception active
1arXiv cs.RO 

Planification robotique et gestion de situations par perception active

Des chercheurs présentent dans un preprint arXiv (réf. 2604.26988, mai 2026) un cadre logiciel baptisé VAP-TAMP, pour Vision-language model-based Active Perception for Task And Motion Planning, conçu pour doter les robots d'une capacité de détection et de gestion des situations imprévues en cours d'exécution de tâches. Le système cible des perturbations concrètes : une porte coincée, un objet tombé au sol, une modification de l'environnement due à une activité humaine. VAP-TAMP exploite une base de connaissances sur les actions du robot pour formuler dynamiquement des requêtes vers des modèles vision-langage (VLA/VLM), sélectionner activement des points de vue pertinents, puis évaluer la situation. En parallèle, il construit et interroge des graphes de scène pour assurer la planification intégrée des tâches et des mouvements. Le framework a été évalué sur des tâches de service en simulation et sur une plateforme réelle de manipulation mobile. L'enjeu est structurant pour toute démarche d'autonomie longue durée en robotique de service ou industrielle. L'un des verrous majeurs identifiés par les intégrateurs et les équipes R&D n'est pas la planification initiale, les planificateurs TAMP existants s'en sortent bien, mais la résilience à l'exécution : un robot qui échoue silencieusement ou se bloque face à un impondérable n'est pas déployable en production. VAP-TAMP propose une réponse architecturale à ce point de friction en couplant perception active (choix du meilleur angle de vue pour comprendre la situation) et raisonnement symbolique via graphes de scène, deux approches généralement traitées séparément. Si les résultats se confirment sur des scénarios plus variés, cela allège significativement la charge d'ingénierie pour les équipes qui construisent des pipelines de manipulation autonome. Le travail s'inscrit dans une dynamique de recherche intense autour de l'intégration VLM-TAMP, un champ qui a explosé depuis 2023 avec les travaux de Google DeepMind sur SayCan, de Physical Intelligence (Pi-0) et des équipes de Carnegie Mellon sur la planification par LLM. VAP-TAMP se positionne sur le maillon "récupération d'erreur" plutôt que sur la génération de plan initiale, ce qui le différencie d'approches comme Code-as-Policies ou Inner Monologue. Le preprint ne mentionne pas de partenariat industriel ni de calendrier de transfert technologique : il s'agit à ce stade d'une contribution académique, sans déploiement annoncé. Les prochaines étapes naturelles seraient une validation sur un spectre plus large de perturbations et une comparaison quantitative avec des baselines de récupération existantes.

RecherchePaper
1 source
ActiveMimic : pré-entraînement sur vidéo égocentrique avec perception active
2arXiv cs.RO 

ActiveMimic : pré-entraînement sur vidéo égocentrique avec perception active

Des chercheurs ont publié ActiveMimic (arXiv:2606.06194, juin 2026), un framework de pré-entraînement robotique qui exploite des vidéos égocentrées humaines captées par une simple caméra RGB portée sur le corps. La contribution technique centrale : plutôt que de traiter les mouvements de caméra comme du bruit, comme le font les pipelines standards, ActiveMimic récupère des trajectoires synchronisées de la caméra et du poignet depuis ce seul flux vidéo, puis modélise le déplacement de la caméra comme une "action de point de vue" à part entière. Le framework apprend ainsi simultanément la perception active et la manipulation à partir de vidéos humaines capturées en conditions réelles, avant d'être adapté à un robot cible via fine-tuning. Sur plusieurs tâches de manipulation impliquant des degrés variés de perception active, les expériences en conditions réelles montrent qu'ActiveMimic surpasse les baselines pré-entraînées sur vidéo humaine classique et atteint les performances des modèles pré-entraînés sur données robotiques. Ce résultat est notable car la vidéo égocentrée humaine est disponible à grande échelle sans nécessiter de robot, mais les modèles qui en étaient issus sous-performaient systématiquement face à ceux entraînés sur données robotiques. ActiveMimic identifie le signal manquant : la perception active, soit le comportement naturel par lequel un humain repositionne continuellement son point de vue pendant une manipulation. Ce mécanisme, invisible pour les pipelines qui traitent la motion de caméra comme artefact, s'avère être le facteur clé pour extraire la valeur de ces vidéos. Les expériences indiquent en outre que la capacité de perception active émerge du pré-entraînement sur vidéo humaine et non du fine-tuning robot-spécifique, ce qui suggère une transférabilité potentielle à d'autres architectures et morphologies. Ce travail s'inscrit dans une compétition dense autour des modèles vision-action (VLA) pour la manipulation robotique généraliste. Physical Intelligence avec Pi-0, Google DeepMind avec RT-2, et les équipes de Figure AI exploitent des architectures VLA pré-entraînées, mais s'appuient majoritairement sur des données de téléopération robotique, coûteuses et lentes à collecter. Si l'approche d'ActiveMimic se confirme sur des benchmarks indépendants et des environnements non contrôlés, elle pourrait réduire significativement ce goulot d'étranglement en substituant une partie des données robotiques par de la vidéo humaine abondante. Les prochaines étapes naturelles incluent la validation industrielle, l'extension à des morphologies variées, et l'évaluation de la scalabilité avec des volumes de vidéo égocentrée plus importants.

RechercheOpinion
1 source
COMPASS : planification de la manipulation en espace confiné par perception active
3arXiv cs.RO 

COMPASS : planification de la manipulation en espace confiné par perception active

Des chercheurs ont publié COMPASS (Confined-space Manipulation Planning with Active Sensing Strategy), un framework multi-étapes destiné à résoudre la manipulation robotique en environnements confinés et encombrés. La méthode repose sur trois composants enchaînés : un scan de proximité dit "near-field awareness" qui construit une carte locale de collision avant tout mouvement, une fonction d'utilité multi-objectifs qui sélectionne des points de vue à la fois informatifs et compatibles avec les poses de saisie ultérieures, et un optimiseur de manipulation contraint qui génère des configurations de préhension respectant les obstacles détectés. Les auteurs proposent également un benchmark structuré en quatre niveaux de difficulté croissante pour évaluer les méthodes d'exploration et de manipulation en espace restreint. En simulation, COMPASS affiche un gain de 24,25 points de pourcentage sur le taux de succès de manipulation par rapport aux méthodes d'exploration conçues pour d'autres types de robots ou n'optimisant que le gain d'information. Des expériences en conditions réelles confirment la faisabilité de l'approche. Ce résultat est significatif parce qu'il adresse directement l'un des angles morts du champ NBV (Next Best View) : les stratégies d'exploration existantes maximisent la couverture informationnelle sans tenir compte de la faisabilité de la manipulation qui suit. En couplant explicitement exploration et planification de saisie dans une même fonction d'utilité, COMPASS réduit l'écart entre "voir la scène" et "agir dessus". Pour un intégrateur industriel, cela signifie une réduction du nombre de cycles d'observation improductifs avant une prise, ce qui devient critique dans des applications comme la désassembly, le picking en bacs profonds, ou la maintenance en espaces contraints. La validation sim-to-real, même partielle, réduit le scepticisme habituel sur le transfert des méthodes d'exploration en laboratoire vers des contextes terrain. Le problème de la manipulation en espace confiné est étudié depuis plusieurs années dans la communauté planification-perception, mais reste ouvert faute de benchmarks standardisés et de méthodes intégrant les deux dimensions simultanément. COMPASS s'inscrit dans un mouvement plus large qui voit des frameworks comme Active Neural Mapping ou des planificateurs basés sur l'échantillonnage (RRT, STOMP) être revisités pour intégrer des contraintes de manipulation dès la phase d'exploration. Aucune entreprise n'est associée à cette publication académique (arXiv:2509.14787), et aucune timeline de commercialisation n'est mentionnée. Les prochaines étapes naturelles seraient d'étendre le benchmark à des objets déformables ou à des scènes dynamiques, et de tester la robustesse face à des capteurs de profondeur bruités, condition sine qua non pour un déploiement industriel.

RecherchePaper
1 source
Rule-VLN : unifier perception et respect des règles par raisonnement sémantique et rectification géométrique
4arXiv cs.RO 

Rule-VLN : unifier perception et respect des règles par raisonnement sémantique et rectification géométrique

Une équipe de chercheurs a publié sur arXiv (2604.16993) un article introduisant Rule-VLN, un benchmark urbain à grande échelle conçu pour évaluer la navigation par instruction langagière (Vision-and-Language Navigation, ou VLN) sous contraintes réglementaires. L'environnement couvre 29 000 nœuds de graphe urbain, avec 8 000 nœuds soumis à 177 catégories de règles distinctes réparties en quatre niveaux de difficulté croissante. Pour corriger les agents existants, les auteurs proposent le Semantic Navigation Rectification Module (SNRM), un module zero-shot greffable sur tout agent VLN pré-entraîné. Dans les expériences rapportées, SNRM réduit le taux de violation des contraintes (Constraint Violation Rate, CVR) de 19,26 % et améliore le taux de complétion de tâche (Task Completion, TC) de 5,97 % par rapport aux modèles de référence. Le problème identifié est structurel : les agents VLN actuels tombent dans ce que les auteurs appellent le "goal-driven trap", un biais où la géométrie physique ("puis-je passer ici ?") prime sur la sémantique réglementaire ("suis-je autorisé à passer ici ?"). Pour les intégrateurs de systèmes de navigation autonome en environnement urbain ou semi-public, cela signifie concrètement que les agents actuels ignorent des contraintes visibles pourtant critiques : panneaux d'interdiction, zones piétonnes, restrictions de circulation. Rule-VLN est le premier benchmark à formaliser ces contraintes à cette échelle, ce qui en fait un outil de qualification utile pour les développeurs souhaitant valider la conformité comportementale avant déploiement réel, au-delà des métriques classiques de succès de navigation. La VLN est un axe de recherche actif depuis les travaux fondateurs de l'environnement R2R (2018, Anderson et al.), majoritairement axés sur la reachability dans des environnements intérieurs. Rule-VLN étend explicitement ce cadre à l'urbain extérieur avec une dimension normative, un angle peu exploré jusqu'ici malgré la montée en charge des robots de livraison et des AMR en espace public. Côté concurrents directs, des benchmarks comme TouchDown ou CityNav posent des bases géographiques réalistes mais sans injection systématique de contraintes réglementaires. Le SNRM s'appuie sur un VLM (Vision-Language Model) en pipeline coarse-to-fine couplé à une carte mentale épistémique pour la planification de détours dynamiques. Les résultats sont présentés uniquement en conditions simulées : aucun déploiement réel n'est mentionné, et les gains de 19 % sur CVR restent à valider sur des environnements physiques avec une distribution de règles non contrôlée.

UEPertinent pour les intégrateurs de robots de livraison et AMR en espace public européen confrontés aux contraintes réglementaires urbaines, mais aucun acteur FR/EU n'est impliqué dans ces travaux.

RechercheOpinion
1 source