Aller au contenu principal
Planification robotique et gestion de situations par perception active
RecherchearXiv cs.RO6sem

Planification robotique et gestion de situations par perception active

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs présentent dans un preprint arXiv (réf. 2604.26988, mai 2026) un cadre logiciel baptisé VAP-TAMP, pour Vision-language model-based Active Perception for Task And Motion Planning, conçu pour doter les robots d'une capacité de détection et de gestion des situations imprévues en cours d'exécution de tâches. Le système cible des perturbations concrètes : une porte coincée, un objet tombé au sol, une modification de l'environnement due à une activité humaine. VAP-TAMP exploite une base de connaissances sur les actions du robot pour formuler dynamiquement des requêtes vers des modèles vision-langage (VLA/VLM), sélectionner activement des points de vue pertinents, puis évaluer la situation. En parallèle, il construit et interroge des graphes de scène pour assurer la planification intégrée des tâches et des mouvements. Le framework a été évalué sur des tâches de service en simulation et sur une plateforme réelle de manipulation mobile.

L'enjeu est structurant pour toute démarche d'autonomie longue durée en robotique de service ou industrielle. L'un des verrous majeurs identifiés par les intégrateurs et les équipes R&D n'est pas la planification initiale, les planificateurs TAMP existants s'en sortent bien, mais la résilience à l'exécution : un robot qui échoue silencieusement ou se bloque face à un impondérable n'est pas déployable en production. VAP-TAMP propose une réponse architecturale à ce point de friction en couplant perception active (choix du meilleur angle de vue pour comprendre la situation) et raisonnement symbolique via graphes de scène, deux approches généralement traitées séparément. Si les résultats se confirment sur des scénarios plus variés, cela allège significativement la charge d'ingénierie pour les équipes qui construisent des pipelines de manipulation autonome.

Le travail s'inscrit dans une dynamique de recherche intense autour de l'intégration VLM-TAMP, un champ qui a explosé depuis 2023 avec les travaux de Google DeepMind sur SayCan, de Physical Intelligence (Pi-0) et des équipes de Carnegie Mellon sur la planification par LLM. VAP-TAMP se positionne sur le maillon "récupération d'erreur" plutôt que sur la génération de plan initiale, ce qui le différencie d'approches comme Code-as-Policies ou Inner Monologue. Le preprint ne mentionne pas de partenariat industriel ni de calendrier de transfert technologique : il s'agit à ce stade d'une contribution académique, sans déploiement annoncé. Les prochaines étapes naturelles seraient une validation sur un spectre plus large de perturbations et une comparaison quantitative avec des baselines de récupération existantes.

À lire aussi

COMPASS : planification de la manipulation en espace confiné par perception active
1arXiv cs.RO 

COMPASS : planification de la manipulation en espace confiné par perception active

Des chercheurs ont publié COMPASS (Confined-space Manipulation Planning with Active Sensing Strategy), un framework multi-étapes destiné à résoudre la manipulation robotique en environnements confinés et encombrés. La méthode repose sur trois composants enchaînés : un scan de proximité dit "near-field awareness" qui construit une carte locale de collision avant tout mouvement, une fonction d'utilité multi-objectifs qui sélectionne des points de vue à la fois informatifs et compatibles avec les poses de saisie ultérieures, et un optimiseur de manipulation contraint qui génère des configurations de préhension respectant les obstacles détectés. Les auteurs proposent également un benchmark structuré en quatre niveaux de difficulté croissante pour évaluer les méthodes d'exploration et de manipulation en espace restreint. En simulation, COMPASS affiche un gain de 24,25 points de pourcentage sur le taux de succès de manipulation par rapport aux méthodes d'exploration conçues pour d'autres types de robots ou n'optimisant que le gain d'information. Des expériences en conditions réelles confirment la faisabilité de l'approche. Ce résultat est significatif parce qu'il adresse directement l'un des angles morts du champ NBV (Next Best View) : les stratégies d'exploration existantes maximisent la couverture informationnelle sans tenir compte de la faisabilité de la manipulation qui suit. En couplant explicitement exploration et planification de saisie dans une même fonction d'utilité, COMPASS réduit l'écart entre "voir la scène" et "agir dessus". Pour un intégrateur industriel, cela signifie une réduction du nombre de cycles d'observation improductifs avant une prise, ce qui devient critique dans des applications comme la désassembly, le picking en bacs profonds, ou la maintenance en espaces contraints. La validation sim-to-real, même partielle, réduit le scepticisme habituel sur le transfert des méthodes d'exploration en laboratoire vers des contextes terrain. Le problème de la manipulation en espace confiné est étudié depuis plusieurs années dans la communauté planification-perception, mais reste ouvert faute de benchmarks standardisés et de méthodes intégrant les deux dimensions simultanément. COMPASS s'inscrit dans un mouvement plus large qui voit des frameworks comme Active Neural Mapping ou des planificateurs basés sur l'échantillonnage (RRT, STOMP) être revisités pour intégrer des contraintes de manipulation dès la phase d'exploration. Aucune entreprise n'est associée à cette publication académique (arXiv:2509.14787), et aucune timeline de commercialisation n'est mentionnée. Les prochaines étapes naturelles seraient d'étendre le benchmark à des objets déformables ou à des scènes dynamiques, et de tester la robustesse face à des capteurs de profondeur bruités, condition sine qua non pour un déploiement industriel.

RecherchePaper
1 source
SPARC : planification de trajectoire spatiale par communication robotique attentive
2arXiv cs.RO 

SPARC : planification de trajectoire spatiale par communication robotique attentive

Une équipe de chercheurs a publié sur arXiv (référence 2603.02845v3) SPARC, un système de planification de trajectoires pour flottes de robots autonomes décentralisées, centré sur un nouveau mécanisme de communication baptisé RMHA (Relation enhanced Multi Head Attention). Le constat de départ est précis : dans les approches d'apprentissage multi-agents existantes, chaque robot traite les messages de ses voisins de manière uniforme, sans tenir compte de leur distance réelle. En environnement dense, cette indifférence spatiale dilue l'attention là où la coordination est justement la plus critique. RMHA intègre directement les distances de Manhattan par paires dans le calcul des poids d'attention, permettant à chaque robot de prioriser dynamiquement les messages des voisins les plus proches. Ce mécanisme est couplé à un masque d'attention contraint par distance et à une fusion de messages par réseau GRU (Gated Recurrent Unit), le tout entraîné en bout en bout via MAPPO, un algorithme d'apprentissage par renforcement multi-agents. Sur des grilles de 40x40 cases avec 30 % de densité d'obstacles, SPARC atteint environ 75 % de taux de succès, surpassant la meilleure méthode de référence de plus de 25 points de pourcentage. Le résultat le plus structurant est la généralisation zéro-shot : le système est entraîné sur des scénarios à 8 robots et testé directement sur des configurations à 128 robots, sans ré-entraînement. Cette capacité de mise à l'échelle sans supervision supplémentaire est un verrou majeur pour les déploiements industriels réels, notamment en logistique entrepôt où les flottes AMR peuvent dépasser plusieurs dizaines d'unités. Les ablations confirment que l'encodage de la relation de distance est le facteur déterminant du gain de performance en haute densité, ce qui valide l'hypothèse que le biais spatial manquait aux architectures à attention standard appliquées à la coordination robotique. MRPP est un champ de recherche actif depuis une décennie, avec des approches classiques comme CBS (Conflict-Based Search) et des variantes apprises reposant sur QPLEX, MAPPO ou des graph neural networks. SPARC s'inscrit dans la lignée des travaux combinant attention multi-têtes et apprentissage multi-agents coopératif, en corrigeant un angle mort de conception commun à la majorité de ces systèmes. Il n'y a pas, à ce stade, de déploiement annoncé ni de partenariat industriel mentionné : il s'agit d'une contribution de recherche académique. Les prochaines étapes attendues dans ce domaine incluent la validation sur environnements physiques réels et l'extension à des grilles de plus grande dimension, deux conditions nécessaires avant toute intégration dans des systèmes AMR commerciaux.

RecherchePaper
1 source
Perception sémantique active
3arXiv cs.RO 

Perception sémantique active

Des chercheurs ont publié sur arXiv (2510.05430v2) une méthode de perception sémantique active permettant à un robot mobile d'explorer un environnement intérieur en raisonnant sur les zones qu'il n'a pas encore observées. Le système construit un graphe de scène multi-couches et compact, structurant l'environnement à plusieurs niveaux d'abstraction : pièces, objets, murs, fenêtres, avec leur géométrie fine. En s'appuyant sur un grand modèle de langage (LLM), le pipeline génère des graphes de scène plausibles pour les régions inexplorées, en maintenant la cohérence avec les observations partielles déjà accumulées. L'approche calcule ensuite le gain d'information attendu à chaque point de passage candidat, afin de guider la trajectoire d'exploration. Les expériences ont été menées à la fois en simulation sur des appartements 3D réalistes et sur un robot quadrupède Unitree Go 2 en conditions réelles. L'intérêt principal de cette approche réside dans la capacité à exploiter des connaissances sémantiques commonsense pour anticiper la topologie d'une scène non encore visitée. Plutôt que de se limiter à une cartographie géométrique réactive, le robot raisonne sur la probabilité qu'une porte donne sur une cuisine plutôt qu'une chambre selon le contexte observé, un type de raisonnement spatial jusqu'ici difficile à formaliser en robotique mobile. Pour les intégrateurs d'AMR (autonomous mobile robots) et les équipes R&D en navigation intérieure, cette architecture ouvre la voie à des explorations plus efficaces dans des environnements inconnus, avec moins de déplacements redondants. Les résultats quantitatifs montrent une localisation plus rapide et plus précise des informations sémantiques hautes et basses résolutions par rapport aux méthodes existantes, bien que les benchmarks retenus méritent une lecture critique puisqu'ils restent essentiellement contrôlés par les auteurs. Ce travail s'inscrit dans un courant actif combinant graphes de scène hiérarchiques et LLMs pour la navigation sémantique, aux côtés de travaux comme SayPlan (Rana et al.) ou SceneGraph-Nav. Le Unitree Go 2, robot quadrupède à faible coût devenu plateforme standard pour la recherche en mobilité intérieure, sert ici de démonstrateur physique. Les acteurs concurrents incluent les approches par représentations neurales implicites (NeRF sémantiques) et les méthodes de frontier-based exploration enrichies par vision-langage. Le code n'est pas encore publié à la date de soumission, et aucun partenariat industriel ni calendrier de transfert n'est mentionné dans le papier.

RecherchePaper
1 source
G-MAPP : planification et perception multi-agents accélérées par GPU pour la génération de mouvement réactif
4arXiv cs.RO 

G-MAPP : planification et perception multi-agents accélérées par GPU pour la génération de mouvement réactif

G-MAPP (GPU-accelerated Multi-Agent Planning and Perception) est un framework de génération de mouvement réactif présenté dans un preprint arXiv (2606.12579) publié en juin 2026. Le systeme cible un problème persistant en robotique manipulatrice : produire des trajectoires sans collision en temps réel dans des environnements non structurés et dynamiques. L'architecture repose sur deux composants GPU : un moteur de modélisation du monde alimenté par des capteurs de profondeur grand public, et un planificateur par champs vectoriels permettant une exploration parallèle quasi-globale des états. Validé sur un bras Franka Emika 7 axes (7-DoF), le systeme affiche un gain de vitesse mesuré jusqu'à 5x par rapport à la version CPU équivalente, avec des évitements de collision réussis dans des configurations physiques simples et complexes. Le point dur que G-MAPP tente de résoudre est double : la charge de calcul pour planifier sur des représentations haute fidélité du monde, et le délai d'intégration entre la perception et le planificateur. Historiquement, les architectures existantes choisissaient entre planification globale (précise mais lente, réservée aux environnements statiques) et planification locale conservative (rapide mais myope). En fusionnant les deux boucles sur GPU, G-MAPP vise à éliminer ce compromis. Pour un intégrateur industriel ou un COO de ligne d'assemblage, cela ouvre la voie à des cellules robotiques reconfigurables sans reprogrammation manuelle, avec des bras capables de coexister avec des opérateurs humains en mouvement, à condition que les performances tiennent sur des géométries de charge plus représentatives. La génération de mouvement réactif mobilise depuis plusieurs années des approches concurrentes : planificateurs neuronaux (MPINETS, MotionBenchMaker), champs de potentiel riemanniens (RMP-Flow, STORM), et méthodes MPC sur horizon glissant. G-MAPP se positionne dans la lignée des planificateurs par champs vectoriels accélérés, avec la particularité de traiter la perception et la planification dans le même pipeline GPU. Le Franka Emika reste une plateforme académique standard, et aucun partenariat industriel ni roadmap de commercialisation n'est mentionné dans le preprint : il s'agit d'une contribution de recherche à confirmer sur des bras à charge utile plus élevée, des vitesses d'obstacles plus importantes, et des environnements multi-agents. Les prolongements naturels incluent les architectures multi-bras et l'intégration avec des pipelines de perception sémantique.

RecherchePaper
1 source