PhysGraph : un graphe de scène 3D intégrant la…

Raisonnement sémantique relationnel sur des graphes de scènes 3D pour la recherche interactive d'objets en monde ouvert

38

1arXiv cs.RO

Raisonnement sémantique relationnel sur des graphes de scènes 3D pour la recherche interactive d'objets en monde ouvert

Des chercheurs présentent SCOUT (Scene Graph-Based Exploration with Learned Utility), un système permettant à un robot domestique de retrouver un objet inconnu dans un environnement ouvert, sans carte préalable ni liste d'objets fixe. Publié sur arXiv (2603.05642v2), le travail propose de représenter l'environnement sous forme de graphes de scène 3D, où chaque pièce, chaque frontière inexplor ée et chaque objet reçoit un score d'utilité calculé à partir d'heuristiques relationnelles : la probabilité qu'un objet cible se trouve dans telle pièce (containment), ou qu'il soit co-localisé avec d'autres objets connus (co-occurrence). Le robot explore ainsi en priorité les zones les plus prometteuses, sans interroger un LLM à chaque étape. Pour conserver la généralisation en vocabulaire ouvert, les auteurs introduisent un cadre de distillation procédurale hors ligne : les connaissances relationnelles sont extraites d'un grand modèle de langage une fois, puis compressées dans des modèles légers exécutables directement sur le robot. Un benchmark symbolique baptisé SymSearch est également proposé pour évaluer le raisonnement sémantique dans ce type de tâches. L'enjeu central est l'équilibre entre pertinence sémantique et faisabilité temps réel, un point de friction majeur pour les intégrateurs en robotique de service. Les méthodes fondées sur la similarité d'embeddings vision-langage (type CLIP) sont rapides mais échouent sur les relations contextuelles : un robot cherchant un médicament ne déduit pas spontanément "salle de bain" depuis un embedding. Les LLMs résolvent cela mais sont trop lents et trop coûteux pour un déploiement embarqué. SCOUT, selon les évaluations menées en simulation et dans des environnements physiques réels, égale les performances des LLMs tout en restant computationnellement léger, ce qui ouvre la voie à une navigation sémantique réactive sur du matériel standard. La démonstration en environnement réel, avec des contraintes de capteurs et de navigation authentiques, atténue en partie le reproche habituel de sim-to-real gap, même si aucune métrique quantitative de transfert n'est détaillée dans le résumé. Ce travail s'inscrit dans un champ actif depuis les approches de navigation sémantique par graphes de scène (ScanQA, SceneGraph-Fusion, 3DSG), face auxquelles SCOUT se distingue par la distillation offline plutôt que par l'appel LLM en ligne. Les concurrents directs incluent les méthodes basées sur ESC, CoNaV ou L3MVN, qui exploitent des embeddings ou des LLMs pour guider l'exploration. Aucune intégration industrielle ni partenariat commercial n'est annoncé à ce stade : il s'agit d'une contribution académique avec benchmark et expériences réelles, dont la prochaine étape naturelle serait une évaluation sur des plateformes robotiques standards comme Spot ou Hello Robot Stretch.

RecherchePaper

1 source

NaviMaster : un modèle unifié pour la navigation dans les interfaces graphiques et dans les environnements physiques

44

2arXiv cs.RO

NaviMaster : un modèle unifié pour la navigation dans les interfaces graphiques et dans les environnements physiques

NaviMaster (arXiv:2508.02046, version 4 du preprint) est un agent d'intelligence artificielle qui unifie dans un seul modèle deux types de navigation habituellement traités séparément : la navigation en interface graphique (GUI, pilotage d'applications et de menus) et la navigation embodied (déplacement d'un agent physique ou simulé dans un espace 3D). Le système repose sur l'observation que ces deux problèmes se formulent comme des Processus de Décision Markoviens (MDP), ce qui autorise une architecture et un entraînement communs. NaviMaster introduit trois contributions techniques : un pipeline de collecte de trajectoires à cible visuelle applicable aux deux domaines via une formulation unifiée, un cadre d'apprentissage par renforcement (RL) entraîné sur données mixtes pour améliorer la généralisation, et une récompense dite "distance-aware" conçue pour accélérer l'apprentissage à partir des trajectoires collectées. Évalué sur des benchmarks hors-domaine, il surpasse les agents spécialisés de l'état de l'art sur trois tâches : navigation GUI, prédiction d'affordance spatiale et navigation embodied. Les codes, données et checkpoints sont publiés en open source. L'intérêt de NaviMaster est moins dans ses performances brutes sur chaque tâche isolée que dans la démonstration que GUI et navigation physique peuvent partager une même représentation apprise. Jusqu'ici, ces deux domaines s'appuyaient sur des datasets distincts, des architectures incompatibles et des paradigmes d'entraînement divergents. Pour les équipes travaillant sur des modèles VLA (Vision-Language-Action) ou sur des systèmes multi-tâches, c'est une preuve de concept que la généralisation cross-domaine par RL mixte est faisable à cette échelle. Les études d'ablation publiées confirment que la stratégie de mélange de données et la récompense distance-aware contribuent toutes deux de manière mesurable aux gains finaux, ce qui renforce la crédibilité des choix architecturaux au-delà du résultat global. NaviMaster s'inscrit dans une dynamique de convergence croissante entre agents logiciels et agents physiques. Il se positionne face à des agents GUI spécialisés comme CogAgent ou SeeAct d'un côté, et à des modèles de navigation embodied comme RT-2 ou OpenVLA de l'autre. Les benchmarks de référence sont Web-Arena et OSWorld pour le versant GUI, Habitat pour le versant physique. La présence d'une version v4 sur arXiv signale un processus de révision actif, probablement en direction d'une conférence majeure (ICLR, NeurIPS ou ICRA). L'article ne mentionne aucun déploiement industriel ni partenariat, ce qui place NaviMaster au stade de la preuve de concept académique.

RechercheOpinion

1 source

Estimation de scènes encombrées prêtes pour la simulation par optimisation conjointe de forme et de pose intégrant la physique

42

3arXiv cs.RO

Estimation de scènes encombrées prêtes pour la simulation par optimisation conjointe de forme et de pose intégrant la physique

Une équipe de chercheurs publie sur arXiv (réf. 2602.20150, v2, février 2026) SPARCS, un pipeline de reconstruction de scènes directement exploitables en simulation physique à partir d'observations réelles. Le système estime simultanément la forme géométrique et la pose de plusieurs objets rigides en interaction, dans des environnements encombrés comportant jusqu'à cinq objets représentés par 22 enveloppes convexes. Deux contributions techniques distinguent l'approche : un modèle de contact à différentiabilité de forme globale permettant l'optimisation conjointe géométrie-pose tout en modélisant les contacts inter-objets, et un solveur linéaire exploitant la sparsité structurée du Hessien Lagrangien augmenté, dont le coût de calcul croît favorablement avec la complexité de la scène. Le pipeline complet enchaîne initialisation par réseau de neurones, optimisation physique contrainte et raffinement différentiable des textures. L'intérêt industriel est direct : les pipelines d'apprentissage de politiques robotiques, qu'ils reposent sur l'imitation learning ou le reinforcement learning, sont freinés par la rareté de scènes simulées physiquement cohérentes. Générer automatiquement ces scènes à partir du réel réduit le fossé real-to-sim qui fragilise ensuite le transfert sim-to-real. Là où les méthodes existantes échouent dans les environnements denses (coût computationnel prohibitif, robustesse insuffisante, portée limitée à un seul objet), SPARCS traite plusieurs objets en contact simultané. Pour un intégrateur développant des systèmes de manipulation ou un laboratoire travaillant sur des robots humanoïdes, cela ouvre une voie crédible vers la génération automatique de données d'entraînement directement issues de scènes réelles. Le domaine real-to-sim est en forte expansion depuis 2023, principalement tiré par l'entraînement de modèles vision-action (VLA) comme pi0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Les approches concurrentes telles que BundleSDF (Meta / University of Washington) privilégient la reconstruction 6-DoF d'objets inconnus, tandis que les méthodes NeRF et 3D Gaussian Splatting maximisent la fidélité visuelle sans garanties physiques. SPARCS se différencie par son orientation explicitement "simulation-ready" : les scènes produites sont directement injectables dans des simulateurs comme MuJoCo ou Isaac Sim. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans la publication ; il s'agit d'une contribution académique sans produit commercial annoncé.

RecherchePaper

1 source

ObsGraph : représentation hiérarchique des observations pour le raisonnement incarné et l'exploration

33

4arXiv cs.RO

ObsGraph : représentation hiérarchique des observations pour le raisonnement incarné et l'exploration

Des chercheurs ont soumis le 24 juin 2026 sur arXiv (identifiant 2606.24068) un système baptisé ObsGraph, une représentation hiérarchique de scène centrée sur l'observation, destinée aux agents robotiques déployés dans des environnements complexes et inconnus. L'architecture repose sur trois couches emboîtées : les pièces (rooms), qui fournissent des ancres sémantiques grossières à l'échelle d'une zone ; les vues (views), qui préservent la co-visibilité contextuelle des objets dans un même champ ; et les objets (objects), qui stockent les détails fins nécessaires à l'exécution des tâches. Sur cette représentation, ObsGraph exécute une récupération d'information hiérarchique contrainte par un budget computationnel, du plus grossier au plus précis, puis utilise les résultats obtenus pour structurer dynamiquement la stratégie d'exploration : activation de l'exploration au niveau pièce, raffinement de vue, ou exploration de frontière (frontier exploration). La contribution centrale est le couplage serré entre représentation, récupération et exploration adaptative, là où la majorité des approches existantes traitent ces trois composantes de manière découplée. En pratique, ce que l'agent a déjà observé détermine directement où il cherche ensuite, réduisant l'exploration redondante. Les expériences sur des benchmarks d'embodied reasoning et d'exploration montrent des améliorations en taux de réussite et en efficacité, mais les auteurs ne publient pas de chiffres précis dans le résumé de la pré-publication, ce qui limite l'évaluation indépendante à ce stade. Pour un intégrateur ou un COO industriel, ce type de système pointe vers des agents capables de naviguer dans un entrepôt ou un atelier non cartographié avec un budget d'exploration réduit, un point critique pour les déploiements en environnements non structurés. Ce travail s'inscrit dans la dynamique plus large de l'embodied AI, où l'enjeu est de faire raisonner des agents sur des scènes inédites sans carte préexistante. Les approches concurrentes incluent les semantic maps, les topological graphs, et les modèles VLA (Vision-Language-Action) qui intègrent raisonnement et contrôle moteur dans un même réseau de neurones. ObsGraph se positionne comme une couche mémoire et représentation complémentaire à ces modèles d'action, et non comme un système de contrôle moteur à part entière. Il s'agit pour l'instant d'un preprint arXiv sans déploiement réel ni partenariat industriel annoncé ; la prochaine étape logique serait une intégration avec des frameworks robotiques comme ROS 2 ou des systèmes VLA déjà validés en conditions réelles, afin de mesurer le gain effectif au-delà des benchmarks académiques.

RecherchePaper

1 source

PhysGraph : un graphe de scène 3D intégrant la physique pour la perception et le raisonnement

À lire aussi

Raisonnement sémantique relationnel sur des graphes de scènes 3D pour la recherche interactive d'objets en monde ouvert

NaviMaster : un modèle unifié pour la navigation dans les interfaces graphiques et dans les environnements physiques

Estimation de scènes encombrées prêtes pour la simulation par optimisation conjointe de forme et de pose intégrant la physique

ObsGraph : représentation hiérarchique des observations pour le raisonnement incarné et l'exploration