Aller au contenu principal
RecherchearXiv cs.RO1h

PhysGraph : un graphe de scène 3D intégrant la physique pour la perception et le raisonnement

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de recherche a publié PhysGraph en juin 2026 sur arXiv (référence 2606.08655), un cadre algorithmique qui construit des graphes de scène 3D physiquement ancrés à partir d'images RGB-D, caméras couleur couplées à un capteur de profondeur. Là où la plupart des systèmes de perception 3D se limitent à identifier sémantiquement les objets (reconnaissance, segmentation, récupération), PhysGraph modélise simultanément leurs propriétés physiques et cinématiques : masse, matériaux, et articulations (degrés de liberté, points de pivot). Le pipeline décompose chaque objet en parties fonctionnelles distinctes, associe les instances d'objets entre plusieurs prises de vue, puis infère via un raisonnement visuel les propriétés mécaniques de chaque composant. Évalué sur des jeux de données synthétiques et réels, le système revendique des résultats state-of-the-art en segmentation sémantique, en estimation de masse multi-objet, et en prédiction d'articulations.

L'enjeu dépasse la taxonomie académique. Pour la manipulation robotique en environnement industriel ou domestique, savoir qu'un objet est « un tiroir » n'est pas suffisant, le robot doit connaître son axe de rotation, la force nécessaire à son ouverture, et la localisation des poignées préhensibles. PhysGraph cible précisément ce gap en produisant des représentations exploitables pour la planification de tâches et la prédiction d'affordances sous contraintes physiques. L'application de transfert réel-vers-simulation (real-to-sim) est stratégiquement critique : convertir automatiquement une scène réelle en environnement simulé fidèle réduit le coût de génération de données d'entraînement pour les robots apprenants. Il convient cependant de nuancer : l'abstract ne précise ni les latences de traitement ni les conditions opérationnelles testées, ce qui rend difficile l'évaluation de la viabilité temps-réel.

Ce travail s'inscrit dans un espace de recherche dense autour des graphes de scène 3D ouverts, ConceptGraphs, OpenMask3D, et les travaux sur la manipulation d'objets articulés alimentés par les datasets PartNet et SAPIEN font figure de références directes. La prédiction d'articulations reste l'un des problèmes les plus ouverts de la robotique incarnée, aux côtés du fossé sim-to-real. Aucun partenaire industriel ni déploiement pilote n'est mentionné : PhysGraph en est au stade de contribution de recherche, sans timeline de productisation annoncée. Les prochaines étapes naturelles seraient la validation sur des manipulateurs réels en boucle fermée et la publication du code.

À lire aussi

Raisonnement sémantique relationnel sur des graphes de scènes 3D pour la recherche interactive d'objets en monde ouvert
1arXiv cs.RO 

Raisonnement sémantique relationnel sur des graphes de scènes 3D pour la recherche interactive d'objets en monde ouvert

Des chercheurs présentent SCOUT (Scene Graph-Based Exploration with Learned Utility), un système permettant à un robot domestique de retrouver un objet inconnu dans un environnement ouvert, sans carte préalable ni liste d'objets fixe. Publié sur arXiv (2603.05642v2), le travail propose de représenter l'environnement sous forme de graphes de scène 3D, où chaque pièce, chaque frontière inexplor ée et chaque objet reçoit un score d'utilité calculé à partir d'heuristiques relationnelles : la probabilité qu'un objet cible se trouve dans telle pièce (containment), ou qu'il soit co-localisé avec d'autres objets connus (co-occurrence). Le robot explore ainsi en priorité les zones les plus prometteuses, sans interroger un LLM à chaque étape. Pour conserver la généralisation en vocabulaire ouvert, les auteurs introduisent un cadre de distillation procédurale hors ligne : les connaissances relationnelles sont extraites d'un grand modèle de langage une fois, puis compressées dans des modèles légers exécutables directement sur le robot. Un benchmark symbolique baptisé SymSearch est également proposé pour évaluer le raisonnement sémantique dans ce type de tâches. L'enjeu central est l'équilibre entre pertinence sémantique et faisabilité temps réel, un point de friction majeur pour les intégrateurs en robotique de service. Les méthodes fondées sur la similarité d'embeddings vision-langage (type CLIP) sont rapides mais échouent sur les relations contextuelles : un robot cherchant un médicament ne déduit pas spontanément "salle de bain" depuis un embedding. Les LLMs résolvent cela mais sont trop lents et trop coûteux pour un déploiement embarqué. SCOUT, selon les évaluations menées en simulation et dans des environnements physiques réels, égale les performances des LLMs tout en restant computationnellement léger, ce qui ouvre la voie à une navigation sémantique réactive sur du matériel standard. La démonstration en environnement réel, avec des contraintes de capteurs et de navigation authentiques, atténue en partie le reproche habituel de sim-to-real gap, même si aucune métrique quantitative de transfert n'est détaillée dans le résumé. Ce travail s'inscrit dans un champ actif depuis les approches de navigation sémantique par graphes de scène (ScanQA, SceneGraph-Fusion, 3DSG), face auxquelles SCOUT se distingue par la distillation offline plutôt que par l'appel LLM en ligne. Les concurrents directs incluent les méthodes basées sur ESC, CoNaV ou L3MVN, qui exploitent des embeddings ou des LLMs pour guider l'exploration. Aucune intégration industrielle ni partenariat commercial n'est annoncé à ce stade : il s'agit d'une contribution académique avec benchmark et expériences réelles, dont la prochaine étape naturelle serait une évaluation sur des plateformes robotiques standards comme Spot ou Hello Robot Stretch.

RecherchePaper
1 source
NaviMaster : un modèle unifié pour la navigation dans les interfaces graphiques et dans les environnements physiques
2arXiv cs.RO 

NaviMaster : un modèle unifié pour la navigation dans les interfaces graphiques et dans les environnements physiques

NaviMaster (arXiv:2508.02046, version 4 du preprint) est un agent d'intelligence artificielle qui unifie dans un seul modèle deux types de navigation habituellement traités séparément : la navigation en interface graphique (GUI, pilotage d'applications et de menus) et la navigation embodied (déplacement d'un agent physique ou simulé dans un espace 3D). Le système repose sur l'observation que ces deux problèmes se formulent comme des Processus de Décision Markoviens (MDP), ce qui autorise une architecture et un entraînement communs. NaviMaster introduit trois contributions techniques : un pipeline de collecte de trajectoires à cible visuelle applicable aux deux domaines via une formulation unifiée, un cadre d'apprentissage par renforcement (RL) entraîné sur données mixtes pour améliorer la généralisation, et une récompense dite "distance-aware" conçue pour accélérer l'apprentissage à partir des trajectoires collectées. Évalué sur des benchmarks hors-domaine, il surpasse les agents spécialisés de l'état de l'art sur trois tâches : navigation GUI, prédiction d'affordance spatiale et navigation embodied. Les codes, données et checkpoints sont publiés en open source. L'intérêt de NaviMaster est moins dans ses performances brutes sur chaque tâche isolée que dans la démonstration que GUI et navigation physique peuvent partager une même représentation apprise. Jusqu'ici, ces deux domaines s'appuyaient sur des datasets distincts, des architectures incompatibles et des paradigmes d'entraînement divergents. Pour les équipes travaillant sur des modèles VLA (Vision-Language-Action) ou sur des systèmes multi-tâches, c'est une preuve de concept que la généralisation cross-domaine par RL mixte est faisable à cette échelle. Les études d'ablation publiées confirment que la stratégie de mélange de données et la récompense distance-aware contribuent toutes deux de manière mesurable aux gains finaux, ce qui renforce la crédibilité des choix architecturaux au-delà du résultat global. NaviMaster s'inscrit dans une dynamique de convergence croissante entre agents logiciels et agents physiques. Il se positionne face à des agents GUI spécialisés comme CogAgent ou SeeAct d'un côté, et à des modèles de navigation embodied comme RT-2 ou OpenVLA de l'autre. Les benchmarks de référence sont Web-Arena et OSWorld pour le versant GUI, Habitat pour le versant physique. La présence d'une version v4 sur arXiv signale un processus de révision actif, probablement en direction d'une conférence majeure (ICLR, NeurIPS ou ICRA). L'article ne mentionne aucun déploiement industriel ni partenariat, ce qui place NaviMaster au stade de la preuve de concept académique.

RechercheOpinion
1 source
Estimation de scènes encombrées prêtes pour la simulation par optimisation conjointe de forme et de pose intégrant la physique
3arXiv cs.RO 

Estimation de scènes encombrées prêtes pour la simulation par optimisation conjointe de forme et de pose intégrant la physique

Une équipe de chercheurs publie sur arXiv (réf. 2602.20150, v2, février 2026) SPARCS, un pipeline de reconstruction de scènes directement exploitables en simulation physique à partir d'observations réelles. Le système estime simultanément la forme géométrique et la pose de plusieurs objets rigides en interaction, dans des environnements encombrés comportant jusqu'à cinq objets représentés par 22 enveloppes convexes. Deux contributions techniques distinguent l'approche : un modèle de contact à différentiabilité de forme globale permettant l'optimisation conjointe géométrie-pose tout en modélisant les contacts inter-objets, et un solveur linéaire exploitant la sparsité structurée du Hessien Lagrangien augmenté, dont le coût de calcul croît favorablement avec la complexité de la scène. Le pipeline complet enchaîne initialisation par réseau de neurones, optimisation physique contrainte et raffinement différentiable des textures. L'intérêt industriel est direct : les pipelines d'apprentissage de politiques robotiques, qu'ils reposent sur l'imitation learning ou le reinforcement learning, sont freinés par la rareté de scènes simulées physiquement cohérentes. Générer automatiquement ces scènes à partir du réel réduit le fossé real-to-sim qui fragilise ensuite le transfert sim-to-real. Là où les méthodes existantes échouent dans les environnements denses (coût computationnel prohibitif, robustesse insuffisante, portée limitée à un seul objet), SPARCS traite plusieurs objets en contact simultané. Pour un intégrateur développant des systèmes de manipulation ou un laboratoire travaillant sur des robots humanoïdes, cela ouvre une voie crédible vers la génération automatique de données d'entraînement directement issues de scènes réelles. Le domaine real-to-sim est en forte expansion depuis 2023, principalement tiré par l'entraînement de modèles vision-action (VLA) comme pi0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Les approches concurrentes telles que BundleSDF (Meta / University of Washington) privilégient la reconstruction 6-DoF d'objets inconnus, tandis que les méthodes NeRF et 3D Gaussian Splatting maximisent la fidélité visuelle sans garanties physiques. SPARCS se différencie par son orientation explicitement "simulation-ready" : les scènes produites sont directement injectables dans des simulateurs comme MuJoCo ou Isaac Sim. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans la publication ; il s'agit d'une contribution académique sans produit commercial annoncé.

RecherchePaper
1 source
Raisonnement par graphe de zones sémantiques pour la recherche multi-robots guidée par le langage
4arXiv cs.RO 

Raisonnement par graphe de zones sémantiques pour la recherche multi-robots guidée par le langage

Une équipe de chercheurs a publié SAGR (Semantic Area Graph Reasoning), un framework hiérarchique permettant à des grands modèles de langage (LLM) de coordonner des essaims multi-robots pour la recherche sémantique en environnement inconnu. Évalué sur 100 scénarios du dataset Habitat-Matterport3D, SAGR affiche jusqu'à 18,8 % de gain d'efficacité sur la recherche de cibles sémantiques dans les grands environnements, tout en restant compétitif avec les méthodes d'exploration state-of-the-art basées sur la couverture de frontières. Le système construit incrémentalement un graphe sémantique de zones à partir d'une carte d'occupation sémantique, encodant instances de pièces, connectivité, frontières disponibles et états des robots dans une représentation compacte transmise au LLM pour le raisonnement de haut niveau. La navigation locale et la planification géométrique restent déterministes. L'apport central est architectural : SAGR résout le problème d'interface entre raisonnement symbolique et coordination géométrique, un point de friction récurrent dans les systèmes multi-robots. Les approches classiques (frontier coverage, information gain) sont aveugles à l'intention de tâche, elles ne savent pas qu'une « cafetière » se trouve probablement dans une cuisine, pas un couloir. SAGR délègue cette inférence contextuelle au LLM via une abstraction topologique structurée, sans exposer le modèle au bruit d'une carte brute. C'est une séparation claire des responsabilités : le LLM raisonne sur la sémantique des pièces, les robots exécutent localement. Pour un intégrateur ou un opérateur d'entrepôt multi-AGV, cela ouvre la voie à des instructions en langage naturel comme « trouve le chariot de nettoyage » sans reconfiguration de la logique de navigation. Ce travail s'inscrit dans une tendance forte de 2024-2025 : l'injection de LLM dans la boucle de planification robotique, aux côtés de travaux comme SayPlan (Rana et al.), NavGPT ou des approches VLA type RT-2 et π₀. SAGR se distingue en ciblant explicitement la coordination multi-agent plutôt que le robot unique, et en validant sur un benchmark standardisé (HM3D) plutôt qu'en démo lab. La prochaine étape logique sera le passage du simulateur au réel, le sim-to-real gap sur la segmentation sémantique restant le principal obstacle non adressé par les auteurs.

RechercheActu
1 source