Aller au contenu principal
Génération de graphes de scène 3D actifs à partir de caméras RGB pour robots mobiles d'intérieur
RecherchearXiv cs.RO6sem

Génération de graphes de scène 3D actifs à partir de caméras RGB pour robots mobiles d'intérieur

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié le 26 mai 2026 sur arXiv (ref. 2605.18197) un framework permettant de construire des graphes de scène 3D en temps réel à partir de caméras RGB standard uniquement, sans capteur de profondeur dédié (LiDAR ou caméra RGB-D). Le système fonctionne de manière active et incrémentale : le robot sélectionne ses prochains points de vue en fonction de l'état courant du graphe partiellement construit, plutôt que de parcourir une trajectoire prédéfinie. Les expériences menées sur le dataset Replica montrent que le pipeline RGB-only atteint une parité de F1-score avec les baselines utilisant une profondeur ground-truth. Sur ReplicaCAD, l'exploration sémantique active détecte plus du double d'objets qu'une baseline frontier-based géométrique classique, à budget d'exploration identique. Le framework intègre également des caméras fixes externes, permettant d'amorcer le graphe de scène sans coût d'exploration supplémentaire pour le robot.

Ce résultat est techniquement significatif parce qu'il décorrèle la construction de représentations métriques 3D riches de la nécessité d'un hardware spécialisé. Jusqu'ici, les scène graphs 3D étaient réservés aux plateformes équipées de capteurs profondeur (Boston Dynamics Spot avec lidar, plateformes AMR comme celles de Locus ou 6 River Systems). Ouvrir ces représentations à des caméras RGB banales abaisse le coût d'entrée et permet d'exploiter des flux vidéo d'infrastructure fixe (CCTV, caméras d'entrepôt) comme source de données complémentaires. La sélection active de viewpoints basée sur la sémantique du graphe, et non sur la géométrie seule, suggère que les VLA (Vision-Language-Action models) embarqués pourraient bénéficier directement de représentations environnementales plus denses et mieux informées.

La génération de scene graphs 3D pour la robotique mobile s'appuie sur des travaux antérieurs comme 3D-SGG (CVPR 2020) et les pipelines SLAM-sémantique (SemanticFusion, Hydra de MIT SPARK Lab). La contrainte RGB-only rapproche ce travail des approches monoculaires comme MonoDepth ou DPT, désormais suffisamment robustes pour estimer la géométrie à l'échelle métrique. Les concurrents directs incluent les pipelines basés Open3D-SLAMgraph et les frameworks de mapping neuronaux (NeRF-based mapping). Ce papier est pour l'instant un preprint non peer-reviewed ; aucun déploiement industriel ni partenariat n'est annoncé, et les benchmarks restent sur des environnements simulés, ce qui laisse ouverte la question du sim-to-real gap sur des scènes encombrées réelles.

À lire aussi

Caméras externes fixes comme cartes de référence communes pour la génération active de graphes de scènes 3D
1arXiv cs.RO 

Caméras externes fixes comme cartes de référence communes pour la génération active de graphes de scènes 3D

Des chercheurs ont publié sur arXiv (réf. 2605.18184) un framework RGB-only permettant à un robot de construire incrémentalement un graphe de scène 3D (3DSG) en exploitant des caméras fixes extérieures comme cartes a priori communes, désignées sous le terme "Common Prior Maps" (CPMs). Le principe : avant même que le robot ne commence à se déplacer, une ou plusieurs caméras RGB fixes, caméras de surveillance, caméras d'atelier déjà en place, fournissent une vue large de l'environnement qui initialise une représentation sémantique et géométrique de la scène. Le système fusionne ensuite les observations embarquées (caméra du robot) et extérieures dans un pipeline unique, sans modification matérielle, en traitant chaque flux caméra de manière identique via un modèle de reconstruction 3D feed-forward. Résultat mesuré : l'intégration d'une seule caméra externe augmente le rappel initial d'objets de +79 %, et l'exploration active subséquente devient significativement plus efficace grâce à ce contexte enrichi. L'intérêt opérationnel est direct pour les intégrateurs robotiques en environnement industriel ou logistique : l'infrastructure caméra fixe est souvent déjà déployée (sécurité, supervision), et la pouvoir réutiliser comme prior sémantique évite le coût d'un SLAM à froid complet. Le graphe de scène 3D oriente ensuite l'exploration active du robot vers les zones de haute incertitude sémantique, ce qui réduit le temps de cartographie utile. L'approche contredit une hypothèse courante selon laquelle la reconstruction 3D précise exigerait obligatoirement des capteurs de profondeur (LiDAR, RGB-D), ici, RGB seul suffit via un modèle feed-forward, ce qui abaisse le seuil matériel d'entrée. Le gain de +79 % en rappel initial est notable, mais il convient de noter que ce chiffre est mesuré en début d'exploration : l'article ne détaille pas les conditions exactes des scènes de test ni la diversité des configurations d'occlusion. Cette recherche s'inscrit dans une dynamique active autour des graphes de scène pour la robotique autonome, après des travaux fondateurs comme 3DSG (MIT, 2020) et les approches Hydra (MIT SPARK Lab). Elle se distingue des méthodes classiques de cartographie sémantique en exploitant des informations a priori déjà disponibles dans de nombreux déploiements industriels, plans BIM, images de télédétection, flux caméra fixes, plutôt que de partir d'une page blanche. Aucune collaboration industrielle ni timeline de transfert n'est mentionnée dans la publication ; le travail reste pour l'instant au stade de la démonstration académique. Les prochaines étapes naturelles seraient l'évaluation sur des scènes dynamiques peuplées d'humains ou d'AMR, et l'intégration avec des pipelines de planification de tâches en aval.

RecherchePaper
1 source
GRAIL : génération de loco-manipulation pour humanoïdes à partir d'actifs 3D et de vidéos
2arXiv cs.RO 

GRAIL : génération de loco-manipulation pour humanoïdes à partir d'actifs 3D et de vidéos

Une équipe de chercheurs publie GRAIL (Generating Humanoid Loco-Manipulation from 3D Assets and Video Priors, arXiv:2606.05160), un pipeline entièrement virtuel qui génère des données d'entraînement en loco-manipulation humanoïde sans télé-opération ni capture de mouvement physique. La méthode compose des actifs 3D paramétrés, des scènes simulées et des modèles fondamentaux vidéo (VFM) pour reconstruire des trajectoires d'interaction humain-objet (HOI) en 4D à l'échelle métrique, en conditionnant la génération vidéo sur des configurations entièrement spécifiées : géométrie, paramètres caméra, profondeur de scène et personnage aux proportions humanoïdes, ce qui réduit l'ambiguïté de profondeur et le mismatch morphologique habituels. Le pipeline produit plus de 20 000 séquences couvrant ramassage d'objets, manipulation, assise et traversée de terrains variés. Entraîné uniquement sur ces données synthétiques via un pipeline sim-to-real, le système atteint 84 % de succès en préhension d'objets divers et 90 % en montée d'escaliers sur un Unitree G1 en conditions réelles ; l'article, soumis sur arXiv en juin 2026, est une prépublication non encore évaluée par les pairs. Ce travail s'attaque au principal goulot d'étranglement de la robotique humanoïde : générer des données de démonstration diversifiées à grande échelle sans mobiliser de temps-robot ni d'opérateurs spécialisés. La télé-opération et la mocap exigent des configurations physiques dédiées et un robot disponible à chaque session, ce qui plafonne le débit de production de données ; GRAIL déplace intégralement ce coût vers la simulation, rendant possible la composition de données pour des objets, scènes et mouvements corporels inédits. Les résultats de 84 % et 90 % en conditions réelles constituent un signal positif sur la réduction du gap sim-to-real, du moins pour ces classes de tâches. Une réserve s'impose cependant : le résumé ne détaille ni les objets testés ni le protocole de sélection des séquences d'évaluation, ce qui rend toute comparaison indépendante prématurée avant la publication complète. GRAIL s'inscrit dans une course à la donnée synthétique que se livrent les principaux laboratoires de robotique humanoïde, aux côtés des pipelines World Model de Figure AI et 1X Technologies, de RoboVerse (Microsoft Research) et des environnements Genesis pour la simulation physique générative. La distinction de GRAIL réside dans le conditionnement fort sur des actifs 3D préalables, un choix qui améliore la précision de la reconstruction 4D mais suppose la disponibilité d'assets de qualité pour chaque objet cible. Le robot retenu, l'Unitree G1, est commercialisé autour de 16 000 dollars, rendant la reproduction des résultats accessible à de nombreuses équipes académiques, contrairement aux plateformes propriétaires des acteurs industriels. Les affiliations des auteurs ne figurant pas dans le résumé arXiv disponible, les suites naturelles annoncées comprennent les tâches bimanuelles, les environnements dynamiques et l'intégration dans des pipelines VLA (Vision-Language-Action) pour la généralisation à des objets et contextes non vus lors de l'entraînement.

UELes laboratoires académiques européens spécialisés en robotique humanoïde (INRIA, CEA-List) pourraient adopter ce pipeline de génération de données synthétiques pour réduire leur dépendance à la télé-opération et à la mocap, mais aucun acteur FR/UE n'est directement impliqué dans ces travaux.

RecherchePaper
1 source
Navigation par apprentissage pour robots mobiles en intérieur
3arXiv cs.RO 

Navigation par apprentissage pour robots mobiles en intérieur

Des chercheurs ont publié sur arXiv (référence 2605.30468) un framework de navigation hybride pour robots mobiles intérieurs, combinant un planificateur global neuronal et un planificateur local affiné par apprentissage par renforcement. Le planificateur global est un réseau de neurones supervisé, entraîné à partir de trajectoires générées par un algorithme A* pondéré par les coûts, ce qui lui permet de produire des routes globalement cohérentes et évitant les zones dangereuses. Le planificateur local, baptisé Learning-Based DWA, reformule l'approche classique Dynamic Window Approach (DWA) comme un problème de sélection discrète sur une grille d'actions prédéfinies. La politique locale est d'abord initialisée par clonage comportemental (imitation d'un expert), puis optimisée par Proximal Policy Optimization (PPO) avec un masquage de faisabilité, un mécanisme éliminant les actions physiquement irréalisables ou à risque de collision avant même l'exploration. Les résultats expérimentaux, conduits en simulation et en environnement réel intérieur, montrent une navigation sûre et fiable vers des objectifs en présence d'obstacles. L'intérêt de cette contribution réside dans son positionnement hybride : plutôt que d'abandonner DWA au profit d'une approche entièrement apprise, les auteurs l'utilisent comme squelette structurant pour contraindre le problème d'apprentissage. Ce choix de conception présente deux avantages pour les intégrateurs. D'abord, le masquage de faisabilité réduit l'espace d'exploration du policy gradient aux seules actions physiquement admissibles, limitant les comportements dangereux en phase d'apprentissage et facilitant le transfert sim-to-réel. Ensuite, conserver la logique DWA comme substrat rend la politique plus interprétable qu'un réseau boîte noire, un critère non négligeable pour les déploiements industriels soumis à certification. La méthode démontre qu'un classique de la robotique réactive, largement jugé dépassé par les approches end-to-end, peut encore être un socle pertinent pour des pipelines d'apprentissage modernes. Le DWA a été introduit par Fox, Burgard et Thrun en 1997 et reste une brique fondamentale des stacks de navigation ROS et Nav2, déployés sur une large partie des flottes d'AMR (robots mobiles autonomes) industriels actuels. C'est dans cet écosystème très installé que s'inscrit ce travail, face à des approches concurrentes plus radicales : navigation end-to-end par apprentissage (ETH Zurich, MIT CSAIL), planificateurs à modèle comme TEB ou MPPI, et méthodes VLA émergentes pour la navigation en langage naturel. Les auteurs annoncent la mise à disposition du code source sur leur page projet. Aucun partenaire industriel ni déploiement commercial n'est mentionné : il s'agit d'une contribution de recherche académique, pas d'un produit commercialisé.

RecherchePaper
1 source
SceneSmith : génération à base d'agents de scènes intérieures prêtes pour la simulation
4arXiv cs.RO 

SceneSmith : génération à base d'agents de scènes intérieures prêtes pour la simulation

SceneSmith est un framework agentique hiérarchique, présenté dans un preprint arXiv (2602.09153v2), qui génère des environnements intérieurs prêts pour la simulation robotique à partir de prompts en langage naturel. Le pipeline décompose la génération en trois étapes successives : layout architectural, placement de meubles, peuplement d'objets de petite taille. Chaque étape est pilotée par un trio d'agents VLM (vision-language model) jouant les rôles de designer, critique et orchestrateur. Pour les objets statiques, SceneSmith utilise la synthèse texte-vers-3D ; pour les objets articulés (portes, tiroirs, armoires), il interroge des bases de données d'assets existantes et estime automatiquement les propriétés physiques. Les résultats mesurés : 3 à 6 fois plus d'objets que les méthodes concurrentes, moins de 2 % de collisions inter-objets, 96 % des objets stables sous simulation physique. Une étude utilisateur conduite auprès de 205 participants donne à SceneSmith 92 % de taux de victoire sur le réalisme et 91 % sur la fidélité aux prompts face aux baselines -- des chiffres à interpréter avec prudence, les études perceptuelles restant par nature subjectives. L'enjeu central est le sim-to-real gap : les environnements synthétiques actuels sont trop épars et trop ordonnés pour que les politiques apprises soient transférables dans un foyer réel. SceneSmith cible directement ce problème en générant des scènes denses et encombrées, avec des objets articulés et des propriétés physiques cohérentes. Si les métriques annoncées résistent à une évaluation indépendante, cela réduit significativement le coût de constitution de jeux de données de simulation pour l'entraînement de politiques de manipulation, qu'il s'agisse de VLA ou de diffusion policies -- un besoin direct d'équipes comme Physical Intelligence ou Skild AI. Les auteurs démontrent que le pipeline s'intègre dans une boucle d'évaluation automatique de politiques robotiques, ce qui est précisément l'étape manquante pour industrialiser le cycle entraînement-évaluation en simulation. La génération automatique d'environnements intérieurs pour la robotique repose depuis des années sur des datasets à annotation manuelle coûteuse comme AI2-THOR, iGibson ou BEHAVIOR-1K, ou sur la génération procédurale (ProcTHOR), dont les scènes manquent de réalisme et de densité. SceneSmith s'inscrit dans une tendance plus large d'orchestration par LLM et VLM pour la génération 3D, une voie également explorée par Holodeck (Allen Institute for AI) et RoomDreamer. Aucun partenariat industriel ni timeline de déploiement n'est mentionné dans le papier, ce qui en fait pour l'instant une contribution de recherche, sans acteur français ou européen identifiable dans l'écosystème décrit. La connexion directe à l'évaluation de politiques signale néanmoins une ambition claire d'intégration dans des pipelines d'entraînement réels, à mesure que la course aux robots domestiques s'intensifie.

RecherchePaper
1 source