Aller au contenu principal
Perception active et contrôle tenant compte des conflits dans les champs de Gaussian Splatting 3D via des fonctions barrière de contrôle
RecherchearXiv cs.RO7h

Perception active et contrôle tenant compte des conflits dans les champs de Gaussian Splatting 3D via des fonctions barrière de contrôle

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (référence 2605.20566) un cadre algorithmique baptisé "conflict-aware active perception and control" pour robots évoluant dans des environnements modélisés par 3D Gaussian Splatting (3DGS). L'approche repose sur un programme quadratique unifié qui traite simultanément deux objectifs antagonistes : la sécurité, imposée comme contrainte dure via une Control Barrier Function (CBF), et l'acquisition d'information, traitée comme contrainte souple assouplie par des variables de relâchement (slack variables). La CBF est dérivée d'une métrique de risque de collision dite Average Value-at-Risk (AV@R), qui intègre l'incertitude géométrique de la carte et garantit mathématiquement l'invariance avant d'un ensemble sûr. Pour maximiser la perception, le système sélectionne la prochaine meilleure vue (next-best-view) via une formulation risk-aware de l'Expected Information Gain (EIG), et oriente la caméra vers la direction de montée d'information locale grâce à des "perception barrier functions". Les résultats présentés sont issus de simulations uniquement, sans validation sur plateforme physique.

Le problème central que ce travail adresse est structurel : dans un environnement partiellement inconnu, les vues les plus informatives se trouvent précisément dans les zones les moins cartographiées, donc les plus à risque de collision. Les approches existantes basées sur 3DGS traitaient ces deux objectifs séparément ou par simple pondération, sans garanties formelles. Formuler la sécurité comme contrainte inviolable tout en relaxant la perception permet aux décideurs B2B et aux intégrateurs robotiques d'envisager des robots d'exploration actifs qui cartographient des environnements industriels non balisés sans compromis ad hoc entre productivité et sécurité. L'amélioration simultanée de la sécurité et du gain d'information, comparée aux méthodes 3DGS concurrentes, constitue un signal technique intéressant, même si l'absence d'expériences réelles limite pour l'instant la portée de la validation.

Le 3DGS s'est imposé comme représentation de référence pour les champs de radiance neuronaux depuis 2023, supplantant progressivement le NeRF grâce à sa vitesse de rendu et sa différentiabilité. Les CBF sont un outil établi en commande sûre, mais leur intégration dans des champs neuronaux pour la perception active reste un axe de recherche émergent. Aucune institution ni entreprise n'est explicitement nommée dans l'abstract, et aucun déploiement industriel n'est annoncé. Les concurrents directs sont les méthodes d'exploration active basées NeRF et les planificateurs next-best-view classiques. Les prochaines étapes naturelles seraient une validation sim-to-real sur plateforme physique et des tests dans des scènes plus complexes.

Dans nos dossiers

À lire aussi

Barrières neuronales dans l'espace de configuration pour la planification et le contrôle de manipulation
1arXiv cs.RO 

Barrières neuronales dans l'espace de configuration pour la planification et le contrôle de manipulation

Des chercheurs proposent, dans un préprint arXiv (référence 2503.04929, troisième version, mars 2025), une méthode unifiée de planification de trajectoire et de contrôle sécurisé pour bras manipulateurs à haute dimensionnalité en environnement encombré et dynamique. Le coeur de l'approche repose sur l'apprentissage d'une fonction de distance en espace de configuration (CDF, Configuration-space Distance Function) via un réseau de neurones, utilisée simultanément comme outil de vérification de collision pendant la planification et comme barrière de sécurité en temps réel pendant le contrôle. Les expériences matérielles ont été réalisées sur un xArm6 d'UFactory, un manipulateur à 6 degrés de liberté vendu autour de 2 000 dollars, en conditions réelles. Le système ne s'appuie que sur des observations de nuages de points (point-cloud) embarquées, sans infrastructure de perception externe. La planification de trajectoire pour bras multi-axes en environnement non structuré repose classiquement sur des vérifications de collision nombreuses et coûteuses : chaque configuration candidate est testée contre un modèle de l'environnement. La CDF barrier réduit significativement ce nombre d'opérations en approximant localement l'espace libre en configuration. L'apport le plus concret pour les intégrateurs est ailleurs : un réseau de neurones introduit des erreurs de modélisation, et les capteurs ajoutent inévitablement du bruit. La formulation "distributivement robuste" retenue par les auteurs ne suppose aucune distribution statistique connue pour ces incertitudes, ce qui la rend applicable sans calibration préalable fine dans des scénarios industriels réels. C'est une réponse directe au fossé souvent observé entre performances en simulation et comportement effectif sur matériel, particulièrement critique pour des applications de manipulation en cellule dynamique. Ce travail s'inscrit dans une tendance accélérée à remplacer les représentations géométriques analytiques (maillages, distances signées calculées) par des représentations apprises en espace de configuration. Les Control Barrier Functions (CBFs), dont les CDF barriers constituent une extension neurale, sont issues de la théorie du contrôle formel et font l'objet d'un intérêt croissant depuis cinq ans. Parmi les approches concurrentes pour accélérer la vérification de collision : cuRobo de NVIDIA, VAMP (basé sur la décomposition convexe), ou les champs de distance signée neuronaux comme iSDF. Le choix du xArm6, bras commercial accessible et reproductible, renforce la portée pratique des résultats. L'existence d'une troisième version du préprint suggère des révisions substantielles en cours ; une soumission à ICRA ou RSS 2026 apparaît probable.

RecherchePaper
1 source
Gaussian Splatting anticipatif pour la représentation 3D prédictive en prise-et-dépose guidée par le langage
2arXiv cs.RO 

Gaussian Splatting anticipatif pour la représentation 3D prédictive en prise-et-dépose guidée par le langage

Une équipe de chercheurs a proposé sur arXiv (arXiv:2605.11144, mai 2026) un framework baptisé Forecast-GS (Forecast-aware Gaussian Splatting), destiné à la manipulation robotique guidée par le langage naturel. La contribution centrale consiste à modéliser explicitement l'état final attendu d'une tâche via une reconstruction 3D prédictive par Gaussian Splatting, plutôt que de raisonner uniquement sur la configuration courante de la scène. Validé sur trois tâches réelles de pick-and-place (cutter-vers-boîte, pomme-vers-bol, éponge-vers-plateau), le système atteint des taux de succès de 84 % (21/25), 92 % (23/25) et 64 % (16/25) en sélection automatique, contre 60 %, 76 % et 40 % pour la baseline ReKep (Relational Keypoint Constraints). En mode assisté par un opérateur humain pour le classement des candidats, les taux montent à 92 %, 96 % et 76 %, chaque condition étant testée sur 25 essais réels avec configurations initiales variées sur la même plateforme robotique. L'enjeu pratique est le suivant : la plupart des systèmes de manipulation actuels évaluent si une action est faisable depuis l'état présent, sans vérifier si l'état résultant satisfait l'objectif sémantique. Forecast-GS génère une prévision 3D de la scène post-action, que le robot compare à l'instruction en langage naturel avant d'exécuter, ce qui réduit les erreurs en présence d'observations partielles ou d'occlusions. Pour un intégrateur industriel, l'interprétabilité de ce mécanisme, contrairement aux politiques VLA end-to-end comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA), facilite le débogage et la traçabilité. L'écart persistant entre mode automatique et assisté (jusqu'à 12 points de taux de succès) indique cependant que le ranking final des candidats n'est pas encore un problème résolu. Le Gaussian Splatting, introduit en 2023 par Kerbl et al. à SIGGRAPH, a été rapidement adopté en robotique pour ses représentations 3D différentiables et compactes. Forecast-GS s'inscrit dans un courant qui hybride représentations neuronales 3D et planification guidée par le langage, en compétition directe avec ReKep (Stanford/Berkeley), SpatialVLA, et les approches VLA génératives. Aucun partenariat industriel ni calendrier de déploiement n'est mentionné dans la publication. Les prochaines étapes logiques portent sur l'amélioration du classement automatique, principal goulot d'étranglement vers l'autonomie complète, et sur l'extension à des scènes dynamiques plus complexes que les configurations statiques de laboratoire utilisées ici.

RecherchePaper
1 source
Génération automatique d'arbres de comportement par VLM pour le transfert réel-vers-simulation via perception active
3arXiv cs.RO 

Génération automatique d'arbres de comportement par VLM pour le transfert réel-vers-simulation via perception active

Une équipe de chercheurs propose dans un article arXiv (2601.08454) un pipeline Real2Sim piloté par l'intention, qui automatise la construction d'environnements de simulation physiquement précis à partir d'une instruction en langage naturel. Un modèle vision-langage (VLM) analyse une observation visuelle et une description de simulation incomplète pour identifier le sous-ensemble minimal de paramètres physiques manquants (masse des objets, géométrie de surface, friction), puis génère automatiquement un arbre de comportement (Behavior Tree, BT) composé de primitives motrices et sensorielles atomiques pour les acquérir par interaction physique avec l'environnement. Les expériences ont été conduites sur un bras Franka Emika Panda à contrôle en couple (7 DOF), manipulateur standard en recherche robotique. Les résultats indiquent des gains d'efficacité opérationnelle significatifs par rapport aux méthodes d'exploration exhaustive, validés par des études d'ablation sur plusieurs VLMs de référence, mais les chiffres précis de performance ne sont pas fournis dans l'abstract, ce qui limite la comparabilité externe. L'apport principal est le remplacement de pipelines d'identification système manuels par une stratégie sémantique : au lieu d'explorer exhaustivement l'environnement, le système ne collecte que les données pertinentes pour la tâche demandée, réduisant les interactions redondantes. Pour les équipes travaillant sur des jumeaux numériques industriels, cela représente un gain potentiel en temps de calibration avant déploiement. Le BT joue également un rôle de filtre de sécurité déterministe : sa hiérarchie réactive intercepte les hallucinations du VLM et prévient les anomalies physiques dangereuses, ce qui est non-négligeable pour une application en conditions réelles. Cette combinaison, intelligence sémantique du VLM associée à la robustesse déterministe du BT, constitue l'aspect architectural le plus notable du travail. La construction de simulations fidèles au réel est un verrou classique du déploiement robotique : un jumeau numérique mal calibré amplifie le sim-to-real gap qui dégrade les politiques apprises en simulation, problème central pour les VLA (Vision-Language-Action) actuels. Côté concurrence, Physical Intelligence (pi0), Google DeepMind (successeurs de RT-2) et des projets open-source comme LeRobot de Hugging Face investissent tous dans des pipelines sim-to-real plus robustes. L'utilisation des BT comme couche d'interprétabilité face aux modèles génératifs s'inscrit dans une tendance plus large visant à rendre les LLM/VLM compatibles avec des contraintes de sécurité industrielle. Les prochaines étapes logiques seraient d'étendre le pipeline à des robots mobiles ou des plateformes humanoïdes, et de publier des benchmarks complets permettant une comparaison rigoureuse avec les méthodes d'identification système existantes.

RecherchePaper
1 source
COMPASS : planification de la manipulation en espace confiné par perception active
4arXiv cs.RO 

COMPASS : planification de la manipulation en espace confiné par perception active

Des chercheurs ont publié COMPASS (Confined-space Manipulation Planning with Active Sensing Strategy), un framework multi-étapes destiné à résoudre la manipulation robotique en environnements confinés et encombrés. La méthode repose sur trois composants enchaînés : un scan de proximité dit "near-field awareness" qui construit une carte locale de collision avant tout mouvement, une fonction d'utilité multi-objectifs qui sélectionne des points de vue à la fois informatifs et compatibles avec les poses de saisie ultérieures, et un optimiseur de manipulation contraint qui génère des configurations de préhension respectant les obstacles détectés. Les auteurs proposent également un benchmark structuré en quatre niveaux de difficulté croissante pour évaluer les méthodes d'exploration et de manipulation en espace restreint. En simulation, COMPASS affiche un gain de 24,25 points de pourcentage sur le taux de succès de manipulation par rapport aux méthodes d'exploration conçues pour d'autres types de robots ou n'optimisant que le gain d'information. Des expériences en conditions réelles confirment la faisabilité de l'approche. Ce résultat est significatif parce qu'il adresse directement l'un des angles morts du champ NBV (Next Best View) : les stratégies d'exploration existantes maximisent la couverture informationnelle sans tenir compte de la faisabilité de la manipulation qui suit. En couplant explicitement exploration et planification de saisie dans une même fonction d'utilité, COMPASS réduit l'écart entre "voir la scène" et "agir dessus". Pour un intégrateur industriel, cela signifie une réduction du nombre de cycles d'observation improductifs avant une prise, ce qui devient critique dans des applications comme la désassembly, le picking en bacs profonds, ou la maintenance en espaces contraints. La validation sim-to-real, même partielle, réduit le scepticisme habituel sur le transfert des méthodes d'exploration en laboratoire vers des contextes terrain. Le problème de la manipulation en espace confiné est étudié depuis plusieurs années dans la communauté planification-perception, mais reste ouvert faute de benchmarks standardisés et de méthodes intégrant les deux dimensions simultanément. COMPASS s'inscrit dans un mouvement plus large qui voit des frameworks comme Active Neural Mapping ou des planificateurs basés sur l'échantillonnage (RRT, STOMP) être revisités pour intégrer des contraintes de manipulation dès la phase d'exploration. Aucune entreprise n'est associée à cette publication académique (arXiv:2509.14787), et aucune timeline de commercialisation n'est mentionnée. Les prochaines étapes naturelles seraient d'étendre le benchmark à des objets déformables ou à des scènes dynamiques, et de tester la robustesse face à des capteurs de profondeur bruités, condition sine qua non pour un déploiement industriel.

RecherchePaper
1 source