Aller au contenu principal
RecherchearXiv cs.RO6h

SCREP : génération de trajectoires perceptuelles par régression de coordonnées de scène et apprentissage évidentiel

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Des chercheurs ont publié sur arXiv (référence 2507.07467v3) SCREP, un planificateur de trajectoire dit "perception-aware" conçu pour les drones autonomes évoluant en intérieur sans signal GPS. Le système repose sur la régression de coordonnées de scène (SCR, ou Scene Coordinate Regression) couplée à un apprentissage évidentiel : au lieu d'effectuer une reconstruction de carte 3D par appariement de features (approche classique mais coûteuse en calcul et en stockage), le réseau prédit directement les coordonnées 3D associées à chaque pixel de l'image embarquée, ce qui permet une estimation de pose absolue en temps réel. Un optimiseur de trajectoire à horizon glissant (receding-horizon) oriente activement la caméra vers les zones de la scène présentant la plus faible incertitude de localisation. Un lisseur à retard fixe (fixed-lag smoother) fusionne ensuite les estimations de pose SCR, de basse fréquence, avec les données IMU haute fréquence pour produire une estimation de pose continue et de haute qualité. En simulation, SCREP réduit l'erreur quadratique moyenne (RMSE) de translation d'au moins 4,9 % et celle de rotation d'au moins 30,8 % par rapport aux méthodes de référence. Des expériences hardware-in-the-loop valident la faisabilité dans des conditions proches du déploiement réel.

L'intérêt industriel de cette approche tient à deux tensions classiques dans la navigation autonome en intérieur : la scalabilité des cartes de localisation visuelle et le coût de calcul embarqué. Les méthodes par appariement de features (comme celles utilisées dans ORB-SLAM ou HLoc) imposent une reconstruction préalable de la carte et souffrent d'une explosion mémoire dans les grands environnements entrepôts ou industriels. La SCR résout ce problème par un réseau compact appris offline, directement exploitable onboard sur un calculateur de drone. L'apport d'SCREP va plus loin : en intégrant l'incertitude estimée dans la boucle de planification de trajectoire, le système évite activement les zones visuellement ambiguës plutôt que de subir leur dégradation localement. C'est un changement de paradigme notable par rapport aux planificateurs classiques qui traitent la localisation comme une boîte noire externe. Pour un intégrateur ou un décideur industriel déployant des drones d'inspection ou d'inventaire, cela réduit le risque de dérive de pose dans les couloirs peu texturés ou les allées sombres.

La navigation en environnement GPS-denied est un verrou technique persistant pour les drones d'intérieur autonomes, avec une communauté de recherche active depuis une décennie autour de VIO (Visual-Inertial Odometry), SLAM et, plus récemment, des méthodes apprises comme NeRF ou les champs de scène implicites. La SCR elle-même est une alternative proposée initialement par la communauté relocalisation visuelle (travaux pionniers Microsoft Research, DSAC++), mais son application dans une boucle de planification proactive reste peu explorée. SCREP se positionne comme une contribution de recherche académique, présentée sous forme de preprint arXiv sans affiliation industrielle identifiée ni annonce de déploiement commercial. Les résultats hardware-in-the-loop sont encourageants mais ne constituent pas une validation terrain à grande échelle. Les concurrents directs incluent les approches VIO+planification certifiée (ETH Zurich, MIT CSAIL), ainsi que des acteurs industriels comme Skydio ou Exotec pour la navigation autonome en entrepôt. Les prochaines étapes attendues seraient une évaluation sur des environnements réels de grande dimension et une comparaison avec des champs de scène neuraux récents comme l'iNeRF ou les Gaussian Splats.

Impact France/UE

Impact indirect sur Exotec (France) et autres opérateurs européens de drones d'entrepôt : si l'approche SCR+planification proactive se confirme à l'échelle terrain, elle pourrait réduire le coût des cartes de localisation visuelle dans les grands entrepôts logistiques européens.

Dans nos dossiers

À lire aussi

MinInter : minimiser l'interpolation de trajectoire lors de l'augmentation de données pour l'apprentissage par imitation
1arXiv cs.RO 

MinInter : minimiser l'interpolation de trajectoire lors de l'augmentation de données pour l'apprentissage par imitation

Une équipe de chercheurs a publié en juin 2026 sur arXiv (arXiv:2606.24078) une méthode baptisée MinInter (Minimizing Interpolation), destinée à améliorer la qualité des données synthétiques générées lors de l'apprentissage par imitation pour la manipulation robotique. Le principe est ciblé : lorsqu'un pipeline d'augmentation de données recompose des démonstrations d'experts à partir de configurations initiales variées, il doit typiquement intercaler des segments d'interpolation entre les morceaux de trajectoire, segments qui ne correspondent à aucun comportement expert et dégradent la qualité des données générées. MinInter résout ce problème en sélectionnant, pour chaque configuration initiale échantillonnée, la démonstration source qui nécessite le moins d'interpolation pour former une trajectoire complète. Sur le benchmark MimicGen, la méthode a été évaluée sur 12 tâches de manipulation couvrant 26 variantes, et améliore systématiquement à la fois les taux de succès de génération de données et les taux de succès des politiques apprises, avec les gains les plus importants sur les tâches dites contact-rich (en contact physique intensif), long-horizon (longues séquences d'actions) et high-variance (configurations initiales très dispersées). L'intérêt principal de MinInter réside dans sa capacité à améliorer la qualité des données sans modifier l'architecture du pipeline d'augmentation existant : la méthode est compatible avec les frameworks actuels et agit uniquement sur la stratégie de sélection de trajectoire. C'est un levier pratique pour les laboratoires qui cherchent à réduire le coût humain de la collecte de démonstrations tout en maintenant la qualité des politiques apprises. Les résultats sur les tâches contact-rich sont particulièrement notables, car ce type de tâche est historiquement difficile à traiter par augmentation synthétique, les dynamiques de contact étant sensibles aux discontinuités introduites par les segments d'interpolation. La surperformance face à SkillGen, un framework récent et plus complexe, questionne l'utilité d'approches sophistiquées quand une heuristique de sélection bien ciblée suffit. Le contexte est celui de la montée en puissance de l'apprentissage par imitation (IL) comme alternative au reinforcement learning pour la robotique de manipulation, notamment avec des méthodes comme BC (Behavioral Cloning), ACT ou Diffusion Policy. MimicGen, le benchmark utilisé, est devenu une référence du domaine pour comparer les méthodes d'augmentation de trajectoire. MinInter s'inscrit dans la même lignée que SkillGen (2024), mais avec une philosophie de minimalisme algorithmique. La prochaine étape logique serait de valider ces gains sur du matériel réel, où les dynamiques de contact et la variabilité du monde physique dépassent largement ce que les simulateurs capturent, et où le sim-to-real gap reste la principale incertitude non résolue.

UELes laboratoires européens travaillant sur l'apprentissage par imitation (INRIA, CEA-List, universités techniques) peuvent intégrer directement MinInter dans leurs pipelines d'augmentation MimicGen sans modifier leur architecture existante.

RecherchePaper
1 source
Convex-Neural RRT* : échantillonnage guidé par apprentissage pour une planification de trajectoire robotique rapide et fiable
2arXiv cs.RO 

Convex-Neural RRT* : échantillonnage guidé par apprentissage pour une planification de trajectoire robotique rapide et fiable

Une équipe de recherche a publié en mai 2026 sur arXiv (réf. 2605.25006) les travaux sur Convex-Neural RRT, une variante de l'algorithme de planification de chemin RRT intégrant un guidage neuronal pour accélérer la recherche de trajectoires optimales. Le principe : un réseau de neurones prédit des régions "waypoints" prometteuses autour des chemins de haute qualité, puis des zones convexes sont extraites de ces prédictions pour concentrer l'exploration sur les zones géométriquement pertinentes tout en maintenant une couverture globale de l'espace. Évalué sur 18 cartes de benchmark réparties en 3 types d'environnements, l'algorithme réduit le temps de calcul de 30 à 75 % par rapport aux variantes neurales existantes (Neural RRT, Neural Informed RRT), et de 88 à 98 % par rapport à LTA. La longueur des chemins produits diminue en moyenne de 5 % par rapport au RRT classique, avec des gains plus marqués dans les environnements complexes. Le taux de succès reste supérieur à 99 % quelle que soit la densité d'obstacles. Ces résultats s'attaquent à un goulot d'étranglement bien documenté du planning probabiliste : les méthodes à base d'échantillonnage sont théoriquement complètes mais lentes à converger vers des solutions de qualité, ce qui freine leur déploiement embarqué où le temps de réponse est critique (robots mobiles, bras industriels, véhicules autonomes). L'utilisation de zones convexes comme proxy des prédictions neuronales est une décision d'ingénierie notable : elle préserve les garanties de convergence de RRT* tout en rendant l'heuristique géométriquement tractable, évitant les dérives habituelles des méthodes purement apprises qui échouent hors distribution. À noter que les gains de 5 % en longueur de chemin restent modestes et que les benchmarks sont réalisés en simulation ; aucune validation sur robot physique n'est rapportée. RRT (Rapidly-exploring Random Tree Star), introduit par Karaman et Frazzoli en 2011, est devenu un standard en planification de mouvement robotique. Ses variantes neurales récentes ont cherché à apprendre des heuristiques d'échantillonnage depuis des données de trajectoires, mais au prix d'une surcharge computationnelle qui annulait souvent le bénéfice. Convex-Neural RRT s'inscrit dans cette lignée en ajoutant une contrainte géométrique qui assainit les prédictions. Les concurrents directs incluent LTA, IRRT et les approches par diffusion (Motion Planning Diffusion). Cette publication préliminaire ne mentionne aucun déploiement industriel ; les prochaines étapes attendues sont une validation sur robots physiques et une extension aux espaces de configuration de haute dimension, notamment les bras 6-7 DOF et les humanoïdes.

RecherchePaper
1 source
De la perception à la simulation : génération haute-fidélité avec cousins numériques pour l'apprentissage et l'évaluation de robots généralisables
3arXiv cs.RO 

De la perception à la simulation : génération haute-fidélité avec cousins numériques pour l'apprentissage et l'évaluation de robots généralisables

Une équipe de chercheurs a publié en avril 2026 sur arXiv (arXiv:2604.15805) un framework génératif baptisé "Digital Cousins", conçu pour transformer automatiquement des panoramas de scènes réelles en environnements de simulation haute fidélité, puis en générer des variantes sémantiques et géométriques diversifiées. Le système prend en entrée une image panoramique d'une pièce réelle, reconstruit une scène simulée cohérente, et applique des modifications contrôlées, repositionnement d'objets, changement de géométrie, substitution de matériaux, pour produire des "scènes cousines" statistiquement variées. Un module de raccordement multi-pièces permet de construire des environnements à grande échelle pour des tâches de navigation longue portée dans des layouts complexes. Les expériences montrent que scaler massivement la génération de données améliore significativement la généralisation à des scènes et objets non vus en entraînement. Ce travail s'attaque directement à l'un des goulots d'étranglement majeurs du robot learning : collecter des données réelles diversifiées est coûteux en temps, en assets physiques et en reconfiguration manuelle d'environnements. L'approche real-to-sim-to-real proposée ici offre aux intégrateurs et équipes R&D une voie pour démultiplier leur corpus d'entraînement sans mobiliser de ressources physiques supplémentaires. La corrélation sim-to-real mesurée dans les expériences valide la fidélité de la plateforme, un point crucial, car beaucoup de frameworks de simulation peinent à transférer en conditions réelles. Pour les décideurs B2B, cela signifie des cycles de développement potentiellement plus courts et une meilleure robustesse des politiques déployées face à la variabilité des environnements industriels. À noter que les métriques de généralisation sont présentées sur des benchmarks de manipulation et de navigation en intérieur ; leur tenue dans des contextes industriels contraints (entrepôts, lignes de production) reste à démontrer hors laboratoire. Le concept de "Digital Cousins" s'inscrit dans une vague de travaux visant à combler le sim-to-real gap, aux côtés d'approches comme Isaac Sim (NVIDIA), Habitat (Meta) ou Genesis (labo Carnegie Mellon). Ce qui différencie cette contribution est la chaîne génératrice bout-en-bout à partir de panoramas, une méthode plus accessible que la modélisation 3D manuelle traditionnelle. Les auteurs ne rattachent pas explicitement le framework à un robot ou un produit commercial, ce qui en fait pour l'instant un outil de recherche. Les prochaines étapes naturelles seraient une intégration avec des pipelines VLA (Vision-Language-Action) existants comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA), et une validation sur des robots manipulateurs déployés en conditions semi-réelles.

RecherchePaper
1 source
Robots comme tokens : un transformeur de diffusion unifié pour la génération de trajectoires multi-robots coordonnées
4arXiv cs.RO 

Robots comme tokens : un transformeur de diffusion unifié pour la génération de trajectoires multi-robots coordonnées

Des chercheurs ont publié sur arXiv (2606.15550) Roken, pour "Robots as Tokens", un transformeur de diffusion unifié capable de générer simultanément des trajectoires coordonnées pour plusieurs robots mobiles. Contrairement aux approches dominantes, qui soit se limitent à la planification monorobot, soit enchaînent les trajectoires de façon séquentielle avant d'appliquer des post-traitements itératifs pour résoudre les conflits inter-robots, Roken produit l'ensemble des trajectoires en une seule passe feed-forward. Chaque robot est représenté comme un token discret dans le modèle, ce qui lui permet d'interagir naturellement avec les autres via la self-attention, et de se référer aux tokens de carte pour percevoir l'environnement par cross-attention. Des tâches auxiliaires fondées sur le théorème de Bayes fournissent une supervision spatio-temporelle multi-échelle pour apprendre la distribution conditionnelle. À l'inférence, le modèle supporte indifféremment la planification monorobot, la génération coordonnée multi-robot et la génération conditionnelle (en fixant certains tokens comme conditions). Les expériences, menées en simulation dans des environnements encombrés variés, montrent des taux de succès élevés sur des tâches de navigation avec contraintes de connectivité, dépassant le planificateur classique qui avait servi à générer les données d'entraînement. L'intérêt principal de Roken réside dans sa scalabilité et sa généralisation : le modèle est entraîné sur des équipes de tailles mixtes et se généralise à des équipes et des environnements non vus lors de l'entraînement, y compris en observation partielle. Pour les intégrateurs de flottes AMR ou les systèmes multi-agents en entrepôt, cette capacité à planifier pour N robots sans replanification itérative représente un gain de latence significatif. Que le modèle surpasse son propre générateur de données d'entraînement est notable, mais il faut souligner que toutes les expériences sont en simulation ; le transfert sim-to-real reste non démontré, ce qui est le verrou habituel pour ce type d'approche. Ce travail s'inscrit dans une vague de recherche qui transpose les succès des modèles génératifs (diffusion, transformeurs) du langage et de la vision vers la planification robotique. Des travaux comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) explorent des architectures similaires pour le contrôle mono-robot, mais la coordination multi-agents via des tokens partagés reste un territoire peu défriché. Roken propose une formalisation élégante du problème, mais son évaluation reste entièrement simulée à ce stade. Les prochaines étapes naturelles seraient une validation sur robots réels et une comparaison avec des planificateurs multi-agents classiques comme CBS (Conflict-Based Search) sur des métriques standardisées.

RecherchePaper
1 source