
EgoMoD : prédire des cartes globales de dynamiques à partir d'observations égocentrées locales
EgoMoD (arXiv:2603.00167v2) est une méthode de navigation robotique qui prédit des cartes globales de dynamique de mouvement, appelées Maps of Dynamics (MoDs), depuis de courtes séquences vidéo égocentrées collectées par le robot lui-même. Les MoDs représentent de façon structurée les tendances de mouvement dans un espace donné, offrant un support pour la planification à long terme. L'architecture, conditionnée par la vidéo et la pose du robot, est entraînée par supervision privilégiée : des MoDs calculées depuis des capteurs externes servent de signal d'apprentissage, mais à l'inférence, seuls les capteurs embarqués standards sont requis. Les expériences couvrent de grands environnements simulés, et une validation sur images réelles démontre un transfert zéro-shot sans fine-tuning.
L'enjeu pour les robots mobiles autonomes (AMR) déployés dans des environnements peuplés est concret : la navigation réactive, limitée au champ de vision immédiat, contraint la fluidité des déplacements dans des espaces denses comme les entrepôts ou les hôpitaux. Les MoDs permettent une planification préemptive en anticipant la position probable des personnes avant qu'elles n'entrent dans le périmètre de détection. Jusqu'ici, ce type de carte dynamique exigeait une infrastructure fixe (caméras de surveillance, systèmes de suivi centralisés), incompatible avec des déploiements agiles. EgoMoD supprime cette contrainte : la carte prédictive se construit depuis les données d'opération courante, ce qui ouvre la voie à des déploiements sans modifier l'infrastructure existante.
Les MoDs s'inscrivent dans un champ de recherche actif sur les représentations dynamiques, au-delà des cartes d'occupation statiques ; les approches antérieures nécessitaient des capteurs fixes sur de longues périodes, ce qui ralentissait le déploiement opérationnel. EgoMoD rejoint une tendance à exploiter des architectures vidéo pour inférer des priors dynamiques, terrain partagé avec des modèles comme Trajectron++ ou Social-LSTM. À noter : les résultats quantitatifs principaux sont issus de simulations ; la validation sur images réelles démontre le transfert zéro-shot mais sans évaluation end-to-end de navigation complète. Aucun partenaire industriel ni calendrier de production n'est mentionné dans la publication, et la disponibilité du code source reste à confirmer.
Dans nos dossiers




