
Learning à localiser des trajectoires de référence dans l'espace image pour la navigation visuelle
Voici l'article traduit et résumé en français :
Des chercheurs ont présenté LoTIS, un nouveau modèle de navigation visuelle pour robots capable de localiser une trajectoire de référence directement dans l'image captée par la caméra du robot, sans calibration caméra, sans données de pose et sans entraînement spécifique à chaque plateforme robotique. Plutôt que de prédire des actions liées à un robot particulier, le système prédit où les points de la trajectoire de référence apparaîtraient dans le champ de vision actuel du robot, ce qui rend le guidage transférable d'une plateforme à l'autre sans réentraînement (zero-shot). Sur des tâches de navigation classique en avant, LoTIS dépasse les méthodes de référence de 20 à 50 points de pourcentage en taux de réussite, atteignant 94 à 98% de succès sur des environnements variés, simulés comme réels. Sur des tâches plus difficiles où les approches existantes échouent, comme la marche arrière, le gain dépasse un facteur cinq. Les auteurs montrent aussi qu'une simple vidéo filmée avec un téléphone suffit à guider différents robots vers n'importe quel point de la trajectoire enregistrée. Code, démonstration et vidéos sont disponibles sur le site des auteurs.
Cette avancée s'attaque directement à l'un des points de friction majeurs de la robotique mobile actuelle: la dépendance des systèmes de navigation visuelle à des données spécifiques au robot (calibration caméra, poses précises, entraînement par plateforme), qui limite fortement leur portabilité industrielle. En découplant la perception (localiser où aller dans l'image) de l'action (comment s'y déplacer physiquement), LoTIS ouvre la voie à des workflows où une trajectoire filmée une seule fois, même avec un smartphone, pourrait piloter une flotte hétérogène de robots ou d'AMR sans travail d'intégration lourd par modèle.
Ce travail s'inscrit dans une lignée de recherche en navigation par imitation visuelle qui cherchait jusqu'ici à imiter des comportements complets plutôt qu'à simplement localiser une cible dans l'image, une approche jugée plus fragile aux changements de point de vue ou de caméra. La stratégie d'entraînement croisé entre trajectoires proposée par les auteurs vise justement à corriger cette fragilité. Le papier, publié sur arXiv, reste à ce stade une contribution académique; son adoption par des intégrateurs ou fabricants de robots commerciaux reste à démontrer.
Dans nos dossiers




