Co-entraînement avec vidéo égocentrique et démonstration pour la navigation robotique
Des chercheurs ont publié sur arXiv (réf. 2606.01951) un cadre d'apprentissage par imitation pour robots mobiles qui exploite des vidéos égocentrées tournées par des humains en train de marcher. Le principe : estimer le mouvement de la caméra à partir de ces séquences piétonnes, puis convertir ce flux en représentations d'actions compatibles avec des robots mobiles au sol. Un modèle VLA (Vision-Language-Action) est ensuite entraîné conjointement sur ces données dérivées de vidéos humaines et sur des trajectoires collectées directement par le robot. Les expériences portent sur une tâche de navigation avec recherche de fruits, où le robot doit localiser des objets cibles dans un environnement non structuré en suivant des instructions en langage naturel.
L'intérêt de cette approche réside dans sa réponse au principal goulot d'étranglement de la robotique apprise : la collecte de données sur robot réel est coûteuse, lente, et difficilement scalable. Si recycler des vidéos égocentrées humaines pour l'apprentissage de tâches de manipulation existe déjà dans la littérature (notamment via des datasets comme EPIC-Kitchens ou des pipelines type ACT), l'étendre à la navigation mobile reste difficile car les changements de point de vue lors de la locomotion créent des discontinuités que les modèles de manipulation ne rencontrent pas. Les résultats montrent que l'entraînement conjoint dépasse les deux sources de données prises isolément, aussi bien en compréhension du langage qu'en robustesse de génération d'actions. Cela valide partiellement l'hypothèse que le sim-to-human-video-to-real peut fonctionner pour la navigation, sans simulation physique.
Ce travail s'inscrit dans une course plus large à la scalabilité des données pour les VLA, où des acteurs comme Physical Intelligence (pi0), Google DeepMind (RT-2, GR00T N2 pour Nvidia) ou Boston Dynamics cherchent des pipelines moins dépendants de la téléopération humaine sur robot. La navigation mobile reste moins couverte que la manipulation dans cette littérature, et ce papier ouvre une voie de co-training à moindre coût. Les prochaines étapes naturelles seraient d'évaluer la généralisation à des environnements plus complexes, de mesurer le ratio optimal données humaines/données robot, et de tester sur des plateformes AMR commerciales. Le code et les datasets ne sont pas encore publiés au moment de la soumission arXiv.
Dans nos dossiers




