
Transformer de navigation multimodal sensible à l'incarnation physique
Des chercheurs ont publié sur arXiv (2604.19267) ViLiNT, un modèle de navigation par objectif pour robots terrestres qui fusionne images RGB, nuages de points LiDAR 3D, un embedding de destination et un descripteur d'embodiment dans une architecture transformer. La sortie du transformer conditionne un modèle de diffusion chargé de générer des trajectoires navigables ; ces trajectoires sont ensuite scorées et classées par une tête de prédiction de dégagement de chemin (path clearance), entraînée sur des labels générés automatiquement hors ligne. Un token d'embodiment propre à chaque robot permet au modèle d'adapter la génération et la sélection des trajectoires aux dimensions physiques de la plateforme. Entraîné sur données hétérogènes issues de plusieurs plateformes et environnements, ViLiNT affiche une amélioration de 166 % du taux de succès (Success Rate) en moyenne sur trois environnements simulés par rapport à NoMaD, la baseline vision-only de référence. Ces résultats ont été confirmés en déploiement réel, sur un rover évoluant dans des champs d'obstacles.
Le gain de 166 % sur NoMaD est frappant, mais à contextualiser : la comparaison porte sur des scénarios de navigation hors route où la dégradation sous distribution shift est précisément le problème ciblé, ce qui peut gonfler le delta. L'enjeu industriel est néanmoins réel : les AMR et robots de livraison outdoor subissent exactement ce type de régression dès qu'ils quittent leur environnement d'entraînement. L'apport clé de ViLiNT pour les intégrateurs est double. D'abord, la fusion RGB + LiDAR rend le modèle plus robuste aux variations de luminosité ou de texture de terrain. Ensuite, l'embodiment token ouvre la voie à un modèle unique déployable sur plusieurs plateformes de dimensions différentes, sans réentraînement complet, ce qui réduit significativement le coût de portage.
La navigation par objectif pour robots mobiles terrestres est un chantier actif depuis les travaux fondateurs de NoMaD (Berkeley, 2023) et des politiques GNFactor/ViNT. ViLiNT s'inscrit dans la vague des politiques multimodales qui cherchent à combler le sim-to-real gap par enrichissement sensoriel plutôt que par augmentation de données synthétiques. Côté concurrence, des acteurs comme Boston Dynamics (Spot), Clearpath ou Anybotics travaillent sur des problématiques similaires de robustesse hors route, et des laboratoires comme ETH Zurich et CMU publient dans le même espace. ViLiNT reste pour l'instant un preprint sans déploiement industriel annoncé ; les prochaines étapes naturelles seraient une validation sur terrains non structurés plus diversifiés (végétation, boue) et une évaluation du coût computationnel embarqué pour confirmer la viabilité sur hardware contraint.
ETH Zurich travaille sur des problématiques similaires de navigation hors route ; les fabricants d'AMR et robots outdoor européens pourraient bénéficier de l'embodiment token pour réduire les coûts de portage multi-plateformes, mais aucun partenariat ou déploiement européen n'est annoncé à ce stade.



