
Planification de mouvement adaptative aux événements avec un modèle vision-langage distillé en situations critiques
Une équipe de chercheurs a déposé le 25 juin 2026 sur arXiv (réf. 2606.25629) un cadre algorithmique baptisé EAMP (Event-Adaptive Motion Planning) pour la navigation robotique en environnements logistiques à criticité sécurité. Le système repose sur trois modules imbriqués : un déclencheur sémantique configurable par prompt, le PC-SET, qui surveille en continu de courtes séquences vidéo pour détecter des anomalies comportementales ; un modèle vision-langage allégé, le SemNav-VLM, activé uniquement lors d'une anomalie avérée, qui produit des décisions stratégiques discrètes ; et un module de contrôle prédictif sémantique (SMPC) qui traduit ces décisions en reconfiguration des objectifs d'optimisation et des références géométriques du planificateur bas niveau. Le SemNav-VLM est obtenu par distillation d'un grand modèle vision-langage (VLM), guidée par des vérifications de cohérence physique, ce qui préserve le raisonnement de bon sens du modèle parent tout en réduisant drastiquement la latence d'inférence. Les expériences sont menées dans des scénarios logistiques simulés.
L'enjeu adressé est structurel pour la robotique mobile industrielle : dans les entrepôts et environnements mixtes, la majorité des collisions ne provient pas d'obstacles statiques inédits, mais du comportement imprévisible d'agents dynamiques, opérateurs humains, chariots élévateurs, autres robots autonomes. Les VLMs, capables d'un raisonnement contextuel robuste sur ces situations, sont jusqu'ici incompatibles avec la boucle de contrôle temps-réel en raison de leur latence computationnelle, qui déstabilise l'exécution physique. EAMP résout cette contradiction par déclenchement conditionnel : le modèle allégé n'est invoqué qu'en présence d'une anomalie, préservant l'efficacité temps-réel sans sacrifier la capacité de raisonnement sémantique. Les résultats indiquent une amélioration significative des marges de sécurité dynamiques par rapport aux baselines existantes. Il s'agit néanmoins d'une démonstration en simulation ; aucune validation sur robot physique réel n'est rapportée dans cette version du preprint.
Ce travail s'inscrit dans une tendance de fond de 2025-2026 : intégrer les capacités de raisonnement des grands modèles dans des architectures de planification classiques (MPC, RRT) sans sacrifier la réactivité temps-réel. Les approches concurrentes incluent les modèles VLA (Vision-Language-Action) de bout en bout comme pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui fusionnent différemment raisonnement et action à l'échelle. La distillation supervisée par contraintes physiques est une direction active pour compresser ces modèles sans dégradation critique. Côté déploiement, des acteurs comme Exotec (France, système Skypod) opèrent déjà dans des entrepôts mixtes humains-robots où la problématique des agents dynamiques est centrale ; un cadre comme EAMP pourrait constituer une brique de planification adaptative pour ces systèmes, à condition d'une validation physique que les auteurs n'ont pas encore fournie.
Exotec (France, système Skypod) est explicitement cité comme cas d'usage potentiel pour ce cadre de planification adaptative, mais l'absence de validation sur robot physique réel reporte tout impact industriel concret.
Dans nos dossiers




