
MARS Policy : la multimodalité uniquement quand c'est pertinent
Une équipe de recherche a déposé le 29 mai 2026 sur arXiv (ref. 2605.29766) une nouvelle politique d'apprentissage par imitation pour la manipulation robotique, baptisée MARS (Modality-Adaptive Robot Sampling). La méthode s'attaque à un compromis central dans les politiques génératives modernes : les modèles multi-modaux comme les politiques de diffusion capturent la diversité comportementale nécessaire à la manipulation complexe, mais au prix d'une latence d'inférence élevée et d'une complexité d'entraînement importante. MARS propose d'injecter de la stochasticité uniquement lors des phases où la diversité comportementale est réellement utile, et de basculer vers un mode déterministe pendant les phases à comportement unique. Sur 8 tâches en simulation et 4 tâches en conditions réelles, la politique affiche une amélioration du taux de succès de 16,67 % et une réduction de la latence d'inférence de 83,20 % par rapport aux baselines génératives classiques.
L'enjeu est concret pour les intégrateurs et les équipes de déploiement terrain : les politiques de diffusion, malgré leurs performances, imposent des délais d'inférence de l'ordre de la centaine de millisecondes par pas de temps, ce qui limite leur applicabilité sur des robots à haute cadence ou des plateformes embarquées à ressources contraintes. MARS adresse ce goulet d'étranglement sans sacrifier la capacité multi-modale. Plus contre-intuitif encore : même sur des tâches quasi-déterministes, MARS surpasse les politiques purement déterministes, ce qui suggère que le diagnostic adaptatif de la modalité requise améliore également la modélisation des nuances comportementales, pas seulement la vitesse.
Ce travail s'inscrit dans le courant post-Diffusion Policy (Chi et al., 2023, Columbia/MIT) et ACT (Zhao et al., 2023, Stanford), qui ont établi les politiques génératives comme paradigme dominant de l'apprentissage robot. Des approches concurrentes comme VQ-BeT ou BESO tentent également de réduire la complexité inférentielle des modèles génératifs ; MARS se distingue par son caractère adaptatif en ligne plutôt que par une architecture alternative fixe. En tant que preprint non encore évalué par les pairs, ces résultats restent à confirmer sur un spectre de tâches plus large et sur des plateformes hardware diversifiées. Les auteurs ne mentionnent ni feuille de route commerciale ni partenariat industriel à ce stade.
Dans nos dossiers




