Aller au contenu principal
MARS Policy : la multimodalité uniquement quand c'est pertinent
RecherchearXiv cs.RO20h

MARS Policy : la multimodalité uniquement quand c'est pertinent

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Une équipe de recherche a déposé le 29 mai 2026 sur arXiv (ref. 2605.29766) une nouvelle politique d'apprentissage par imitation pour la manipulation robotique, baptisée MARS (Modality-Adaptive Robot Sampling). La méthode s'attaque à un compromis central dans les politiques génératives modernes : les modèles multi-modaux comme les politiques de diffusion capturent la diversité comportementale nécessaire à la manipulation complexe, mais au prix d'une latence d'inférence élevée et d'une complexité d'entraînement importante. MARS propose d'injecter de la stochasticité uniquement lors des phases où la diversité comportementale est réellement utile, et de basculer vers un mode déterministe pendant les phases à comportement unique. Sur 8 tâches en simulation et 4 tâches en conditions réelles, la politique affiche une amélioration du taux de succès de 16,67 % et une réduction de la latence d'inférence de 83,20 % par rapport aux baselines génératives classiques.

L'enjeu est concret pour les intégrateurs et les équipes de déploiement terrain : les politiques de diffusion, malgré leurs performances, imposent des délais d'inférence de l'ordre de la centaine de millisecondes par pas de temps, ce qui limite leur applicabilité sur des robots à haute cadence ou des plateformes embarquées à ressources contraintes. MARS adresse ce goulet d'étranglement sans sacrifier la capacité multi-modale. Plus contre-intuitif encore : même sur des tâches quasi-déterministes, MARS surpasse les politiques purement déterministes, ce qui suggère que le diagnostic adaptatif de la modalité requise améliore également la modélisation des nuances comportementales, pas seulement la vitesse.

Ce travail s'inscrit dans le courant post-Diffusion Policy (Chi et al., 2023, Columbia/MIT) et ACT (Zhao et al., 2023, Stanford), qui ont établi les politiques génératives comme paradigme dominant de l'apprentissage robot. Des approches concurrentes comme VQ-BeT ou BESO tentent également de réduire la complexité inférentielle des modèles génératifs ; MARS se distingue par son caractère adaptatif en ligne plutôt que par une architecture alternative fixe. En tant que preprint non encore évalué par les pairs, ces résultats restent à confirmer sur un spectre de tâches plus large et sur des plateformes hardware diversifiées. Les auteurs ne mentionnent ni feuille de route commerciale ni partenariat industriel à ce stade.

À lire aussi

Découverte de modes comportementaux pour l'affinage de politiques génératives multimodales
1arXiv cs.RO 

Découverte de modes comportementaux pour l'affinage de politiques génératives multimodales

Une équipe de chercheurs a publié en mai 2026 sur arXiv (arXiv:2605.11387) une méthode pour affiner des politiques génératives pré-entraînées par apprentissage par renforcement (RL) sans sacrifier la diversité comportementale. Le problème ciblé est le "mode collapse" : appliqué à une politique diffusion (un modèle génératif produisant des distributions d'actions multimodales), le RL fait converger les comportements variés vers une unique stratégie maximisant la récompense. La solution proposée est un framework non supervisé qui identifie les modes comportementaux latents au sein de ces politiques, puis utilise l'information mutuelle entre ces modes et les trajectoires générées comme récompense intrinsèque. Ce signal régularise l'entraînement RL, forçant le modèle à conserver plusieurs stratégies d'exécution simultanément. Sur des benchmarks de manipulation robotique, la méthode surpasse les approches classiques en taux de succès tout en préservant des distributions d'actions plus riches. Cette contribution adresse une tension fondamentale dans le déploiement des politiques robotiques apprenantes : le RL améliore les performances moyennes mais réduit la robustesse aux imprévus en homogénéisant les comportements. Pour un intégrateur industriel, la diversité comportementale détermine concrètement si un robot peut adapter sa prise face à une pose objet inattendue ou récupérer d'une perturbation de surface, des situations que les métriques de succès moyen ne capturent pas. En préservant la multimodalité après fine-tuning, la méthode rend les politiques diffusion plus exploitables hors des conditions d'entraînement et suggère qu'optimisation par RL et robustesse opérationnelle, deux objectifs souvent antagonistes, peuvent être conciliés. Les politiques diffusion se sont imposées comme paradigme dominant en manipulation robotique depuis les travaux de Chi et al. (2023) et alimentent aujourd'hui les modèles VLA (Vision-Language-Action) comme pi-0 de Physical Intelligence ou OpenVLA de Berkeley. Le fine-tuning RL de ces architectures est une direction très active, notamment avec DPPO (Diffusion Policy Policy Optimization). La méthode proposée se positionne comme complément générique à ces pipelines, applicable sans annotation supplémentaire. Point de vigilance : les auteurs ne mentionnent pas de validation sur robot physique, un gap récurrent pour les preprints arXiv dont les résultats restent à confirmer hors simulation.

RechercheOpinion
1 source
MUSE : quantification multimodale de l'incertitude dans l'estimation d'état
2arXiv cs.RO 

MUSE : quantification multimodale de l'incertitude dans l'estimation d'état

Une équipe de chercheurs a déposé sur arXiv (référence 2605.17421, mai 2026) un cadre d'apprentissage automatique baptisé MUSE (Multimodal Uncertainty Quantification of State Estimation), conçu pour quantifier en temps réel l'incertitude dans l'estimation d'état visuel. La contribution centrale porte sur l'odométrie visuelle-inertielle (VIO), technique qui fusionne données de caméra et unité de mesure inertielle (IMU) pour localiser un robot sans GPS. MUSE exploite l'architecture Mamba, modèle séquentiel à état discret proposé en 2023 comme alternative efficace aux Transformers, pour traiter plusieurs flux de capteurs asynchrones simultanément. Les expériences ont été conduites sur des jeux de données publics et des données propriétaires ; les auteurs rapportent une fiabilité et une robustesse supérieures aux méthodes existantes, sans fournir dans l'abstract de métriques chiffrées précises permettant une comparaison directe avec l'état de l'art. L'enjeu dépasse la simple précision de localisation : savoir quand ne pas faire confiance à une estimation est aussi critique que l'estimation elle-même. En navigation autonome, en conduite sans conducteur et en vol autonome, une erreur non détectée peut provoquer une collision ou un abandon de mission. Le problème est particulièrement difficile en VIO car la distribution des erreurs est hétéroscédastique (la variance évolue selon les conditions lumineuses, les textures, la vitesse) et multimodale (plusieurs hypothèses de pose simultanément plausibles). Une quantification d'incertitude fiable ouvre la voie à des mécanismes embarqués de détection de défaillance et de dégradation gracieuse, deux capacités très recherchées par les intégrateurs de systèmes autonomes en industrie. L'estimation d'état visuel est un domaine très actif, où filtres de Kalman étendus, graphes de facteurs (GTSAM, g2o) et méthodes neuronales récentes (DPVO, DROID-SLAM) se concurrencent sur des benchmarks standard comme EuRoC ou TUM-VI. Mamba gagne du terrain dans les tâches de séquences longues, et MUSE s'inscrit dans cette tendance en l'appliquant à la fusion sensorielle multi-modale. Aucune affiliation institutionnelle ni partenariat industriel n'est mentionné dans l'abstract, et le papier n'a pas encore été soumis à une revue à comité de lecture confirmée. Les performances annoncées restent donc à valider indépendamment avant toute intégration dans un pipeline de production.

RecherchePaper
1 source
MSACT : alignement spatial multi-étapes pour une manipulation fine, stable et à faible latence
3arXiv cs.RO 

MSACT : alignement spatial multi-étapes pour une manipulation fine, stable et à faible latence

Des chercheurs ont publié en mai 2026 sur arXiv (référence 2605.00475) MSACT, une architecture de contrôle pour la manipulation fine bimanuale à faible latence. Construit sur ACT (Action Chunking with Transformers), le système ajoute un module d'attention spatiale multistage qui extrait des points d'attention 2D stables depuis un encodeur visuel ResNet pré-entraîné, utilisés comme modalité spatiale locale pour la prédiction d'actions. Un objectif d'alignement temporel auto-supervisé compare les séquences d'attention prédites aux caractéristiques visuelles des images futures, réduisant la dérive de localisation sans annotations de points clés. Les expériences ont été conduites sur la plateforme bimanuale ALOHA, en conditions simulées et réelles, en évaluant le taux de succès, la dérive d'attention, la latence d'inférence et la robustesse aux perturbations visuelles. MSACT s'attaque à un trilemme récurrent en robotique d'apprentissage : latence d'inférence basse, stabilité de localisation et efficacité en données sont rarement optimisées simultanément. Les politiques à diffusion (Diffusion Policy) gagnent en expressivité mais pâtissent d'une latence élevée due à l'échantillonnage itératif, incompatible avec le contrôle fin en temps réel. Les approches vision-langage-action (VLA) ou voxel offrent une meilleure généralisation géométrique mais exigent une puissance de calcul et une complexité système nettement supérieures. En greffant une supervision spatiale légère sur ACT, MSACT vise à rester déployable sur systèmes embarqués à ressources limitées. Les résultats annoncés montrent des améliorations en stabilité de localisation et en performance de tâche "dans les conditions testées", formulation prudente signalant que la généralisation reste à démontrer sur une gamme plus large de scénarios. ALOHA, banc de test bimanual développé initialement à Stanford et popularisé par les travaux ACT de Zhao et al. (2023), est devenu une référence académique pour la manipulation fine apprise par imitation. La dérive de localisation sous données limitées reste un obstacle concret au déploiement industriel de bras robotiques appris par démonstration, notamment en assemblage ou conditionnement de précision. Côté compétitif, Physical Intelligence (pi0), Figure AI et 1X Technologies misent sur des architectures VLA plus lourdes visant une généralisabilité plus large ; MSACT propose une voie complémentaire, plus légère, pour les contextes où la latence est critique. Ce preprint n'a pas encore été soumis à revue par les pairs, et aucun déploiement ni partenariat industriel n'est annoncé à ce stade.

RecherchePaper
1 source
Mobile UMI : politique de diffusion multi-vues à cinématique découplée pour la manipulation mobile
4arXiv cs.RO 

Mobile UMI : politique de diffusion multi-vues à cinématique découplée pour la manipulation mobile

Mobile UMI, soumis sur arXiv (arXiv:2605.20894) en mai 2026, présente un framework de collecte de démonstrations sans robot dédié pour l'apprentissage par imitation sur manipulateur mobile. Le dispositif repose sur trois composants: un rig à deux caméras portées par l'opérateur humain (poitrine pour la navigation globale, poignet pour l'interaction locale), une ancre spatiale ChArUco en prise unique qui recale les deux repères visuels-inertiels et découple la trajectoire de manipulation en SE(3) de celle de navigation en SE(2), et un exécuteur asynchrone à horizon glissant (receding-horizon) qui réaligne en temps réel chaque chunk d'actions généré sur la pose physique courante du robot. Sur quatre tâches domestiques longue-séquence évaluées à 100 essais chacune, le système atteint un taux de réussite moyen de 83,8%, devançant les baselines ACT et Diffusion Policy testées dans les mêmes conditions. Ce résultat s'attaque à deux goulots structurels du mobile manipulation: les labels d'action contaminés par la locomotion humaine lors de la collecte, et la latence d'inférence des politiques de diffusion (plusieurs centaines de millisecondes), pendant laquelle la base avance et rend les waypoints planifiés caducs. En découplant cinématiquement la main du torse, les trajectoires d'entraînement deviennent cohérentes indépendamment de la démarche de l'opérateur. L'approche est architecturalement agnostique, ce qui est un point fort concret pour les intégrateurs: aucune modification de la politique sous-jacente n'est requise, et les ablations confirment que le référentiel thoracique seul comble l'essentiel de l'écart de performance, la synchronisation d'état fermant le reste. Mobile UMI étend l'Universal Manipulation Interface (UMI) de Chi et al. (Stanford/Columbia, 2023), interface poignet à bas coût qui a popularisé la collecte téléopérée pour la manipulation sur table. L'extension à la base mobile était un verrou reconnu: les approches dominantes comme RT-2, OpenVLA ou Pi-0 de Physical Intelligence ciblent essentiellement des bras fixes ou des déplacements très contraints. Des acteurs comme Boston Dynamics avec Spot et son bras, ou des projets académiques comme MoMa (Mobile Manipulation), opèrent dans ce même espace concurrentiel. Le travail reste un preprint non évalué, sans déploiement industriel annoncé ni partenaire matériel cité; les conditions précises des essais (charge utile, vitesse de base, surface de test) ne sont pas détaillées dans l'abstract, ce qui limite la comparabilité directe avec d'autres benchmarks publiés.

RechercheOpinion
1 source