
Mobile UMI : politique de diffusion multi-vues à cinématique découplée pour la manipulation mobile
Mobile UMI, soumis sur arXiv (arXiv:2605.20894) en mai 2026, présente un framework de collecte de démonstrations sans robot dédié pour l'apprentissage par imitation sur manipulateur mobile. Le dispositif repose sur trois composants: un rig à deux caméras portées par l'opérateur humain (poitrine pour la navigation globale, poignet pour l'interaction locale), une ancre spatiale ChArUco en prise unique qui recale les deux repères visuels-inertiels et découple la trajectoire de manipulation en SE(3) de celle de navigation en SE(2), et un exécuteur asynchrone à horizon glissant (receding-horizon) qui réaligne en temps réel chaque chunk d'actions généré sur la pose physique courante du robot. Sur quatre tâches domestiques longue-séquence évaluées à 100 essais chacune, le système atteint un taux de réussite moyen de 83,8%, devançant les baselines ACT et Diffusion Policy testées dans les mêmes conditions.
Ce résultat s'attaque à deux goulots structurels du mobile manipulation: les labels d'action contaminés par la locomotion humaine lors de la collecte, et la latence d'inférence des politiques de diffusion (plusieurs centaines de millisecondes), pendant laquelle la base avance et rend les waypoints planifiés caducs. En découplant cinématiquement la main du torse, les trajectoires d'entraînement deviennent cohérentes indépendamment de la démarche de l'opérateur. L'approche est architecturalement agnostique, ce qui est un point fort concret pour les intégrateurs: aucune modification de la politique sous-jacente n'est requise, et les ablations confirment que le référentiel thoracique seul comble l'essentiel de l'écart de performance, la synchronisation d'état fermant le reste.
Mobile UMI étend l'Universal Manipulation Interface (UMI) de Chi et al. (Stanford/Columbia, 2023), interface poignet à bas coût qui a popularisé la collecte téléopérée pour la manipulation sur table. L'extension à la base mobile était un verrou reconnu: les approches dominantes comme RT-2, OpenVLA ou Pi-0 de Physical Intelligence ciblent essentiellement des bras fixes ou des déplacements très contraints. Des acteurs comme Boston Dynamics avec Spot et son bras, ou des projets académiques comme MoMa (Mobile Manipulation), opèrent dans ce même espace concurrentiel. Le travail reste un preprint non évalué, sans déploiement industriel annoncé ni partenaire matériel cité; les conditions précises des essais (charge utile, vitesse de base, surface de test) ne sont pas détaillées dans l'abstract, ce qui limite la comparabilité directe avec d'autres benchmarks publiés.
Dans nos dossiers




