Combiner supervision manuelle et par téléopération pour la manipulation riche en contacts via des experts guidés par l'état
Une équipe de chercheurs publie sur arXiv (réf. 2606.26603) une méthode hybride de collecte de données pour la manipulation robotique en contact, baptisée BRIDGE (Bi-modal Routing for Imitation Data via Gated Experts). L'approche combine deux modalités d'apprentissage par imitation: les systèmes portables de type UMI (Universal Manipulation Interface), qui permettent une collecte à grande échelle mais ne capturent que des "actions observées" depuis le démonstrateur humain, et la téléopération, qui fournit des "actions désirées" directement exploitables par le contrôleur robot, mais dont la collecte est coûteuse en temps. Sur trois tâches de manipulation riche en contacts, BRIDGE améliore le taux de succès jusqu'à 36,7% par rapport à une politique entraînée uniquement sur données portables. L'architecture repose sur un mélange d'experts en diffusion policy, routés dynamiquement selon la phase de tâche courante détectée à partir de l'état du robot.
Le résultat le plus contre-intuitif mérite attention: mélanger naïvement des données portables et des démonstrations de téléopération dégrade les performances par rapport aux données portables seules. Ce n'est qu'en ségréguant explicitement les deux sources via un routeur conditionné sur l'état robot que le gain émerge. Pour les ingénieurs et intégrateurs en robotique industrielle, cela pointe une réalité souvent ignorée: la qualité de la supervision varie selon la phase de tâche, et une augmentation de données mal calibrée peut nuire à la politique apprise. En phase libre, les trajectoires portables sont valides; en phase de contact, le suivi de trajectoires observées à haute rigidité génère des forces de contact importantes et potentiellement dangereuses. BRIDGE résout ce mismatch sans exiger une téléopération complète de la tâche, réduisant significativement le coût de collecte tout en ciblant les segments réellement critiques.
Le système UMI, issu des travaux de Cheng Chi et al. (Stanford/Columbia), s'est imposé comme référence pour la collecte scalable en manipulation; les diffusion policies, popularisées par ces mêmes travaux en 2023, forment le socle algorithmique de BRIDGE. Dans le panorama actuel de l'imitation learning, cette recherche se positionne face à des approches à grande échelle comme les VLA (pi-0 de Physical Intelligence, OpenVLA, GR00T N2 de NVIDIA), qui misent sur des volumes massifs de données hétérogènes. BRIDGE fait un pari différent: la qualité ciblée plutôt que l'échelle brute. Il s'agit d'une prépublication arXiv, non encore évaluée par les pairs, et les trois tâches testées restent des benchmarks de laboratoire. La généralisation à des environnements industriels réels, avec variabilité de pièces et contraintes de cycle time, reste entièrement à démontrer.




