
GeoHAT : un transformeur hybride adaptatif à la géométrie pour la manipulation mobile
Des chercheurs ont publié le 16 juin 2026 sur arXiv (arXiv:2606.13394) GeoHAT, un framework end-to-end basé sur la diffusion pour la manipulation mobile whole-body. L'architecture atteint 79,3 % de taux de succès moyen sur le benchmark de simulation ManiSkill-HAB, surpassant la baseline précédente la plus forte de 23,7 points. Le coeur du système repose sur un encodeur spatial Fourier léger qui projette les coordonnées 3D pixel par pixel en tokens géométriques, sans backbone 3D dédié, puis les injecte sélectivement dans les features d'un modèle de vision de fondation via une fusion gated par token, modulée par la validité de profondeur. Pour la génération d'actions, un Hybrid Whole-Body Action Decoder décompose les commandes du bras et de la base mobile en sous-espaces distincts, chacun relié à son contexte visuel propre via cross-attention sparse. Des expériences en environnement réel sur tâches variées confirment les gains observés en simulation.
Le verrou visé est structurel: coordonner base mobile et bras manipulateur exige de gérer des points de vue changeants et des régimes de contrôle fondamentalement différents. Les politiques existantes encodent bras et base dans un unique vecteur d'action, écrasant leurs contraintes propres, et s'appuient sur des représentations 3D parses ou des features 2D qui manquent de structure spatiale dense. La décomposition en sous-espaces d'action que propose GeoHAT est une réponse directe à ce mélange contre-productif. Le signal le plus intéressant pour les intégrateurs n'est pas le score sur benchmark, mais la confirmation en conditions réelles: le sim-to-real gap, souvent fatal aux approches académiques, semble partiellement contenu. Cela suggère qu'une politique de manipulation mobile généraliste pourrait être déployée sans recalibration majeure entre simulation et terrain, ce qui reste rare dans la littérature récente.
GeoHAT s'inscrit dans la lignée des politiques de diffusion pour la robotique, dont Diffusion Policy (Chi et al., 2023) et Pi-0 de Physical Intelligence sont les références les plus citées, étendues ici à la manipulation mobile. Le benchmark ManiSkill-HAB, maintenu par l'équipe de Hao Su à l'UC San Diego, est devenu une mesure standard pour les agents mobilise-manipulateurs en scènes domestiques simulées. Les travaux concurrents les plus proches incluent Mobile ALOHA (Stanford, 2024) et les approches VLA comme OpenVLA-OFT. La légèreté computationnelle de GeoHAT, obtenue en évitant un backbone 3D séparé, le distingue des stratégies de fusion dense qui risquent de corrompre les représentations préentraînées. Aucun déploiement industriel ni partenariat n'est annoncé; il s'agit d'un résultat de recherche avec validation réelle, préalable nécessaire avant toute mise en production.
Dans nos dossiers




