RecherchearXiv cs.RO 12 juin 2026

GeoHAT : un transformeur hybride adaptatif à la géométrie pour la manipulation mobile

1 source couvre ce sujet·Source originale ↗·

Résumé IASource uniqueImpact UE

Des chercheurs ont publié le 16 juin 2026 sur arXiv (arXiv:2606.13394) GeoHAT, un framework end-to-end basé sur la diffusion pour la manipulation mobile whole-body. L'architecture atteint 79,3 % de taux de succès moyen sur le benchmark de simulation ManiSkill-HAB, surpassant la baseline précédente la plus forte de 23,7 points. Le coeur du système repose sur un encodeur spatial Fourier léger qui projette les coordonnées 3D pixel par pixel en tokens géométriques, sans backbone 3D dédié, puis les injecte sélectivement dans les features d'un modèle de vision de fondation via une fusion gated par token, modulée par la validité de profondeur. Pour la génération d'actions, un Hybrid Whole-Body Action Decoder décompose les commandes du bras et de la base mobile en sous-espaces distincts, chacun relié à son contexte visuel propre via cross-attention sparse. Des expériences en environnement réel sur tâches variées confirment les gains observés en simulation.

Le verrou visé est structurel: coordonner base mobile et bras manipulateur exige de gérer des points de vue changeants et des régimes de contrôle fondamentalement différents. Les politiques existantes encodent bras et base dans un unique vecteur d'action, écrasant leurs contraintes propres, et s'appuient sur des représentations 3D parses ou des features 2D qui manquent de structure spatiale dense. La décomposition en sous-espaces d'action que propose GeoHAT est une réponse directe à ce mélange contre-productif. Le signal le plus intéressant pour les intégrateurs n'est pas le score sur benchmark, mais la confirmation en conditions réelles: le sim-to-real gap, souvent fatal aux approches académiques, semble partiellement contenu. Cela suggère qu'une politique de manipulation mobile généraliste pourrait être déployée sans recalibration majeure entre simulation et terrain, ce qui reste rare dans la littérature récente.

GeoHAT s'inscrit dans la lignée des politiques de diffusion pour la robotique, dont Diffusion Policy (Chi et al., 2023) et Pi-0 de Physical Intelligence sont les références les plus citées, étendues ici à la manipulation mobile. Le benchmark ManiSkill-HAB, maintenu par l'équipe de Hao Su à l'UC San Diego, est devenu une mesure standard pour les agents mobilise-manipulateurs en scènes domestiques simulées. Les travaux concurrents les plus proches incluent Mobile ALOHA (Stanford, 2024) et les approches VLA comme OpenVLA-OFT. La légèreté computationnelle de GeoHAT, obtenue en évitant un backbone 3D séparé, le distingue des stratégies de fusion dense qui risquent de corrompre les représentations préentraînées. Aucun déploiement industriel ni partenariat n'est annoncé; il s'agit d'un résultat de recherche avec validation réelle, préalable nécessaire avant toute mise en production.

Dans nos dossiers

Physical Intelligence — π0 OpenVLA / RT-X arXiv cs.RO

À lire aussi

1arXiv cs.RO

TAM : Module d'adaptation du couple pour un transfert de mouvement robuste en manipulation

Des chercheurs ont publié sur arXiv (arXiv:2606.06218) le Torque Adaptation Module (TAM), un module appris qui corrige les commandes de couple envoyées au robot pour aligner son comportement sur celui d'un robot de référence idéal. TAM s'insère entre le contrôleur bas niveau et l'interface couple du robot, et opère via deux composants : un encodeur d'historique proprioceptif, qui compresse les états mécaniques récents en représentation latente, et un adaptateur de couple calculant des corrections résiduelles en temps réel. L'évaluation porte sur un bras Franka Panda réel, en transfert zéro-shot, sur trois tâches de manipulation dynamique : un pushing de boîte guidé par vision (apprentissage par renforcement), un retournement d'objet par imitation comportementale (BC), et un équilibrage balle-sur-plateau par MPC. Le problème adressé est structurant pour l'industrialisation robotique : une politique entraînée sur un robot se dégrade sur une autre instance du même modèle, ou lors d'un changement de charge utile non caractérisée. En manipulation de contact dynamique, un écart de timing de quelques millisecondes suffit à rompre la séquence de contact et faire échouer la tâche. TAM décharge la politique de toute domain randomization sur les paramètres dynamiques du robot, technique qui produit habituellement des comportements trop conservateurs. Sa propriété clé est l'indépendance vis-à-vis de l'espace d'action : les mêmes poids TAM s'appliquent indifféremment à des politiques en cibles articulaires, en cibles d'effecteur terminal, ou en couples directs, ce qui élargit considérablement la portée de réutilisation. En benchmark, TAM surpasse l'identification de système en ligne et la baseline RMA (Rapid Motor Adaptation). La transférabilité inter-robots constitue l'un des obstacles majeurs à la mise à l'échelle des déploiements industriels. Les approches classiques présentent des compromis bien documentés : la domain randomization sacrifie la performance, la system identification exige des données collectées pour chaque robot ou configuration. TAM propose une troisième voie via un préentraînement multi-robot en simulation randomisée, suivi d'un fine-tuning robot-spécifique sans aucune donnée réelle. L'idée d'adaptation par historique proprioceptif avait été popularisée par RMA autour de 2021 pour les robots quadrupèdes ; TAM l'étend à la manipulation de contact en bras articulé, domaine où la dynamique est nettement plus imprévisible. L'article ne mentionne ni partenaire industriel ni timeline de déploiement : il s'agit d'un travail académique dont la validation à plus grande échelle et sur robots variés reste à établir.

RecherchePaper

1 source

2arXiv cs.RO

Latents de mouvement sensibles à la géométrie pour des politiques de manipulation robustes

Ils entraînent GeoMoLa (Geometry-Aware Motion Latents) en prédisant l'évolution de nuages de points plutôt qu'en reconstruisant des images, pour capturer les transformations géométriques 3D sous-jacentes aux gestes de manipulation. Contrairement aux approches existantes qui nécessitent une reconstruction multi-vues, GeoMoLa atteint des performances état de l'art avec une seule caméra RGB-D en entrée. Les auteurs valident la méthode sur plusieurs bancs d'essai de manipulation robotique standards, ainsi que sur des expériences en conditions réelles, où le système parvient à manipuler des objets dans des environnements encombrés avec un nombre minimal de démonstrations. Leurs études d'ablation confirment que c'est la prédiction géométrique, et non la richesse visuelle, qui pilote la performance du modèle. Ce résultat pèse sur un débat central de la robotique manipulative actuelle: faut-il apprendre le mouvement à partir de motifs visuels (pixels, textures, apparence) ou à partir de la géométrie sous-jacente de la scène (formes, profondeur, déplacement des points dans l'espace)? En montrant que des latents entraînés sur la géométrie 4D (espace + temps) généralisent à des scènes visuellement inédites tout en produisant des transformations physiquement cohérentes, l'étude apporte un argument empirique en faveur d'une abstraction du mouvement indépendante de l'apparence. Pour les équipes qui développent des politiques de manipulation type VLA (vision-language-action) destinées à des bras robotiques ou des humanoïdes, cela suggère une voie pour réduire la dépendance à des configurations multi-caméras coûteuses, tout en gagnant en robustesse face au bruit visuel et au clutter, un problème récurrent des déploiements industriels réels. Cette recherche s'inscrit dans la lignée des travaux sur les représentations latentes discrètes pour le contrôle robotique, où plusieurs équipes académiques cherchent depuis quelques années à dépasser les limites des politiques purement pixel-to-action, jugées fragiles hors distribution. L'approche par nuages de points 4D rejoint des efforts plus larges en robotique combinant perception 3D (depth, LiDAR, RGB-D) et apprentissage de politiques, un axe également exploré par des laboratoires travaillant sur les modèles VLA généralistes comme Pi-0 ou GR00T N2. Le papier, publié sur arXiv début juillet 2026, ne précise pas de partenariat industriel ni de déploiement commercial: il s'agit à ce stade d'une contribution de recherche fondamentale, dont la prochaine étape naturelle serait une validation à plus grande échelle sur des plateformes robotiques commerciales.

RecherchePaper

1 source

3arXiv cs.RO

DELTA : conception et contrôle d'un multirotor transformable pour la locomotion hybride air-sol et la manipulation

DELTA est un robot multirotor multilink capable, sur un même châssis transformable, de rouler sur le sol, de voler et de manipuler des objets dans les deux environnements. Publié sur arXiv (2403.06636v2), ce travail de recherche présente un prototype fonctionnel dont l'architecture distribue les propulseurs sur chacun des segments articulés du robot, plutôt que de les centraliser sur un corps rigide. Le système exploite l'actionnement des articulations pour passer d'un mode à l'autre et exécuter des tâches de manipulation, en s'appuyant sur un modèle cinématique dit "minimal configuration" décrit en détail par les auteurs. L'enjeu central est structurel : les multirotors classiques équipés de bras manipulateurs souffrent d'un problème de compatibilité entre les degrés de liberté nécessaires à la manipulation et la stabilité lors des contacts au sol. En répartissant les propulseurs sur chaque maillon, DELTA contourne ce compromis. Les auteurs proposent en parallèle une méthode de contrôle temps réel basée sur une optimisation non linéaire qui gère simultanément les contacts et les mouvements articulaires, applicable selon eux à diverses plateformes multirotor. Ils revendiquent une première mondiale pour la combinaison locomotion air-sol et manipulation sur un multirotor multilink, affirmation à prendre dans son contexte académique strict : il s'agit d'un prototype de laboratoire, sans données de charge utile, de temps de cycle ou d'endurance publiées dans l'abstract. Ce travail s'inscrit dans une dynamique de recherche sur les robots multimodaux qui s'intensifie depuis une décennie : quadrupèdes volants (ETH Zürich, Caltech), drones à bras articulés (TU Delft, CMU), robots amphibies. L'originalité de DELTA réside dans l'unification des trois capacités dans une architecture sans châssis rigide central. Côté compétiteurs académiques directs, les plateformes Voliro (ETH) ou les travaux sur multirotors omnidirectionnels offrent des points de comparaison pertinents. Les étapes naturelles seraient de publier des métriques de performance (autonomie, payload, précision de manipulation) et de tester dans des scénarios applicatifs concrets, notamment l'inspection de structures ou la maintenance en environnement contraint, où une telle polyvalence air-sol aurait une valeur opérationnelle réelle.

UETU Delft (Pays-Bas) est cité comme laboratoire concurrent pertinent, mais aucun acteur industriel ou institutionnel européen n'est impliqué dans DELTA ; pas d'impact opérationnel direct pour la France/UE.

RecherchePaper

1 source

4arXiv cs.RO

GIFT : transfert fonctionnel induit par la géométrie pour la manipulation d'objets par catégorie

Des chercheurs ont publié sur arXiv (2503.15371v2) un framework de transfert de compétences robotiques baptisé GIFT (Geometry-Induced Functional Transfer), conçu pour permettre à un robot de reproduire des manipulations complexes à partir d'une seule démonstration humaine. Le système s'appuie sur le cadre des Cartes Fonctionnelles (Functional Maps, FMC), une technique issue de la géométrie computationnelle, pour extraire des représentations centrées sur les interactions objet-environnement. Une fois ces fonctions d'interaction cartographiées, le robot peut les transférer à des objets de topologie similaire, même si leurs formes diffèrent significativement. Pour générer des trajectoires fluides respectant les contraintes de la démonstration, GIFT intègre l'interpolation par vis (ScLERP, Screw Linear Interpolation). Aucun réentraînement n'est requis : le système s'adapte à de nouveaux environnements directement à l'inférence, validé sur des configurations réelles sans données supplémentaires. L'enjeu industriel est concret. La manipulation d'objets inconnus reste l'un des principaux goulots d'étranglement de la robotique de service et de logistique : chaque nouvelle catégorie d'objet exige aujourd'hui des données d'entraînement supplémentaires ou une reprogrammation manuelle, ce qui alourdit considérablement le coût de déploiement. Un framework one-shot capable de généraliser à travers des catégories d'objets sans réentraînement réduirait le temps de mise en production de façon significative. GIFT s'attaque à ce problème en prouvant qu'une représentation géométrique bien choisie peut absorber la variabilité de forme, offrant une alternative aux approches Vision-Language-Action (VLA) comme Pi-0 de Physical Intelligence ou RT-2 de Google DeepMind, qui nécessitent des volumes de données considérables. Les Functional Maps sont une technique mature en traitement de surfaces 3D, mais leur application au transfert de compétences robotiques reste récente. Ce travail s'inscrit dans un mouvement plus large visant à réduire le data gap de la manipulation, aux côtés d'approches comme ACT (Stanford), DexCap ou UMI, qui explorent également le few-shot learning pour des tâches de manipulation fine. La publication est à ce stade un preprint arXiv (soumis en mars 2025, v2 en remplacement), sans partenaire industriel annoncé ni métrique de cycle time publiée. L'absence de comparatifs quantitatifs avec des baselines VLA laisse ouverte la question de la robustesse à grande échelle.

RecherchePaper

1 source