3D HAMSTER : relier planification et contrôle dans les modèles VLA hiérarchiques grâce au guidage par trajectoire 3D
Papier académique en robotique (VLA hiérarchique), pas de named companies commerciales ni d'acteur FR/EU à mettre en avant ici. Je rédige directement l'article.
Des chercheurs du laboratoire DAVIAN Robotics présentent 3D HAMSTER, un nouveau framework pour les modèles Vision-Langage-Action (VLA) hiérarchiques utilisés en manipulation robotique, détaillé dans un preprint arXiv (2606.31329v1). Ces architectures séparent la planification de haut niveau, confiée à un modèle vision-langage (VLM), du contrôle bas niveau exécuté par une politique dédiée. Les approches récentes font produire au VLM des trajectoires 2D de l'effecteur terminal pour guider cette politique, mais les politiques de pointe travaillent en réalité dans un espace métrique 3D à partir de nuages de points. Faute de profondeur, chaque point de la trajectoire 2D doit hériter de la profondeur de la surface visible sous lui dans la scène, ce qui déforme géométriquement le chemin prédit. 3D HAMSTER corrige ce défaut en dotant le VLM d'un encodeur de profondeur dédié et d'un objectif de reconstruction dense de la profondeur, afin qu'il prédise directement des séquences de points de passage en 3D, ensuite injectées dans une politique bas niveau opérant sur nuages de points.
Cette correction cible un goulot d'étranglement précis de la génération actuelle de VLA hiérarchiques: la conversion 2D vers 3D introduisait un bruit géométrique qui limitait la fiabilité des gestes de manipulation, en particulier lors de changements d'apparence de la scène ou de conditions inédites (langage, position spatiale, visuel). Sur les trois bancs d'essai testés (prédiction de trajectoire 3D, simulation, manipulation réelle), 3D HAMSTER dépasse à la fois des VLM propriétaires état de l'art et les méthodes concurrentes guidées en 2D, avec les écarts les plus marqués justement sur ces conditions de généralisation difficile. Ce résultat va dans le sens d'une hypothèse clé du secteur: une bonne partie de l'écart entre démonstrations en laboratoire et déploiement réel des robots manipulateurs tient moins à la politique de contrôle elle-même qu'à la qualité du signal de planification qui la guide.
Le travail s'inscrit dans la lignée des architectures VLA hiérarchiques qui ont émergé ces deux dernières années pour améliorer la généralisation des robots manipulateurs, en s'appuyant sur des politiques bas niveau désormais matures en perception 3D par nuages de points. En comparant directement sa méthode à des VLM propriétaires non nommés publiquement dans le résumé, l'équipe positionne 3D HAMSTER comme une alternative open, avec une page projet dédiée (davian-robotics.github.io/3D_HAMSTER) où code et données devraient être publiés pour permettre une reproduction indépendante des résultats.
Dans nos dossiers




