Aller au contenu principal
RecherchearXiv cs.RO50min

3D HAMSTER : relier planification et contrôle dans les modèles VLA hiérarchiques grâce au guidage par trajectoire 3D

1 source couvre ce sujet·Source originale ↗·
Résumé IASource uniqueImpact UE

Papier académique en robotique (VLA hiérarchique), pas de named companies commerciales ni d'acteur FR/EU à mettre en avant ici. Je rédige directement l'article.

Des chercheurs du laboratoire DAVIAN Robotics présentent 3D HAMSTER, un nouveau framework pour les modèles Vision-Langage-Action (VLA) hiérarchiques utilisés en manipulation robotique, détaillé dans un preprint arXiv (2606.31329v1). Ces architectures séparent la planification de haut niveau, confiée à un modèle vision-langage (VLM), du contrôle bas niveau exécuté par une politique dédiée. Les approches récentes font produire au VLM des trajectoires 2D de l'effecteur terminal pour guider cette politique, mais les politiques de pointe travaillent en réalité dans un espace métrique 3D à partir de nuages de points. Faute de profondeur, chaque point de la trajectoire 2D doit hériter de la profondeur de la surface visible sous lui dans la scène, ce qui déforme géométriquement le chemin prédit. 3D HAMSTER corrige ce défaut en dotant le VLM d'un encodeur de profondeur dédié et d'un objectif de reconstruction dense de la profondeur, afin qu'il prédise directement des séquences de points de passage en 3D, ensuite injectées dans une politique bas niveau opérant sur nuages de points.

Cette correction cible un goulot d'étranglement précis de la génération actuelle de VLA hiérarchiques: la conversion 2D vers 3D introduisait un bruit géométrique qui limitait la fiabilité des gestes de manipulation, en particulier lors de changements d'apparence de la scène ou de conditions inédites (langage, position spatiale, visuel). Sur les trois bancs d'essai testés (prédiction de trajectoire 3D, simulation, manipulation réelle), 3D HAMSTER dépasse à la fois des VLM propriétaires état de l'art et les méthodes concurrentes guidées en 2D, avec les écarts les plus marqués justement sur ces conditions de généralisation difficile. Ce résultat va dans le sens d'une hypothèse clé du secteur: une bonne partie de l'écart entre démonstrations en laboratoire et déploiement réel des robots manipulateurs tient moins à la politique de contrôle elle-même qu'à la qualité du signal de planification qui la guide.

Le travail s'inscrit dans la lignée des architectures VLA hiérarchiques qui ont émergé ces deux dernières années pour améliorer la généralisation des robots manipulateurs, en s'appuyant sur des politiques bas niveau désormais matures en perception 3D par nuages de points. En comparant directement sa méthode à des VLM propriétaires non nommés publiquement dans le résumé, l'équipe positionne 3D HAMSTER comme une alternative open, avec une page projet dédiée (davian-robotics.github.io/3D_HAMSTER) où code et données devraient être publiés pour permettre une reproduction indépendante des résultats.

À lire aussi

Attaques par redirection de trajectoire sur les modèles vision-langage-action (VLA)
1arXiv cs.RO 

Attaques par redirection de trajectoire sur les modèles vision-langage-action (VLA)

Des chercheurs ont publié le 12 juin 2026 un article (arXiv:2606.12978) introduisant une nouvelle classe d'attaques adversariales sur les politiques robotiques de type VLA (Vision-Language-Action), ces architectures qui combinent un modèle de langage, une vision par caméra et un contrôleur moteur pour exécuter des tâches de manipulation à partir d'instructions textuelles. L'attaque baptisée "command-preserving trajectory redirection" (redirection de trajectoire préservant la commande) consiste à modifier subtilement le prompt d'entrée de façon à ce qu'il reste visuellement et sémantiquement proche de l'instruction légitime, mais provoque un résultat physique entièrement différent. Le modèle de menace est strict : l'attaquant ne modifie ni les poids du modèle, ni l'environnement, il choisit un seul prompt avant l'épisode, et ce prompt reste dans la norme syntaxique de la commande originale, sans mots-cibles ni langage correctif. Les auteurs proposent une méthode de recherche "on-policy" qui exploite des rollouts réels du robot pour identifier les perturbations textuelles dont le comportement en boucle fermée dévie vers une tâche cible. Les expériences sont conduites en simulation et sur robot physique, confirmant le transfert de l'attaque au monde réel. Ce résultat est significatif pour les intégrateurs et les décideurs industriels qui évaluent l'adoption des VLA en production, notamment dans les contextes de manipulation collaborative ou d'assemblage. La vulnérabilité exploite une propriété structurelle des VLA en boucle fermée : le même prompt est réappliqué à chaque étape de re-planification, et chaque action conditionnée modifie les observations futures sur lesquelles la politique agit. Un prompt malveillant peut donc cumuler ses effets sur toute une trajectoire, là où les attaques précédentes se limitaient à des perturbations action-par-action ou à la persistance d'actions basses. Cela contredit implicitement l'hypothèse que la robustesse visuelle d'un VLA suffit à garantir son intégrité comportementale, et soulève des questions concrètes sur la validation de sécurité avant déploiement. Les modèles VLA sont au coeur de plusieurs développements récents : pi0 de Physical Intelligence, OpenVLA, RT-2 de Google DeepMind, ou encore les politiques embarquées sur les humanoïdes Figure et 1X. La recherche en sécurité adversariale sur ces architectures était jusqu'ici dominée par des attaques sur les observations visuelles ou sur les actions individuelles ; ce travail ouvre formellement le champ des attaques au niveau de l'instruction textuelle à horizon long. Les auteurs n'annoncent pas de correctif ni de contre-mesure validée, ce qui laisse ouverte la question de la robustification des pipelines VLA. Les prochaines étapes attendues dans la communauté concerneront vraisemblablement la détection de prompts adversariaux à la volée et l'évaluation de ce vecteur d'attaque sur des modèles déployés commercialement. Le site projet est accessible à l'adresse indiquée dans le papier.

RechercheOpinion
1 source
DAG-STL : un cadre hiérarchique pour la planification de trajectoires zéro-shot sous contraintes de logique temporelle signalée
2arXiv cs.RO 

DAG-STL : un cadre hiérarchique pour la planification de trajectoires zéro-shot sous contraintes de logique temporelle signalée

Des chercheurs ont publié DAG-STL, un cadre hiérarchique de planification de trajectoires pour robots opérant sous contraintes de Signal Temporal Logic (STL), une logique formelle permettant de spécifier des tâches robotiques structurées dans le temps. Le pipeline decompose-allocate-generate fonctionne en trois étapes : il décompose d'abord une formule STL en conditions de progression d'accessibilité et d'invariance, liées par des contraintes de synchronisation partagées ; il alloue ensuite des waypoints temporels via des estimations d'accessibilité apprises ; enfin, il synthétise les trajectoires entre ces waypoints à l'aide d'un générateur basé sur la diffusion. Les expériences ont été conduites sur trois benchmarks standards : Maze2D, OGBench AntMaze, et le domaine Cube, avec un environnement personnalisé incluant une référence par optimisation. DAG-STL surpasse significativement l'approche concurrente de diffusion guidée par robustesse directe sur des tâches STL à long horizon, et récupère la majorité des tâches solubles par optimisation classique tout en conservant un avantage computationnel notable. L'apport principal de ce travail est de résoudre la planification STL en contexte zero-shot, c'est-à-dire sans avoir jamais vu la tâche cible lors de l'entraînement, et sans modèle analytique de la dynamique du système. Pour les intégrateurs et décideurs en robotique, cela signifie qu'un robot équipé de DAG-STL pourrait recevoir une spécification temporelle formelle inédite et en dériver un plan exécutable uniquement depuis des données de trajectoires génériques préenregistrées. La séparation explicite entre raisonnement logique et réalisation physique de la trajectoire est une décision architecturale structurante : elle réduit les problèmes de planification globale long-horizon à une série de sous-problèmes plus courts et mieux couverts par les données. Le cadre introduit également une métrique de cohérence dynamique sans rollout et un mécanisme de replanification hiérarchique en ligne, deux mécanismes qui adressent directement le gap simulation-réel, sujet central des débats sur le sim-to-real dans les VLA (Vision-Language-Action models). DAG-STL s'inscrit dans un courant de recherche actif qui cherche à doter les robots d'une capacité de généralisation formellement vérifiable, à la croisée de la planification sous contraintes logiques temporelles et des modèles génératifs de trajectoires. La STL est un langage étudié depuis les années 2000 en vérification formelle, mais son application à la planification robotique offline reste difficile faute de modèles dynamiques disponibles dans des environnements réels. Les approches concurrentes incluent les méthodes d'imitation learning task-spécifiques et les planificateurs à base de modèle explicite, que DAG-STL vise à dépasser sur le critère de généralisation. Le preprint est disponible sur arXiv (2604.18343) et les prochaines étapes naturelles seraient une validation sur des plateformes physiques, notamment en manipulation et navigation réelle, pour confirmer les gains observés en simulation.

RecherchePaper
1 source
Téléopération en temps réel sans collision grâce à une planification de trajectoire différentiable par contraintes
3arXiv cs.RO 

Téléopération en temps réel sans collision grâce à une planification de trajectoire différentiable par contraintes

Des chercheurs ont publié en juin 2026 sur arXiv (arXiv:2606.08725) une méthode de planification de trajectoire en temps réel pour la téleopération sans collision de bras manipulateurs. Le problème central : en téleopération, l'opérateur ne contrôle que la pose de l'effecteur terminal (position et orientation de l'outil), sans piloter individuellement les articulations. Cela provoque régulièrement des auto-collisions du bras sur lui-même ou des collisions avec les obstacles de l'environnement de travail. L'approche proposée reformule les contraintes d'évitement de collision en les rendant différentiables via la dualité en optimisation convexe, une formulation récente adaptée ici au contexte de la téleopération. Le robot est représenté géométriquement par des capsules (cylindres à extrémités hémisphériques), l'environnement par des polytopes. La méthode a été validée en simulation sur des scénarios à nombre variable d'obstacles, puis testée physiquement sur un bras UR5e de Universal Robots dans une session de téleopération réelle. Les résultats indiquent des temps de calcul inférieurs aux méthodes de référence, tout en autorisant une modélisation géométrique plus fidèle, produisant des trajectoires plus lisses et garantissant l'absence de collision. L'enjeu industriel est direct : les approches existantes contraignent les développeurs à choisir entre précision géométrique et performance de calcul. Approximer robot et obstacles par des sphères simplifie la différentiabilité mais introduit des marges de sécurité artificiellement larges, restreignant l'espace de travail utile. À l'inverse, approximer les dérivées dégrade la convergence du solveur et augmente la latence, incompatible avec les exigences temps réel de la téleopération. En utilisant la dualité convexe, ce travail contourne les deux compromis simultanément. Pour un intégrateur déployant des cellules robotisées téléopérées, cela représente potentiellement moins de zones interdites inutiles et une meilleure réactivité du système. La téleopération connaît un regain d'intérêt important depuis 2023, portée par les besoins en collecte de données pour l'apprentissage par imitation dans les robots humanoïdes et par les applications en environnements dangereux ou médicaux. Les méthodes concurrentes incluent les contrôleurs réactifs basés sur des champs de potentiel, les planificateurs par échantillonnage (RRT, CHOMP) et les approches de contrôle optimal à horizon glissant avec modèles en sphères. L'approche ici, fondée sur la programmation différentiable et les contraintes duales convexes, s'inscrit dans une tendance plus large d'intégration des outils d'optimisation différentiable dans la robotique de manipulation. Le travail est un preprint non encore évalué par les pairs ; les prochaines étapes probables concernent l'extension à des configurations à plus grand nombre de degrés de liberté et à des environnements dynamiques.

UEApplicable aux intégrateurs européens déployant des cellules téléopérées (chirurgie, environnements dangereux), mais aucun acteur FR/EU n'est directement impliqué dans ce preprint.

RecherchePaper
1 source
Planification des tâches et des mouvements robotiques par invite hiérarchique à double module LLM
4arXiv cs.RO 

Planification des tâches et des mouvements robotiques par invite hiérarchique à double module LLM

Des chercheurs ont publié le 12 mai 2026 sur arXiv (référence 2605.08330) un framework de planification tâche-et-mouvement pour robots de service, reposant sur deux modules LLM distincts organisés en hiérarchie. Le premier module, dit "agent de haut niveau", interprète des commandes en langage naturel et génère des séquences d'actions via un prompt de style ReAct, en s'appuyant sur des outils de perception et de manipulation (pick, place, release). Le second module, dédié au raisonnement spatial de bas niveau, prend en charge les instructions de placement précis, par exemple "pose la tasse à côté de l'assiette", en calculant les positions 3D à partir de la géométrie des objets et de la configuration de la scène. La détection d'objets et l'estimation de pose sont assurées par YOLOX-GDRNet. Sur 24 scénarios de test couvrant des commandes spatiales simples, des instructions de haut niveau et des requêtes infaisables, le système affiche un taux de succès global de 86 %. Cette architecture en deux étages répond à un problème bien connu en robotique de service : un LLM généraliste gère mal simultanément la logique séquentielle des tâches et le raisonnement géométrique fin. Séparer ces deux fonctions réduit la surface d'erreur et rend le système plus robuste aux ambiguïtés spatiales, un point de friction majeur dans les scénarios d'assistance à domicile ou hospitaliers. Le taux de 86 % est encourageant, mais il convient de nuancer : 24 scénarios constituent une base d'évaluation très réduite, et les conditions de test en laboratoire restent éloignées de la variabilité d'un environnement réel non structuré. Aucun robot physique n'est mentionné, le module d'exécution motrice étant décrit comme un "stub", ce qui signifie que les résultats restent pour l'instant purement simulés ou partiellement maquettés. Ce travail s'inscrit dans le prolongement des approches LLM-to-robot popularisées par SayCan de Google (2022) et les travaux RT-2 et OpenVLA, qui ont démontré qu'un modèle de langage peut servir de planificateur de haut niveau pour un robot. La spécificité ici est le découplage explicite du raisonnement spatial dans un sous-module dédié, plutôt que de tout faire porter au modèle principal, une direction cohérente avec les limites documentées des VLA (Vision-Language-Action models) sur les tâches de placement précis. Aucun partenaire industriel ni calendrier de déploiement n'est communiqué ; l'étape suivante logique serait une validation sur robot réel dans un contexte de service structuré.

RechercheOpinion
1 source