
Voir de façon sélective, agir de façon adaptative : décomposition structurelle à deux niveaux pour la manipulation bimanuelles par robot
Une équipe de chercheurs a publié le 16 juin 2026 (arXiv:2606.13279) un nouveau cadre VLA pour la manipulation bimanuelles robotique, baptisé "Dual-Level Structural Decomposition". L'architecture repose sur deux modules distincts : un "View-Selective Visual Router" qui pondère dynamiquement la contribution de chaque caméra de poignet selon le contexte de la tâche, et un générateur d'actions basé sur un Mixture-of-Experts (MoE) qui sépare explicitement les trajectoires coordonnées (les deux bras agissent ensemble) des trajectoires indépendantes (chaque bras opère séparément). Évalué sur six tâches bimanuelles simulées dans l'environnement RoboTwin 2.0 et trois tâches longues en conditions réelles, le système affiche un gain de 27,7 % de taux de réussite moyen en simulation et de 43,3 % en déploiement physique par rapport à une baseline VLA monolithique équivalente.
Ces résultats interpellent directement les équipes qui développent des politiques de contrôle pour robots humanoïdes ou manipulateurs industriels à deux bras. La progression de 43 % en real-world est significative car elle s'applique à des tâches dites "long-horizon", c'est-à-dire enchaînant plusieurs sous-étapes, là où les VLA monolithiques accumulent les erreurs. Le choix du MoE comme mécanisme de décomposition est notable : plutôt que d'entraîner deux politiques séparées, le modèle apprend à router dynamiquement selon le mode d'interaction détecté, ce qui limite l'explosion du coût d'inférence. Cela valide partiellement l'hypothèse que la structure de l'interaction bimanuele est un biais inductif exploitable -- et que les architectures "tout-en-un" atteignent leurs limites sur ces configurations.
Les VLA bimanuelles constituent un chantier actif depuis l'essor des modèles de fondation robotiques en 2024-2025. Des systèmes comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) ciblent déjà la manipulation généraliste, mais traitent souvent l'entrée visuelle et la génération d'action de façon uniforme. Ce travail s'inscrit dans une tendance plus large vers des architectures modulaires, aux côtés d'initiatives comme RoboTwin 2.0 lui-même, qui sert ici de benchmark standardisé. Les prochaines étapes naturelles seraient un test sur des robots humanoïdes commerciaux (Figure 03, Unitree H1) ou une intégration dans des cellules industrielles bimanuelles -- les auteurs ne mentionnent pas de partenariat industriel ni de timeline de transfert dans la version preprint.
Dans nos dossiers




