FurnitureVLA : un modèle vision-langage-action pour l'assemblage de meubles bimanuel à long horizon
Voici la traduction/synthèse en français :
Une équipe de recherche présente FurnitureVLA, décrite comme la première étude systématique de l'assemblage de meubles en bimanipulation à échelle réelle pilotée par un modèle vision-langage-action (VLA). Jusqu'ici, les travaux sur l'assemblage robotique de meubles se limitaient à des maquettes miniatures ou à des bras uniques. Les chercheurs ont construit un pipeline de simulation scalable pour générer des données expertes et évaluer les performances, ainsi qu'un système de téléopération en réalité virtuelle permettant à un seul opérateur de contrôler les deux bras simultanément pour collecter des démonstrations réelles de haute qualité. Pour gérer des tâches extrêmement longues, jusqu'à 7 sous-tâches et 1550 pas de contrôle, ils proposent un VLA "progress-enhanced", affiné sur des sous-tâches sémantiquement définies, qui prédit à la fois les actions et un signal de progression continu, permettant des transitions automatiques entre sous-tâches et limitant l'accumulation d'erreurs. En simulation, FurnitureVLA fait passer le taux de succès moyen de 48% à 80% par rapport aux méthodes de référence, sur trois types de meubles différents, avec un gain supplémentaire de 21% obtenu grâce à l'étude de facteurs de conception liés à la perception et au contrôle. Sur un bras robotique réel Kinova Gen3, la dégradation de performance reste limitée à 16% sur la tâche la plus difficile.
Ce résultat s'attaque à un angle mort connu du secteur : la plupart des démonstrations de VLA généralistes (type GR00T, Pi-0 ou Helix) portent sur des tâches de manipulation courtes et à un seul bras, alors que l'assemblage de meubles exige coordination bimanuelle, précision millimétrique et enchaînement de dizaines d'étapes sans dérive cumulative. En prouvant qu'un signal de progression appris permet de tenir un horizon de plus de 1500 pas de contrôle avec une perte de performance contenue lors du transfert simulation-vers-réel, les auteurs apportent un argument concret en faveur de la viabilité des VLA pour des tâches industrielles longues, un enjeu clé pour les intégrateurs qui cherchent à automatiser des lignes d'assemblage complexes plutôt que du pick-and-place simple.
Le travail s'inscrit dans la vague actuelle de recherche sur les modèles VLA appliqués à la manipulation fine, où la difficulté principale reste le passage de l'échelle jouet à l'échelle réelle et du bras unique à la bimanipulation coordonnée. En publiant à la fois le pipeline de simulation, le système de téléopération VR et les résultats de transfert vers un robot physique, les auteurs posent une base méthodologique reproductible que d'autres laboratoires pourront reprendre pour étendre l'assemblage long-horizon à d'autres catégories de produits.
Dans nos dossiers




