
BrickCraft : composition de compétences visuomotrices avec guidage manuel pour l'assemblage de briques emboîtables à long horizon
Des chercheurs de l'Intelligent Control Lab ont déposé sur arXiv en mai 2026 (réf. 2605.07605) BrickCraft, un framework compositionnel pour l'assemblage autonome de briques emboîtables par bras robotique. L'approche repose sur une formulation relative : chaque étape est ancrée à une brique de référence dans la structure partielle, ce qui décompose toute séquence longue en un ensemble fini de compétences primitives réutilisables. Pour piloter l'exécution physique, le système introduit les "situated manuals", des guides spatiaux projetés en temps réel dans les observations du robot, permettant à des politiques visuomotrices apprises de recevoir un ancrage spatial précis sans avoir à reprogrammer chaque primitive pour chaque nouvelle structure. L'abstract ne précise ni le robot utilisé, ni les métriques chiffrées (taux de succès, temps de cycle), des informations attendues dans la version complète de l'article.
L'assemblage de briques emboîtables constitue un banc d'essai redoutable pour la manipulation fine : les tolérances d'emboîtement sont de l'ordre du dixième de millimètre, les séquences dépassent fréquemment plusieurs dizaines d'étapes, et une erreur de positionnement en amont propage des défauts irréversibles. BrickCraft s'attaque simultanément aux trois verrous classiques du domaine, à savoir le raisonnement sur horizon long, l'ancrage spatial (spatial grounding) et la manipulation fine, là où les approches end-to-end actuelles peinent à généraliser. La capacité à transférer des compétences apprises sur un nombre limité de démonstrations vers des structures inédites est particulièrement notable : elle indique que les primitives ne sont pas surajustées à une topologie spécifique, un écueil fréquent des méthodes par imitation en robotique d'assemblage.
Du côté de la compétition académique et industrielle, l'assemblage de briques LEGO a déjà mobilisé le MIT CSAIL, l'ETH Zurich via des approches de planification de tâches et mouvements (TAMP), et plus récemment des équipes exploitant des Vision-Language-Action models (VLA) comme Pi-0 d'Embodied Intelligence ou GR00T N2 de NVIDIA pour la manipulation généraliste. BrickCraft choisit un inductive bias différent : exploiter la structure hiérarchique et répétitive propre aux assemblages par emboîtement plutôt que viser une généralité totale, un parti pris qui peut s'avérer payant pour des applications industrielles ciblées comme le montage de kits, le prototypage ou les lignes de petites séries. Le projet dispose d'un site dédié, mais aucun partenariat industriel ni timeline de déploiement n'est annoncé à ce stade.
Dans nos dossiers




