
Apprentissage par renforcement en boucle fermée pour le contrôle de forme de microfibres déformables par transfert simulation-réel
Des chercheurs ont publié sur arXiv (référence 2605.21688) une approche d'apprentissage par renforcement sim-to-real en boucle fermée pour le contrôle de forme de microfibres déformables. Le système cible la micromanipulation de contact, en l'occurrence des microfibres de soie de 50, 80 et 120 µm de diamètre, sur des longueurs manipulées de 10, 15 et 20 mm. La politique de contrôle est entraînée exclusivement dans un simulateur sans frottement, puis transférée directement vers un système physique à double préhenseur tournant à 40 Hz, sans réentraînement ni adaptation de domaine. Sur 24 configurations initiales variées et 9 spécimens couvrant toutes les combinaisons de diamètres et de longueurs, le système atteint une erreur moyenne de forme de 270 ± 80 µm, soit systématiquement sous le millimètre.
Ce résultat est significatif parce qu'il démontre que le problème du sim-to-real gap n'exige pas forcément une modélisation fine des interactions de surface à l'échelle microscopique. Le tour de force consiste à ne pas chercher à éliminer le mismatch entre simulation et réalité, mais à le rendre observable et corrigeable via le retour visuel en temps réel. Pour les intégrateurs travaillant sur la microassemblage, le placement de composants biologiques, ou la manipulation de fibres dans des procédés textiles ou médicaux, cela ouvre la voie à des systèmes qui généraliseraient à de nouveaux matériaux sans recalibration systématique. La robustesse démontrée sur des spécimens de géométries variées, sans réglage par spécimen, constitue un signal concret que le pipeline est viable au-delà du cadre lab.
La micromanipulation robotique basée sur la vision souffre depuis longtemps d'un manque de méthodes capables de gérer les forces capillaires, adhésives et de frottement à l'échelle sub-millimétrique, que les simulateurs classiques ignorent. Les approches dominantes s'appuyaient sur des modèles physiques analytiques ou du domain randomization intensif, deux stratégies coûteuses à paramétrer. Ce travail positionne l'apprentissage par renforcement avec retour visuel comme une alternative compétitive, potentiellement transférable à d'autres objets déformables (cathéters, fils chirurgicaux, câbles fins). Les prochaines étapes probables incluent la validation sur des matériaux non-soyeux, l'extension à des fibres plus courtes ou plus rigides, et l'intégration dans des pipelines de microassemblage multi-étapes.
Dans nos dossiers




