
Tabero : manipulation douce par retour de force en boucle fermée (vision, toucher, langage)
Une équipe de recherche a publié sur arXiv (preprint 2605.27886, mai 2026) Tabero, un benchmark et une suite de modèles destinés à doter les robots d'une manipulation douce et contrôlée par retour de force en temps réel. Le système repose sur deux composantes : d'abord un benchmark qui recycle des trajectoires de manipulation robotique open-source pour générer automatiquement des tâches combinant vision, toucher et instructions en langage naturel, sans nécessiter de collecte de données tactiles from scratch ; ensuite Tabero-VTLA, une architecture Vision-Langage-Action (VLA) dotée d'une interface de commande découplée force/position, exécutée par un contrôleur hybride fixe. Résultat clé annoncé : sous instructions de manipulation douce, le modèle réduit la force de préhension moyenne de plus de 70 % tout en maintenant un taux de succès élevé sur les tâches testées. Le code est publié sur GitHub. Il s'agit d'un preprint de recherche, pas d'un produit déployé.
Ce résultat s'attaque à une limite connue des VLA actuels : ces modèles, entraînés principalement sur des données visuelles et textuelles, ne disposent pas de mécanismes de rétroaction de force en boucle fermée, ce qui les rend inadaptés à la manipulation d'objets fragiles ou aux interactions physiques avec des humains. La réduction de 70 % de la force de préhension est un chiffre notable, mais il faut le contextualiser : les détails sur la diversité des tâches, les matériaux et les conditions de test restent limités dans ce résumé, et les vidéos de démonstration associées aux preprints de ce type sont souvent sélectionnées pour maximiser l'effet. Le pipeline de génération de données tactiles par revalorisation de trajectoires existantes est en revanche une contribution méthodologique potentiellement réutilisable par d'autres équipes.
Les VLA à toucher intégré constituent un chantier ouvert dans la course aux robots polyvalents. Les modèles pi-zero de Physical Intelligence et GR00T N2 de NVIDIA ont popularisé les architectures VLA pour la manipulation généraliste, mais s'appuient quasi exclusivement sur la vision. Du côté du toucher, des capteurs comme GelSight ou DIGIT existent en laboratoire mais restent rarement intégrés dans les pipelines d'entraînement à grande échelle. Tabero tente de combler ce fossé par une approche data-efficient. Les prochaines étapes naturelles seraient une validation sur robot physique dans des conditions industrielles réelles, notamment pour des cas d'usage comme l'assemblage de composants délicats ou la collaboration humain-robot en contexte manufacturier.




