RoboHitch : apprentissage des affordances visuelles à partir de points-clés désordonnés pour le nouage de nœuds d'attelage
Des chercheurs ont publié début juin 2026 sur arXiv (référence 2605.24394) RoboHitch, un framework dédié au nouage de cordes par robot manipulateur, appliqué aux objets linéaires déformables (DLOs). La méthode repose sur des points-clés 3D non ordonnés combinés à des images RGB, sans nécessiter de suivi topologique explicite de la corde. L'architecture mobilise un Graph Autoencoder dynamique pour extraire des caractéristiques géométriques à partir de points-clés non trackés, un Autoencoder convolutionnel pour capturer le contexte visuel, et un mécanisme de cross-attention bidirectionnel qui fusionne ces deux modalités pour prédire conjointement les affordances de pick-and-place. L'entraînement s'effectue par imitation de démonstrations humaines. Les expériences en conditions réelles démontrent que le système parvient à réaliser des noeuds de cabestan (hitch knots) même en présence d'auto-occultations de la corde, un scénario particulièrement difficile à gérer pour les approches existantes.
L'intérêt principal de ce travail réside dans l'abandon du suivi de topologie explicite, source récurrente d'échecs dans la manipulation de DLOs. Les méthodes antérieures s'appuient sur des points-clés ordonnés et une connectivité d'arêtes définie, ce qui les rend vulnérables aux dérives de tracking et aux incohérences topologiques lors des croisements répétés de la corde. RoboHitch contourne ce problème en raisonnant implicitement sur l'état de la corde via la fusion multimodale, ce qui représente un changement d'approche notable pour les intégrateurs travaillant sur l'assemblage de faisceaux de câbles, la robotique chirurgicale ou l'automatisation industrielle de liage.
La manipulation de DLOs est un problème ouvert depuis plusieurs années en robotique, avec des travaux notables notamment de Berkeley, Stanford et des équipes européennes sur la chirurgie robotique mini-invasive. Les approches concurrentes incluent des méthodes basées sur la simulation (sim-to-real) et des réseaux de type VLA (Vision-Language-Action), mais peu traitent explicitement les noeuds complexes avec auto-occultation. Ce travail reste à ce stade un preprint non évalué par les pairs, avec des tests réels dont l'échelle et la diversité des scénarios ne sont pas précisés dans l'abstract, ce qui invite à la prudence sur la généralisation revendiquée avant publication dans une conférence de robotique de premier plan.
Des équipes européennes actives sur la manipulation chirurgicale de DLOs (mentionnées comme travaux antérieurs) pourraient bénéficier de cette approche sans suivi topologique explicite, mais aucun acteur français ou européen n'est directement impliqué dans ce preprint.
Dans nos dossiers




