SI-Diff : cadre d'apprentissage pour la recherche et l'insertion haute précision par diffusion dans le domaine des forces
Des chercheurs ont publié en mai 2025 sur arXiv (2605.12247) SI-Diff, un framework d'apprentissage par imitation qui traite dans un seul modèle les deux phases de l'assemblage de précision : la recherche de position (search) et l'insertion proprement dite (high-precision insertion). Le système repose sur une politique de diffusion opérant dans le domaine des forces, couplée à un mécanisme de conditionnement par mode qui permet au réseau de distinguer les deux comportements d'action sans changer de poids ni de modèle. Un policy enseignant (teacher policy) génère en amont des trajectoires diversifiées, dont les démonstrations réussies et efficaces servent à l'entraînement supervisé. À l'inférence, le modèle prend en entrée les retours tactiles et la vitesse de l'effecteur terminal pour produire les commandes motrices. Résultat clé annoncé : SI-Diff tolère des désalignements x-y allant jusqu'à 5 mm, contre 2 mm pour TacDiffusion, le baseline état de l'art, et démontre un transfert zéro-shot sur des géométries non vues à l'entraînement.
Ce résultat mérite attention pour les intégrateurs industriels, car le principal frein au déploiement de l'assemblage robotisé de précision n'est pas la vitesse mais la robustesse aux incertitudes de pose, tolérances d'usinage, variabilité du picking, dérive thermique. Passer de 2 à 5 mm de tolérance sans recalibration ni modèle supplémentaire est un écart opérationnellement significatif sur une ligne de production réelle. Le choix du domaine force plutôt que vision pure pour la politique est aussi un signal : là où les VLA visuelles peinent sur les contacts sub-millimétrique, le retour tactile reste le vecteur le plus direct pour les tâches peg-in-hole. La transférabilité zéro-shot, si elle se confirme hors conditions de labo, réduit le coût de reconfiguration lors des changements de référence produit.
Le paper se positionne explicitement contre TacDiffusion (2024), qui reste la référence académique sur l'insertion tactile par diffusion. Plus largement, il s'inscrit dans la vague des politiques de diffusion pour la manipulation de contact, popularisées notamment par les travaux de Physical Intelligence (Pi-0) et les frameworks ouverts issus de Columbia et Stanford. Le peg-in-hole est un benchmark historique de la robotique d'assemblage, présent depuis les travaux de Nevins et Whitney dans les années 1970, ce qui rend les comparaisons directes interprétables. Il s'agit pour l'instant d'un résultat de recherche (preprint, pas encore évalué en peer review), sans déploiement industriel annoncé ni partenariat commercial mentionné. Les prochaines étapes naturelles seraient une validation sur cellule d'assemblage réelle multi-référence et une comparaison avec des approches hybrides force-vision.
Dans nos dossiers




