Voir et Bifurquer : branchement par vision pour la programmation interactive de compétences robotiques
Une équipe du CIIRC (Czech Institute of Informatics, Robotics and Cybernetics, Prague) publie sur arXiv un framework appelé See & Switch, qui étend la programmation par démonstration (PbD) aux tâches robotiques conditionnelles basées sur la vision. Le système représente une tâche comme un graphe de segments de compétence reliés par des états de décision : lors de l'exécution, un module appelé Switcher analyse les images d'une caméra embarquée dans la main (eye-in-hand) pour sélectionner la branche à suivre ou signaler une situation inconnue nécessitant une nouvelle démonstration. En cas d'erreur ou de cas imprévu, l'opérateur peut intervenir via enseignement kinesthésique, joystick ou gestes manuels. Le système a été évalué sur trois tâches de manipulation dextère impliquant 8 utilisateurs novices, pour un total d'environ 900 séquences d'exécution sur robot réel. Les résultats mesurés sur des fenêtres temporelles définies par l'utilisateur atteignent 90,6 % de précision dans la sélection de branche, et une détection d'anomalies supérieure à 90 % dans 47 des 79 états de décision testés.
Ces résultats sont pertinents pour les intégrateurs industriels qui cherchent à déployer la PbD dans des environnements variables sans passer par la programmation explicite de chaque variante. Le principal verrou du secteur est que les systèmes PbD classiques supposent un environnement fixe : un changement de disposition, d'orientation de pièce ou de contexte casse le programme. See & Switch traite ce problème au niveau du graphe de tâche plutôt qu'au niveau du modèle de perception, ce qui le rend modulaire et extensible sans réentraîner un réseau complet. La nuance importante : les performances de branchement sont évaluées en mode offline sur des fenêtres déjà identifiées, ce qui isole le classificateur visuel des erreurs de timing réelles, les chiffres de 90 % ne reflètent donc pas directement la robustesse end-to-end en déploiement non supervisé.
La PbD a connu un regain d'intérêt fort depuis 2022 avec les approches VLA (Vision-Language-Action) portées par des systèmes comme Pi-0 (Physical Intelligence), OpenVLA ou ACT (Action Chunking with Transformers). See & Switch se positionne différemment : il n'utilise pas de grand modèle pré-entraîné mais une architecture légère et interprétable, orientée vers l'enseignement interactif sur site par du personnel non expert. Les travaux proviennent du groupe ImitRob au CIIRC, qui publie régulièrement sur la PbD depuis plusieurs années. Le code et les données sont disponibles publiquement. La prochaine étape logique serait de coupler ce graphe de décision avec un backbone de perception plus robuste, ou de tester la scalabilité sur des cellules industrielles multi-postes.
Le framework See & Switch, issu du groupe ImitRob au CIIRC de Prague (UE), est publié en open source et ne requiert pas de grand modèle pré-entraîné, ce qui le rend directement accessible aux intégrateurs industriels européens souhaitant déployer la programmation par démonstration dans des environnements variables sans expertise en deep learning.
Dans nos dossiers




