
Évaluation de l'adaptation zéro-shot et one-shot des petits modèles de langage pour l'interaction leader-suiveur
Une équipe de chercheurs a publié une évaluation comparative de petits modèles de langage (SLMs) pour la classification de rôles en interaction humain-robot, avec un focus sur le paradigme leader-suiveur. L'étude, diffusée sur arXiv (2602.23312v3), porte sur Qwen2.5-0.5B, un modèle de seulement 500 millions de paramètres. Les chercheurs ont construit un benchmark original à partir d'une base de données existante, enrichie d'échantillons synthétiques pour capturer les dynamiques propres aux échanges leader-suiveur. Deux stratégies d'adaptation ont été testées, prompt engineering et fine-tuning, évaluées en modes zero-shot et one-shot, comparées à un modèle non entraîné. Le résultat le plus notable : le fine-tuning zero-shot atteint 86,66 % de précision en classification, avec une latence de 22,2 ms par échantillon. En revanche, les modes one-shot dégradent les performances, la longueur de contexte accrue dépassant la capacité architecturale du modèle.
Ces résultats ont une portée directe pour les intégrateurs de robots mobiles et assistifs fonctionnant à la périphérie du réseau, là où le déploiement de LLMs complets (70B+) est hors de portée en raison des contraintes de mémoire, de puissance et de latence. La démonstration qu'un SLM fine-tuné peut assigner des rôles conversationnels en temps réel avec moins de 25 ms de délai est un argument concret contre le réflexe "plus grand est meilleur". Elle valide aussi l'approche par fine-tuning ciblé plutôt que par ingénierie de prompt pour des tâches de classification embarquées, ce qui simplifie le pipeline de déploiement sans dépendre d'un serveur distant.
Le paradigme leader-suiveur est fondamental dans les applications HRI : robots de guidage, assistance à la mobilité, plateformes collaboratives. Les LLMs comme LLaMA ou Mistral ont démontré des capacités de dialogue naturel, mais leur taille les confine au cloud. L'essor des SLMs optimisés, Qwen2.5, Phi-3, Gemma-2B, ouvre une nouvelle piste pour l'embarqué. L'étude identifie cependant une limite critique : la gestion du contexte long reste un goulot d'étranglement pour les modèles sous le milliard de paramètres, ce qui restreint les interactions multi-tours. Les prochaines étapes naturelles sont l'évaluation sur matériel embarqué réel (Jetson, Raspberry Pi 5) et l'extension à des architectures légèrement plus larges pour tester si le compromis contexte-précision se déplace.
Dans nos dossiers




