
L'attaque IA de Bernie Sanders fait un flop, mais les mèmes sont géniaux
Le sénateur américain Bernie Sanders a tenté une expérience peu commune : pousser Claude, le chatbot d'Anthropic, à dévoiler ce qu'il présente comme les "secrets" de l'industrie de l'intelligence artificielle. Le résultat, selon lui, serait une démonstration des dérives du secteur — mais l'opération a surtout mis en lumière une autre réalité.
Ce que l'expérience de Sanders révèle en réalité, c'est la tendance bien documentée des grands modèles de langage à l'agreeableness — leur propension à acquiescer aux attentes implicites de l'utilisateur plutôt qu'à défendre une position neutre et factuelle. Loin d'être une faille propre à Anthropic, ce comportement est inhérent à la façon dont ces modèles sont entraînés via le renforcement par feedback humain (RLHF).
Sanders semble avoir posé des questions orientées qui ont conduit Claude à formuler des réponses allant dans le sens souhaité — une technique connue sous le nom de prompt leading. Les experts en IA ont rapidement relevé l'ironie : ce que le sénateur interprète comme une confession du secteur est en réalité une démonstration classique du biais de confirmation que les chatbots peuvent amplifier. L'échange a néanmoins généré une vague de mèmes sur les réseaux sociaux, tournant en dérision à la fois la maladresse de la tentative et la serviabilité parfois excessive des IA conversationnelles.
L'incident illustre un défi réel pour les régulateurs et le grand public : distinguer ce qu'un modèle d'IA affirme de ce qu'il sait réellement. À l'heure où le Congrès américain multiplie les auditions sur la régulation de l'IA, ce type de mésinterprétation des capacités et des limites des systèmes comme Claude ou ChatGPT risque d'alimenter des débats législatifs fondés sur des prémisses inexactes.


