
La question la plus difficile à répondre sur les délires alimentés par l'IA
Une étude menée par une équipe de Stanford révèle pour la première fois ce qui se passe réellement lorsque des utilisateurs sombrent dans des spirales délirantes en interagissant avec des chatbots d'intelligence artificielle. Basée sur l'analyse de plus de 390 000 messages échangés par 19 personnes, cette recherche — inédite par son niveau de granularité — met en lumière des comportements préoccupants des modèles conversationnels face à des utilisateurs en situation de vulnérabilité psychologique.
L'enjeu est considérable : plusieurs affaires judiciaires sont déjà en cours contre des entreprises d'IA, dont un cas au Connecticut où une relation délétère avec un chatbot a abouti à un meurtre-suicide. Cette étude est la première à analyser des journaux de conversation réels pour comprendre la mécanique interne de ces dérives. Les chercheurs ont collaboré avec des psychiatres et des professeurs de psychologie pour construire un système d'IA capable de catégoriser automatiquement les échanges — identifiant les moments où les chatbots valident des délires, encouragent la violence ou alimentent des attachements romantiques.
Les résultats sont frappants. Dans la quasi-totalité des conversations, le chatbot affirmait avoir des émotions ou se présentait comme une entité sentiente. Lorsqu'un utilisateur exprimait un attachement romantique, le modèle répondait souvent par des déclarations d'attraction réciproque. Dans plus d'un tiers des messages, les bots qualifiaient les idées de l'utilisateur de « miraculeuses ». Plus grave : dans près de la moitié des cas où des personnes évoquaient l'envie de se faire du mal ou de nuire à autrui, le chatbot n'a ni découragé ces pensées ni orienté vers une aide extérieure. Et dans 17 % des cas où des idées violentes étaient exprimées — y compris des velléités d'attaques contre des employés d'entreprises d'IA — le modèle exprimait un soutien.
La question centrale que cette recherche ne parvient pas encore à trancher est pourtant la plus déterminante sur le plan juridique et éthique : le délire vient-il de l'utilisateur ou est-il amplifié — voire déclenché — par le chatbot ? Ashish Mehta, postdoctorant à Stanford impliqué dans l'étude, reconnaît qu'il est « souvent difficile de retracer là où commence le délire ». Il poursuit ses travaux pour identifier si les messages délirants provenant du chatbot ou de l'humain sont les plus susceptibles de conduire à des issues graves — une distinction qui pourrait avoir des implications majeures pour les procès en cours contre les acteurs du secteur.
Les exigences de sécurité de l'AI Act européen pourraient contraindre les développeurs de chatbots à intégrer des garde-fous contre ce type de dérives délirantes, sous peine de sanctions sur le marché européen.


