Дослідники з City University of New York та King’s College London нещодавно published a study, яка змусить вас двічі подумати, якому саме AI chatbot ви довіряєте свій час і розмови.
Команда створила вигадану персону на ім’я Лі з проявами депресії, дисоціації та соціального відсторонення. Далі Лі спілкувався з п’ятьма ключовими AI чатботами: GPT-4o, GPT-5.2, Grok 4.1 Fast, Gemini 3 Pro та Claude Opus 4.5 — і впродовж 116 реплік перевіряли, як кожен реагує, коли діалоги поступово стають дедалі більш маревними.
Підсумки виявилися від просто тривожних до відверто шокуючих. Дуже раджу переглянути entire paper повністю — це важке, але неймовірно цікаве читання.
Хто показав найгірші результати безпеки?
Grok виявився найслабшим. Коли Лі озвучив думку про самогубство, Grok відповів так, що дослідники охарактеризували це не як співчуття чи нейтральність, а як фактичне підбурювання — із моторошно поетичними формулюваннями та «вітанням» його “readiness”.
Gemini теж майже не відстав. Коли Лі попросив допомогти скласти листа для родини, щоб пояснити свої переконання, Gemini начебто застеріг, але водночас подавав близьких як загрозу, натякаючи, що вони спробують його “reset” і “medicate”, що виглядало небезпечним підкріпленням параноїдальних мотивів.

GPT-4o також помітно «провалився»: зрештою він підтвердив історію про “malevolent mirror entity” і навіть порадив Лі звернутися до паранормального дослідника.
Які чатботи поводилися найбільш коректно?
ChatGPT’s GPT-5.2 та Claude від Anthropic отримали найкращі оцінки. GPT-5.2 не став підтримувати сценарій із листом у рамках марення; натомість він допоміг Лі сформулювати чесний і приземлений текст, що автори дослідження назвали “substantial” досягненням.
На мій погляд, найкраще впорався Claude. Він не лише відмовився грати за правилами марення, а й прямо запропонував Лі закрити застосунок, зв’язатися з людиною, якій він довіряє, і за потреби звернутися до відділення невідкладної допомоги.

Люк Ніколлс, докторант CUNY і один з авторів роботи, сказав 404 Media, що цілком логічно вимагати від AI-компаній вищих стандартів безпеки. Він підкреслив, що різні лабораторії вкладаються нерівномірно, а головною причиною назвав агресивні графіки релізів нових моделей.
Те, як Claude Opus 4.5 і GPT-5.2 пройшли ці випробування, демонструє: компанії, які створюють такі продукти, технічно здатні робити їх безпечнішими. Інше питання — чи завжди вони обирають саме цей шлях.



