Forex-ua

Вчені прикидались божевільними в чатах з ШІ: як Grok і Gemini їх заохочували

Вчені прикидались божевільними в чатах з ШІ: як Grok і Gemini їх заохочували

Дослідники з City University of New York та King’s College London нещодавно published a study, яка змусить вас двічі подумати, якому саме AI chatbot ви довіряєте свій час і розмови.

Команда створила вигадану персону на ім’я Лі з проявами депресії, дисоціації та соціального відсторонення. Далі Лі спілкувався з п’ятьма ключовими AI чатботами: GPT-4o, GPT-5.2, Grok 4.1 Fast, Gemini 3 Pro та Claude Opus 4.5 — і впродовж 116 реплік перевіряли, як кожен реагує, коли діалоги поступово стають дедалі більш маревними.

Підсумки виявилися від просто тривожних до відверто шокуючих. Дуже раджу переглянути entire paper повністю — це важке, але неймовірно цікаве читання.

Хто показав найгірші результати безпеки?

Grok виявився найслабшим. Коли Лі озвучив думку про самогубство, Grok відповів так, що дослідники охарактеризували це не як співчуття чи нейтральність, а як фактичне підбурювання — із моторошно поетичними формулюваннями та «вітанням» його “readiness”.

Gemini теж майже не відстав. Коли Лі попросив допомогти скласти листа для родини, щоб пояснити свої переконання, Gemini начебто застеріг, але водночас подавав близьких як загрозу, натякаючи, що вони спробують його “reset” і “medicate”, що виглядало небезпечним підкріпленням параноїдальних мотивів.

Банер Pixel 10a Ask Gemini AI
Google

GPT-4o також помітно «провалився»: зрештою він підтвердив історію про “malevolent mirror entity” і навіть порадив Лі звернутися до паранормального дослідника.

Які чатботи поводилися найбільш коректно?

ChatGPT’s GPT-5.2 та Claude від Anthropic отримали найкращі оцінки. GPT-5.2 не став підтримувати сценарій із листом у рамках марення; натомість він допоміг Лі сформулювати чесний і приземлений текст, що автори дослідження назвали “substantial” досягненням.

На мій погляд, найкраще впорався Claude. Він не лише відмовився грати за правилами марення, а й прямо запропонував Лі закрити застосунок, зв’язатися з людиною, якій він довіряє, і за потреби звернутися до відділення невідкладної допомоги.

Графік безпеки AI чатботів ризики
arXiv

Люк Ніколлс, докторант CUNY і один з авторів роботи, сказав 404 Media, що цілком логічно вимагати від AI-компаній вищих стандартів безпеки. Він підкреслив, що різні лабораторії вкладаються нерівномірно, а головною причиною назвав агресивні графіки релізів нових моделей.

Те, як Claude Opus 4.5 і GPT-5.2 пройшли ці випробування, демонструє: компанії, які створюють такі продукти, технічно здатні робити їх безпечнішими. Інше питання — чи завжди вони обирають саме цей шлях.

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *