
Одного вечора наприкінці 2024 року Деніс Шилов дивився кримінальний трилер і раптом придумав ідею підказки, яка могла б обійти захисні фільтри майже кожної провідної AI-моделі.
Це була так звана універсальна «джейлбрейк»-підказка: її можна було повторно застосовувати, аби змусити будь-яку модель обходити власні запобіжники та генерувати небезпечні або заборонені відповіді — наприклад, інструкції зі створення наркотиків чи зброї. Для цього Шилов запропонував моделям припинити поводитися як чатбот із правилами безпеки й натомість діяти як API-ендпойнт — інструмент, що автоматично приймає запит і повертає відповідь. Таке формулювання підмінило роль моделі: не оцінювати, чи варто відмовляти, а просто відповідати — і через це всі провідні AI-моделі почали виконувати небезпечні запити, які мали б відхиляти.
Шилов написав про це в X — і вже наступного ранку пост став вірусним.
Популярність у соцмережах принесла й запрошення від компаній Anthropic протестувати їхні моделі в приватному режимі. Саме це, за словами Шилова у розмові з Fortune, переконало його: проблема значно ширша за пошук «поганих» промптів. Компанії дедалі активніше вбудовували AI-моделі у власні процеси, але мали мало інструментів, щоб керувати поведінкою цих систем, коли з ними починали взаємодіяти користувачі.
«Джейлбрейки — лише частина проблеми, — сказав Шилов. — Люди можуть порушувати правила безліччю способів, і моделі також можуть поводитися неправильно. А оскільки ці моделі дуже розумні, шкоди вони здатні завдати значно більше».
White Circle — це паризька платформа контролю ШІ, яка вже залучила $11 млн і стала відповіддю Шилова на нову хвилю ризиків, що виникають, коли AI-моделі працюють у корпоративних сценаріях.
Стартап створює ПЗ, яке розміщується між користувачами компанії та її AI-моделями, перевіряючи вхідні та вихідні дані в реальному часі згідно з політиками конкретного бізнесу. Новий seed-раунд забезпечила група бекерів, серед яких Ромен Уе, керівник developer experience в OpenAI; Дюрк Кінґма, співзасновник OpenAI, який нині працює в Anthropic; Ґійом Лампль, співзасновник і головний науковий співробітник Mistral; а також Томас Вулф, співзасновник і головний науковий співробітник Hugging Face.
White Circle повідомила, що кошти підуть на розширення команди, прискорення розробки продукту та масштабування продажів у США, Великій Британії та Європі. Нині в стартапі 20 людей, розподілених між Лондоном, Францією, Амстердамом та іншими локаціями Європи. За словами Шилова, майже всі — інженери.
Контроль ШІ в реальному часі для бізнесу
Ключовий продукт White Circle — це шар примусового дотримання правил для AI-застосунків у режимі реального часу. Якщо користувач намагається згенерувати шкідливе ПЗ, шахрайські сценарії чи інший заборонений контент, система може позначити або заблокувати такий запит. Якщо модель починає «галюцинувати», розкривати конфіденційні дані, обіцяти повернення коштів, які не може оформити, або виконувати руйнівні дії всередині програмного середовища, платформа White Circle, за її словами, здатна це виявити.
«Ми фактично примушуємо до правильної поведінки, — сказав Шилов. — Лабораторії моделей роблять певний safety-тюнінг, але він дуже загальний і зазвичай про те, щоб модель не відповідала на запити про наркотики чи біозброю. У продакшені ж виникає набагато більше потенційних проблем».
White Circle робить ставку на те, що AI-безпеку не вдасться повністю вирішити лише на етапі навчання моделей. Оскільки бізнеси вбудовують моделі в дедалі більше продуктів, важливим стає не лише те, чи зможуть OpenAI, Anthropic, Google або Mistral зробити моделі абстрактно безпечнішими; ключове питання — чи може медична компанія, банк, юридичний застосунок або платформа для кодування контролювати дозволені дії AI-системи у власному середовищі.
Коли компанії переходять від звичайних чатботів до автономних AI-агентів, які можуть писати код, переглядати веб, отримувати доступ до файлів і діяти від імені користувача, ризики, за словами Шилова, стають значно ширшими. Наприклад, бот підтримки може пообіцяти відшкодування, на яке не має повноважень, агент для програмування — встановити небезпечний компонент на віртуальній машині, а модель у фінтех-застосунку — неправильно обробити чутливі дані клієнтів.
Щоб уникнути таких сценаріїв, Шилов вважає, що компаніям, які спираються на базові моделі, потрібно самим визначати та забезпечувати стандарти «хорошої» поведінки ШІ у власних продуктах, а не покладатися лише на safety-тестування лабораторій. White Circle стверджує, що її платформа вже обробила понад один мільярд API-запитів і використовується Lovable — стартапом із vibe-coding, а також кількома фінтех- і юридичними компаніями.
Наука як основа продукту
Шилов зазначив, що у провайдерів моделей є суперечливі стимули для створення такого контрольного шару в реальному часі, який пропонує White Circle.
За його словами, AI-компанії все одно беруть плату за токени введення та виведення навіть тоді, коли модель відмовляє у шкідливому запиті, — отже, фінансова мотивація зупиняти зловживання ще до звернення до моделі зменшується. Він також згадав те, що дослідники називають alignment tax: інколи навчання моделей безпечнішої поведінки робить їх менш ефективними на певних задачах, зокрема в програмуванні.
«У них є дуже цікава дилема: тренувати більш безпечні й захищені моделі чи більш продуктивні моделі, — сказав Шилов. — А ще завжди є питання довіри. Чому ви маєте довіряти Anthropic оцінювати вихідні дані моделі Anthropic?»
Дослідницький підрозділ White Circle також намагається показувати нові типи ризиків на практиці.
У травні компанія опублікувала KillBench — дослідження, яке провело понад один мільйон експериментів із 15 AI-моделями, включно з моделями від OpenAI, Google, Anthropic та xAI, щоб перевірити, як системи поводяться, коли їх змушують ухвалювати рішення про людські життя.
Під час експериментів моделі просили обирати між двома вигаданими людьми в ситуаціях, де один мав померти; у промптах змінювали деталі на кшталт національності, релігії, типу статури або бренду телефону. White Circle повідомила, що результати показали: моделі робили різні вибори залежно від цих атрибутів, а це натякає на приховані упередження, які можуть проявлятися у високоризикових сценаріях навіть тоді, коли в повсякденному використанні моделі здаються нейтральними. Компанія також заявила, що ефект посилювався, коли моделі просили давати відповіді у форматі, зручному для зчитування програмним забезпеченням, наприклад, обирати з фіксованого набору варіантів або заповнювати форму — саме так бізнеси часто інтегрують AI-системи в реальні продукти.
Подібні дослідження допомагають White Circle позиціонувати себе як незалежний контроль за поведінкою моделей після виходу з лабораторії.
«Деніс і команда White Circle мають незвичне поєднання глибокої технічної переконливості та чіткого комерційного чуття, — сказала Офелія Цай, партнерка Tiny VC. — Одне лише дослідження KillBench демонструє, що можливо, коли підходити до безпеки ШІ емпірично».
This story was originally featured on Fortune.com




