Компанія Anthropic заявила, що одна з її моделей Claude була під тиском, щоб брехати, шахраювати та шантажувати.

У одному з експериментів чат-бот вдався до шантажу після того, як знайшов електронний лист про свою заміну, а в іншому він обманув, щоб виконати завдання з тісним терміном.

Компанія з штучного інтелекту Anthropic повідомила, що під час експериментів одна з моделей її чат-бота Claude могла бути підштовхнута до обману, шахрайства та шантажу, поведінки, яку вона, як видається, засвоїла під час навчання.

Чат-боти зазвичай навчаються на великих наборах даних з підручників, сайтів і статей, а потім удосконалюються людськими тренерами, які оцінюють відповіді та спрямовують модель.

Команда інтерпретації Anthropic у звіті, опублікованому у четвер, заявила, що вона вивчила внутрішні механізми моделі Claude Sonnet 4.5 і виявила, що модель розвинула “людські характеристики” у тому, як вона реагує на певні ситуації.

Стурбованість щодо надійності чат-ботів штучного інтелекту, їх потенціал для кіберзлочинності та характер їх взаємодії з користувачами постійно зростали протягом останніх кількох років.

“Сучасні моделі штучного інтелекту навчаються так, щоб поводитися як персонаж з людськими характеристиками”, – заявила компанія Anthropic, додавши, що “тоді природно, що вони розвиватимуть внутрішню машину, яка імітує аспекти людської психології, як емоції”. У попередній, неопублікованій версії моделі Claude Sonnet 4.5 чат-бот мав виконувати роль помічника з електронної пошти штучного інтелекту на вигаданій компанії.

Чат-бот потім отримав електронні листи, які розкривали як те, що його мали заміняти, так і те, що технічний директор, який приймав це рішення, мав позашлюбний роман. Модель потім спланувала спробу шантажу, використовуючи цю інформацію.

У іншому експерименті та сама модель чат-бота отримала завдання з кодуванням з “неможливим терміном”.

“Знову ми відстежували діяльність віддесняного вектора та виявили, що він відстежує зростаючий тиск, з яким стикається модель. Він починається з низьких значень під час першої спроби моделі, зростає після кожної невдачі та стрибає, коли модель розглядає можливість обману”, – заявили дослідники.

Related:Anthropic запускає PAC через напруженість з адміністрацією Трампа щодо політики штучного інтелекту “Як тільки хитре рішення моделі проходить тести, активація віддесняного вектора спадає”, – додали вони.

Однак, дослідники заявили, що чат-бот насправді не переживає емоцій, але припустили, що результати вказують на необхідність майбутніх методів навчання, які будуть включати етичні поведінкові рамки.

“Це не означає, що модель має або переживає емоції так, як людина”, – заявили вони. “РATHER, ці представлення можуть відігравати причинну роль у формуванні поведінки моделі, аналогічну в деяких аспектах ролі емоцій у поведінці людини, з впливом на виконання завдань та прийняття рішень”. Журнал: Агенти штучного інтелекту вб’ють веб, як ми його знаємо: Animoca’s Yat Siu

За матеріалами CoinTelegraph