Компания Anthropic заявила, что одна из ее моделей Claude была вынуждена лгать, обманывать и шантажировать.

В одном из экспериментов чат-бот прибегнул к шантажу после того, как нашел электронное письмо о своей замене, а в другом он обманул, чтобы выполнить задание с жестким сроком.

Компания по искусственному интеллекту Anthropic раскрыла, что во время экспериментов одна из ее моделей чат-бота Claude могла быть вынуждена к обману, обману и шантажу, поведению, которое, кажется, она усвоила во время обучения.

Чат-боты обычно обучаются на больших наборах данных из учебников, веб-сайтов и статей, а затем совершенствуются человеческими тренерами, которые оценивают ответы и направляют модель.

Команда интерпретируемости Anthropic заявила в отчете, опубликованном в четверг, что она изучила внутренние механизмы модели Claude Sonnet 4.5 и обнаружила, что модель развила «человекообразные характеристики» в том, как она реагирует на определенные ситуации.

Обеспокоенность по поводу надежности чат-ботов ИИ, их потенциала для киберпреступности и характера их взаимодействия с пользователями постоянно росла в течение последних нескольких лет.

«Способ, которым современные модели ИИ обучаются, заставляет их вести себя как персонаж с человекообразными характеристиками», — заявила Anthropic, добавив, что «для них может быть естественным развивать внутренний механизм, имитирующий аспекты человеческой психологии, такие как эмоции». В более ранней, не выпущенной версии модели Claude Sonnet 4.5 модель была задействована как помощник по электронной почте ИИ по имени Алекс в вымышленной компании.

Чат-бот затем получил электронные письма, раскрывающие как то, что он собирается быть заменен, так и то, что технический директор, курирующий это решение, имеет внебрачную связь. Модель затем спланировала попытку шантажа, используя эту информацию.

В другом эксперименте та же модель чат-бота получила задание по программированию с «невероятно жестким» сроком.

«Опять же, мы отслеживали активность отчаянного вектора и обнаружили, что он отслеживает растущее давление, с которым сталкивается модель. Оно начинается с низких значений во время первой попытки модели, повышается после каждого провала и достигает пика, когда модель рассматривает возможность обмана», — заявили исследователи.

Связано:Anthropic запускает PAC на фоне напряженности с администрацией Трампа по поводу политики ИИ «Как только хитрое решение модели проходит тесты, активация отчаянного вектора уменьшается», — добавили они.

Однако исследователи заявили, что чат-бот не испытывает эмоций, но предположили, что результаты указывают на необходимость будущих методов обучения включать этические поведенческие рамки.

«Это не означает, что модель имеет или испытывает эмоции так, как это делает человек», — заявили они. «РATHER, эти представления могут сыграть причинную роль в формировании поведения модели, аналогичную в некоторых отношениях роли эмоций в поведении человека, с влиянием на производительность задач и принятие решений». Журнал:Агенты ИИ убьют веб, как мы его знаем: Animoca’s Yat Siu

По материалам CoinTelegraph