Anthropic призвала к защите ИИ

Команда Anthropic создала важное руководство по Zero Trust для AI-агентов

В документе обозначены ключевые риски агентных систем и подход к кибербезопасности бизнеса 🚀💰. Учитывая быстрое развитие ИИ, компании должны учитывать не только ускоренные атаки на инфраструктуру, но и риски самих агентов, которые могут интерпретировать цели, выбирать инструменты и выполнять сложные действия без участия человека.

Принципы Zero Trust и безопасное развертывание автономных агентов

В основе руководства лежат принципы Zero Trust: не доверять по умолчанию, проверять каждое действие и предполагать возможную компрометацию 📊💻. Anthropic ссылается на рекомендации NIST SP 800-207 и серию Zero Trust Implementation Guidelines, опубликованные в 2020 году и 2026 году соответственно.

Ключевые угрозы и подходы к защите

Среди ключевых угроз перечислены прямые и непрямые вмешательства через промпт, заражение инструментов, злоупотребление идентичностью и привилегиями, отравление памяти и контекста, а также атаки на цепочку поставок 🐋💥. Anthropic предлагает трехуровневую модель зрелости и набор базовых технических мер для защиты от этих угроз.

Наблюдаемость и анализ действий агентов

Большой раздел посвящен наблюдаемости и анализу действий агентов 📊💻. Anthropic рекомендует подробно логировать все действия агента, включая вызовы инструментов, доступ к данным и внешние коммуникации, а затем передавать события в SIEM для корреляции в реальном времени.

Реакция и операции защиты

В части реакции Anthropic формулирует принцип: автоматизировать бюрократию вокруг инцидента, но не ключевые решения 🚀💻. Агентам и моделям предлагается поручать сбор и первичный отбор артефактов, ведение параллельных веток расследования и подготовку черновика постмортема.

Количество ориентиры и результаты

В документе приведены количественные ориентиры и собственные результаты Anthropic по использованию «конституционных классификаторов», которые блокируют более 95% джейлбрек-попыток при минимальном росте ложных отказов 📊💻.

Цепочка поставок и защита от бэкдоров

В блоке о цепочке поставок Anthropic рекомендует использовать AI-BOM, OpenSSF Scorecard, аудит зависимостей и анализ возможности доступа 💻🤖. Компания приводит собственное исследование, согласно которому 250 вредоносных документов достаточно, чтобы встроить бэкдор в модели размером от 600 млн до 13 млрд параметров.

Надежные подходы к защите

В итоге Anthropic делает вывод, что для ИИ-агентов недостаточно точечных фильтров и периметровой защиты 💻🔒. Компания предлагает строить защиту вокруг идентичности, минимальных полномочий, заранее ограниченного ущерба и постоянной проверки действий.

По материалам ForkLog