Команда Anthropic создала важное руководство по Zero Trust для AI-агентов
В документе обозначены ключевые риски агентных систем и подход к кибербезопасности бизнеса 🚀💰. Учитывая быстрое развитие ИИ, компании должны учитывать не только ускоренные атаки на инфраструктуру, но и риски самих агентов, которые могут интерпретировать цели, выбирать инструменты и выполнять сложные действия без участия человека.
Принципы Zero Trust и безопасное развертывание автономных агентов
В основе руководства лежат принципы Zero Trust: не доверять по умолчанию, проверять каждое действие и предполагать возможную компрометацию 📊💻. Anthropic ссылается на рекомендации NIST SP 800-207 и серию Zero Trust Implementation Guidelines, опубликованные в 2020 году и 2026 году соответственно.
Ключевые угрозы и подходы к защите
Среди ключевых угроз перечислены прямые и непрямые вмешательства через промпт, заражение инструментов, злоупотребление идентичностью и привилегиями, отравление памяти и контекста, а также атаки на цепочку поставок 🐋💥. Anthropic предлагает трехуровневую модель зрелости и набор базовых технических мер для защиты от этих угроз.
Наблюдаемость и анализ действий агентов
Большой раздел посвящен наблюдаемости и анализу действий агентов 📊💻. Anthropic рекомендует подробно логировать все действия агента, включая вызовы инструментов, доступ к данным и внешние коммуникации, а затем передавать события в SIEM для корреляции в реальном времени.
Реакция и операции защиты
В части реакции Anthropic формулирует принцип: автоматизировать бюрократию вокруг инцидента, но не ключевые решения 🚀💻. Агентам и моделям предлагается поручать сбор и первичный отбор артефактов, ведение параллельных веток расследования и подготовку черновика постмортема.
Количество ориентиры и результаты
В документе приведены количественные ориентиры и собственные результаты Anthropic по использованию «конституционных классификаторов», которые блокируют более 95% джейлбрек-попыток при минимальном росте ложных отказов 📊💻.
Цепочка поставок и защита от бэкдоров
В блоке о цепочке поставок Anthropic рекомендует использовать AI-BOM, OpenSSF Scorecard, аудит зависимостей и анализ возможности доступа 💻🤖. Компания приводит собственное исследование, согласно которому 250 вредоносных документов достаточно, чтобы встроить бэкдор в модели размером от 600 млн до 13 млрд параметров.
Надежные подходы к защите
В итоге Anthropic делает вывод, что для ИИ-агентов недостаточно точечных фильтров и периметровой защиты 💻🔒. Компания предлагает строить защиту вокруг идентичности, минимальных полномочий, заранее ограниченного ущерба и постоянной проверки действий.
По материалам ForkLog