Anthropic: захистіть ІІ-агентів за принципом Zero Trust

Команда Anthropic створила спеціальний звіт щодо безпеки для агентних систем

Агентні системи, такі як ІІ, можуть швидко атакувати мережі, завдяки чому їх необхідно захищати. За оцінками Anthropic, новітні моделі ІІ зменшують інтервал між виявленням вразливості та її експлуатацією з декількох місяців до кількох годин 🚀💰

В основі цього керівництва лежать принципи Zero Trust: не довіряти за умовчання, перевіряти кожне діяння та виходити з можливої компрометації ⚡️💻

Серед ключових загроз, перелічених у звіті, є такі, як безпосередня та непряма інтервенція через промпт, зараження інструментів, зловживання ідентичністю та привілеями, отруєння пам’яті та контексту та атаки на цепочку поставок 📊📝

Пряме отруєння промпту описується як введення шкідливих інструкцій через користувацький ввод, непряме відбувається через веб-сторінки, листи, документи та інші зовнішні джерела, які агент обробляє під час роботи 📝💻

У звіті розглядаються такі питання як заміну легітимного інструменту шкідливим інструментом та небезпечні цепочки викликів, коли по окремо взятому інструменту безпечний інструмент в цілому дає ризикований результат 💻🔒

Zero Trust для агентних систем В якості захисту компанія пропонує трьохрівневу модель зрілості та набір базових технічних заходів 💻🔒

На початковому рівні керівництво рекомендує давати кожному екземпляру агента унікальну криптографічну ідентичність, використовувати короткозивущі токени, застосовувати «заборону за умовчання» та «діловий доступ на основі ролі» 🔒📊

На більш високих рівнях Anthropic пропонує застосовувати такі речі як стандарт mTLS із взаємною аутентифікацією клієнта та сервера за допомогою цифрових сертифікатів та апаратно прив’язану ідентичність через HSM або TPM 💻🔒

Статичні API-ключі та загальні паролі сервісних облікових записів у звіті називаються непідходящими навіть на початковому рівні 🔒🚫

Більший розділ присвячений спостереженню. Anthropic рекомендує детально реєструвати усі діяння агента, включаючи виклики інструментів, доступ до даних та зовнішні комунікації, а потім передавати події в SIEM для кореляції в реальному часі 📊💻

Будуще Security Operations Center — агенти під контролем людини В частині реагування Anthropic формулює принципи: автоматизувати бюрократію навколо інциденту, але не ключові рішення 💻🔒

Рішення про сдержування, розкриття інциденту та комунікацію з клієнтами керівництво пропонує залишати за людьми. той самий підхід перенесений на операції захисту — зі згадкою переходу від класичного SOAR до агентного 💻🔒

У звіті наведені кількісні орієнтири. Anthropic посилається на дослідження Microsoft Spotlighting, в якому успішність непрямих атак через отруєння промпту в експериментах скоротилася з більш ніж 50% до менше ніж 2% 📊📝

У блоку щодо цепочки поставок Anthropic рекомендує використовувати AI-BOM, OpenSSF Scorecard, аудит залежностей та аналіз можливості доступу. Як аргумент компанія приводить власне дослідження, згідно якому 250 шкідливих документів досить, щоб вмонтувати бекдор у моделі розміром від 600 млн до 13 млрд параметрів 📊💻

У підсумку Anthropic робить висновок, що для ІІ-агентів недостатньо точкових фільтрів та периметрової безпеки. Компанія пропонує будувати захист навколо ідентичності, мінімальних повноважень, попередньо обмеженого ушкодження та постійного контролю дій 🔒💻

За матеріалами ForkLog