Anthropic: динамічні робочі процеси

Компанія Anthropic випустила новий випуск своєї мови AI Claude Opus 4.8 та окрему функцію під назвою «динамічні робочі процеси» для своєї мови Claude Code!

Очікуйте від цієї програми більш точну оцінку своєї власної роботи та можливість працювати самостійно протягом більш тривалого періоду часу 🚀💰.

Також цю версію можна отримати сьогодні за ті самі ціни, що і попередню.

— @claudeai Інструмент дозволяє ІІ самому створювати оркестровані скрипти, які запускають десятки або навіть сотні паралельних субагентів, а потім виконувати перевірку роботи до того, як результат буде переданий користувачеві 🐋💻

Цей інструмент призначений для складних завдань у великих кодових базах: аудит безпеки, пошук помилок, міграція між фреймворками та мовами програмування, модернізація проєктів.

Функція доступна для попереднього випробування у інтерфейсі командної строки Claude Code, настільній версії та розширенні для VS Code, через API, а також у Amazon Bedrock, Vertex AI та Microsoft Foundry.

Режим можна запустити за допомогою прямої команди на створення робочого процесу або за допомогою ultracode Це підвищує рівень виконавчих засобів до максимального та дозволяє моделі самостійно вирішувати, коли слід застосовувати багато крокової системи 📊💻

У компанії Anthropic попереджують: динамічні робочі процеси споживають значно більше токенів, ніж стандартна сесія Claude Code.

Модель розділяє завдання на підзадачі, розподіляє їх між паралельними агентами, потім об’єднує висновки після взаємної перевірки та спроб опровергнути знайдені рішення.

Як приклад Anthropic вказала міграцію програми Bun з мови програмування Zig на Rust

Розробник Джаред Самнер використав динамічні робочі процеси для створення близько 750 000 рядків Rust-коду Порт зміг виконати 99,8% наявного набору тестів, а шлях від першого коміту до злиття зайняв 11 днів

При цьому Anthropic уточнила, що ця версія поки що не використовується в виробництва.

Результати нової версії Opus 4.8:

49,8% на Humanity’s Last Exam без інструментів та 57,9% разом із ними;

83,4% на OSWorld-Verified;

53,9% на Finance Agent v2.

У Термінальній-бенчмарку 2.1 Opus 4.8 поступилася GPT-5.5 — 74,6% проти 78,2%.

У компанії Anthropic заявили, що Opus 4.8 стає значно «честнішою» при виконанні агентних завдань: моделі частіше вказує на неопределеність, рідше заявляє про непідтверджений прогрес та краще помічає проблеми у власному коді до передачі результату користувачеві.

Перший звіт із проєкту Glasswing — програми пошуку уразливостей з допомогою моделі Claude Mythos.

За матеріалами ForkLog