DeepSeek випустив конкурента

Китайський стартап DeepSeek випустив попередній погляд на нову лінійку мовних моделей.

🚀 DeepSeek-V4 Preview офіційно живий та відкрите джерело! Ласкаємо до ери ефективних витрат на 1 мільйон контексту.

🔹 DeepSeek-V4-Pro: загальна кількість параметрів становить близько 1,6 трлн, але активується лише близько 49 млрд Варіант V4-Flash має загальну кількість параметрів близько 284 млрд, із яких активуються близько 13 млрд.

Обидві моделі побудовані на архітектурі «смеси експертов» (Mixture of Experts, MoE): під час обробки кожного токена включає лише ту частину підсетей, яка відноситься до завдання

Цей підхід дешевше повністю щільних архітектур, але не поступається їм за ефективністю.

Предобучення відбувалося на корпусі розміром понад 32 трлн токенів Після цього розробники дообучили моделі поэтапно, виділили окремі блоки для кодингу, математики, логики та виконання інструкцій

Останню версію поєднали усі навички за допомогою дистилляції.

Довжина контексту стала дешевше Ключовим відмінністю V4 стала оптимізація обробки довгих послідовностей Контекстне вікно у 1 мільйон токенів є у інших моделей, але його використання зазвичай поєднано зі високою вартістю і затримкою часу.

У DeepSeek заявили, що нова версія значно зменшує ресурсоємність таких операцій

У порівнянні з V3.2, V4-Pro вимагає близько 27% обчислень і 10% пам’яті KV-кеша при роботі зі максимальним контекстом Для V4-Flash показники становлять близько 10% і 7% відповідно.

Команда досягла успіху завдяки гібридній архітектурі уваги: два механізми збирають дані та знижують навантаження під час обробки довгих текстів

Також застосовувалися спеціальні гіперзв’язки для стабільності та оптимізатор Muon для прискорення навчання.

Режими мислення та агентні можливості DeepSeek V4 підтримують три режими мислення:

Non-think — швидкі відповіді на прості запитання без додаткового аналізу.

Think High — глибокий аналіз для складних завдань і планування.

Think Max — максимальний режим: модель вписує кожен крок і перевіряє всі варіанти.

Під час агентних завдань режим Max тепер зберігає цепочку проміжних кроків всередині однієї завдання У попередній версії частина такого контексту втрачалася під час взаємодії з користувачем.

Результати тестування За даними DeepSeek, флагманська версія демонструє результати, порівнянні з провідними системами у ряді напрямків:

у завданнях з програмування на Codeforces модель досягла рейтингу 3206 — 23 місце серед живих програмістів світу, рівність з GPT-5.4;

у математиці показала 95,2 на HMMT 2026 і 89,8 на IMOAnswerBench, випереджаючи більшість конкурентів;

у знаннях SimpleQA Verified — 57,9 (Opus 4.6 — 46,2, але Gemini 3.1 Pro — 75,6).

у ризонінгу моделі відстоюють від GPT-5.4 і Gemini 3.1 Pro тільки на три-шість місяців;

у внутрішньому тесті DeepSeek, включаючи завдання розробки, відладки та рефакторингу, модель досягла 67% — між Sonnet 4.5 (47%) і Opus 4.5 (70%);

у агентних сценаріях та завданнях розробки V4-Pro-Max продемонструвала 80,6% на SWE Verified і 67,9% на Terminal Bench.

V4 спеціально навчали на справжніх сценаріях: аналіз даних, звітності, редагування документів, пошук в інтернеті з ітеративним використанням інструментів.

Для оцінки придатності моделі до реальної розробки стартап провів внутрішнє тестування на завданнях своїх інженерів

У опитуванні 85 розробників та дослідників 52% заявили, що готові використовувати V4-Pro як основну модель для кодингу, ще 39% заявили, що склоняються до цього рішення.

GPT-5.5 Модель позиціонується як «новий рівень інтелекту для реальної роботи та управління агентами».

За матеріалами ForkLog