База знаний

DeepSeek — линейка открытых моделей и API

Линейка DeepSeek в 2026: V4 Pro и V4 Flash с контекстом 1M токенов, открытые веса, разреженное внимание, цены API и запуск через Ollama и vLLM.

Опубликовано 06.06.2026

ИИ-агенты API и данные

DeepSeek — китайская лаборатория, которая выпускает открытые языковые модели по свободной лицензии. К середине 2026 года линейка прошла путь от V3 и R1, наделавших шуму зимой 2025-го, до флагманской V4 с контекстом в миллион токенов. Этот справочник собирает то, что реально пригодится на практике: какие модели есть сейчас, чем они отличаются, сколько стоят и как их запускать.

📌

Коротко. Текущий флагман — DeepSeek-V4 (превью открыто в апреле 2026), две версии: V4-Pro (1.6T параметров, 49B активных) и V4-Flash (284B / 13B активных). Обе держат контекст до 1M токенов. Рассуждения теперь встроены прямо в модель как переключаемый режим, а не отдельная R-ветка. Цены на API остаются одними из самых низких на рынке, веса открыты.

Эволюция линейки: от V3 до V4

DeepSeek развивается быстро, и старые гайды устаревают за пару месяцев. Чтобы не путаться, держите в голове общую хронологию.

Модель	Когда	Что важного
V3 + R1	дек 2024 – янв 2025	Открытый фронтир: V3 — общая MoE-модель, R1 — отдельная модель рассуждений на уровне o1. С них началась известность DeepSeek
V3.1	авг 2025	Гибрид: чат и рассуждения в одной модели. 671B всего / 37B активных, контекст 128K
V3.2 / V3.2-Speciale	сен–дек 2025	Разреженное внимание DSA, рассуждения внутри вызова инструментов. Speciale берёт золото IMO и IOI 2025, идёт вровень с Gemini 3.0 Pro
V4-Pro / V4-Flash	апр 2026	Текущий флагман. Контекст 1M токенов, новое гибридное внимание, открытые веса

💡

Главный сдвиг последнего года: DeepSeek перестала держать отдельную R-линию для рассуждений. Начиная с V3.1 рассуждения — это режим внутри одной модели, который включается переключателем. Так что фразы вроде «возьми R2 для математики» из старых статей читайте как «включи режим рассуждений у актуальной модели».

Модели V4: Pro и Flash

V4 вышла сразу в двух вариантах под разные задачи.

Параметр	V4-Pro	V4-Flash
Всего параметров	1.6T	284B
Активных параметров	49B	13B
Контекст	до 1M токенов	до 1M токенов
Макс. вывод	384K токенов	384K токенов
Для чего	Сложное рассуждение, агенты, большой контекст, кодинг по целым репозиториям	Быстрые и массовые задачи, типовой чат, обработка больших объёмов
Имя в API	`deepseek-v4-pro`	`deepseek-v4-flash`

У обеих версий есть два режима: с рассуждениями (в приложении называется Expert Mode) — с видимой цепочкой рассуждений — и быстрый (Instant Mode) для коротких ответов. Раньше под это были разные модели — теперь это переключатель.

Что под капотом V4

Миллион токенов контекста — это не только про объём. Главная проблема длинного контекста в том, что каждый следующий токен платит за внимание ко всему, что было раньше. Для агента, который гоняет длинную цепочку инструментов, это превращается в дорогую и медленную историю. V4 решает это архитектурно.

MoE с динамическим выбором экспертов. Под каждую задачу активируется лишь часть параметров (49B из 1.6T у Pro), поэтому модель остаётся быстрой при огромном общем размере.
Гибридное внимание CSA + HCA. Compressed Sparse Attention и Heavily Compressed Attention вместе резко срезают стоимость работы на длинном контексте. На отметке в 1M токенов V4-Pro тратит около 27% FLOPs на токен и 10% KV-кэша по сравнению с V3.2. V4-Flash идёт ещё дальше — примерно 10% FLOPs и 7% KV-кэша.
Рассуждения при работе с инструментами. Унаследовано от V3.2: модель рассуждает прямо внутри вызова инструментов, что важно для агентных сценариев.

⚖️

Большой контекст не отменяет здравый смысл. Даже когда весь монорепозиторий влезает в окно, точечный, суженный промпт почти всегда даёт более точный ответ, чем «загрузил всё и спрашиваю». Контекст 1M — это страховка и удобство, а не повод выключать голову.

Чем DeepSeek выделяется

Открытые веса

Веса моделей выкладываются на Hugging Face. Исторически DeepSeek использует MIT-лицензию — одну из самых либеральных в индустрии: коммерческое использование, дообучение и перевыпуск без роялти. Лицензию конкретной модели всё же проверяйте на её странице — у отдельных релизов условия могут отличаться.

Миллионный контекст

1M токенов — это примерно ядро большого монорепозитория или несколько десятков крупных документов в одном запросе. На такой длине V4 держит факты лучше большинства конкурентов за счёт нового механизма внимания.

Низкая цена API

Официальное облако DeepSeek стоит в разы дешевле аналогов от OpenAI и Anthropic. Это решающий фактор при работе на больших объёмах: классификация, массовое дозаполнение, разметка, суммаризация тысяч документов.

Прозрачные рассуждения

В режиме рассуждений цепочка доступна в ответе API. Её можно показывать пользователю, логировать для аудита, обрезать ради экономии или использовать для дистилляции собственных моделей.

Тарифы и лимиты (API)

Цены указаны за 1M токенов, по состоянию на июнь 2026, и это фиксированный прайс. Ночные скидки (50–75%), которые DeepSeek давал в 2025 году, отменены ещё 5 сентября 2025-го, а стартовая промоцена на V4-Pro закончилась 5 мая 2026-го. Так что упоминания «скидок по времени суток» из старых статей уже неактуальны — платите ровно по таблице. Контекстное кэширование включено по умолчанию: если запрос совпадает по префиксу с недавним, совпавшая часть берётся из кэша по цене попадания в кэш.

Модель	Вход (из кэша)	Вход (мимо кэша)	Выход
deepseek-v4-flash	$0.0028	$0.14	$0.28
deepseek-v4-pro	$0.003625	$0.435	$0.87

Для сравнения: V4-Flash дешевле флагманов OpenAI и Anthropic на один–два порядка, а V4-Pro при почти флагманском качестве всё равно заметно дешевле Claude Sonnet. Чат в веб-интерфейсе и приложении бесплатен.

⚠️

Старые имена моделей deepseek-chat и deepseek-reasoner выводятся из обращения 24 июля 2026. До этой даты они временно указывают на быстрый режим и режим рассуждений deepseek-v4-flash соответственно. Если у вас в коде зашиты эти имена — переведите на deepseek-v4-flash / deepseek-v4-pro заранее.

Подключение по API

Эндпоинт совместим с OpenAI ChatCompletions, поэтому официальный SDK работает без изменений — меняется только base_url, ключ и имя модели. Дополнительно поддерживается формат Anthropic Messages.

from openai import OpenAI

client = OpenAI(
    api_key="<deepseek_api_key>",      # ключ из platform.deepseek.com
    base_url="https://api.deepseek.com",
)

resp = client.chat.completions.create(
    model="deepseek-v4-flash",          # или deepseek-v4-pro для сложных задач
    messages=[{"role": "user", "content": "Привет!"}],
)
print(resp.choices[0].message.content)

Переключать base_url и ключ можно прямо в боевой среде без переписывания логики — удобно, когда вы собираете «пирамиду» из нескольких моделей и хотите отправлять дешёвые задачи на Flash, а тяжёлые на Pro. В режиме рассуждений в ответе появляется отдельное поле с цепочкой рассуждений, которое можно показывать или отбрасывать.

Способы запуска

Способ	Кому подходит	Особенности
Официальный API DeepSeek	Быстрый старт, низкая цена, пробы	OpenAI- и Anthropic-совместимые эндпоинты
Сторонние провайдеры (Together, Fireworks, OpenRouter, NVIDIA)	Смешанные пирамиды моделей	Единый SDK для разных моделей, выбор региона
Ollama (дистилляты R1)	Локальный запуск, приватность	Дистилляты 1.5B–70B на Qwen/Llama, идут на Mac Studio или хорошем GPU
vLLM / SGLang на своём железе	Высокая пропускная способность, большие объёмы	Полные веса, нужны несколько H100/H200, дообучение
Дообучение (Fireworks, Replicate, своё железо)	Дообучение под свой домен	LoRA или полное дообучение на открытых весах

Локальный запуск дистиллятов через Ollama:

ollama pull deepseek-r1:32b
ollama run deepseek-r1:32b

Дистилляты впитали «привычки рассуждения» больших моделей, но слабее на действительно сложных задачах. Подходят для локальных «подумать»-сценариев без выхода в интернет. Полноценные веса V4 — это уже кластер из нескольких GPU, на ноутбуке их не поднять.

Сценарии применения

Обработка больших объёмов данных. Дозаполнение, классификация, суммаризация тысяч документов. Низкая цена Flash и автоматический кэш делают это дёшево.
Математика и рассуждения. Режим рассуждений V4-Pro и линия V3.2-Speciale сильны на олимпиадных и инженерных задачах, где важна точность рассуждения.
Кодинг по большим проектам. Благодаря 1M контекста в промпт влезают целые репозитории — удобно для рефакторинга, аудита и обзора всего проекта одним вызовом.
Агенты с длинными траекториями. Дешёвое внимание на длинном контексте делает V4 хорошим движком для агентов, которые накапливают историю инструментов.
Корпоративное дообучение. Открытая лицензия позволяет дообучать на внутренних данных и выкатывать модель в боевую среду без юридических оглядок.

Особенности и подводные камни

Русский язык. Английский и китайский — отлично, русский — на «хорошо», но со своими стилистическими особенностями. Для публичных текстов на русском держите пост-редактуру.
Модерация мягче. Фильтры у DeepSeek слабее, чем у OpenAI и Anthropic. Для публичных сервисов добавляйте свой слой модерации.
Хвост рассуждений. В режиме рассуждений цепочка бывает длинной и раздувает вывод в несколько раз. Используйте обрезку и включайте режим выборочно.
Правовой контекст. Модель выпущена в КНР. Для отдельных юрисдикций и контрактов это ограничение — тогда разворачивайте на своём железе или у провайдера в нужном регионе.
Скорость релизов. DeepSeek часто сдвигает даты и переименовывает модели — старые гайды устаревают за месяцы.

Чеклист выбора DeepSeek

Определён сценарий: большой объём данных, математика и рассуждения, миллионный контекст, агенты, дообучение или локальный запуск.

Выбрана версия: Flash (быстро и дёшево) или Pro (сложные задачи и большой контекст).

Решено, нужен ли режим рассуждений, и продуман объём цепочки рассуждений в выводе.

Выбран хостинг: официальный API, сторонний провайдер или своё железо.

Проверена лицензия конкретной модели под ваш вариант коммерческого использования.

Настроен слой модерации для публичных сервисов.

Код переведён с устаревших deepseek-chat / deepseek-reasoner на deepseek-v4-* (дедлайн 24 июля 2026).

Готовы тесты для сравнения с текущей моделью на вашей задаче.

Антипаттерны

❌ Включать режим рассуждений везде. Для обычного чата, извлечения фактов и RAG он медленнее и дороже без выигрыша в качестве.
❌ Грузить весь контекст просто потому что влезает. Лишние токены — это деньги и расфокус модели.
❌ Доверять «бесплатному дообучению» без тестов. Открытая лицензия не заменяет проверку качества.
❌ Переходить ради цены без теста. Сначала параллельный прогон на ваших задачах, потом миграция.

Полезные ссылки

DeepSeek: deepseek.com
Чат: chat.deepseek.com
Платформа и API-ключи: platform.deepseek.com
API-документация и тарифы: api-docs.deepseek.com
Веса на Hugging Face: huggingface.co/deepseek-ai
Репозитории: github.com/deepseek-ai

По теме

Если захотите обсудить, как собрать на DeepSeek боевую пирамиду из моделей или подобрать модель под свою задачу — пишите в Telegram @pimenov

Если хотите разобрать свою задачу — напишите мне

Можно прийти с идеей, черновым контекстом или уже живой задачей. Помогу быстро понять, где реальный следующий шаг, а где лишний шум.

Напишите мне в Телеграм Мой Телеграм канал

Обычно хватает 2–3 сообщений, чтобы понять, могу ли я здесь реально помочь и в каком формате лучше двигаться дальше.