ZenRows — API для парсинга данных с любых сайтов, включая защищённые Cloudflare и другими антибот-системами. Возвращает данные в форматах HTML, Markdown, JSON — готовых к обработке…
База знаний
DeepSeek — линейка открытых моделей и API
Линейка DeepSeek в 2026: V4 Pro и V4 Flash с контекстом 1M токенов, открытые веса, разреженное внимание, цены API и запуск через Ollama и vLLM.
СейчасЭволюция линейки: от V3 до V4
- Эволюция линейки: от V3 до V4
- Модели V4: Pro и Flash
- Что под капотом V4
- Чем DeepSeek выделяется
- Открытые веса
- Миллионный контекст
- Низкая цена API
- Прозрачные рассуждения
- Тарифы и лимиты (API)
- Подключение по API
- Способы запуска
- Сценарии применения
- Особенности и подводные камни
- Чеклист выбора DeepSeek
- Антипаттерны
- Полезные ссылки
DeepSeek — китайская лаборатория, которая выпускает открытые языковые модели по свободной лицензии. К середине 2026 года линейка прошла путь от V3 и R1, наделавших шуму зимой 2025-го, до флагманской V4 с контекстом в миллион токенов. Этот справочник собирает то, что реально пригодится на практике: какие модели есть сейчас, чем они отличаются, сколько стоят и как их запускать.
Эволюция линейки: от V3 до V4
DeepSeek развивается быстро, и старые гайды устаревают за пару месяцев. Чтобы не путаться, держите в голове общую хронологию.
| Модель | Когда | Что важного |
| V3 + R1 | дек 2024 – янв 2025 | Открытый фронтир: V3 — общая MoE-модель, R1 — отдельная модель рассуждений на уровне o1. С них началась известность DeepSeek |
| V3.1 | авг 2025 | Гибрид: чат и рассуждения в одной модели. 671B всего / 37B активных, контекст 128K |
| V3.2 / V3.2-Speciale | сен–дек 2025 | Разреженное внимание DSA, рассуждения внутри вызова инструментов. Speciale берёт золото IMO и IOI 2025, идёт вровень с Gemini 3.0 Pro |
| V4-Pro / V4-Flash | апр 2026 | Текущий флагман. Контекст 1M токенов, новое гибридное внимание, открытые веса |
Модели V4: Pro и Flash
V4 вышла сразу в двух вариантах под разные задачи.
| Параметр | V4-Pro | V4-Flash |
| Всего параметров | 1.6T | 284B |
| Активных параметров | 49B | 13B |
| Контекст | до 1M токенов | до 1M токенов |
| Макс. вывод | 384K токенов | 384K токенов |
| Для чего | Сложное рассуждение, агенты, большой контекст, кодинг по целым репозиториям | Быстрые и массовые задачи, типовой чат, обработка больших объёмов |
| Имя в API | deepseek-v4-pro | deepseek-v4-flash |
У обеих версий есть два режима: с рассуждениями (в приложении называется Expert Mode) — с видимой цепочкой рассуждений — и быстрый (Instant Mode) для коротких ответов. Раньше под это были разные модели — теперь это переключатель.
Что под капотом V4
Миллион токенов контекста — это не только про объём. Главная проблема длинного контекста в том, что каждый следующий токен платит за внимание ко всему, что было раньше. Для агента, который гоняет длинную цепочку инструментов, это превращается в дорогую и медленную историю. V4 решает это архитектурно.
- MoE с динамическим выбором экспертов. Под каждую задачу активируется лишь часть параметров (49B из 1.6T у Pro), поэтому модель остаётся быстрой при огромном общем размере.
- Гибридное внимание CSA + HCA. Compressed Sparse Attention и Heavily Compressed Attention вместе резко срезают стоимость работы на длинном контексте. На отметке в 1M токенов V4-Pro тратит около 27% FLOPs на токен и 10% KV-кэша по сравнению с V3.2. V4-Flash идёт ещё дальше — примерно 10% FLOPs и 7% KV-кэша.
- Рассуждения при работе с инструментами. Унаследовано от V3.2: модель рассуждает прямо внутри вызова инструментов, что важно для агентных сценариев.
Чем DeepSeek выделяется
Открытые веса
Веса моделей выкладываются на Hugging Face. Исторически DeepSeek использует MIT-лицензию — одну из самых либеральных в индустрии: коммерческое использование, дообучение и перевыпуск без роялти. Лицензию конкретной модели всё же проверяйте на её странице — у отдельных релизов условия могут отличаться.
Миллионный контекст
1M токенов — это примерно ядро большого монорепозитория или несколько десятков крупных документов в одном запросе. На такой длине V4 держит факты лучше большинства конкурентов за счёт нового механизма внимания.
Низкая цена API
Официальное облако DeepSeek стоит в разы дешевле аналогов от OpenAI и Anthropic. Это решающий фактор при работе на больших объёмах: классификация, массовое дозаполнение, разметка, суммаризация тысяч документов.
Прозрачные рассуждения
В режиме рассуждений цепочка доступна в ответе API. Её можно показывать пользователю, логировать для аудита, обрезать ради экономии или использовать для дистилляции собственных моделей.
Тарифы и лимиты (API)
Цены указаны за 1M токенов, по состоянию на июнь 2026, и это фиксированный прайс. Ночные скидки (50–75%), которые DeepSeek давал в 2025 году, отменены ещё 5 сентября 2025-го, а стартовая промоцена на V4-Pro закончилась 5 мая 2026-го. Так что упоминания «скидок по времени суток» из старых статей уже неактуальны — платите ровно по таблице. Контекстное кэширование включено по умолчанию: если запрос совпадает по префиксу с недавним, совпавшая часть берётся из кэша по цене попадания в кэш.
| Модель | Вход (из кэша) | Вход (мимо кэша) | Выход |
| deepseek-v4-flash | $0.0028 | $0.14 | $0.28 |
| deepseek-v4-pro | $0.003625 | $0.435 | $0.87 |
Для сравнения: V4-Flash дешевле флагманов OpenAI и Anthropic на один–два порядка, а V4-Pro при почти флагманском качестве всё равно заметно дешевле Claude Sonnet. Чат в веб-интерфейсе и приложении бесплатен.
deepseek-chat и deepseek-reasoner выводятся из обращения 24 июля 2026. До этой даты они временно указывают на быстрый режим и режим рассуждений deepseek-v4-flash соответственно. Если у вас в коде зашиты эти имена — переведите на deepseek-v4-flash / deepseek-v4-pro заранее.Подключение по API
Эндпоинт совместим с OpenAI ChatCompletions, поэтому официальный SDK работает без изменений — меняется только base_url, ключ и имя модели. Дополнительно поддерживается формат Anthropic Messages.
from openai import OpenAI
client = OpenAI(
api_key="<deepseek_api_key>", # ключ из platform.deepseek.com
base_url="https://api.deepseek.com",
)
resp = client.chat.completions.create(
model="deepseek-v4-flash", # или deepseek-v4-pro для сложных задач
messages=[{"role": "user", "content": "Привет!"}],
)
print(resp.choices[0].message.content)Переключать base_url и ключ можно прямо в боевой среде без переписывания логики — удобно, когда вы собираете «пирамиду» из нескольких моделей и хотите отправлять дешёвые задачи на Flash, а тяжёлые на Pro. В режиме рассуждений в ответе появляется отдельное поле с цепочкой рассуждений, которое можно показывать или отбрасывать.
Способы запуска
| Способ | Кому подходит | Особенности |
| Официальный API DeepSeek | Быстрый старт, низкая цена, пробы | OpenAI- и Anthropic-совместимые эндпоинты |
| Сторонние провайдеры (Together, Fireworks, OpenRouter, NVIDIA) | Смешанные пирамиды моделей | Единый SDK для разных моделей, выбор региона |
| Ollama (дистилляты R1) | Локальный запуск, приватность | Дистилляты 1.5B–70B на Qwen/Llama, идут на Mac Studio или хорошем GPU |
| vLLM / SGLang на своём железе | Высокая пропускная способность, большие объёмы | Полные веса, нужны несколько H100/H200, дообучение |
| Дообучение (Fireworks, Replicate, своё железо) | Дообучение под свой домен | LoRA или полное дообучение на открытых весах |
Локальный запуск дистиллятов через Ollama:
ollama pull deepseek-r1:32b
ollama run deepseek-r1:32bДистилляты впитали «привычки рассуждения» больших моделей, но слабее на действительно сложных задачах. Подходят для локальных «подумать»-сценариев без выхода в интернет. Полноценные веса V4 — это уже кластер из нескольких GPU, на ноутбуке их не поднять.
Сценарии применения
- Обработка больших объёмов данных. Дозаполнение, классификация, суммаризация тысяч документов. Низкая цена Flash и автоматический кэш делают это дёшево.
- Математика и рассуждения. Режим рассуждений V4-Pro и линия V3.2-Speciale сильны на олимпиадных и инженерных задачах, где важна точность рассуждения.
- Кодинг по большим проектам. Благодаря 1M контекста в промпт влезают целые репозитории — удобно для рефакторинга, аудита и обзора всего проекта одним вызовом.
- Агенты с длинными траекториями. Дешёвое внимание на длинном контексте делает V4 хорошим движком для агентов, которые накапливают историю инструментов.
- Корпоративное дообучение. Открытая лицензия позволяет дообучать на внутренних данных и выкатывать модель в боевую среду без юридических оглядок.
Особенности и подводные камни
- Русский язык. Английский и китайский — отлично, русский — на «хорошо», но со своими стилистическими особенностями. Для публичных текстов на русском держите пост-редактуру.
- Модерация мягче. Фильтры у DeepSeek слабее, чем у OpenAI и Anthropic. Для публичных сервисов добавляйте свой слой модерации.
- Хвост рассуждений. В режиме рассуждений цепочка бывает длинной и раздувает вывод в несколько раз. Используйте обрезку и включайте режим выборочно.
- Правовой контекст. Модель выпущена в КНР. Для отдельных юрисдикций и контрактов это ограничение — тогда разворачивайте на своём железе или у провайдера в нужном регионе.
- Скорость релизов. DeepSeek часто сдвигает даты и переименовывает модели — старые гайды устаревают за месяцы.
Чеклист выбора DeepSeek
deepseek-chat / deepseek-reasoner на deepseek-v4-* (дедлайн 24 июля 2026).Антипаттерны
- ❌ Включать режим рассуждений везде. Для обычного чата, извлечения фактов и RAG он медленнее и дороже без выигрыша в качестве.
- ❌ Грузить весь контекст просто потому что влезает. Лишние токены — это деньги и расфокус модели.
- ❌ Доверять «бесплатному дообучению» без тестов. Открытая лицензия не заменяет проверку качества.
- ❌ Переходить ради цены без теста. Сначала параллельный прогон на ваших задачах, потом миграция.
Полезные ссылки
- DeepSeek: deepseek.com
- Чат: chat.deepseek.com
- Платформа и API-ключи: platform.deepseek.com
- API-документация и тарифы: api-docs.deepseek.com
- Веса на Hugging Face: huggingface.co/deepseek-ai
- Репозитории: github.com/deepseek-ai
По теме
Если захотите обсудить, как собрать на DeepSeek боевую пирамиду из моделей или подобрать модель под свою задачу — пишите в Telegram @pimenov
Если хотите разобрать свою задачу — напишите мне Если хотите разобрать свою задачу — напишите мне.
Можно прийти с идеей, черновым контекстом или уже живой задачей. Помогу быстро понять, где реальный следующий шаг, а где лишний шум.
Обычно хватает 2–3 сообщений, чтобы понять, могу ли я здесь реально помочь и в каком формате лучше двигаться дальше.
Связанные материалы
Antirez выпустил ds4 — нативный инференс-движок для DeepSeek v4 Flash с 1M контекстом, который запускается локально на Mac со 128 ГБ RAM.
MiniMax M3 — первая открытая модель с frontier-кодингом, контекстом 1M токенов и нативной мультимодальностью. MSA-архитектура, цены и способы запуска.