MiniMax M3 — первая открытая модель с frontier-кодингом, контекстом 1M токенов и нативной мультимодальностью. MSA-архитектура, цены и способы запуска.
База знаний
GLM-5.2 — открытая флагманская модель Z.ai с контекстом 1M
GLM-5.2 — открытая модель Z.ai с контекстом 1M токенов, сильным кодингом и MIT-лицензией. Разбор возможностей, подключения по API, цен и локального запуска.
GLM-5.2 — флагманская открытая модель от Z.ai (Zhipu AI) для длинных инженерных задач: стабильный контекст на 1M токенов, сильный кодинг и агентные сценарии, открытые веса под лицензией MIT.
Что это такое
GLM-5.2 — это флагманская языковая модель компании Z.ai (Zhipu AI), выпущенная в июне 2026 года и заточенная под long-horizon задачи: многочасовую работу агента над кодом, исследованиями и рефакторингом. Главное отличие от предшественника — действительно пригодный к работе контекст на 1 000 000 токенов и большой скачок в кодинге. Веса опубликованы под лицензией MIT, поэтому модель можно запускать у себя без региональных ограничений. С первого дня GLM-5.2 доступна через API, в более чем 20 агентных средах (Claude Code, OpenCode, ZCode и др.) и в чате Z.ai; для тех, кто не хочет работать через консоль, есть GUI-агент ZCode с режимом долгих задач.
Что нового по сравнению с GLM-5.1
- Контекст вырос с 200K до 1M токенов — в окно помещается целый репозиторий среднего размера вместе с тестами и историей диалога.
- Появились два уровня усилия рассуждения (reasoning effort): High и Max.
- Резкий прирост в кодинге: на Terminal-Bench 2.1 — 81.0 против 63.5 у GLM-5.1.
- Открытые веса теперь под MIT, без региональных ограничений на использование.
- Цены на API остались на уровне GLM-5.1.
Основные возможности
| Параметр | Значение |
| Позиционирование | Флагманская foundation-модель |
| Контекст | 1M токенов (вариант glm-5.2[1m]) |
| Максимальный вывод | 128K токенов (131 072) |
| Модальности | Текст → текст |
| Режимы рассуждения | High и Max |
| Возможности | Function calling, streaming, structured output (JSON), контекстный кэш, MCP |
| Лицензия | MIT (открытые веса) |
| Размер | ~744B параметров всего, ~40B активных (MoE) |
Уровни reasoning effort
GLM-5.2 даёт явно выбирать, сколько вычислений тратить на задачу:
- High — баланс качества и расхода токенов. Подходит для большинства задач.
- Max — выжимает максимум на сложных многошаговых задачах, но расходует заметно больше токенов. Z.ai рекомендует Max для тяжёлого кодинга и долгих агентных трасс.
В Claude Code режим переключается командой /effort; значения xhigh, max и ultracode соответствуют уровню Max.
Бенчмарки
Ключевые результаты в сравнении с GLM-5.1 и закрытым фронтиром:
| Бенчмарк | GLM-5.2 | GLM-5.1 | Claude Opus 4.8 |
| Terminal-Bench 2.1 | 81.0 | 63.5 | 85.0 |
| SWE-bench Pro | 62.1 | 58.4 | 69.2 |
| FrontierSWE | 74.4 | 30.5 | 75.1 |
| AIME 2026 | 99.2 | 95.3 | 95.7 |
| GPQA-Diamond | 91.2 | 86.2 | 93.6 |
При этом на сверхдлинных задачах разрыв с лидером ещё заметен: на SWE-Marathon (сборка компиляторов, оптимизация ядер, продакшн-сервисы) GLM-5.2 отстаёт от Opus 4.8 примерно на 13%, оставаясь при этом лучшей среди открытых моделей.
Подключение по API
API совместимо с форматом OpenAI Chat Completions. Базовый endpoint — https://api.z.ai/api/paas/v4/chat/completions, имя модели — glm-5.2.
curl -X POST "https://api.z.ai/api/paas/v4/chat/completions" \
-H "Content-Type: application/json" \
-H "Authorization: Bearer <ваш-api-key>" \
-d '{
"model": "glm-5.2",
"messages": [
{"role": "user", "content": "Спроектируй и собери блог на React + Node.js"}
],
"thinking": {"type": "enabled"},
"reasoning_effort": "max",
"max_tokens": 4096,
"temperature": 1.0
}'Официальный Python SDK:
# pip install zai-sdk
from zai import ZaiClient
client = ZaiClient(api_key="<ваш-api-key>") # ключ из личного кабинета Z.ai
response = client.chat.completions.create(
model="glm-5.2",
messages=[
{"role": "user", "content": "Спроектируй и собери блог на React + Node.js"},
],
thinking={"type": "enabled"}, # включить режим рассуждения
reasoning_effort="max", # high | max
max_tokens=4096,
temperature=1.0,
)
print(response.choices[0].message)glm-5.2[1m] — без суффикса [1m] будет работать стандартное окно.Тарифы и лимиты
Цены на API не изменились относительно GLM-5.1 (оплата по факту использования токенов, отдельно от подписки Coding Plan):
| Тип токенов | Цена за 1M | Ориентир в рублях |
| Входные | $1.40 | ~110 ₽ |
| Входные из кэша | $0.26 | ~20 ₽ |
| Выходные | $4.40 | ~350 ₽ |
Рублёвые суммы — ориентир по курсу ~79 ₽/$ на июнь 2026 года; пересчитывайте под актуальный курс.
Если вы пользуетесь подпиской GLM Coding Plan, GLM-5.2 расходует квоту по повышенному тарифу: 3× в пиковые часы и 2× в непиковые (пик — 14:00–18:00 по пекинскому времени, UTC+8). До конца сентября действует акция: в непиковые часы списание идёт 1×.
Локальный запуск
Веса доступны на HuggingFace и ModelScope. Для инференса поддерживаются transformers, vLLM, SGLang, xLLM, ktransformers, а также Ollama.
Практические сценарии
- Захват целого проекта. Загрузить в контекст весь репозиторий и попросить аудит: карта архитектуры, ключевые контракты API, основные потоки данных, технический долг.
- Длинный рефакторинг от и до. Декомпозиция модуля, миграция API, реструктуризация каталогов — с планом, оценкой рисков и прогоном тестов в конце.
- Стресс-тест на инженерные стандарты. Дать модели ваши правила (lint, сборка, тесты, запреты на коммиты) в
AGENTS.mdилиCLAUDE.mdи проверить, держит ли она границы на длинной дистанции. - Воспроизведение исследований. Превратить описание из статьи в рабочий проект на PyTorch и догнать заявленные метрики.
- Мобильная разработка с отладкой на устройстве. От реализации до проверки через ADB, logcat и скриншоты.
Когда выбирать GLM-5.2
Ссылки
- Технический блог: z.ai/blog/glm-5.2
- Документация API: docs.z.ai/guides/llm/glm-5.2
- Веса: huggingface.co/zai-org/GLM-5.2 · ModelScope
- Coding Plan: z.ai/subscribe
- Чат: chat.z.ai
- GitHub: github.com/zai-org/GLM-5
По теме
Открытая модель с миллионным контекстом интереснее всего, когда у вас уже есть свой агентный контур или вы строите систему, которой важна независимость от чужого облака.
Если захотите обсудить, как это применить у себя или в команде — пишите в Telegram @pimenov
Если хотите разобрать свою задачу — напишите мне Если хотите разобрать свою задачу — напишите мне.
Можно прийти с идеей, черновым контекстом или уже живой задачей. Помогу быстро понять, где реальный следующий шаг, а где лишний шум.
Обычно хватает 2–3 сообщений, чтобы понять, могу ли я здесь реально помочь и в каком формате лучше двигаться дальше.
Связанные материалы
Линейка DeepSeek в 2026: V4 Pro и V4 Flash с контекстом 1M токенов, открытые веса, разреженное внимание, цены API и запуск через Ollama и vLLM.
Z.ai выложила флагманскую GLM-5.2: сильный код, контекст до миллиона токенов и открытые веса под MIT уже на следующей неделе. Разбираю, почему за этим стоит следить.