pimenov.ai

База знаний

GLM-5.2 — открытая флагманская модель Z.ai с контекстом 1M

GLM-5.2 — открытая модель Z.ai с контекстом 1M токенов, сильным кодингом и MIT-лицензией. Разбор возможностей, подключения по API, цен и локального запуска.

Опубликовано

GLM-5.2 — флагманская открытая модель от Z.ai (Zhipu AI) для длинных инженерных задач: стабильный контекст на 1M токенов, сильный кодинг и агентные сценарии, открытые веса под лицензией MIT.

📌
Открытая модель уровня фронтира: реально работающий контекст на 1M токенов и заметный прирост в кодинге — по тем же ценам, что и GLM-5.1.

Что это такое

GLM-5.2 — это флагманская языковая модель компании Z.ai (Zhipu AI), выпущенная в июне 2026 года и заточенная под long-horizon задачи: многочасовую работу агента над кодом, исследованиями и рефакторингом. Главное отличие от предшественника — действительно пригодный к работе контекст на 1 000 000 токенов и большой скачок в кодинге. Веса опубликованы под лицензией MIT, поэтому модель можно запускать у себя без региональных ограничений. С первого дня GLM-5.2 доступна через API, в более чем 20 агентных средах (Claude Code, OpenCode, ZCode и др.) и в чате Z.ai; для тех, кто не хочет работать через консоль, есть GUI-агент ZCode с режимом долгих задач.

💡
Long-horizon задача — работа, которая не укладывается в один-два запроса: агент часами ведёт проект и держит в голове архитектуру, тесты и историю принятых решений.

Что нового по сравнению с GLM-5.1

  • Контекст вырос с 200K до 1M токенов — в окно помещается целый репозиторий среднего размера вместе с тестами и историей диалога.
  • Появились два уровня усилия рассуждения (reasoning effort): High и Max.
  • Резкий прирост в кодинге: на Terminal-Bench 2.1 — 81.0 против 63.5 у GLM-5.1.
  • Открытые веса теперь под MIT, без региональных ограничений на использование.
  • Цены на API остались на уровне GLM-5.1.
💡
Стабильность 1M-контекста держится за счёт архитектурного приёма IndexShare: один лёгкий индексатор переиспользуется на каждые 4 слоя внимания, что снижает вычисления на токен примерно в 2,9 раза при длине 1M.

Основные возможности

ПараметрЗначение
ПозиционированиеФлагманская foundation-модель
Контекст1M токенов (вариант glm-5.2[1m])
Максимальный вывод128K токенов (131 072)
МодальностиТекст → текст
Режимы рассужденияHigh и Max
ВозможностиFunction calling, streaming, structured output (JSON), контекстный кэш, MCP
ЛицензияMIT (открытые веса)
Размер~744B параметров всего, ~40B активных (MoE)

Уровни reasoning effort

GLM-5.2 даёт явно выбирать, сколько вычислений тратить на задачу:

  • High — баланс качества и расхода токенов. Подходит для большинства задач.
  • Max — выжимает максимум на сложных многошаговых задачах, но расходует заметно больше токенов. Z.ai рекомендует Max для тяжёлого кодинга и долгих агентных трасс.

В Claude Code режим переключается командой /effort; значения xhigh, max и ultracode соответствуют уровню Max.

Бенчмарки

Ключевые результаты в сравнении с GLM-5.1 и закрытым фронтиром:

БенчмаркGLM-5.2GLM-5.1Claude Opus 4.8
Terminal-Bench 2.181.063.585.0
SWE-bench Pro62.158.469.2
FrontierSWE74.430.575.1
AIME 202699.295.395.7
GPQA-Diamond91.286.293.6
📌
GLM-5.2 — сильнейшая открытая модель в этом сравнении и единственная из открытых, кто переходит отметку 80% на Terminal-Bench 2.1, опережая Gemini 3.1 Pro. На длинных инженерных задачах (FrontierSWE) она отстаёт от Claude Opus 4.8 примерно на 1%.

При этом на сверхдлинных задачах разрыв с лидером ещё заметен: на SWE-Marathon (сборка компиляторов, оптимизация ядер, продакшн-сервисы) GLM-5.2 отстаёт от Opus 4.8 примерно на 13%, оставаясь при этом лучшей среди открытых моделей.

Подключение по API

API совместимо с форматом OpenAI Chat Completions. Базовый endpoint — https://api.z.ai/api/paas/v4/chat/completions, имя модели — glm-5.2.

curl -X POST "https://api.z.ai/api/paas/v4/chat/completions" \
-H "Content-Type: application/json" \
-H "Authorization: Bearer <ваш-api-key>" \
-d '{
  "model": "glm-5.2",
  "messages": [
    {"role": "user", "content": "Спроектируй и собери блог на React + Node.js"}
  ],
  "thinking": {"type": "enabled"},
  "reasoning_effort": "max",
  "max_tokens": 4096,
  "temperature": 1.0
}'

Официальный Python SDK:

# pip install zai-sdk
from zai import ZaiClient

client = ZaiClient(api_key="<ваш-api-key>")  # ключ из личного кабинета Z.ai

response = client.chat.completions.create(
    model="glm-5.2",
    messages=[
        {"role": "user", "content": "Спроектируй и собери блог на React + Node.js"},
    ],
    thinking={"type": "enabled"},  # включить режим рассуждения
    reasoning_effort="max",         # high | max
    max_tokens=4096,
    temperature=1.0,
)

print(response.choices[0].message)
💡
Чтобы задействовать полный контекст в Claude Code, укажите имя модели glm-5.2[1m] — без суффикса [1m] будет работать стандартное окно.

Тарифы и лимиты

Цены на API не изменились относительно GLM-5.1 (оплата по факту использования токенов, отдельно от подписки Coding Plan):

Тип токеновЦена за 1MОриентир в рублях
Входные$1.40~110 ₽
Входные из кэша$0.26~20 ₽
Выходные$4.40~350 ₽

Рублёвые суммы — ориентир по курсу ~79 ₽/$ на июнь 2026 года; пересчитывайте под актуальный курс.

Если вы пользуетесь подпиской GLM Coding Plan, GLM-5.2 расходует квоту по повышенному тарифу: 3× в пиковые часы и 2× в непиковые (пик — 14:00–18:00 по пекинскому времени, UTC+8). До конца сентября действует акция: в непиковые часы списание идёт 1×.

Локальный запуск

Веса доступны на HuggingFace и ModelScope. Для инференса поддерживаются transformers, vLLM, SGLang, xLLM, ktransformers, а также Ollama.

⚠️
Это не модель для ноутбука. В GLM-5.2 ~744B параметров, из них около 40B активных на токен (MoE). Даже в 4-битной квантизации только под веса нужно порядка 370–400 ГБ, плюс место под KV-кэш — особенно на 1M контекста. Для fp8-инференса сообщество ориентируется на конфигурации уровня нескольких GPU H100; под локальный запуск планируйте серверное железо.

Практические сценарии

  • Захват целого проекта. Загрузить в контекст весь репозиторий и попросить аудит: карта архитектуры, ключевые контракты API, основные потоки данных, технический долг.
  • Длинный рефакторинг от и до. Декомпозиция модуля, миграция API, реструктуризация каталогов — с планом, оценкой рисков и прогоном тестов в конце.
  • Стресс-тест на инженерные стандарты. Дать модели ваши правила (lint, сборка, тесты, запреты на коммиты) в AGENTS.md или CLAUDE.md и проверить, держит ли она границы на длинной дистанции.
  • Воспроизведение исследований. Превратить описание из статьи в рабочий проект на PyTorch и догнать заявленные метрики.
  • Мобильная разработка с отладкой на устройстве. От реализации до проверки через ADB, logcat и скриншоты.

Когда выбирать GLM-5.2

⚖️
Берите GLM-5.2, когда важны открытые веса, суверенность данных и длинные агентные задачи на большом контексте. Если задача простая и короткая, более лёгкая модель обойдётся дешевле и быстрее — мощный 1M-контекст здесь не окупится. Учтите, что GLM-5.2 работает только с текстом: для задач с изображениями или аудио понадобится мультимодальная модель.

Ссылки


По теме

Открытая модель с миллионным контекстом интереснее всего, когда у вас уже есть свой агентный контур или вы строите систему, которой важна независимость от чужого облака.

Если захотите обсудить, как это применить у себя или в команде — пишите в Telegram @pimenov