База знаний

GLM-5.2 — открытая флагманская модель Z.ai с контекстом 1M

GLM-5.2 — открытая модель Z.ai с контекстом 1M токенов, сильным кодингом и MIT-лицензией. Разбор возможностей, подключения по API, цен и локального запуска.

Опубликовано 18.06.2026

ИИ-агенты API и данные DevTools

GLM-5.2 — флагманская открытая модель от Z.ai (Zhipu AI) для длинных инженерных задач: стабильный контекст на 1M токенов, сильный кодинг и агентные сценарии, открытые веса под лицензией MIT.

📌

Открытая модель уровня фронтира: реально работающий контекст на 1M токенов и заметный прирост в кодинге — по тем же ценам, что и GLM-5.1.

Что это такое

GLM-5.2 — это флагманская языковая модель компании Z.ai (Zhipu AI), выпущенная в июне 2026 года и заточенная под long-horizon задачи: многочасовую работу агента над кодом, исследованиями и рефакторингом. Главное отличие от предшественника — действительно пригодный к работе контекст на 1 000 000 токенов и большой скачок в кодинге. Веса опубликованы под лицензией MIT, поэтому модель можно запускать у себя без региональных ограничений. С первого дня GLM-5.2 доступна через API, в более чем 20 агентных средах (Claude Code, OpenCode, ZCode и др.) и в чате Z.ai; для тех, кто не хочет работать через консоль, есть GUI-агент ZCode с режимом долгих задач.

💡

Long-horizon задача — работа, которая не укладывается в один-два запроса: агент часами ведёт проект и держит в голове архитектуру, тесты и историю принятых решений.

Что нового по сравнению с GLM-5.1

Контекст вырос с 200K до 1M токенов — в окно помещается целый репозиторий среднего размера вместе с тестами и историей диалога.
Появились два уровня усилия рассуждения (reasoning effort): High и Max.
Резкий прирост в кодинге: на Terminal-Bench 2.1 — 81.0 против 63.5 у GLM-5.1.
Открытые веса теперь под MIT, без региональных ограничений на использование.
Цены на API остались на уровне GLM-5.1.

💡

Стабильность 1M-контекста держится за счёт архитектурного приёма IndexShare: один лёгкий индексатор переиспользуется на каждые 4 слоя внимания, что снижает вычисления на токен примерно в 2,9 раза при длине 1M.

Основные возможности

Параметр	Значение
Позиционирование	Флагманская foundation-модель
Контекст	1M токенов (вариант `glm-5.2[1m]`)
Максимальный вывод	128K токенов (131 072)
Модальности	Текст → текст
Режимы рассуждения	High и Max
Возможности	Function calling, streaming, structured output (JSON), контекстный кэш, MCP
Лицензия	MIT (открытые веса)
Размер	~744B параметров всего, ~40B активных (MoE)

Уровни reasoning effort

GLM-5.2 даёт явно выбирать, сколько вычислений тратить на задачу:

High — баланс качества и расхода токенов. Подходит для большинства задач.
Max — выжимает максимум на сложных многошаговых задачах, но расходует заметно больше токенов. Z.ai рекомендует Max для тяжёлого кодинга и долгих агентных трасс.

В Claude Code режим переключается командой /effort; значения xhigh, max и ultracode соответствуют уровню Max.

Бенчмарки

Ключевые результаты в сравнении с GLM-5.1 и закрытым фронтиром:

Бенчмарк	GLM-5.2	GLM-5.1	Claude Opus 4.8
Terminal-Bench 2.1	81.0	63.5	85.0
SWE-bench Pro	62.1	58.4	69.2
FrontierSWE	74.4	30.5	75.1
AIME 2026	99.2	95.3	95.7
GPQA-Diamond	91.2	86.2	93.6

📌

GLM-5.2 — сильнейшая открытая модель в этом сравнении и единственная из открытых, кто переходит отметку 80% на Terminal-Bench 2.1, опережая Gemini 3.1 Pro. На длинных инженерных задачах (FrontierSWE) она отстаёт от Claude Opus 4.8 примерно на 1%.

При этом на сверхдлинных задачах разрыв с лидером ещё заметен: на SWE-Marathon (сборка компиляторов, оптимизация ядер, продакшн-сервисы) GLM-5.2 отстаёт от Opus 4.8 примерно на 13%, оставаясь при этом лучшей среди открытых моделей.

Подключение по API

API совместимо с форматом OpenAI Chat Completions. Базовый endpoint — https://api.z.ai/api/paas/v4/chat/completions, имя модели — glm-5.2.

curl -X POST "https://api.z.ai/api/paas/v4/chat/completions" \
-H "Content-Type: application/json" \
-H "Authorization: Bearer <ваш-api-key>" \
-d '{
  "model": "glm-5.2",
  "messages": [
    {"role": "user", "content": "Спроектируй и собери блог на React + Node.js"}
  ],
  "thinking": {"type": "enabled"},
  "reasoning_effort": "max",
  "max_tokens": 4096,
  "temperature": 1.0
}'

Официальный Python SDK:

# pip install zai-sdk
from zai import ZaiClient

client = ZaiClient(api_key="<ваш-api-key>")  # ключ из личного кабинета Z.ai

response = client.chat.completions.create(
    model="glm-5.2",
    messages=[
        {"role": "user", "content": "Спроектируй и собери блог на React + Node.js"},
    ],
    thinking={"type": "enabled"},  # включить режим рассуждения
    reasoning_effort="max",         # high | max
    max_tokens=4096,
    temperature=1.0,
)

print(response.choices[0].message)

💡

Чтобы задействовать полный контекст в Claude Code, укажите имя модели glm-5.2[1m] — без суффикса [1m] будет работать стандартное окно.

Тарифы и лимиты

Цены на API не изменились относительно GLM-5.1 (оплата по факту использования токенов, отдельно от подписки Coding Plan):

Тип токенов	Цена за 1M	Ориентир в рублях
Входные	$1.40	~110 ₽
Входные из кэша	$0.26	~20 ₽
Выходные	$4.40	~350 ₽

Рублёвые суммы — ориентир по курсу ~79 ₽/$ на июнь 2026 года; пересчитывайте под актуальный курс.

Если вы пользуетесь подпиской GLM Coding Plan, GLM-5.2 расходует квоту по повышенному тарифу: 3× в пиковые часы и 2× в непиковые (пик — 14:00–18:00 по пекинскому времени, UTC+8). До конца сентября действует акция: в непиковые часы списание идёт 1×.

Локальный запуск

Веса доступны на HuggingFace и ModelScope. Для инференса поддерживаются transformers, vLLM, SGLang, xLLM, ktransformers, а также Ollama.

⚠️

Это не модель для ноутбука. В GLM-5.2 ~744B параметров, из них около 40B активных на токен (MoE). Даже в 4-битной квантизации только под веса нужно порядка 370–400 ГБ, плюс место под KV-кэш — особенно на 1M контекста. Для fp8-инференса сообщество ориентируется на конфигурации уровня нескольких GPU H100; под локальный запуск планируйте серверное железо.

Практические сценарии

Захват целого проекта. Загрузить в контекст весь репозиторий и попросить аудит: карта архитектуры, ключевые контракты API, основные потоки данных, технический долг.
Длинный рефакторинг от и до. Декомпозиция модуля, миграция API, реструктуризация каталогов — с планом, оценкой рисков и прогоном тестов в конце.
Стресс-тест на инженерные стандарты. Дать модели ваши правила (lint, сборка, тесты, запреты на коммиты) в AGENTS.md или CLAUDE.md и проверить, держит ли она границы на длинной дистанции.
Воспроизведение исследований. Превратить описание из статьи в рабочий проект на PyTorch и догнать заявленные метрики.
Мобильная разработка с отладкой на устройстве. От реализации до проверки через ADB, logcat и скриншоты.

Когда выбирать GLM-5.2

⚖️

Берите GLM-5.2, когда важны открытые веса, суверенность данных и длинные агентные задачи на большом контексте. Если задача простая и короткая, более лёгкая модель обойдётся дешевле и быстрее — мощный 1M-контекст здесь не окупится. Учтите, что GLM-5.2 работает только с текстом: для задач с изображениями или аудио понадобится мультимодальная модель.

Ссылки

Технический блог: z.ai/blog/glm-5.2
Документация API: docs.z.ai/guides/llm/glm-5.2
Веса: huggingface.co/zai-org/GLM-5.2 · ModelScope
Coding Plan: z.ai/subscribe
Чат: chat.z.ai
GitHub: github.com/zai-org/GLM-5

По теме

Открытая модель с миллионным контекстом интереснее всего, когда у вас уже есть свой агентный контур или вы строите систему, которой важна независимость от чужого облака.

Если захотите обсудить, как это применить у себя или в команде — пишите в Telegram @pimenov

Если хотите разобрать свою задачу — напишите мне

Можно прийти с идеей, черновым контекстом или уже живой задачей. Помогу быстро понять, где реальный следующий шаг, а где лишний шум.

Напишите мне в Телеграм Мой Телеграм канал

Обычно хватает 2–3 сообщений, чтобы понять, могу ли я здесь реально помочь и в каком формате лучше двигаться дальше.

GLM-5.2 — открытая флагманская модель Z.ai с контекстом 1M

Что это такое

Что нового по сравнению с GLM-5.1

Основные возможности

Уровни reasoning effort

Бенчмарки

Подключение по API

Тарифы и лимиты

Локальный запуск

Практические сценарии

Когда выбирать GLM-5.2

Ссылки

По теме

Если хотите разобрать свою задачу — напишите мне Если хотите разобрать свою задачу — напишите мне.

Если хотите разобрать свою задачу — напишите мне