База знаний

MiniMax M3 — открытые веса и миллионный контекст

MiniMax M3 — первая открытая модель с frontier-кодингом, контекстом 1M токенов и нативной мультимодальностью. MSA-архитектура, цены и способы запуска.

Опубликовано 02.06.2026 Обновлено 06.07.2026

ИИ-агенты DevTools

🔄

Актуальность: проверено 6 июля 2026. Материал освежили под текущее состояние M3: открытые веса уже лежат на HuggingFace (есть и квант NVFP4 от NVIDIA), уточнены параметры модели (~428B всего / ~23B активных), бенчмарк SWE-Bench Pro (59.0) и тарифы — стартовое промо −50% закончилось, базовая цена $0.60 / $2.40 за 1M токенов. Цены и лимиты у провайдеров меняются быстро, поэтому перед запуском сверяйтесь с официальной страницей тарифов.

MiniMax — китайская AI-лаборатория, которая делает упор на открытые веса и собственную линейку мультимодальных моделей. Линия M — это языковые модели с агентной ориентацией; в июне 2026 года вышел флагман MiniMax M3 — первая открытая модель уровня frontier-кодинга с контекстом 1M токенов, нативной мультимодальностью и архитектурой Sparse Attention. Этот справочник — про то, что такое M3, как его запускать и в каких сценариях он реально полезен.

📌

Коротко: MiniMax M3 вышел 1 июня 2026. Архитектура MSA снижает compute на attention примерно в 20 раз и ускоряет prefill в 9+ раз. Контекст 1M токенов, нативные text/image/video и работа за компьютером. По бенчмаркам идёт вровень с Claude Opus 4.7 и GPT-5.5 на кодинге и агентных задачах (SWE-Bench Pro 59.0). Базовая цена — $0.60 input / $2.40 output за 1M токенов; стартовое промо −50% ($0.30 / $1.20) действовало только первую неделю после релиза и уже закончилось. Открытые веса выложены на HuggingFace (MiniMaxAI/MiniMax-M3).

Что такое MiniMax

MiniMax — лаборатория, известная по линейкам:

M-серия — языковые модели с агентным фокусом: M2 → M2.5 → M2.7 → M3.
Hailuo — видеогенерация (актуальная версия Hailuo 2.3).
Speech & Music — TTS и генерация музыки.
MiniMax Agent / Code / Mavis / Teams — продуктовая обвязка: автономный агент общего назначения, агент для кодинга, агент для презентаций, командное пространство.

Модели M-серии раздаются с открытыми весами на HuggingFace и доступны через собственный API, OpenRouter, Ollama Cloud и сторонние хостинги.

Флагман: MiniMax M3

Архитектура MSA (MiniMax Sparse Attention)

M3 построен на MSA — собственной разреженной модификации attention. Что это даёт на практике:

Compute для attention сокращён примерно в 20 раз относительно плотной модели сопоставимого размера.
Скорость prefill (обработки входа) выросла в 9+ раз на длинных контекстах.
Модель предобучена на более 100T токенов мультимодальных данных.

Ключевые параметры

Контекст: 1 000 000 токенов (минимально гарантированно 512K).
Модальности: text, image, video на входе; на выходе — текст и tool calls.
Computer use: нативная поддержка работы за компьютером — навигация в браузере, GUI, терминал.
Tool use: function calling, structured outputs, MCP — из коробки.
Лицензия: открытые веса, уже опубликованы на HuggingFace (MiniMaxAI/MiniMax-M3); есть официальная квантизация NVFP4 от NVIDIA (nvidia/MiniMax-M3-NVFP4).

Что значит «frontier-кодинг в открытой модели»

До M3 в открытом доступе не было модели, которая на задачах реального кодинга и долгих агентных сессий стояла бы рядом с Claude Opus и GPT-5.5. M3 — первый такой релиз. Это меняет экономику локальных и self-hosted агентов: можно собрать рабочий контур без зависимости от Anthropic или OpenAI.

Бенчмарки

Бенчмарк	MiniMax M3	Контекст
SWE-Bench Pro	59.0	выше GPT-5.5 и Gemini 3.1 Pro
Multi-SWE-Bench	49.4	лидер среди открытых моделей
Terminal Bench 2.1	66.0	работа в терминале
BrowseComp	83.5	Opus 4.7 — 79.3
Claw-Eval (агент)	74.5%	долгие агентные траектории
MCP Atlas	74.2%	работа с MCP-серверами
OmniDocBench	91.6%	понимание документов
SVG-Bench	выше Opus 4.7	генерация векторной графики
SpreadSheetBench	89.35%	работа с таблицами
BankerToolBench	76.12%	финансовые tool-цепочки
IMO 2025	35/42	математическая олимпиада
USAMO 2026	36/42	математическая олимпиада США
GDPval-AA	1495 ELO	агрегированный продуктовый бенч

Долгие автономные сценарии

M3 заточен под траектории на десятки часов и сотни tool calls. Из стресс-тестов MiniMax:

12-часовая репликация статьи с ICLR. Модель самостоятельно довела работу до 18 коммитов и 23 графиков без вмешательства.
24-часовая оптимизация CUDA-ядра FP8 GEMM. За 147 итераций и 1959 tool calls прирост с 7.6% до 71.3% утилизации — ускорение ×9.4.
PostTrainBench (агентный пост-трейнинг): M3 — 37.1, третье место после Opus 4.7 (42.4) и GPT-5.5 (39.3). Среди открытых моделей — первое место с большим отрывом.

Это важно для длинных задач: миграций, рефакторингов, репликаций, рисёрча с большим числом шагов.

Способы запуска

Способ	Кому подходит	Особенности
MiniMax API	Прод и быстрый старт	OpenAI-совместимый, model `MiniMax-M3`
MiniMax Code	Кодинг-агент в IDE/CLI	Аналог Claude Code; есть Token Plan
OpenRouter	Удобное переключение моделей	Маршрут `minimax/minimax-m3`
Ollama Cloud	Edge / self-hosted-подобный режим	`minimax-m3:cloud`, US-based, zero retention
Open weights	Self-hosted на GPU	Уже на HuggingFace `MiniMaxAI/MiniMax-M3`

Подключение по API

from openai import OpenAI

client = OpenAI(
    api_key="<MINIMAX_API_KEY>",
    base_url="https://api.minimax.io/v1",
)

resp = client.chat.completions.create(
    model="MiniMax-M3",
    messages=[
        {"role": "system", "content": "You are a senior code reviewer."},
        {"role": "user", "content": "Review diff and suggest fixes."},
    ],
)
print(resp.choices[0].message.content)

Function calling, structured outputs и streaming работают как в OpenAI SDK.

Запуск через Ollama Cloud

ollama run minimax-m3:cloud

Ollama Cloud для M3 — это управляемый облачный инференс с коммерческой лицензией, серверы в США, политика zero data retention. Подходит как промежуточный вариант, пока открытые веса не выложены или пока у вас нет своего GPU.

Open weights

Веса M3 уже опубликованы на HuggingFace (MiniMaxAI/MiniMax-M3) под открытой лицензией; NVIDIA выложила официальную квантизацию NVFP4 (nvidia/MiniMax-M3-NVFP4). Под self-hosted потребуется кластер уровня нескольких H100/H200 или MI300 — MSA снижает compute, но активная часть параметров всё равно требует серьёзного железа. Подробный расчёт — в следующем разделе.

Железо для self-hosted

Веса M3 уже выложены на HuggingFace, но независимых замеров памяти на vLLM пока мало. Ниже — оценка по аналогии с M2.5, для которого цифры подтверждены продакшеном; после первых деплоев M3 их стоит пересверить.

Размер модели

Общие параметры: ~428B (официальная карточка модели на HuggingFace).
Активные параметры на токен: ~23B (MoE-архитектура).
Это примерно вдвое больше M2.5/M2.7 (229.9B total / ~10B active). MSA снижает compute на attention в ~20 раз, но все ~428B всё равно лежат в VRAM целиком — активная часть просто работает быстрее.

Расчёт памяти

Для M2.5 в FP8 подтверждённые цифры с vLLM: 220 GB на веса + ~240 GB на 1M токенов KV-кэша ≈ 460 GB. Для M3 пересчёт даёт такие оценки:

Сценарий	Память (оценка)
FP8, веса без контекста	~450–500 GB
FP8 + 1M токенов KV-кэша	~700–900 GB
Q4/Q3 (GGUF), без контекста	~200–250 GB
Q4/Q3 + средний контекст (64–128K)	~300–400 GB

MSA должен заметно ужать KV-кэш на длинных контекстах, но конкретных чисел пока никто не приводил — точные данные будут после релиза весов и первых деплоев на vLLM.

Возможные конфигурации

NVIDIA, серверная сборка

8× H100 80GB (640 GB). Впритык на FP8 для средних контекстов, на 1M не хватит.
8× H200 141GB (~1.1 TB) или 8× B200 192GB. Комфортно держат FP8 + 1M.
8× RTX Pro 6000 (96 GB). На M2.5 такая сборка давала 70–122 tok/s; для M3 в FP8 подойдёт со средним контекстом.

AMD

8× MI300X / MI325X (192–256 GB). По данным SemiAnalysis на M2.5/M2.7 они выгоднее H100 на 30–65% за токен. Для self-hosted M3 — самый интересный вариант по соотношению цена/качество.

Apple Silicon

Mac Studio M3 Ultra 512 GB в одиночку. Для FP8 уже маловато, но квантованную сборку (Q4/Q3) потянет. Для сравнения: Unsloth-сборка M2.5 Q3 умещалась в 101 GB на 128 GB Mac.
Кластер из 2–4× Mac Studio M3 Ultra 512 GB через Thunderbolt 5. Пока единственный реалистичный способ запустить FP8 на «домашнем» железе с миллионным контекстом. Скорость скромная (10–30 tok/s), но для рисёрча и долгих агентных задач рабочая.

Чего точно не хватит

Одной RTX 4090/5090 (24–32 GB).
DGX Spark (128 GB) — даже квантованная M3 на грани.
Mac Studio M2 Ultra 192 GB — только сильно ужатые кванты.

Если своего железа нет

Уже сегодня: API MiniMax, OpenRouter ($0.60 / $2.40 за 1M; стартовое промо −50% уже закончилось) или Ollama Cloud (коммерческая лицензия, серверы в США, zero retention).
Self-hosted: веса уже выложены на HuggingFace (MiniMaxAI/MiniMax-M3), есть официальный квант NVFP4 от NVIDIA — можно скачивать и собирать кластер.
Если железо ограничено: взять M2.7 — на Mac Studio M3 Ultra с Q3-квантизацией он стабильно работает и сильно проще в эксплуатации.

Тарифы и лимиты

Параметр	Значение
Input (базовый тариф)	$0.60 за 1M токенов
Output (базовый тариф)	$2.40 за 1M токенов
Стартовое промо	−50% → $0.30 / $1.20; действовало только первую неделю после релиза, сейчас закончилось
Контекст	до 1 000 000 токенов
Гарантированный минимум	512K токенов

По цене M3 заметно дешевле Claude Opus 4.7 и GPT-5.5 при сопоставимом качестве на кодинге и агентных задачах. Это главный экономический аргумент в пользу миграции части нагрузок.

Линейка моделей MiniMax

MiniMax M3 — текущий флагман, MSA, 1M контекст, мультимодальность, computer use.
MiniMax M2.7 / M2.5 / M2 — предыдущие поколения; M2.7 ещё актуален для локального запуска на Mac Studio с ограниченным железом.
Hailuo 2.3 — видеогенерация.
Speech & Music — TTS и музыкальная генерация.
MiniMax Agent — автономный универсальный агент.
MiniMax Code — кодинг-агент с CLI и интеграциями в IDE.
MiniMax Mavis — генерация презентаций.
MiniMax Teams — командное пространство поверх агентов.

Сценарии применения

Кодинг-агент в команде. M3 через MiniMax Code или собственная обвязка вокруг API — для миграций, рефакторингов, long-running PR.
Длинные рисёрч-сессии. Контекст 1M позволяет держать весь репозиторий или большой корпус документов без RAG.
Browser/Computer use агенты. Нативная поддержка GUI и браузера — для автоматизации форм, отчётов, скрейпинга с авторизацией.
Работа с документами. OmniDocBench 91.6% — реально вытаскивать структуру из PDF, сканов, таблиц.
Финансовые и продуктовые tool-цепочки. SpreadSheetBench и BankerToolBench — про реальные данные и инструменты.
Резервный канал к Claude/GPT. Дешевле, открытые веса в перспективе, заметно ниже vendor lock-in.

Особенности и подводные камни

MSA не равно «всё бесплатно». Compute на attention снижен в 20 раз, но активная часть параметров всё ещё крупная — для self-hosted нужен серьёзный кластер.
Открытые веса уже доступны. Веса M3 выложены на HuggingFace, есть и официальный квант NVFP4 от NVIDIA — модель можно скачать и развернуть self-hosted уже сейчас.
Computer use требует песочницы. Запускать агента с правом кликать и вводить — только в изолированной среде с логами и стоп-кнопкой.
1M контекст ≠ бесплатный 1M. Длинный контекст дешевле, но всё равно платится; держите в голове бюджет на промпт-кэширование и реранкинг.
Промо уже закончилось. Стартовое −50% действовало только первую неделю; базовые тарифы — $0.60/$2.40 за 1M токенов.
RU-качество. На технических текстах и диалогах работает хорошо, литературные жанры всё равно требуют пост-редактуры.

Чеклист быстрой проверки

Определён сценарий: кодинг, агент, документы, browser use, рисёрч.

Выбран канал доступа: MiniMax API, MiniMax Code, OpenRouter, Ollama Cloud или self-hosted (open weights уже доступны).

Получен API-ключ и проверен OpenAI-совместимый endpoint.

Настроены function calling и structured outputs под ваши инструменты.

Для computer use — поднята песочница с логированием действий.

Заведены evals на ваших задачах и сравнение с текущей моделью (Claude/GPT/Kimi).

Посчитан бюджет с учётом окончания промо 50% off.

Решено, мигрировать ли часть нагрузок или использовать M3 как резервный канал.

Антипаттерны

❌ Брать M3 «потому что open-weight», не имея железа. До публикации весов и без кластера на нескольких H100 self-hosted не получится — используйте API или Ollama Cloud.
❌ Запускать computer use без песочницы. Агент с правом действовать в системе без изоляции и логов — это инцидент, а не продукт.
❌ Полагаться на 1M контекст вместо архитектуры. Большой контекст не отменяет нормальный retrieval и структурирование данных, иначе платите за прокрутку мусора.
❌ Сравнивать только по одному бенчмарку. SWE-Bench Pro и BrowseComp — разные задачи; гоняйте evals именно на ваших сценариях.
❌ Игнорировать tool-валидацию. На длинных траекториях даже сильная модель уходит в свободный формат — schema-валидация tool calls обязательна.
❌ Считать промо-цены как базовые. Стартовое промо −50% уже закончилось — закладывайте экономику на базовые $0.60/$2.40, а не на $0.30/$1.20.

Полезные ссылки

MiniMax M3 — обзор модели: minimax.io/models/text/m3
Платформа MiniMax: platform.minimax.io
MiniMax Code: code.minimax.io
Hugging Face (веса): huggingface.co/MiniMaxAI/MiniMax-M3
GitHub: github.com/MiniMax-AI/MiniMax-M3
Технический отчёт MSA (arXiv): arxiv.org/abs/2606.13392
OpenRouter: openrouter.ai/minimax/minimax-m3
Ollama Cloud: ollama.com/library/minimax-m3

По теме

Если захотите обсудить, как применить M3 в своём продукте или команде — пишите в Telegram @pimenov

Если хотите разобрать свою задачу — напишите мне

Можно прийти с идеей, черновым контекстом или уже живой задачей. Помогу быстро понять, где реальный следующий шаг, а где лишний шум.

Напишите мне в Телеграм Мой Телеграм канал

Обычно хватает 2–3 сообщений, чтобы понять, могу ли я здесь реально помочь и в каком формате лучше двигаться дальше.