pimenov.ai

База знаний

MiniMax M3 — открытые веса и миллионный контекст

MiniMax M3 — первая открытая модель с frontier-кодингом, контекстом 1M токенов и нативной мультимодальностью. MSA-архитектура, цены и способы запуска.

Опубликовано

MiniMax — китайская AI-лаборатория, которая делает упор на открытые веса и собственную линейку мультимодальных моделей. Линия M — это языковые модели с агентной ориентацией; в июне 2026 года вышел флагман MiniMax M3 — первая открытая модель уровня frontier-кодинга с контекстом 1M токенов, нативной мультимодальностью и архитектурой Sparse Attention. Этот справочник — про то, что такое M3, как его запускать и в каких сценариях он реально полезен.

📌
Коротко: MiniMax M3 вышел 1 июня 2026. Архитектура MSA снижает compute в 20 раз и ускоряет prefill в 9+ раз. Контекст 1M токенов, нативные text/image/video и работа за компьютером. По бенчмаркам идёт вровень с Claude Opus 4.7 и GPT-5.5 на кодинге и агентных задачах, при цене $0.30 input / $1.20 output за 1M токенов (промо-период: 50% off). Открытые веса обещаны в ближайшие недели.

Что такое MiniMax

MiniMax — лаборатория, известная по линейкам:

  • M-серия — языковые модели с агентным фокусом: M2 → M2.5 → M2.7 → M3.
  • Hailuo — видеогенерация (актуальная версия Hailuo 2.3).
  • Speech & Music — TTS и генерация музыки.
  • MiniMax Agent / Code / Mavis / Teams — продуктовая обвязка: автономный агент общего назначения, агент для кодинга, агент для презентаций, командное пространство.

Модели M-серии раздаются с открытыми весами на HuggingFace и доступны через собственный API, OpenRouter, Ollama Cloud и сторонние хостинги.


Флагман: MiniMax M3

Архитектура MSA (MiniMax Sparse Attention)

M3 построен на MSA — собственной разреженной модификации attention. Что это даёт на практике:

  • Compute для attention сокращён примерно в 20 раз относительно плотной модели сопоставимого размера.
  • Скорость prefill (обработки входа) выросла в 9+ раз на длинных контекстах.
  • Модель предобучена на более 100T токенов мультимодальных данных.

Ключевые параметры

  • Контекст: 1 000 000 токенов (минимально гарантированно 512K).
  • Модальности: text, image, video на входе; на выходе — текст и tool calls.
  • Computer use: нативная поддержка работы за компьютером — навигация в браузере, GUI, терминал.
  • Tool use: function calling, structured outputs, MCP — из коробки.
  • Лицензия: открытые веса (релиз на HuggingFace анонсирован в течение нескольких недель после API).

Что значит «frontier-кодинг в открытой модели»

До M3 в открытом доступе не было модели, которая на задачах реального кодинга и долгих агентных сессий стояла бы рядом с Claude Opus и GPT-5.5. M3 — первый такой релиз. Это меняет экономику локальных и self-hosted агентов: можно собрать рабочий контур без зависимости от Anthropic или OpenAI.


Бенчмарки

БенчмаркMiniMax M3Контекст
SWE-Bench Pro56.2выше GPT-5.5 и Gemini 3.1 Pro
Multi-SWE-Bench49.4лидер среди открытых моделей
Terminal Bench 257.0работа в терминале
BrowseComp83.5Opus 4.7 — 79.3
Claw-Eval (агент)74.5%долгие агентные траектории
MCP Atlas74.2%работа с MCP-серверами
OmniDocBench91.6%понимание документов
SVG-Benchвыше Opus 4.7генерация векторной графики
SpreadSheetBench89.35%работа с таблицами
BankerToolBench76.12%финансовые tool-цепочки
IMO 202535/42математическая олимпиада
USAMO 202636/42математическая олимпиада США
GDPval-AA1495 ELOагрегированный продуктовый бенч

Долгие автономные сценарии

M3 заточен под траектории на десятки часов и сотни tool calls. Из стресс-тестов MiniMax:

  • 12-часовая репликация статьи с ICLR. Модель самостоятельно довела работу до 18 коммитов и 23 графиков без вмешательства.
  • 24-часовая оптимизация CUDA-ядра FP8 GEMM. За 147 итераций и 1959 tool calls прирост с 7.6% до 71.3% утилизации — ускорение ×9.4.
  • PostTrainBench (агентный пост-трейнинг): M3 — 37.1, третье место после Opus 4.7 (42.4) и GPT-5.5 (39.3). Среди открытых моделей — первое место с большим отрывом.

Это важно для длинных задач: миграций, рефакторингов, репликаций, рисёрча с большим числом шагов.


Способы запуска

СпособКому подходитОсобенности
MiniMax APIПрод и быстрый стартOpenAI-совместимый, model MiniMax-M3
MiniMax CodeКодинг-агент в IDE/CLIАналог Claude Code; есть Token Plan
OpenRouterУдобное переключение моделейМаршрут minimax/minimax-m3
Ollama CloudEdge / self-hosted-подобный режимminimax-m3:cloud, US-based, zero retention
Open weights (скоро)Self-hosted на GPUHuggingFace MiniMaxAI/MiniMax-M3

Подключение по API

from openai import OpenAI

client = OpenAI(
    api_key="<MINIMAX_API_KEY>",
    base_url="https://api.minimax.io/v1",
)

resp = client.chat.completions.create(
    model="MiniMax-M3",
    messages=[
        {"role": "system", "content": "You are a senior code reviewer."},
        {"role": "user", "content": "Review diff and suggest fixes."},
    ],
)
print(resp.choices[0].message.content)

Function calling, structured outputs и streaming работают как в OpenAI SDK.

Запуск через Ollama Cloud

ollama run minimax-m3:cloud

Ollama Cloud для M3 — это управляемый облачный инференс с коммерческой лицензией, серверы в США, политика zero data retention. Подходит как промежуточный вариант, пока открытые веса не выложены или пока у вас нет своего GPU.

Open weights

MiniMax анонсировали публикацию весов M3 на HuggingFace в течение нескольких недель после API-релиза. Под self-hosted потребуется кластер уровня нескольких H100/H200 или MI300 — MSA снижает compute, но активная часть параметров всё равно требует серьёзного железа.


Тарифы и лимиты

ПараметрЗначение
Input$0.30 за 1M токенов
Output$1.20 за 1M токенов
Промо (на старте)−50% → $0.15 / $0.60 за 1M
Контекстдо 1 000 000 токенов
Гарантированный минимум512K токенов

По цене M3 заметно дешевле Claude Opus 4.7 и GPT-5.5 при сопоставимом качестве на кодинге и агентных задачах. Это главный экономический аргумент в пользу миграции части нагрузок.


Линейка моделей MiniMax

  • MiniMax M3 — текущий флагман, MSA, 1M контекст, мультимодальность, computer use.
  • MiniMax M2.7 / M2.5 / M2 — предыдущие поколения; M2.7 ещё актуален для локального запуска на Mac Studio с ограниченным железом.
  • Hailuo 2.3 — видеогенерация.
  • Speech & Music — TTS и музыкальная генерация.
  • MiniMax Agent — автономный универсальный агент.
  • MiniMax Code — кодинг-агент с CLI и интеграциями в IDE.
  • MiniMax Mavis — генерация презентаций.
  • MiniMax Teams — командное пространство поверх агентов.

Сценарии применения

  • Кодинг-агент в команде. M3 через MiniMax Code или собственная обвязка вокруг API — для миграций, рефакторингов, long-running PR.
  • Длинные рисёрч-сессии. Контекст 1M позволяет держать весь репозиторий или большой корпус документов без RAG.
  • Browser/Computer use агенты. Нативная поддержка GUI и браузера — для автоматизации форм, отчётов, скрейпинга с авторизацией.
  • Работа с документами. OmniDocBench 91.6% — реально вытаскивать структуру из PDF, сканов, таблиц.
  • Финансовые и продуктовые tool-цепочки. SpreadSheetBench и BankerToolBench — про реальные данные и инструменты.
  • Резервный канал к Claude/GPT. Дешевле, открытые веса в перспективе, заметно ниже vendor lock-in.

Особенности и подводные камни

  • MSA не равно «всё бесплатно». Compute на attention снижен в 20 раз, но активная часть параметров всё ещё крупная — для self-hosted нужен серьёзный кластер.
  • Открытые веса по графику. На момент API-релиза веса ещё не выложены; если критична возможность скачать модель сегодня — берите M2.7.
  • Computer use требует песочницы. Запускать агента с правом кликать и вводить — только в изолированной среде с логами и стоп-кнопкой.
  • 1M контекст ≠ бесплатный 1M. Длинный контекст дешевле, но всё равно платится; держите в голове бюджет на промпт-кэширование и реранкинг.
  • Промо-цена временная. Сейчас 50% off; планируйте экономику с расчётом на полные $0.30/$1.20.
  • RU-качество. На технических текстах и диалогах работает хорошо, литературные жанры всё равно требуют пост-редактуры.

Чеклист быстрой проверки

Определён сценарий: кодинг, агент, документы, browser use, рисёрч.
Выбран канал доступа: MiniMax API, MiniMax Code, OpenRouter, Ollama Cloud или ожидание open weights.
Получен API-ключ и проверен OpenAI-совместимый endpoint.
Настроены function calling и structured outputs под ваши инструменты.
Для computer use — поднята песочница с логированием действий.
Заведены evals на ваших задачах и сравнение с текущей моделью (Claude/GPT/Kimi).
Посчитан бюджет с учётом окончания промо 50% off.
Решено, мигрировать ли часть нагрузок или использовать M3 как резервный канал.

Антипаттерны

  • Брать M3 «потому что open-weight», не имея железа. До публикации весов и без кластера на нескольких H100 self-hosted не получится — используйте API или Ollama Cloud.
  • Запускать computer use без песочницы. Агент с правом действовать в системе без изоляции и логов — это инцидент, а не продукт.
  • Полагаться на 1M контекст вместо архитектуры. Большой контекст не отменяет нормальный retrieval и структурирование данных, иначе платите за прокрутку мусора.
  • Сравнивать только по одному бенчмарку. SWE-Bench Pro и BrowseComp — разные задачи; гоняйте evals именно на ваших сценариях.
  • Игнорировать tool-валидацию. На длинных траекториях даже сильная модель уходит в свободный формат — schema-валидация tool calls обязательна.
  • Считать промо-цены как базовые. Закладывайте экономику на $0.30/$1.20, чтобы не пересобирать тарифы клиентам через месяц.

Полезные ссылки


По теме

Если захотите обсудить, как применить M3 в своём продукте или команде — пишите в Telegram @pimenov