MiniMax выпустили M3 — открытую модель для кодинга и агентов с миллионом токенов контекста. Уже доступна через API, Ollama Cloud и HuggingFace.
MiniMax — китайская AI-лаборатория, которая делает упор на открытые веса и собственную линейку мультимодальных моделей. Линия M — это языковые модели с агентной ориентацией; в июне 2026 года вышел флагман MiniMax M3 — первая открытая модель уровня frontier-кодинга с контекстом 1M токенов, нативной мультимодальностью и архитектурой Sparse Attention. Этот справочник — про то, что такое M3, как его запускать и в каких сценариях он реально полезен.
Что такое MiniMax
MiniMax — лаборатория, известная по линейкам:
- M-серия — языковые модели с агентным фокусом: M2 → M2.5 → M2.7 → M3.
- Hailuo — видеогенерация (актуальная версия Hailuo 2.3).
- Speech & Music — TTS и генерация музыки.
- MiniMax Agent / Code / Mavis / Teams — продуктовая обвязка: автономный агент общего назначения, агент для кодинга, агент для презентаций, командное пространство.
Модели M-серии раздаются с открытыми весами на HuggingFace и доступны через собственный API, OpenRouter, Ollama Cloud и сторонние хостинги.
Флагман: MiniMax M3
Архитектура MSA (MiniMax Sparse Attention)
M3 построен на MSA — собственной разреженной модификации attention. Что это даёт на практике:
- Compute для attention сокращён примерно в 20 раз относительно плотной модели сопоставимого размера.
- Скорость prefill (обработки входа) выросла в 9+ раз на длинных контекстах.
- Модель предобучена на более 100T токенов мультимодальных данных.
Ключевые параметры
- Контекст: 1 000 000 токенов (минимально гарантированно 512K).
- Модальности: text, image, video на входе; на выходе — текст и tool calls.
- Computer use: нативная поддержка работы за компьютером — навигация в браузере, GUI, терминал.
- Tool use: function calling, structured outputs, MCP — из коробки.
- Лицензия: открытые веса (релиз на HuggingFace анонсирован в течение нескольких недель после API).
Что значит «frontier-кодинг в открытой модели»
До M3 в открытом доступе не было модели, которая на задачах реального кодинга и долгих агентных сессий стояла бы рядом с Claude Opus и GPT-5.5. M3 — первый такой релиз. Это меняет экономику локальных и self-hosted агентов: можно собрать рабочий контур без зависимости от Anthropic или OpenAI.
Бенчмарки
| Бенчмарк | MiniMax M3 | Контекст |
| SWE-Bench Pro | 56.2 | выше GPT-5.5 и Gemini 3.1 Pro |
| Multi-SWE-Bench | 49.4 | лидер среди открытых моделей |
| Terminal Bench 2 | 57.0 | работа в терминале |
| BrowseComp | 83.5 | Opus 4.7 — 79.3 |
| Claw-Eval (агент) | 74.5% | долгие агентные траектории |
| MCP Atlas | 74.2% | работа с MCP-серверами |
| OmniDocBench | 91.6% | понимание документов |
| SVG-Bench | выше Opus 4.7 | генерация векторной графики |
| SpreadSheetBench | 89.35% | работа с таблицами |
| BankerToolBench | 76.12% | финансовые tool-цепочки |
| IMO 2025 | 35/42 | математическая олимпиада |
| USAMO 2026 | 36/42 | математическая олимпиада США |
| GDPval-AA | 1495 ELO | агрегированный продуктовый бенч |
Долгие автономные сценарии
M3 заточен под траектории на десятки часов и сотни tool calls. Из стресс-тестов MiniMax:
- 12-часовая репликация статьи с ICLR. Модель самостоятельно довела работу до 18 коммитов и 23 графиков без вмешательства.
- 24-часовая оптимизация CUDA-ядра FP8 GEMM. За 147 итераций и 1959 tool calls прирост с 7.6% до 71.3% утилизации — ускорение ×9.4.
- PostTrainBench (агентный пост-трейнинг): M3 — 37.1, третье место после Opus 4.7 (42.4) и GPT-5.5 (39.3). Среди открытых моделей — первое место с большим отрывом.
Это важно для длинных задач: миграций, рефакторингов, репликаций, рисёрча с большим числом шагов.
Способы запуска
| Способ | Кому подходит | Особенности |
| MiniMax API | Прод и быстрый старт | OpenAI-совместимый, model MiniMax-M3 |
| MiniMax Code | Кодинг-агент в IDE/CLI | Аналог Claude Code; есть Token Plan |
| OpenRouter | Удобное переключение моделей | Маршрут minimax/minimax-m3 |
| Ollama Cloud | Edge / self-hosted-подобный режим | minimax-m3:cloud, US-based, zero retention |
| Open weights (скоро) | Self-hosted на GPU | HuggingFace MiniMaxAI/MiniMax-M3 |
Подключение по API
from openai import OpenAI
client = OpenAI(
api_key="<MINIMAX_API_KEY>",
base_url="https://api.minimax.io/v1",
)
resp = client.chat.completions.create(
model="MiniMax-M3",
messages=[
{"role": "system", "content": "You are a senior code reviewer."},
{"role": "user", "content": "Review diff and suggest fixes."},
],
)
print(resp.choices[0].message.content)Function calling, structured outputs и streaming работают как в OpenAI SDK.
Запуск через Ollama Cloud
ollama run minimax-m3:cloudOllama Cloud для M3 — это управляемый облачный инференс с коммерческой лицензией, серверы в США, политика zero data retention. Подходит как промежуточный вариант, пока открытые веса не выложены или пока у вас нет своего GPU.
Open weights
MiniMax анонсировали публикацию весов M3 на HuggingFace в течение нескольких недель после API-релиза. Под self-hosted потребуется кластер уровня нескольких H100/H200 или MI300 — MSA снижает compute, но активная часть параметров всё равно требует серьёзного железа.
Тарифы и лимиты
| Параметр | Значение |
| Input | $0.30 за 1M токенов |
| Output | $1.20 за 1M токенов |
| Промо (на старте) | −50% → $0.15 / $0.60 за 1M |
| Контекст | до 1 000 000 токенов |
| Гарантированный минимум | 512K токенов |
По цене M3 заметно дешевле Claude Opus 4.7 и GPT-5.5 при сопоставимом качестве на кодинге и агентных задачах. Это главный экономический аргумент в пользу миграции части нагрузок.
Линейка моделей MiniMax
- MiniMax M3 — текущий флагман, MSA, 1M контекст, мультимодальность, computer use.
- MiniMax M2.7 / M2.5 / M2 — предыдущие поколения; M2.7 ещё актуален для локального запуска на Mac Studio с ограниченным железом.
- Hailuo 2.3 — видеогенерация.
- Speech & Music — TTS и музыкальная генерация.
- MiniMax Agent — автономный универсальный агент.
- MiniMax Code — кодинг-агент с CLI и интеграциями в IDE.
- MiniMax Mavis — генерация презентаций.
- MiniMax Teams — командное пространство поверх агентов.
Сценарии применения
- Кодинг-агент в команде. M3 через MiniMax Code или собственная обвязка вокруг API — для миграций, рефакторингов, long-running PR.
- Длинные рисёрч-сессии. Контекст 1M позволяет держать весь репозиторий или большой корпус документов без RAG.
- Browser/Computer use агенты. Нативная поддержка GUI и браузера — для автоматизации форм, отчётов, скрейпинга с авторизацией.
- Работа с документами. OmniDocBench 91.6% — реально вытаскивать структуру из PDF, сканов, таблиц.
- Финансовые и продуктовые tool-цепочки. SpreadSheetBench и BankerToolBench — про реальные данные и инструменты.
- Резервный канал к Claude/GPT. Дешевле, открытые веса в перспективе, заметно ниже vendor lock-in.
Особенности и подводные камни
- MSA не равно «всё бесплатно». Compute на attention снижен в 20 раз, но активная часть параметров всё ещё крупная — для self-hosted нужен серьёзный кластер.
- Открытые веса по графику. На момент API-релиза веса ещё не выложены; если критична возможность скачать модель сегодня — берите M2.7.
- Computer use требует песочницы. Запускать агента с правом кликать и вводить — только в изолированной среде с логами и стоп-кнопкой.
- 1M контекст ≠ бесплатный 1M. Длинный контекст дешевле, но всё равно платится; держите в голове бюджет на промпт-кэширование и реранкинг.
- Промо-цена временная. Сейчас 50% off; планируйте экономику с расчётом на полные $0.30/$1.20.
- RU-качество. На технических текстах и диалогах работает хорошо, литературные жанры всё равно требуют пост-редактуры.
Чеклист быстрой проверки
Антипаттерны
- ❌ Брать M3 «потому что open-weight», не имея железа. До публикации весов и без кластера на нескольких H100 self-hosted не получится — используйте API или Ollama Cloud.
- ❌ Запускать computer use без песочницы. Агент с правом действовать в системе без изоляции и логов — это инцидент, а не продукт.
- ❌ Полагаться на 1M контекст вместо архитектуры. Большой контекст не отменяет нормальный retrieval и структурирование данных, иначе платите за прокрутку мусора.
- ❌ Сравнивать только по одному бенчмарку. SWE-Bench Pro и BrowseComp — разные задачи; гоняйте evals именно на ваших сценариях.
- ❌ Игнорировать tool-валидацию. На длинных траекториях даже сильная модель уходит в свободный формат — schema-валидация tool calls обязательна.
- ❌ Считать промо-цены как базовые. Закладывайте экономику на $0.30/$1.20, чтобы не пересобирать тарифы клиентам через месяц.
Полезные ссылки
- MiniMax M3 — обзор модели: minimax.io/models/text/m3
- Платформа MiniMax: platform.minimax.io
- MiniMax Code: code.minimax.io
- Hugging Face: huggingface.co/MiniMaxAI
- OpenRouter: openrouter.ai/minimax/minimax-m3
- Ollama Cloud: ollama.com/library/minimax-m3
По теме
Если захотите обсудить, как применить M3 в своём продукте или команде — пишите в Telegram @pimenov