Minimax M2.7 на Mac Studio: 120 000 токенов контекста и живой код — рассказ Миши

Миша Психмикс из Фабрики Контента поставил Minimax M2.7 на Mac Studio, включил сжатие V-кэша — и получил 120k контекста и 25–50 токенов в секунду. Его рассказ от первого лица: что изменилось, как ведёт себя модель в OpenClaw и почему локальные модели снова стали рабочими.

Опубликовано 23.04.2026

ИИ Кейс Практика

У нас на Фабрике Контента трудится Миша Психмикс — человек, который делает видео и одновременно дотошно копает в локальных моделях. Он тот самый практик, который ставит себе всё подряд на Mac Studio, гоняет на нём видеомодели вроде LTX 2.3 и параллельно разбирается, что сейчас реально работает локально на тексте. Когда он присылает мне в чат пару абзацев про то, как у него поднялась новая модель, — это всегда стоит читать.

На днях он развернул Minimax M2.7 и поделился наблюдениями. Я специально не стал ничего переписывать за него — даю слово Мише и его прямую речь, только слегка структурирую.

Что было раньше — и в чём была боль

«Некоторое время назад, при работе на Mac Studio с 256 ГБ объединённой памяти, мы активно использовали модель Minimax 2.5. Тогда мы столкнулись с острой нехваткой ресурсов под кэш: контекст всего на 20 000 токенов — чего объективно мало для объёмных задач — полностью забивал всю доступную оперативную память.»

То есть машина топовая, памяти вагон, а контекст упирался в потолок на 20k токенов — и это при том, что вся память под него уже отдана. Для реальной работы с кодом, документами и агентами этого мало: половина задач не влезает, и приходится резать контекст руками.

Что поменялось с Minimax M2.7

«На днях развернули новую версию — Minimax M2.7, и дополнительно применили сжатие V-кэша. Разница в производительности оказалась колоссальной. Теперь в пределах 200 ГБ оперативной памяти стабильно умещается как сама модель (4bit), так и окно контекста на 120 000 токенов. При таких объёмах загрузки система работает довольно живо, а качество генерации остаётся на высоком уровне.»

Короткий перевод: та же самая машина теперь держит 120k токенов контекста вместо 20k — в шесть раз больше. При этом сама модель в 4-битной квантизации и контекст вместе умещаются в 200 ГБ, то есть остаётся ещё запас под систему и приложения.

Ключевой приём здесь — сжатие V-кэша (это та часть key-value cache в трансформерах, которая отвечает за «память» модели по уже обработанным токенам). Его сжатие позволяет драматически уменьшить аппетит к RAM без заметной потери качества.

OpenClaw на локальной модели — и первые живые задачи

После разворота Миша сразу решил дать модели поработать руками, а не просто погонять бенчмарки.

«Попробую сегодня-завтра запихнуть её в opencode и какой-нибудь небольшой проект назначить)»

Через пару часов он уже докладывал:

«Пока всё, что я ему давал на выполнение в OpenClaw, было с первого раза) Но я не то чтобы сложные вещи просил. Qwen3 coder next даже на таком мог начать тупить, говорить что не может, потом „а, вспомнил как надо“, и так далее.»

Для тех, кто работал с локальными coder-моделями, это очень знакомая история: Qwen3 coder next — одна из лучших открытых моделей для кода, но на сложных задачах она часто сначала «отказывается», потом «вспоминает». Minimax M2.7 на том же железе ведёт себя заметно увереннее — во всяком случае, на небольших задачах в OpenClaw.

Скорость и ощущения от работы

«Если разово приходится максимальный контекст обработать (120к токенов), то может задуматься минуты на 2-3. Но такое обычно редко требуется.»

«А в целом от 25 до 50 токенов в секунду генерирует в зависимости от нагрузки контекстом.»

Это уже вполне рабочие цифры. 25–50 токенов в секунду на локальной модели с окном в 120k — это режим, в котором не хочется убежать обратно в облако. Короткий прогрев при полной загрузке контекста — справедливая плата, потому что в реальной работе такой объём нужен редко: обычные задачи бегают на десятках тысяч токенов и отвечают почти мгновенно.

Почему это круто — короткий комментарий от меня

За всей этой технической историей стоит простая вещь: локальные модели снова стали инструментом, а не игрушкой. Ещё полгода назад разумный сценарий для Mac Studio с 256 ГБ был «запускаем что-то ради фана, а серьёзную работу — в облако». Сейчас, благодаря комбинации свежих моделей вроде Minimax M2.7 и приёмов вроде сжатия V-кэша, та же машина спокойно тянет рабочий контур: длинный контекст, нормальная скорость, стабильный OpenClaw поверх — и всё это без единого запроса в чужое API.

Это ровно то, о чём мы с Мишей говорим последние пару месяцев: Фабрика Контента и pimenov.ai двигаются в сторону собственного локального контура — на видео у нас уже закрыт этот контур через LTX 2.3 (первый шок от неё я описывал отдельно — см. LTX 2.3 — первый тест, первый шок), теперь подтягивается и текстовая сторона.

Если у вас есть Mac Studio, M-серия с большим объёмом памяти или просто серьёзный интерес к локальным моделям — на Minimax M2.7 стоит посмотреть внимательно. А если вы хотите сразу гонять задачи через агента — OpenClaw как раз отлично ложится на такую связку.

По теме

Статья: OpenClaw не для всех — и именно поэтому он работает
Блог: LTX 2.3 — первый тест, первый шок
База знаний: MaxClaw — облачный AI-агент от MiniMax на базе OpenClaw

Если вы собираете собственный локальный контур под видео, код и агентов и не хотите разбираться со всем этим в одиночку — я провожу консультации, на которых мы разбираем вашу задачу, железо и стек и собираем рабочий план под ваш сценарий.

Если хотите разобрать свою задачу — напишите мне

Можно прийти с идеей, черновым контекстом или уже живой задачей. Помогу быстро понять, где реальный следующий шаг, а где лишний шум.

Напишите мне в Телеграм Мой Телеграм канал

Обычно хватает 2–3 сообщений, чтобы понять, могу ли я здесь реально помочь и в каком формате лучше двигаться дальше.