Moonshot AI выпустила Kimi K2.6 — open-source модель с рекордным long-horizon кодингом, Agent Swarm на 300 агентов и поддержкой OpenClaw и Hermes. Разбираюсь, почему это важно.
База знаний
Kimi K2.6 — long-horizon модель от Moonshot AI
Kimi K2.6 от Moonshot AI: open-source модель для long-horizon кодинга, Agent Swarm на 300 агентов, интеграция с OpenClaw и Hermes.
СейчасЧто это такое
- Что это такое
- Где модель выигрывает
- Длинные агентные сессии
- Кодинг
- Приватные сценарии
- Мультимодальность и режимы работы
- Agent Swarm — рой агентов
- Бенчмарки
- Варианты запуска
- Локальный запуск (Ollama / MLX)
- Облачный API
- Цены
- Интеграция в рабочий процесс
- OpenClaw и Hermes — главные обвязки
- Kimi Code (CLI)
- Codex / Claude Code через API-прокси
- Tool use и function calling
- Сравнение с другими открытыми моделями
- Обновления линейки Kimi
- Сценарии применения
- Чего ожидать и подводные камни
- Чеклист выбора Kimi K2.6
- Полезные ссылки
Kimi K2.6 — открытая нативно мультимодальная агентная модель от Moonshot AI. Вышла 20 апреля 2026 года. Акцент — на длинных агентных сессиях, кодинге и оркестрации роя агентов (Agent Swarm). Главный тезис Moonshot — «полный рабочий день автономной работы без потери нити»; это их маркетинговая формулировка, подкреплённая внутренними тестами (детали ниже). Этот справочник — про архитектуру, возможности, цены, варианты запуска и сценарии, в которых её осмысленно выбирать перед закрытыми моделями.
Что это такое
Kimi K2.6 — открытая модель китайской компании Moonshot AI, флагман семейства Kimi K2. Веса выложены публично (модифицированная лицензия MIT), модель можно скачать, дообучить и развернуть на своей инфраструктуре.
Главные характеристики:
- Архитектура MoE (Mixture of Experts) — 1 трлн параметров всего, из которых на каждый токен активируется ~32 млрд. Это даёт качество крупной модели при стоимости инференса небольшой.
- Окно 256K токенов (262 144) — хватает, чтобы держать в контексте крупный проект или пакет документов целиком.
- Нативная мультимодальность — текст, изображения и видео на вход через визуальный энкодер MoonViT (400M). Это уже не «просто языковая модель», а мультимодальный агент.
- Агентный фокус — обучена работать в длинных сессиях с инструментами, multi-step планированием и роевой оркестрацией (Agent Swarm).
- Два режима — instant (быстрый ответ) и thinking (пошаговое рассуждение с вызовом инструментов).
- Сильный кодинг — по собственным бенчмаркам Moonshot держится вровень с топовыми закрытыми моделями класса Claude Opus 4.7, а на части агентных задач выигрывает (подробности и оговорки — в разделе «Бенчмарки»).
Где модель выигрывает
Длинные агентные сессии
Многие модели хороши на первых 30 минутах сессии и разваливаются к четырём часам. Kimi K2.6 специально тренировалась на длинных контекстных цепочках с инструментами. По внутренним тестам Moonshot она выдерживает многочасовые автономные прогоны: в показательном кейсе модель за один прогон ~13 часов рефакторила 8-летний движок биржевого матчинга (exchange-core), сделав 1000+ вызовов инструментов и изменив 4000+ строк кода. Это заявления самой компании, а не независимый аудит, — но направление верное: устойчивая работа на длинной дистанции, где надо читать, менять, измерять и переделывать.
Кодинг
По отзывам разработчиков, Kimi K2.6 сравнима с топовыми закрытыми моделями (уровня Claude Opus 4.7) на задачах рефакторинга, дебага и писания бизнес-логики на Python, Go и TypeScript. Слабее на редких языках и системных задачах (ядра, низкоуровневые оптимизации).
Приватные сценарии
Открытые веса дают возможность запустить модель в периметре компании. Сценарии: обработка персональных данных, внутренняя документация, работа с юридическими текстами без отправки в облако.
Мультимодальность и режимы работы
K2.6 принимает на вход не только текст, но и изображения и видео — за это отвечает визуальный энкодер MoonViT. На практике это значит, что модель можно просить разобрать скриншот интерфейса, диаграмму, кадр из видео или PDF со схемами, а не только текстовое описание.
Важная оговорка: ввод изображений и видео официально поддержан в API Moonshot, но не у всех хостинг-провайдеров он выведен наружу. Например, в развёртывании DeepInfra картинки на вход через API недоступны — зрение используется моделью внутренне. Если мультимодальность нужна именно через API, проверяйте конкретного провайдера.
У модели два режима:
- Instant — быстрый ответ без длинной цепочки рассуждений. Подходит для чата, простых правок кода, генерации текста.
- Thinking — пошаговое рассуждение с вызовом инструментов (interleaved thinking + multi-step tool call). Модель чередует размышление и вызовы функций, выдерживая сотни последовательных шагов без потери нити. Подходит для исследований, сложного дебага, многошаговых процедур.
Agent Swarm — рой агентов
Главное нововведение K2.6 относительно прошлых версий. Agent Swarm разбивает задачу на разнородные подзадачи и запускает их параллельно силами специализированных суб-агентов, которые модель создаёт сама под конкретную работу.
- Масштаб — до 300 суб-агентов и 4 000 скоординированных шагов в одном прогоне. Для сравнения, у K2.5 было 100 агентов и 1 500 шагов.
- Композиция навыков — в одном автономном прогоне рой совмещает широкий поиск, глубокий ресёрч, анализ больших документов и длинные тексты.
- Готовые артефакты — на выходе не сырой ответ, а целые документы, сайты, слайды и таблицы.
Практический смысл: задачи, которые раньше распадались на десяток отдельных запросов, теперь укладываются в один автономный прогон. Это и есть тезис Moonshot «один человек делает то, что раньше требовало команды».
Бенчмарки
Это собственные замеры Moonshot (Kimi в thinking-режиме), а не независимый аудит — относитесь к ним как к заявлениям вендора. Цифры — проценты, выше лучше.
| Бенчмарк | Что проверяет | Kimi K2.6 |
| HLE (with tools) | Экспертные знания + инструменты | 54.0 |
| SWE-Bench Verified | Реальные баг-фиксы (Python) | ~72 |
| SWE-Bench Pro | Сложные инженерные задачи | 58.6 |
| SWE-Bench Multilingual | Код на разных языках | 76.7 |
| BrowseComp | Агентный веб-поиск | 83.2 |
| Toolathlon | Вызов инструментов | 50.0 |
Варианты запуска
| Способ | Кому подходит | Минимум железа |
| Локально (Ollama / MLX) | Приватность, эксперименты; готовность собирать кластер | Кластер из нескольких Mac Studio M3 Ultra (суммарно 512 GB+ unified memory): веса в INT4 — это ~550–600 GB и в один 256 GB Mac не помещаются |
| vLLM / SGLang на GPU-сервере | Команды, которым нужен высокий throughput | ~8× H100 80GB или узел уровня GB200 (на нём Moonshot и тестирует) |
| Облачный API Moonshot | Быстрый старт, пробы, низкий объём | Только API-ключ |
| Hosted-провайдеры (Together, Fireworks, OpenRouter, DeepInfra) | Сравнение с другими моделями в одном окне | Аккаунт у провайдера |
| Энтерпрайз-каталоги (Azure AI Foundry, NVIDIA NIM) | Компании, которым нужны SLA и интеграция в облако | Аккаунт у облачного провайдера |
Локальный запуск (Ollama / MLX)
ollama pull kimi-k2.6
ollama run kimi-k2.6Главное, что нужно понимать про локальный запуск: это модель на 1 трлн параметров. Даже в INT4 её веса занимают ~550–600 GB, поэтому в один Mac Studio (даже на 256 GB) она не помещается. Реалистичный домашний/командный сценарий — кластер из нескольких Mac Studio M3 Ultra, объединённых распределённым инференсом (MLX distributed, Exo и т.п.), либо более агрессивная квантизация с выгрузкой и заметной потерей скорости. Один компьютер потребительского класса для полноценного запуска не подходит.
Облачный API
Moonshot AI предоставляет OpenAI-совместимый endpoint. Достаточно поменять base_url и ключ — и SDK OpenAI работает с Kimi без изменений.
Цены
- Официальный API Moonshot — $0.60 за 1M входных токенов и $2.50 за 1M выходных. Это примерно в 8 раз дешевле по входу и в 10 раз по выходу, чем у Claude Opus того же класса.
- Сторонние провайдеры — Artificial Analysis отслеживает K2.6 у девяти провайдеров, blended-цена гуляет в диапазоне $1.15–$2.15 за 1M токенов, при этом сильно различаются скорость и задержки. Выбор провайдера — это уже вопрос маршрутизации и инфраструктуры, а не только цены.
Интеграция в рабочий процесс
OpenClaw и Hermes — главные обвязки
Сам Moonshot в анонсе K2.6 называет ключевыми сценариями работу через открытые агентные фреймворки OpenClaw и Hermes. OpenClaw — популярный сторонний open-source фреймворк для автономных агентов; Hermes — агент от Nous Research с памятью между сессиями и 40+ встроенными инструментами. Nous Research официально добавили K2.6 в Hermes (hermes update → hermes model), так что это самый «из коробки» путь поднять на K2.6 персонального агента в CLI, Telegram, Discord или Slack.
Kimi Code (CLI)
Фирменный терминальный агент Moonshot. По умолчанию работает на K2.6 — самый прямой способ попробовать модель в кодинге без настройки прокси.
Codex / Claude Code через API-прокси
Можно подвести Kimi как backend в Codex или Claude Code, если они поддерживают custom backends. Реальный вариант — LiteLLM или OpenAI-совместимый router в роли прокси.
Tool use и function calling
Kimi K2.6 поддерживает OpenAI-совместимый формат function calling. Код, написанный под OpenAI tools API, обычно работает без изменений.
Сравнение с другими открытыми моделями
| Модель | Контекст | Сильная сторона |
| Kimi K2.6 | 256K | Длинные агентные сессии, мультимодальность, рой агентов |
| DeepSeek V4 | 1M | Массивный контекст, math/reasoning |
| MiniMax M2.7 | 200K | Компактность, самообучение на железе попроще |
| Llama 4 | 128K | Широкая экосистема, много скриптов |
| Qwen 3 | 128K | Сильный в китайском, многоязычие |
Если важен «reliability в долгих сессиях» и «работа с инструментами» — это Kimi. Если нужен миллионный контекст и reasoning — DeepSeek. Если важна компактность и скорость вывода на потребительском железе — MiniMax.
Обновления линейки Kimi
Moonshot выпускает модели часто, и важно не запутаться в версиях. Актуальная линейка на середину 2026 года:
- Kimi K2 (июль 2025) — первая открытая MoE на 1 трлн параметров, сильный «нетхинкинг»-кодер. Обновление 0905 подняло агентный кодинг и добавило окно 256K.
- Kimi K2 Thinking (6 ноября 2025) — «думающая» версия: пошаговое рассуждение, нативная INT4-квантизация, устойчивые цепочки из 200–300 вызовов инструментов.
- Kimi K2.5 (январь 2026) — первая нативно мультимодальная версия (зрение) и дебют Agent Swarm (до 100 агентов).
- Kimi K2.6 (20 апреля 2026) — текущий флагман: рой до 300 агентов, лучшая дисциплина в длинных сессиях, апгрейд кодинга и фронтенда.
kimi-k2 (включая kimi-k2-thinking и превью-сборки) объявлена устаревшей с 25 мая 2026 года, а псевдоним kimi-latest отключён ещё 28 января 2026. Для новых интеграций используйте kimi-k2.6.Что ещё в экосистеме вокруг K2.6:
- Kimi Code — фирменный CLI-агент Moonshot для кодинга (запущен в январе 2026), по умолчанию работает на K2.6.
- Claw Groups — собственная research-preview Moonshot: открытое пространство, где люди и агенты с разных устройств и на разных моделях работают вместе, а K2.6 выступает координатором. Не путать с OpenClaw (сторонний open-source фреймворк) и MaxClaw (облачный агент MiniMax на их же модели) — это разные продукты «claw»-экосистемы.
- Vibe Coding — генерация готового продакшен-сайта (фронтенд, база, авторизация, админка) по одному промпту.
- Hermes (Nous Research) — сторонний агент, официально поддерживающий K2.6 как бэкенд.
Что дальше: на момент написания K2.6 — самая свежая модель Moonshot, анонсов K2.7 или K3 пока нет. «Думающий» режим теперь встроен прямо в K2.6, отдельной Thinking-сборки под неё на API не выделяют.
Сценарии применения
- Работа с большими кодовыми базами — рефакторинг, аудит, миграции. Длинный контекст позволяет держать в голове весь проект.
- Длинные планирования с инструментами — план-факт отчёты, исследовательские задачи, multi-step выполнение процедур.
- Анализ длинных документов — юридические тексты, технические спецификации, отчёты. Локальный запуск особенно обоснован.
- Private knowledge base — встраивание в RAG-контуры с внутренней документацией.
- Telegram-боты и backend-автоматизации — хороший баланс между качеством ответа и стоимостью запроса.
Чего ожидать и подводные камни
- Локальный запуск — это дорого и небыстро. Из-за размера модели (1T параметров, ~550–600 GB в INT4) для локального инференса нужен кластер Mac Studio или GPU-узел; на распределённой Mac-сборке скорость обычно невысокая. Для приватных экспериментов годится, для продакшена с нагрузкой берите API или GPU-сервер.
- Языки — основные качественные выходы на английском и китайском. Русский работает, но на юридическом и литературном русском качество ниже, чем у топовых закрытых моделей (GPT-5-класса или Claude).
- Hallucinations — при очень длинных сессиях (50K+ токенов контекста) начинает выдумывать вызовы функций, которых не было. Держите в контексте явный schema и валидатор результата.
- Лицензия — проверьте условия перед коммерческим использованием. Moonshot AI выкладывает модель по пермиссивной лицензии, но детали иногда меняются от версии к версии.
Чеклист выбора Kimi K2.6
Полезные ссылки
- Moonshot AI: moonshot.ai
- Технический блог K2.6: kimi.com/blog/kimi-k2-6
- API-платформа и цены: platform.moonshot.ai
- Веса K2.6 на Hugging Face: huggingface.co/moonshotai/Kimi-K2.6
- Ollama: ollama.com
- vLLM: github.com/vllm-project/vllm
По теме
Если выбираете между Kimi, DeepSeek и MiniMax под свой сценарий или хотите разобрать конфигурацию Mac Studio под инференс — пишите в Telegram @pimenov
Если хотите разобрать свою задачу — напишите мне Если хотите разобрать свою задачу — напишите мне.
Можно прийти с идеей, черновым контекстом или уже живой задачей. Помогу быстро понять, где реальный следующий шаг, а где лишний шум.
Обычно хватает 2–3 сообщений, чтобы понять, могу ли я здесь реально помочь и в каком формате лучше двигаться дальше.
Связанные материалы
Open-source платформа для управления командами AI-агентов через оргструктуры, бюджеты, тикеты и governance. 32 000+ звёзд на GitHub, плагинная система, 10+ совместимых агентов. Не…
Красивые интерфейсы будут быстро «съедаться» платформами, а реальная ценность сместится в сервис, который работает сам: с данными, интеграциями и понятным результатом.