База знаний

Kimi K2.6 — long-horizon модель от Moonshot AI

Kimi K2.6 от Moonshot AI: open-source модель для long-horizon кодинга, Agent Swarm на 300 агентов, интеграция с OpenClaw и Hermes.

Опубликовано 06.06.2026 Обновлено 06.07.2026

ИИ-агенты API и данные

🔄

Актуальность: проверено 6 июля 2026 года по официальным источникам Moonshot AI (docs, pricing, tech blog). Что изменилось с момента написания: 12 июня 2026 вышла отдельная кодинг-модель Kimi K2.7 Code, а официальные цены на API K2.6 оказались выше первоначальных — $0.95 за вход и $4.00 за выход за 1M токенов. Всё это ниже уже поправлено; сам K2.6 остаётся актуальной мультимодальной агентной моделью.

Kimi K2.6 — открытая нативно мультимодальная агентная модель от Moonshot AI. Вышла 20 апреля 2026 года. Акцент — на длинных агентных сессиях, кодинге и оркестрации роя агентов (Agent Swarm). Главный тезис Moonshot — «полный рабочий день автономной работы без потери нити»; это их маркетинговая формулировка, подкреплённая внутренними тестами (детали ниже). Этот справочник — про архитектуру, возможности, цены, варианты запуска и сценарии, в которых её осмысленно выбирать перед закрытыми моделями.

📌

Коротко: Kimi K2.6 — открытая модель на 1 трлн параметров (MoE, 32B активных) с окном 256K токенов и нативной поддержкой текста, картинок и видео. Сильна в коде, длинных multi-step сессиях и роевой оркестрации до 300 агентов. На официальном API стоит $0.95 за вход и $4.00 за выход на 1M токенов (и всего $0.16 при попадании в кэш) — в разы дешевле закрытых конкурентов. Можно брать в облаке (официальный API или сторонние провайдеры) или запускать локально — но учтите, что локально это тяжёлая модель: нужен кластер Mac Studio или GPU-узел. Главный плюс — открытые веса и приватность данных.

Что это такое

Kimi K2.6 — открытая модель китайской компании Moonshot AI, флагман семейства Kimi K2. Веса выложены публично (модифицированная лицензия MIT), модель можно скачать, дообучить и развернуть на своей инфраструктуре.

Главные характеристики:

Архитектура MoE (Mixture of Experts) — 1 трлн параметров всего, из которых на каждый токен активируется ~32 млрд. Это даёт качество крупной модели при стоимости инференса небольшой.
Окно 256K токенов (262 144) — хватает, чтобы держать в контексте крупный проект или пакет документов целиком.
Нативная мультимодальность — текст, изображения и видео на вход через визуальный энкодер MoonViT (400M). Это уже не «просто языковая модель», а мультимодальный агент.
Агентный фокус — обучена работать в длинных сессиях с инструментами, multi-step планированием и роевой оркестрацией (Agent Swarm).
Два режима — instant (быстрый ответ) и thinking (пошаговое рассуждение с вызовом инструментов).
Сильный кодинг — по собственным бенчмаркам Moonshot держится вровень с топовыми закрытыми моделями класса Claude Opus 4.7, а на части агентных задач выигрывает (подробности и оговорки — в разделе «Бенчмарки»).

💡

Откуда «K2.6». Модель построена поверх базы Kimi K2 и продолжает линейку: K2 (июль 2025) → K2 Thinking (ноябрь 2025) → K2.5 (январь 2026, добавили зрение и Agent Swarm) → K2.6 (апрель 2026). Подробнее о линейке — в разделе «Обновления линейки Kimi» ниже.

Где модель выигрывает

Длинные агентные сессии

Многие модели хороши на первых 30 минутах сессии и разваливаются к четырём часам. Kimi K2.6 специально тренировалась на длинных контекстных цепочках с инструментами. По внутренним тестам Moonshot она выдерживает многочасовые автономные прогоны: в показательном кейсе модель за один прогон ~13 часов рефакторила 8-летний движок биржевого матчинга (exchange-core), сделав 1000+ вызовов инструментов и изменив 4000+ строк кода. Это заявления самой компании, а не независимый аудит, — но направление верное: устойчивая работа на длинной дистанции, где надо читать, менять, измерять и переделывать.

Кодинг

По отзывам разработчиков, Kimi K2.6 сравнима с топовыми закрытыми моделями (уровня Claude Opus 4.7) на задачах рефакторинга, дебага и писания бизнес-логики на Python, Go и TypeScript. Слабее на редких языках и системных задачах (ядра, низкоуровневые оптимизации).

Приватные сценарии

Открытые веса дают возможность запустить модель в периметре компании. Сценарии: обработка персональных данных, внутренняя документация, работа с юридическими текстами без отправки в облако.

Мультимодальность и режимы работы

K2.6 принимает на вход не только текст, но и изображения и видео — за это отвечает визуальный энкодер MoonViT. На практике это значит, что модель можно просить разобрать скриншот интерфейса, диаграмму, кадр из видео или PDF со схемами, а не только текстовое описание.

Важная оговорка: ввод изображений и видео официально поддержан в API Moonshot, но не у всех хостинг-провайдеров он выведен наружу. Например, в развёртывании DeepInfra картинки на вход через API недоступны — зрение используется моделью внутренне. Если мультимодальность нужна именно через API, проверяйте конкретного провайдера.

У модели два режима:

Instant — быстрый ответ без длинной цепочки рассуждений. Подходит для чата, простых правок кода, генерации текста.
Thinking — пошаговое рассуждение с вызовом инструментов (interleaved thinking + multi-step tool call). Модель чередует размышление и вызовы функций, выдерживая сотни последовательных шагов без потери нити. Подходит для исследований, сложного дебага, многошаговых процедур.

⚖️

Thinking-режим заметно повышает качество на сложных задачах, но генерирует значительно больше токенов, чем instant. На длинных сессиях это влияет и на стоимость, и на скорость — выбирайте режим под задачу.

Agent Swarm — рой агентов

Главное нововведение K2.6 относительно прошлых версий. Agent Swarm разбивает задачу на разнородные подзадачи и запускает их параллельно силами специализированных суб-агентов, которые модель создаёт сама под конкретную работу.

Масштаб — до 300 суб-агентов и 4 000 скоординированных шагов в одном прогоне. Для сравнения, у K2.5 было 100 агентов и 1 500 шагов.
Композиция навыков — в одном автономном прогоне рой совмещает широкий поиск, глубокий ресёрч, анализ больших документов и длинные тексты.
Готовые артефакты — на выходе не сырой ответ, а целые документы, сайты, слайды и таблицы.

Практический смысл: задачи, которые раньше распадались на десяток отдельных запросов, теперь укладываются в один автономный прогон. Это и есть тезис Moonshot «один человек делает то, что раньше требовало команды».

Бенчмарки

Это собственные замеры Moonshot (Kimi в thinking-режиме), а не независимый аудит — относитесь к ним как к заявлениям вендора. Цифры — проценты, выше лучше.

Бенчмарк	Что проверяет	Kimi K2.6
HLE (with tools)	Экспертные знания + инструменты	54.0
SWE-Bench Verified	Реальные баг-фиксы (Python)	~72
SWE-Bench Pro	Сложные инженерные задачи	58.6
SWE-Bench Multilingual	Код на разных языках	76.7
BrowseComp	Агентный веб-поиск	83.2
Toolathlon	Вызов инструментов	50.0

📌

Как читать. Прямого сравнения с закрытыми моделями в одной таблице мы сознательно не приводим: публично проверяемых цифр по GPT- и Claude-линейкам под те же условия нет, а додумывать их для справочника неправильно. Качественно картина такая: на кодинге K2.6 в одной лиге с топовыми закрытыми моделями, а на части агентных задач (например, BrowseComp) заметно впереди — при кратно меньшей цене. Независимые тестировщики оценивают, что она закрывает ~80–85% задач уровня Claude Opus при кратно меньшей цене за токены.

Варианты запуска

Способ	Кому подходит	Минимум железа
Локально (Ollama / MLX)	Приватность, эксперименты; готовность собирать кластер	Кластер из нескольких Mac Studio M3 Ultra (суммарно 512 GB+ unified memory): веса в INT4 — это ~550–600 GB и в один 256 GB Mac не помещаются
vLLM / SGLang на GPU-сервере	Команды, которым нужен высокий throughput	~8× H100 80GB или узел уровня GB200 (на нём Moonshot и тестирует)
Облачный API Moonshot	Быстрый старт, пробы, низкий объём	Только API-ключ
Hosted-провайдеры (Together, Fireworks, OpenRouter, DeepInfra)	Сравнение с другими моделями в одном окне	Аккаунт у провайдера
Энтерпрайз-каталоги (Azure AI Foundry, NVIDIA NIM)	Компании, которым нужны SLA и интеграция в облако	Аккаунт у облачного провайдера

Локальный запуск (Ollama / MLX)

ollama pull kimi-k2.6
ollama run kimi-k2.6

Главное, что нужно понимать про локальный запуск: это модель на 1 трлн параметров. Даже в INT4 её веса занимают ~550–600 GB, поэтому в один Mac Studio (даже на 256 GB) она не помещается. Реалистичный домашний/командный сценарий — кластер из нескольких Mac Studio M3 Ultra, объединённых распределённым инференсом (MLX distributed, Exo и т.п.), либо более агрессивная квантизация с выгрузкой и заметной потерей скорости. Один компьютер потребительского класса для полноценного запуска не подходит.

Облачный API

Moonshot AI предоставляет OpenAI-совместимый endpoint. Достаточно поменять base_url и ключ — и SDK OpenAI работает с Kimi без изменений.

Цены

Официальный API Moonshot — $0.95 за 1M входных токенов и $4.00 за 1M выходных; при попадании в кэш вход дешевеет до $0.16 за 1M. В разы дешевле закрытых моделей того же класса (у Claude Opus порядка $5 за вход и $25 за выход).
Сторонние провайдеры — Artificial Analysis отслеживает K2.6 у девяти провайдеров, blended-цена гуляет в диапазоне $1.15–$2.15 за 1M токенов, при этом сильно различаются скорость и задержки. Выбор провайдера — это уже вопрос маршрутизации и инфраструктуры, а не только цены.

💡

Для России оплата зарубежного API упирается в платёжку. Если нужен счёт в рублях — смотрите на агрегаторы вроде OpenRouter либо на локальный запуск через Ollama.

Интеграция в рабочий процесс

OpenClaw и Hermes — главные обвязки

Сам Moonshot в анонсе K2.6 называет ключевыми сценариями работу через открытые агентные фреймворки OpenClaw и Hermes. OpenClaw — популярный сторонний open-source фреймворк для автономных агентов; Hermes — агент от Nous Research с памятью между сессиями и 40+ встроенными инструментами. Nous Research официально добавили K2.6 в Hermes (hermes update → hermes model), так что это самый «из коробки» путь поднять на K2.6 персонального агента в CLI, Telegram, Discord или Slack.

Kimi Code (CLI)

Фирменный терминальный агент Moonshot (прежний kimi-cli переезжает в Kimi Code CLI). Самый прямой способ попробовать модель в кодинге без настройки прокси. Для кодинга Moonshot теперь рекомендует K2.7 Code, но K2.6 в нём тоже доступна.

Codex / Claude Code через API-прокси

Можно подвести Kimi как backend в Codex или Claude Code, если они поддерживают custom backends. Реальный вариант — LiteLLM или OpenAI-совместимый router в роли прокси.

Tool use и function calling

Kimi K2.6 поддерживает OpenAI-совместимый формат function calling. Код, написанный под OpenAI tools API, обычно работает без изменений.

Сравнение с другими открытыми моделями

Модель	Контекст	Сильная сторона
Kimi K2.6	256K	Длинные агентные сессии, мультимодальность, рой агентов
DeepSeek V4	1M	Массивный контекст, math/reasoning
MiniMax M2.7	200K	Компактность, самообучение на железе попроще
Llama 4	128K	Широкая экосистема, много скриптов
Qwen 3	128K	Сильный в китайском, многоязычие

Если важен «reliability в долгих сессиях» и «работа с инструментами» — это Kimi. Если нужен миллионный контекст и reasoning — DeepSeek. Если важна компактность и скорость вывода на потребительском железе — MiniMax.

Обновления линейки Kimi

Moonshot выпускает модели часто, и важно не запутаться в версиях. Актуальная линейка на середину 2026 года:

Kimi K2 (июль 2025) — первая открытая MoE на 1 трлн параметров, сильный «нетхинкинг»-кодер. Обновление 0905 подняло агентный кодинг и добавило окно 256K.
Kimi K2 Thinking (6 ноября 2025) — «думающая» версия: пошаговое рассуждение, нативная INT4-квантизация, устойчивые цепочки из 200–300 вызовов инструментов.
Kimi K2.5 (январь 2026) — первая нативно мультимодальная версия (зрение) и дебют Agent Swarm (до 100 агентов).
Kimi K2.6 (20 апреля 2026) — флагманская мультимодальная модель: рой до 300 агентов, лучшая дисциплина в длинных сессиях, апгрейд кодинга и фронтенда.
Kimi K2.7 Code (12 июня 2026) — специализированная кодинг-модель на базе K2.6. Архитектура та же (1 трлн параметров, 32B активных, 256K контекста), но в кодинге заметно сильнее (+21.8% на внутреннем Kimi Code Bench v2) и экономнее по «думающим» токенам примерно на 30%. Есть скоростная версия HighSpeed (~180–260 токенов/с), работает только в режиме рассуждения.

⚠️

Старые версии выведены из обращения. На официальном API серия kimi-k2 (включая kimi-k2-thinking и превью-сборки) выведена из обращения 25 мая 2026 года, а псевдоним kimi-latest отключён ещё 28 января 2026. Для новых интеграций используйте kimi-k2.6, а для кодинга — kimi-k2.7-code.

Что ещё в экосистеме вокруг K2.6:

Kimi Code — фирменный CLI-агент Moonshot для кодинга (запущен в январе 2026). Для кодинга теперь рекомендуется модель K2.7 Code, K2.6 тоже поддерживается.
Claw Groups — собственная research-preview Moonshot: открытое пространство, где люди и агенты с разных устройств и на разных моделях работают вместе, а K2.6 выступает координатором. Не путать с OpenClaw (сторонний open-source фреймворк) и MaxClaw (облачный агент MiniMax на их же модели) — это разные продукты «claw»-экосистемы.
Vibe Coding — генерация готового продакшен-сайта (фронтенд, база, авторизация, админка) по одному промпту.
Hermes (Nous Research) — сторонний агент, официально поддерживающий K2.6 как бэкенд.

Что дальше: после K2.6 Moonshot выпустила кодинг-специализированную K2.7 Code (12 июня 2026); анонсов K2.8 или K3 пока нет. «Думающий» режим встроен прямо в K2.6, отдельной Thinking-сборки под неё на API не выделяют.

Сценарии применения

Работа с большими кодовыми базами — рефакторинг, аудит, миграции. Длинный контекст позволяет держать в голове весь проект.
Длинные планирования с инструментами — план-факт отчёты, исследовательские задачи, multi-step выполнение процедур.
Анализ длинных документов — юридические тексты, технические спецификации, отчёты. Локальный запуск особенно обоснован.
Private knowledge base — встраивание в RAG-контуры с внутренней документацией.
Telegram-боты и backend-автоматизации — хороший баланс между качеством ответа и стоимостью запроса.

Чего ожидать и подводные камни

Локальный запуск — это дорого и небыстро. Из-за размера модели (1T параметров, ~550–600 GB в INT4) для локального инференса нужен кластер Mac Studio или GPU-узел; на распределённой Mac-сборке скорость обычно невысокая. Для приватных экспериментов годится, для продакшена с нагрузкой берите API или GPU-сервер.
Языки — основные качественные выходы на английском и китайском. Русский работает, но на юридическом и литературном русском качество ниже, чем у топовых закрытых моделей (GPT-5-класса или Claude).
Hallucinations — при очень длинных сессиях (50K+ токенов контекста) начинает выдумывать вызовы функций, которых не было. Держите в контексте явный schema и валидатор результата.
Лицензия — проверьте условия перед коммерческим использованием. Moonshot AI выкладывает модель по пермиссивной лицензии, но детали иногда меняются от версии к версии.

Чеклист выбора Kimi K2.6

Нужна приватность данных или жёсткие требования по обработке в периметре.

Задачи — длинные агентные сессии, кодинг, работа с большими документами.

Есть железо под локальный запуск: кластер Mac Studio (512 GB+ суммарно) или GPU-сервер — либо вы используете облачный API/провайдера.

Готовы настроить Ollama или vLLM, либо оплатить Moonshot API.

Ключевые выходы от модели не на русском литературном языке, или у вас есть пост-обработка.

Инструменты вызываются через OpenAI-совместимый function calling.

Есть валидатор вывода на длинных сессиях.

Полезные ссылки

Moonshot AI: moonshot.ai
Технический блог K2.6: kimi.com/blog/kimi-k2-6
API-платформа и цены: platform.moonshot.ai
Веса K2.6 на Hugging Face: huggingface.co/moonshotai/Kimi-K2.6
Веса K2.7 Code на Hugging Face: huggingface.co/moonshotai/Kimi-K2.7-Code
Ollama: ollama.com
vLLM: github.com/vllm-project/vllm

По теме

Статья: Minimax M2.7 на Mac Studio — рассказ Миши
Блог: Kimi K2.6 — опенсорсная модель, кодит 12 часов и не теряет нить
База знаний: Ollama — рантайм языковых моделей

Если выбираете между Kimi, DeepSeek и MiniMax под свой сценарий или хотите разобрать конфигурацию Mac Studio под инференс — пишите в Telegram @pimenov

Если хотите разобрать свою задачу — напишите мне

Можно прийти с идеей, черновым контекстом или уже живой задачей. Помогу быстро понять, где реальный следующий шаг, а где лишний шум.

Напишите мне в Телеграм Мой Телеграм канал

Обычно хватает 2–3 сообщений, чтобы понять, могу ли я здесь реально помочь и в каком формате лучше двигаться дальше.