pimenov.ai

База знаний

Kimi K2.6 — long-horizon модель от Moonshot AI

Kimi K2.6 от Moonshot AI: open-source модель для long-horizon кодинга, Agent Swarm на 300 агентов, интеграция с OpenClaw и Hermes.

Опубликовано

Kimi K2.6 — открытая нативно мультимодальная агентная модель от Moonshot AI. Вышла 20 апреля 2026 года. Акцент — на длинных агентных сессиях, кодинге и оркестрации роя агентов (Agent Swarm). Главный тезис Moonshot — «полный рабочий день автономной работы без потери нити»; это их маркетинговая формулировка, подкреплённая внутренними тестами (детали ниже). Этот справочник — про архитектуру, возможности, цены, варианты запуска и сценарии, в которых её осмысленно выбирать перед закрытыми моделями.

📌
Коротко: Kimi K2.6 — открытая модель на 1 трлн параметров (MoE, 32B активных) с окном 256K токенов и нативной поддержкой текста, картинок и видео. Сильна в коде, длинных multi-step сессиях и роевой оркестрации до 300 агентов. На официальном API стоит $0.60 за вход и $2.50 за выход на 1M токенов — в разы дешевле закрытых конкурентов. Можно брать в облаке (официальный API или сторонние провайдеры) или запускать локально — но учтите, что локально это тяжёлая модель: нужен кластер Mac Studio или GPU-узел. Главный плюс — открытые веса и приватность данных.

Что это такое

Kimi K2.6 — открытая модель китайской компании Moonshot AI, флагман семейства Kimi K2. Веса выложены публично (модифицированная лицензия MIT), модель можно скачать, дообучить и развернуть на своей инфраструктуре.

Главные характеристики:

  • Архитектура MoE (Mixture of Experts) — 1 трлн параметров всего, из которых на каждый токен активируется ~32 млрд. Это даёт качество крупной модели при стоимости инференса небольшой.
  • Окно 256K токенов (262 144) — хватает, чтобы держать в контексте крупный проект или пакет документов целиком.
  • Нативная мультимодальность — текст, изображения и видео на вход через визуальный энкодер MoonViT (400M). Это уже не «просто языковая модель», а мультимодальный агент.
  • Агентный фокус — обучена работать в длинных сессиях с инструментами, multi-step планированием и роевой оркестрацией (Agent Swarm).
  • Два режима — instant (быстрый ответ) и thinking (пошаговое рассуждение с вызовом инструментов).
  • Сильный кодинг — по собственным бенчмаркам Moonshot держится вровень с топовыми закрытыми моделями класса Claude Opus 4.7, а на части агентных задач выигрывает (подробности и оговорки — в разделе «Бенчмарки»).
💡
Откуда «K2.6». Модель построена поверх базы Kimi K2 и продолжает линейку: K2 (июль 2025) → K2 Thinking (ноябрь 2025) → K2.5 (январь 2026, добавили зрение и Agent Swarm) → K2.6 (апрель 2026). Подробнее о линейке — в разделе «Обновления линейки Kimi» ниже.

Где модель выигрывает

Длинные агентные сессии

Многие модели хороши на первых 30 минутах сессии и разваливаются к четырём часам. Kimi K2.6 специально тренировалась на длинных контекстных цепочках с инструментами. По внутренним тестам Moonshot она выдерживает многочасовые автономные прогоны: в показательном кейсе модель за один прогон ~13 часов рефакторила 8-летний движок биржевого матчинга (exchange-core), сделав 1000+ вызовов инструментов и изменив 4000+ строк кода. Это заявления самой компании, а не независимый аудит, — но направление верное: устойчивая работа на длинной дистанции, где надо читать, менять, измерять и переделывать.

Кодинг

По отзывам разработчиков, Kimi K2.6 сравнима с топовыми закрытыми моделями (уровня Claude Opus 4.7) на задачах рефакторинга, дебага и писания бизнес-логики на Python, Go и TypeScript. Слабее на редких языках и системных задачах (ядра, низкоуровневые оптимизации).

Приватные сценарии

Открытые веса дают возможность запустить модель в периметре компании. Сценарии: обработка персональных данных, внутренняя документация, работа с юридическими текстами без отправки в облако.


Мультимодальность и режимы работы

K2.6 принимает на вход не только текст, но и изображения и видео — за это отвечает визуальный энкодер MoonViT. На практике это значит, что модель можно просить разобрать скриншот интерфейса, диаграмму, кадр из видео или PDF со схемами, а не только текстовое описание.

Важная оговорка: ввод изображений и видео официально поддержан в API Moonshot, но не у всех хостинг-провайдеров он выведен наружу. Например, в развёртывании DeepInfra картинки на вход через API недоступны — зрение используется моделью внутренне. Если мультимодальность нужна именно через API, проверяйте конкретного провайдера.

У модели два режима:

  • Instant — быстрый ответ без длинной цепочки рассуждений. Подходит для чата, простых правок кода, генерации текста.
  • Thinking — пошаговое рассуждение с вызовом инструментов (interleaved thinking + multi-step tool call). Модель чередует размышление и вызовы функций, выдерживая сотни последовательных шагов без потери нити. Подходит для исследований, сложного дебага, многошаговых процедур.
⚖️
Thinking-режим заметно повышает качество на сложных задачах, но генерирует значительно больше токенов, чем instant. На длинных сессиях это влияет и на стоимость, и на скорость — выбирайте режим под задачу.

Agent Swarm — рой агентов

Главное нововведение K2.6 относительно прошлых версий. Agent Swarm разбивает задачу на разнородные подзадачи и запускает их параллельно силами специализированных суб-агентов, которые модель создаёт сама под конкретную работу.

  • Масштаб — до 300 суб-агентов и 4 000 скоординированных шагов в одном прогоне. Для сравнения, у K2.5 было 100 агентов и 1 500 шагов.
  • Композиция навыков — в одном автономном прогоне рой совмещает широкий поиск, глубокий ресёрч, анализ больших документов и длинные тексты.
  • Готовые артефакты — на выходе не сырой ответ, а целые документы, сайты, слайды и таблицы.

Практический смысл: задачи, которые раньше распадались на десяток отдельных запросов, теперь укладываются в один автономный прогон. Это и есть тезис Moonshot «один человек делает то, что раньше требовало команды».


Бенчмарки

Это собственные замеры Moonshot (Kimi в thinking-режиме), а не независимый аудит — относитесь к ним как к заявлениям вендора. Цифры — проценты, выше лучше.

БенчмаркЧто проверяетKimi K2.6
HLE (with tools)Экспертные знания + инструменты54.0
SWE-Bench VerifiedРеальные баг-фиксы (Python)~72
SWE-Bench ProСложные инженерные задачи58.6
SWE-Bench MultilingualКод на разных языках76.7
BrowseCompАгентный веб-поиск83.2
ToolathlonВызов инструментов50.0
📌
Как читать. Прямого сравнения с закрытыми моделями в одной таблице мы сознательно не приводим: публично проверяемых цифр по GPT- и Claude-линейкам под те же условия нет, а додумывать их для справочника неправильно. Качественно картина такая: на кодинге K2.6 в одной лиге с топовыми закрытыми моделями, а на части агентных задач (например, BrowseComp) заметно впереди — при кратно меньшей цене. Независимые тестировщики оценивают, что она закрывает ~80–85% задач уровня Claude Opus 4.7 при цене порядка 5–12% от него.

Варианты запуска

СпособКому подходитМинимум железа
Локально (Ollama / MLX)Приватность, эксперименты; готовность собирать кластерКластер из нескольких Mac Studio M3 Ultra (суммарно 512 GB+ unified memory): веса в INT4 — это ~550–600 GB и в один 256 GB Mac не помещаются
vLLM / SGLang на GPU-сервереКоманды, которым нужен высокий throughput~8× H100 80GB или узел уровня GB200 (на нём Moonshot и тестирует)
Облачный API MoonshotБыстрый старт, пробы, низкий объёмТолько API-ключ
Hosted-провайдеры (Together, Fireworks, OpenRouter, DeepInfra)Сравнение с другими моделями в одном окнеАккаунт у провайдера
Энтерпрайз-каталоги (Azure AI Foundry, NVIDIA NIM)Компании, которым нужны SLA и интеграция в облакоАккаунт у облачного провайдера

Локальный запуск (Ollama / MLX)

ollama pull kimi-k2.6
ollama run kimi-k2.6

Главное, что нужно понимать про локальный запуск: это модель на 1 трлн параметров. Даже в INT4 её веса занимают ~550–600 GB, поэтому в один Mac Studio (даже на 256 GB) она не помещается. Реалистичный домашний/командный сценарий — кластер из нескольких Mac Studio M3 Ultra, объединённых распределённым инференсом (MLX distributed, Exo и т.п.), либо более агрессивная квантизация с выгрузкой и заметной потерей скорости. Один компьютер потребительского класса для полноценного запуска не подходит.

Облачный API

Moonshot AI предоставляет OpenAI-совместимый endpoint. Достаточно поменять base_url и ключ — и SDK OpenAI работает с Kimi без изменений.

Цены

  • Официальный API Moonshot — $0.60 за 1M входных токенов и $2.50 за 1M выходных. Это примерно в 8 раз дешевле по входу и в 10 раз по выходу, чем у Claude Opus того же класса.
  • Сторонние провайдеры — Artificial Analysis отслеживает K2.6 у девяти провайдеров, blended-цена гуляет в диапазоне $1.15–$2.15 за 1M токенов, при этом сильно различаются скорость и задержки. Выбор провайдера — это уже вопрос маршрутизации и инфраструктуры, а не только цены.
💡
Для России оплата зарубежного API упирается в платёжку. Если нужен счёт в рублях — смотрите на агрегаторы вроде OpenRouter либо на локальный запуск через Ollama.

Интеграция в рабочий процесс

OpenClaw и Hermes — главные обвязки

Сам Moonshot в анонсе K2.6 называет ключевыми сценариями работу через открытые агентные фреймворки OpenClaw и Hermes. OpenClaw — популярный сторонний open-source фреймворк для автономных агентов; Hermes — агент от Nous Research с памятью между сессиями и 40+ встроенными инструментами. Nous Research официально добавили K2.6 в Hermes (hermes updatehermes model), так что это самый «из коробки» путь поднять на K2.6 персонального агента в CLI, Telegram, Discord или Slack.

Kimi Code (CLI)

Фирменный терминальный агент Moonshot. По умолчанию работает на K2.6 — самый прямой способ попробовать модель в кодинге без настройки прокси.

Codex / Claude Code через API-прокси

Можно подвести Kimi как backend в Codex или Claude Code, если они поддерживают custom backends. Реальный вариант — LiteLLM или OpenAI-совместимый router в роли прокси.

Tool use и function calling

Kimi K2.6 поддерживает OpenAI-совместимый формат function calling. Код, написанный под OpenAI tools API, обычно работает без изменений.


Сравнение с другими открытыми моделями

МодельКонтекстСильная сторона
Kimi K2.6256KДлинные агентные сессии, мультимодальность, рой агентов
DeepSeek V41MМассивный контекст, math/reasoning
MiniMax M2.7200KКомпактность, самообучение на железе попроще
Llama 4128KШирокая экосистема, много скриптов
Qwen 3128KСильный в китайском, многоязычие

Если важен «reliability в долгих сессиях» и «работа с инструментами» — это Kimi. Если нужен миллионный контекст и reasoning — DeepSeek. Если важна компактность и скорость вывода на потребительском железе — MiniMax.


Обновления линейки Kimi

Moonshot выпускает модели часто, и важно не запутаться в версиях. Актуальная линейка на середину 2026 года:

  • Kimi K2 (июль 2025) — первая открытая MoE на 1 трлн параметров, сильный «нетхинкинг»-кодер. Обновление 0905 подняло агентный кодинг и добавило окно 256K.
  • Kimi K2 Thinking (6 ноября 2025) — «думающая» версия: пошаговое рассуждение, нативная INT4-квантизация, устойчивые цепочки из 200–300 вызовов инструментов.
  • Kimi K2.5 (январь 2026) — первая нативно мультимодальная версия (зрение) и дебют Agent Swarm (до 100 агентов).
  • Kimi K2.6 (20 апреля 2026) — текущий флагман: рой до 300 агентов, лучшая дисциплина в длинных сессиях, апгрейд кодинга и фронтенда.
⚠️
Старые версии выводят из обращения. На официальном API серия kimi-k2 (включая kimi-k2-thinking и превью-сборки) объявлена устаревшей с 25 мая 2026 года, а псевдоним kimi-latest отключён ещё 28 января 2026. Для новых интеграций используйте kimi-k2.6.

Что ещё в экосистеме вокруг K2.6:

  • Kimi Code — фирменный CLI-агент Moonshot для кодинга (запущен в январе 2026), по умолчанию работает на K2.6.
  • Claw Groups — собственная research-preview Moonshot: открытое пространство, где люди и агенты с разных устройств и на разных моделях работают вместе, а K2.6 выступает координатором. Не путать с OpenClaw (сторонний open-source фреймворк) и MaxClaw (облачный агент MiniMax на их же модели) — это разные продукты «claw»-экосистемы.
  • Vibe Coding — генерация готового продакшен-сайта (фронтенд, база, авторизация, админка) по одному промпту.
  • Hermes (Nous Research) — сторонний агент, официально поддерживающий K2.6 как бэкенд.

Что дальше: на момент написания K2.6 — самая свежая модель Moonshot, анонсов K2.7 или K3 пока нет. «Думающий» режим теперь встроен прямо в K2.6, отдельной Thinking-сборки под неё на API не выделяют.


Сценарии применения

  • Работа с большими кодовыми базами — рефакторинг, аудит, миграции. Длинный контекст позволяет держать в голове весь проект.
  • Длинные планирования с инструментами — план-факт отчёты, исследовательские задачи, multi-step выполнение процедур.
  • Анализ длинных документов — юридические тексты, технические спецификации, отчёты. Локальный запуск особенно обоснован.
  • Private knowledge base — встраивание в RAG-контуры с внутренней документацией.
  • Telegram-боты и backend-автоматизации — хороший баланс между качеством ответа и стоимостью запроса.

Чего ожидать и подводные камни

  • Локальный запуск — это дорого и небыстро. Из-за размера модели (1T параметров, ~550–600 GB в INT4) для локального инференса нужен кластер Mac Studio или GPU-узел; на распределённой Mac-сборке скорость обычно невысокая. Для приватных экспериментов годится, для продакшена с нагрузкой берите API или GPU-сервер.
  • Языки — основные качественные выходы на английском и китайском. Русский работает, но на юридическом и литературном русском качество ниже, чем у топовых закрытых моделей (GPT-5-класса или Claude).
  • Hallucinations — при очень длинных сессиях (50K+ токенов контекста) начинает выдумывать вызовы функций, которых не было. Держите в контексте явный schema и валидатор результата.
  • Лицензия — проверьте условия перед коммерческим использованием. Moonshot AI выкладывает модель по пермиссивной лицензии, но детали иногда меняются от версии к версии.

Чеклист выбора Kimi K2.6

Нужна приватность данных или жёсткие требования по обработке в периметре.
Задачи — длинные агентные сессии, кодинг, работа с большими документами.
Есть железо под локальный запуск: кластер Mac Studio (512 GB+ суммарно) или GPU-сервер — либо вы используете облачный API/провайдера.
Готовы настроить Ollama или vLLM, либо оплатить Moonshot API.
Ключевые выходы от модели не на русском литературном языке, или у вас есть пост-обработка.
Инструменты вызываются через OpenAI-совместимый function calling.
Есть валидатор вывода на длинных сессиях.

Полезные ссылки


По теме

Если выбираете между Kimi, DeepSeek и MiniMax под свой сценарий или хотите разобрать конфигурацию Mac Studio под инференс — пишите в Telegram @pimenov