База знаний

Qwen (Alibaba) — экосистема open-source мультимодальных моделей

Справочник по экосистеме Qwen от Alibaba Cloud: линейка моделей, мультимодальность, tool use, лицензии, сравнение с Llama и Mistral, где попробовать.

Опубликовано

Qwen (通义千问, Tongyi Qianwen) — семейство больших языковых и мультимодальных моделей от Alibaba Cloud. Проект стартовал в апреле 2023 года и к 2026-му вырос в одну из крупнейших open-source экосистем: более 100 открытых моделей, свыше 40 миллионов скачиваний и поддержка 201 языка.


Линейка моделей

Qwen включает несколько семейств, каждое из которых закрывает свою задачу:

СемействоНазначениеАктуальная версия
Qwen3.5Основная текстовая линейка (dense и MoE)Qwen3.5-397B-A17B, Qwen3.5-Plus
Qwen3.5-OmniНативная мультимодальность: текст + изображения + аудио + видеоQwen3.5-Omni, Qwen3.5-Omni-Plus
Qwen-VLВизуальные языковые модели (понимание изображений и видео)Qwen3-VL
QwQМодели с усиленным рассуждением (аналог o1)QwQ-32B
Qwen-CoderСпециализированные модели для кода и агентного программированияQwen3-Coder-Next
Qwen-AudioПонимание и обработка аудиоQwen2-Audio
Qwen-ImageГенерация изображений (инфографика, фотореализм)Qwen-Image-2.0

Размеры и архитектура

Qwen выпускает модели в двух архитектурных вариантах:

  • Dense (плотные) — все параметры активны при каждом запросе. Размеры: 0.6B, 1.7B, 4B, 8B, 9B, 14B, 32B
  • MoE (Mixture of Experts) — активируется только часть параметров, что снижает стоимость инференса. Размеры: 30B-A3B (активны 3B), 235B-A22B (активны 22B), 397B-A17B (активны 17B)

Флагманская модель Qwen3.5-397B-A17B при инференсе использует только 17 миллиардов параметров из 397 — это делает её значительно дешевле в эксплуатации, чем плотные модели сопоставимого качества.


Мультимодальность

Qwen3.5-Omni — флагманская мультимодальная модель, которая обрабатывает текст, изображения, аудио и видео в едином вычислительном конвейере. Ключевые возможности:

  • Нативная обработка модальностей — не «обёртка» из отдельных энкодеров, а end-to-end архитектура
  • Голосовое взаимодействие в реальном времени — движок Thinker-Talker с поддержкой семантических прерываний
  • Клонирование голоса — загрузите образец голоса, и модель ответит этим голосом (через API)
  • До 10 часов аудио или 400 секунд видео 720p за один запрос
  • Распознавание 113 языков в речи, поддержка 201 языка в тексте
  • Контекстное окно 256K токенов (Qwen3.5-Plus — до 1M токенов)
  • Встроенный веб-поиск для ответов на вопросы о текущих событиях

Tool use и агентные сценарии

Начиная с Qwen3.5, модели поддерживают адаптивный tool use — вызов внешних инструментов и API прямо из контекста разговора. Qwen3.5-Plus предлагает встроенные инструменты «из коробки» через Alibaba Cloud Model Studio.

Qwen3-Coder-Next — отдельная модель, заточенная под агентное программирование: она обучена на масштабных задачах с исполняемым кодом, взаимодействием со средой и обучением с подкреплением. Подходит для локальных coding-агентов.

Qwen также лежит в основе продуктов Alibaba — например, Accio для автоматизации аналитики рынка и закупок.


Лицензии

Большинство моделей Qwen распространяются под лицензией Apache 2.0 — можно использовать в коммерческих проектах без ограничений. Исключения:

  • Некоторые крупные модели (например, Qwen2.5-VL-72B) используют Qwen Research License с дополнительными условиями
  • Проприетарные модели (Qwen3.5-Plus, Qwen3-Max) доступны только через API Alibaba Cloud

Важно: Qwen публикует веса моделей, но не код обучения и не описание обучающих данных. Формально это не соответствует определению Open Source AI от Linux Foundation, хотя в сообществе модели принято называть open-source.


Сравнение с Llama и Mistral

ПараметрQwen3.5Llama 4 (Meta)Mistral (Small 4)
АрхитектураDense + MoEDense + MoEDense + MoE
Максимальный размер397B (A17B)Maverick 400B+Large 2 (123B)
МультимодальностьТекст, изображения, аудио, видео (нативная)Текст, изображенияТекст, изображения
Контекст256K (до 1M)128K–1M128K
Языки201~100~12
Tool useДа (адаптивный)ДаДа
ЛицензияApache 2.0 (большинство)Llama LicenseApache 2.0
Стоимость API (вход/1M)~$0.39~$0.19–0.49~$0.10
Стоимость API (выход/1M)~$2.34~$0.19–0.49~$0.30

Главное преимущество Qwen — нативная мультимодальность и самая широкая языковая поддержка. Llama сильнее в соотношении цена/качество для текстовых задач. Mistral — самый доступный по цене вариант для задач, не требующих мультимодальности.


Где попробовать

  • Чат: chat.qwen.ai — бесплатный веб-интерфейс с доступом ко всем модальностям
  • API: Alibaba Cloud Model Studio — официальный API с оплатой по токенам
  • OpenRouter: openrouter.ai/qwen — доступ к 60+ моделям Qwen через единый API
  • Hugging Face: huggingface.co/Qwen — загрузка весов для локального запуска
  • GitHub: github.com/QwenLM/Qwen — код, документация, примеры

По теме

Если вы выбираете модель для своего проекта и хотите разобраться, какая архитектура подойдёт именно вам — давайте обсудим.