Qwen (Alibaba) — экосистема open-source мультимодальных моделей

Qwen (通义千问, Tongyi Qianwen) — семейство больших языковых и мультимодальных моделей от Alibaba Cloud. Проект стартовал в апреле 2023 года и к 2026-му вырос в одну из крупнейших open-source экосистем: более 100 открытых моделей, свыше 40 миллионов скачиваний и поддержка 201 языка.

Линейка моделей

Qwen включает несколько семейств, каждое из которых закрывает свою задачу:

Семейство	Назначение	Актуальная версия
Qwen3.5	Основная текстовая линейка (dense и MoE)	Qwen3.5-397B-A17B, Qwen3.5-Plus
Qwen3.5-Omni	Нативная мультимодальность: текст + изображения + аудио + видео	Qwen3.5-Omni, Qwen3.5-Omni-Plus
Qwen-VL	Визуальные языковые модели (понимание изображений и видео)	Qwen3-VL
QwQ	Модели с усиленным рассуждением (аналог o1)	QwQ-32B
Qwen-Coder	Специализированные модели для кода и агентного программирования	Qwen3-Coder-Next
Qwen-Audio	Понимание и обработка аудио	Qwen2-Audio
Qwen-Image	Генерация изображений (инфографика, фотореализм)	Qwen-Image-2.0

Размеры и архитектура

Qwen выпускает модели в двух архитектурных вариантах:

Dense (плотные) — все параметры активны при каждом запросе. Размеры: 0.6B, 1.7B, 4B, 8B, 9B, 14B, 32B
MoE (Mixture of Experts) — активируется только часть параметров, что снижает стоимость инференса. Размеры: 30B-A3B (активны 3B), 235B-A22B (активны 22B), 397B-A17B (активны 17B)

Флагманская модель Qwen3.5-397B-A17B при инференсе использует только 17 миллиардов параметров из 397 — это делает её значительно дешевле в эксплуатации, чем плотные модели сопоставимого качества.

Мультимодальность

Qwen3.5-Omni — флагманская мультимодальная модель, которая обрабатывает текст, изображения, аудио и видео в едином вычислительном конвейере. Ключевые возможности:

Нативная обработка модальностей — не «обёртка» из отдельных энкодеров, а end-to-end архитектура
Голосовое взаимодействие в реальном времени — движок Thinker-Talker с поддержкой семантических прерываний
Клонирование голоса — загрузите образец голоса, и модель ответит этим голосом (через API)
До 10 часов аудио или 400 секунд видео 720p за один запрос
Распознавание 113 языков в речи, поддержка 201 языка в тексте
Контекстное окно 256K токенов (Qwen3.5-Plus — до 1M токенов)
Встроенный веб-поиск для ответов на вопросы о текущих событиях

Tool use и агентные сценарии

Начиная с Qwen3.5, модели поддерживают адаптивный tool use — вызов внешних инструментов и API прямо из контекста разговора. Qwen3.5-Plus предлагает встроенные инструменты «из коробки» через Alibaba Cloud Model Studio.

Qwen3-Coder-Next — отдельная модель, заточенная под агентное программирование: она обучена на масштабных задачах с исполняемым кодом, взаимодействием со средой и обучением с подкреплением. Подходит для локальных coding-агентов.

Qwen также лежит в основе продуктов Alibaba — например, Accio для автоматизации аналитики рынка и закупок.

Лицензии

Большинство моделей Qwen распространяются под лицензией Apache 2.0 — можно использовать в коммерческих проектах без ограничений. Исключения:

Некоторые крупные модели (например, Qwen2.5-VL-72B) используют Qwen Research License с дополнительными условиями
Проприетарные модели (Qwen3.5-Plus, Qwen3-Max) доступны только через API Alibaba Cloud

Важно: Qwen публикует веса моделей, но не код обучения и не описание обучающих данных. Формально это не соответствует определению Open Source AI от Linux Foundation, хотя в сообществе модели принято называть open-source.

Сравнение с Llama и Mistral

Параметр	Qwen3.5	Llama 4 (Meta)	Mistral (Small 4)
Архитектура	Dense + MoE	Dense + MoE	Dense + MoE
Максимальный размер	397B (A17B)	Maverick 400B+	Large 2 (123B)
Мультимодальность	Текст, изображения, аудио, видео (нативная)	Текст, изображения	Текст, изображения
Контекст	256K (до 1M)	128K–1M	128K
Языки	201	~100	~12
Tool use	Да (адаптивный)	Да	Да
Лицензия	Apache 2.0 (большинство)	Llama License	Apache 2.0
Стоимость API (вход/1M)	~$0.39	~$0.19–0.49	~$0.10
Стоимость API (выход/1M)	~$2.34	~$0.19–0.49	~$0.30

Главное преимущество Qwen — нативная мультимодальность и самая широкая языковая поддержка. Llama сильнее в соотношении цена/качество для текстовых задач. Mistral — самый доступный по цене вариант для задач, не требующих мультимодальности.

Где попробовать

Чат: chat.qwen.ai — бесплатный веб-интерфейс с доступом ко всем модальностям
API: Alibaba Cloud Model Studio — официальный API с оплатой по токенам
OpenRouter: openrouter.ai/qwen — доступ к 60+ моделям Qwen через единый API
Hugging Face: huggingface.co/Qwen — загрузка весов для локального запуска
GitHub: github.com/QwenLM/Qwen — код, документация, примеры

По теме

Если вы выбираете модель для своего проекта и хотите разобраться, какая архитектура подойдёт именно вам — давайте обсудим.