База знаний
Qwen (Alibaba) — экосистема open-source мультимодальных моделей
Справочник по экосистеме Qwen от Alibaba Cloud: линейка моделей, мультимодальность, tool use, лицензии, сравнение с Llama и Mistral, где попробовать.
Qwen (通义千问, Tongyi Qianwen) — семейство больших языковых и мультимодальных моделей от Alibaba Cloud. Проект стартовал в апреле 2023 года и к 2026-му вырос в одну из крупнейших open-source экосистем: более 100 открытых моделей, свыше 40 миллионов скачиваний и поддержка 201 языка.
Линейка моделей
Qwen включает несколько семейств, каждое из которых закрывает свою задачу:
| Семейство | Назначение | Актуальная версия |
| Qwen3.5 | Основная текстовая линейка (dense и MoE) | Qwen3.5-397B-A17B, Qwen3.5-Plus |
| Qwen3.5-Omni | Нативная мультимодальность: текст + изображения + аудио + видео | Qwen3.5-Omni, Qwen3.5-Omni-Plus |
| Qwen-VL | Визуальные языковые модели (понимание изображений и видео) | Qwen3-VL |
| QwQ | Модели с усиленным рассуждением (аналог o1) | QwQ-32B |
| Qwen-Coder | Специализированные модели для кода и агентного программирования | Qwen3-Coder-Next |
| Qwen-Audio | Понимание и обработка аудио | Qwen2-Audio |
| Qwen-Image | Генерация изображений (инфографика, фотореализм) | Qwen-Image-2.0 |
Размеры и архитектура
Qwen выпускает модели в двух архитектурных вариантах:
- Dense (плотные) — все параметры активны при каждом запросе. Размеры: 0.6B, 1.7B, 4B, 8B, 9B, 14B, 32B
- MoE (Mixture of Experts) — активируется только часть параметров, что снижает стоимость инференса. Размеры: 30B-A3B (активны 3B), 235B-A22B (активны 22B), 397B-A17B (активны 17B)
Флагманская модель Qwen3.5-397B-A17B при инференсе использует только 17 миллиардов параметров из 397 — это делает её значительно дешевле в эксплуатации, чем плотные модели сопоставимого качества.
Мультимодальность
Qwen3.5-Omni — флагманская мультимодальная модель, которая обрабатывает текст, изображения, аудио и видео в едином вычислительном конвейере. Ключевые возможности:
- Нативная обработка модальностей — не «обёртка» из отдельных энкодеров, а end-to-end архитектура
- Голосовое взаимодействие в реальном времени — движок Thinker-Talker с поддержкой семантических прерываний
- Клонирование голоса — загрузите образец голоса, и модель ответит этим голосом (через API)
- До 10 часов аудио или 400 секунд видео 720p за один запрос
- Распознавание 113 языков в речи, поддержка 201 языка в тексте
- Контекстное окно 256K токенов (Qwen3.5-Plus — до 1M токенов)
- Встроенный веб-поиск для ответов на вопросы о текущих событиях
Tool use и агентные сценарии
Начиная с Qwen3.5, модели поддерживают адаптивный tool use — вызов внешних инструментов и API прямо из контекста разговора. Qwen3.5-Plus предлагает встроенные инструменты «из коробки» через Alibaba Cloud Model Studio.
Qwen3-Coder-Next — отдельная модель, заточенная под агентное программирование: она обучена на масштабных задачах с исполняемым кодом, взаимодействием со средой и обучением с подкреплением. Подходит для локальных coding-агентов.
Qwen также лежит в основе продуктов Alibaba — например, Accio для автоматизации аналитики рынка и закупок.
Лицензии
Большинство моделей Qwen распространяются под лицензией Apache 2.0 — можно использовать в коммерческих проектах без ограничений. Исключения:
- Некоторые крупные модели (например, Qwen2.5-VL-72B) используют Qwen Research License с дополнительными условиями
- Проприетарные модели (Qwen3.5-Plus, Qwen3-Max) доступны только через API Alibaba Cloud
Важно: Qwen публикует веса моделей, но не код обучения и не описание обучающих данных. Формально это не соответствует определению Open Source AI от Linux Foundation, хотя в сообществе модели принято называть open-source.
Сравнение с Llama и Mistral
| Параметр | Qwen3.5 | Llama 4 (Meta) | Mistral (Small 4) |
| Архитектура | Dense + MoE | Dense + MoE | Dense + MoE |
| Максимальный размер | 397B (A17B) | Maverick 400B+ | Large 2 (123B) |
| Мультимодальность | Текст, изображения, аудио, видео (нативная) | Текст, изображения | Текст, изображения |
| Контекст | 256K (до 1M) | 128K–1M | 128K |
| Языки | 201 | ~100 | ~12 |
| Tool use | Да (адаптивный) | Да | Да |
| Лицензия | Apache 2.0 (большинство) | Llama License | Apache 2.0 |
| Стоимость API (вход/1M) | ~$0.39 | ~$0.19–0.49 | ~$0.10 |
| Стоимость API (выход/1M) | ~$2.34 | ~$0.19–0.49 | ~$0.30 |
Главное преимущество Qwen — нативная мультимодальность и самая широкая языковая поддержка. Llama сильнее в соотношении цена/качество для текстовых задач. Mistral — самый доступный по цене вариант для задач, не требующих мультимодальности.
Где попробовать
- Чат: chat.qwen.ai — бесплатный веб-интерфейс с доступом ко всем модальностям
- API: Alibaba Cloud Model Studio — официальный API с оплатой по токенам
- OpenRouter: openrouter.ai/qwen — доступ к 60+ моделям Qwen через единый API
- Hugging Face: huggingface.co/Qwen — загрузка весов для локального запуска
- GitHub: github.com/QwenLM/Qwen — код, документация, примеры
По теме
- Статья: 12 приёмов, которые превращают ИИ-агента из игрушки в рабочий инструмент
- Блог: Qwen3.5-Omni от Alibaba — модель, которая видит, слышит и говорит. И это не демо
- База знаний: Skills: Codex vs Claude Code — сравнение и совместимость
Если вы выбираете модель для своего проекта и хотите разобраться, какая архитектура подойдёт именно вам — давайте обсудим.