Qwen3.5-Omni от Alibaba — модель, которая видит, слышит и говорит. И это не демо
Alibaba выпустила Qwen3.5-Omni — нативно мультимодальную модель на 397 миллиардов параметров, которая обрабатывает текст, изображения, аудио и видео, отвечает голосом в реальном времени и умеет вызывать внешние инструменты.
Alibaba выкатила Qwen3.5-Omni — и это тот случай, когда стоит остановиться и посмотреть внимательно.
Большинство мультимодальных моделей работают по принципу «сначала переведи в текст, потом думай». Qwen3.5-Omni устроена иначе — она нативно обучена на всех модальностях сразу: текст, изображения, аудио, видео. Без промежуточных костылей, без потери качества в каждой из них. И отвечает не только текстом, но и голосом — в реальном времени, с задержкой от 211 миллисекунд.
Как это работает внутри
Внутри — архитектура Thinker-Talker на базе Sparse MoE: 397 миллиардов параметров, но при каждом запросе активируется только 17 миллиардов. То есть модель огромная по возможностям, но экономная по вычислениям. Модуль Thinker генерирует текст, Talker — потоковую речь. Модель одновременно «думает» и «говорит», как человек в разговоре.
Цифры, которые стоит запомнить
До 10 часов аудио и 400 секунд видео 720p за один запрос. Распознавание речи на 113 языках — предыдущая версия поддерживала 19. По бенчмаркам — лучший результат на 32 из 36 аудио-тестов, обходит Gemini-2.5-Pro и GPT-4o-Transcribe.
Смотрит на экран, слушает голос, пишет код
Отдельная история — Audio-Visual Vibe Coding: модель одновременно «смотрит» на экран и «слушает» голос, генерируя код на лету. Звучит как демо из будущего, но это уже работает.
Не просто болтает — действует
И главное — поддержка tool calling. Модель может подключаться к внешним сервисам и выполнять действия. Это превращает её из разговорной модели в полноценного мультимодального агента, который понимает ваш голос, видит, что вы показываете, и может действовать.
Всё это под лицензией Apache 2.0 — забирайте, дообучайте, встраивайте в свои продукты.
Мы в точке, где мультимодальные модели перестают быть лабораторными демо и становятся рабочими инструментами. Если вы строите что-то с ИИ — за Qwen3.5-Omni стоит следить. Alibaba явно целится в AGI, и текущий релиз показывает, что они не шутят.
По теме
- Статья: 12 приёмов, которые превращают ИИ-агента из игрушки в рабочий инструмент
- Блог: Google запустил Gemini 3.1 Flash Live — и это первый серьёзный шаг к голосовым ИИ-агентам в реальном времени
- База знаний: BMAD — фреймворк агентной разработки через ИИ-персоны
Если вы думаете о том, как встроить мультимодальные модели в свои рабочие процессы, и хотите разобраться, с чего начать — давайте обсудим.