Qwen3.5-Omni от Alibaba — модель, которая видит, слышит и говорит. И это не демо

Alibaba выкатила Qwen3.5-Omni — и это тот случай, когда стоит остановиться и посмотреть внимательно.

Большинство мультимодальных моделей работают по принципу «сначала переведи в текст, потом думай». Qwen3.5-Omni устроена иначе — она нативно обучена на всех модальностях сразу: текст, изображения, аудио, видео. Без промежуточных костылей, без потери качества в каждой из них. И отвечает не только текстом, но и голосом — в реальном времени, с задержкой от 211 миллисекунд.

Как это работает внутри

Внутри — архитектура Thinker-Talker на базе Sparse MoE: 397 миллиардов параметров, но при каждом запросе активируется только 17 миллиардов. То есть модель огромная по возможностям, но экономная по вычислениям. Модуль Thinker генерирует текст, Talker — потоковую речь. Модель одновременно «думает» и «говорит», как человек в разговоре.

Цифры, которые стоит запомнить

До 10 часов аудио и 400 секунд видео 720p за один запрос. Распознавание речи на 113 языках — предыдущая версия поддерживала 19. По бенчмаркам — лучший результат на 32 из 36 аудио-тестов, обходит Gemini-2.5-Pro и GPT-4o-Transcribe.

Смотрит на экран, слушает голос, пишет код

Отдельная история — Audio-Visual Vibe Coding: модель одновременно «смотрит» на экран и «слушает» голос, генерируя код на лету. Звучит как демо из будущего, но это уже работает.

Не просто болтает — действует

И главное — поддержка tool calling. Модель может подключаться к внешним сервисам и выполнять действия. Это превращает её из разговорной модели в полноценного мультимодального агента, который понимает ваш голос, видит, что вы показываете, и может действовать.

Всё это под лицензией Apache 2.0 — забирайте, дообучайте, встраивайте в свои продукты.

Мы в точке, где мультимодальные модели перестают быть лабораторными демо и становятся рабочими инструментами. Если вы строите что-то с ИИ — за Qwen3.5-Omni стоит следить. Alibaba явно целится в AGI, и текущий релиз показывает, что они не шутят.

По теме

Если вы думаете о том, как встроить мультимодальные модели в свои рабочие процессы, и хотите разобраться, с чего начать — давайте обсудим.