Google запустил Gemini 3.1 Flash Live — и это первый серьёзный шаг к голосовым ИИ-агентам в реальном времени
Gemini 3.1 Flash Live — модель для создания голосовых ИИ-агентов с минимальной задержкой. Разбираюсь, что это значит для разработчиков и почему это важно.
Новая модель доступна через Live API в Google AI Studio. Если коротко: теперь можно строить голосовых ИИ-агентов, которые реагируют в реальном времени.
Анонс от Google AI Studio — тут: https://x.com/googleaistudio/status/2037190639021154820
Что под капотом
Live API работает через WebSocket-соединение и принимает на вход аудио, изображения и текст одновременно. На выходе — голосовой ответ с минимальной задержкой. Модель понимает тон, интонацию и намерение собеседника, поддерживает 70 языков и позволяет пользователю перебивать — как в живом разговоре.
Из интересного: есть так называемый affective dialog (адаптивный диалог) — модель подстраивает стиль ответа под эмоциональный тон собеседника. Плюс встроенная поддержка инструментов: function calling и Google Search прямо внутри голосового диалога.
Зачем это нужно
Голосовые агенты — это не про замену чат-ботов. Это про новый тип интерфейсов: ассистенты для поддержки клиентов, обучающие боты, NPC в играх, голосовые помощники в робототехнике. Там, где задержка в полсекунды ломает весь пользовательский опыт, Live API решает проблему на уровне протокола.
Google предлагает два подхода к интеграции: server-to-server (ваш бэкенд проксирует потоки) и client-to-server (фронтенд подключается напрямую через WebSocket). Для продакшена рекомендуют второй вариант с ephemeral tokens — так и быстрее, и безопаснее.
Что с экосистемой
Уже готовы интеграции с LiveKit, Pipecat, Fishjam, Voximplant и Firebase AI SDK. То есть подключить Live API к существующей инфраструктуре можно без написания WebSocket-обёртки с нуля.
Документация и примеры — на странице Live API.
По теме
- Статья: 12 приёмов, которые превращают ИИ-агента из игрушки в рабочий инструмент
- Блог: fal.ai запустили MCP-сервер — и теперь 1000+ моделей генерации доступны прямо из вашего IDE
- База знаний: Parallel — высокоточный поисковый API для AI-агентов
Если вы строите голосовые интерфейсы или думаете о real-time взаимодействии с ИИ в своих продуктах — давайте обсудим, как это вписать в вашу архитектуру.