Главное с Google I/O 2026: автономные агенты, Gemini Spark с MCP-протоколом, ИИ внутри Android и мультимодальный Gemini Omni.
Google запустил Gemini 3.1 Flash Live — и это первый серьёзный шаг к голосовым ИИ-агентам в реальном времени
Gemini 3.1 Flash Live — модель для создания голосовых ИИ-агентов с минимальной задержкой. Разбираюсь, что это значит для разработчиков и почему это важно.
Новая модель доступна через Live API в Google AI Studio. Если коротко: теперь можно строить голосовых ИИ-агентов, которые реагируют в реальном времени.
Анонс от Google AI Studio — тут: https://x.com/googleaistudio/status/2037190639021154820
Что под капотом
Live API работает через WebSocket-соединение и принимает на вход аудио, изображения и текст одновременно. На выходе — голосовой ответ с минимальной задержкой. Модель понимает тон, интонацию и намерение собеседника, поддерживает 70 языков и позволяет пользователю перебивать — как в живом разговоре.
Из интересного: есть так называемый affective dialog (адаптивный диалог) — модель подстраивает стиль ответа под эмоциональный тон собеседника. Плюс встроенная поддержка инструментов: function calling и Google Search прямо внутри голосового диалога.
Зачем это нужно
Голосовые агенты — это не про замену чат-ботов. Это про новый тип интерфейсов: ассистенты для поддержки клиентов, обучающие боты, NPC в играх, голосовые помощники в робототехнике. Там, где задержка в полсекунды ломает весь пользовательский опыт, Live API решает проблему на уровне протокола.
Google предлагает два подхода к интеграции: server-to-server (ваш бэкенд проксирует потоки) и client-to-server (фронтенд подключается напрямую через WebSocket). Для продакшена рекомендуют второй вариант с ephemeral tokens — так и быстрее, и безопаснее.
Что с экосистемой
Уже готовы интеграции с LiveKit, Pipecat, Fishjam, Voximplant и Firebase AI SDK. То есть подключить Live API к существующей инфраструктуре можно без написания WebSocket-обёртки с нуля.
Документация и примеры — на странице Live API.
По теме
Если вы строите голосовые интерфейсы или думаете о real-time взаимодействии с ИИ в своих продуктах — давайте обсудим, как это вписать в вашу архитектуру.
Если хотите разобрать свою задачу — напишите мне Если хотите разобрать свою задачу — напишите мне.
Можно прийти с идеей, черновым контекстом или уже живой задачей. Помогу быстро понять, где реальный следующий шаг, а где лишний шум.
Обычно хватает 2–3 сообщений, чтобы понять, могу ли я здесь реально помочь и в каком формате лучше двигаться дальше.
Связанные материалы
Справочник по NotebookLM: что это, как работает, какие источники поддерживает, что умеет генерировать и чем отличается от ChatGPT и Claude при работе с документами.
Разбираю NotebookLM — инструмент от Google, который умеет намного больше, чем просто суммировать PDF. Слайды, инфографика, прототипы и исследования за один день.