Мой рабочий процесс: от подготовки к встрече до извлечения инсайтов — с помощью диктофона Plaud Note Pin, Notion Meeting Notes и ИИ-агентов.
OpenAI выпустили GPT-Realtime-2 — голосовые агенты научились думать во время разговора
Три новых модели для Realtime API: рассуждение уровня GPT-5 в голосе, живой перевод из 70+ языков и стриминговая транскрипция.
OpenAI выпустили три голосовых модели для Realtime API — и это тот случай, когда за сухим анонсом скрывается реальный сдвиг в том, как устроены голосовые агенты.
GPT-Realtime-2 — первая голосовая модель с рассуждением уровня GPT-5. Она думает прямо во время разговора: вызывает инструменты, обрабатывает перебивания, восстанавливается после ошибок. Контекстное окно выросло до 128K токенов — разговор на полчаса помещается целиком. Уровень рассуждения настраивается от minimal до xhigh, так что можно балансировать между скоростью отклика и глубиной ответа.
GPT-Realtime-Translate — живой перевод речи из 70+ языков в 13 выходных. Человек говорит на тамильском, собеседник слышит по-английски, задержка минимальная. Deutsche Telekom уже тестирует для мультиязычной поддержки.
GPT-Realtime-Whisper — стриминговая транскрипция. Текст появляется на экране, пока вы ещё говорите. Субтитры, протоколы встреч, заметки — всё в реальном времени.
Я полгода управляю агентами через голосовой ввод (Wispr Flow → Notion) и каждый раз упирался в то, что модели не тянут сложные запросы на лету. GPT-Realtime-2 с гибким reasoning — тот кусок пазла, которого не хватало для полноценных голосовых агентов.
Цены подъёмные: $32/$64 за миллион аудиотокенов (вход/выход), Translate — $0.034/мин, Whisper — $0.017/мин. Всё доступно в Realtime API прямо сейчас.
По теме
- Статья: Codex Desktop как визуальный конструктор UI: дизайн-цикл, который превращает ИИ в дизайнера
- Блог: Grok 4.3 в xAI API: 1M контекста, лидер по tool calling и цена ниже флагманов
- База знаний: OpenAI Agents SDK — когда нужен SDK, а когда достаточно API loop
Если вы строите голосовые интерфейсы или думаете, как подключить речь к своим агентам — сейчас тот момент, когда инструменты наконец догнали идею.
Если захотите обсудить, как это применить у себя или в команде — пишите в Telegram @pimenov или на сайт pimenov.ai.