Мой рабочий процесс: от подготовки к встрече до извлечения инсайтов — с помощью диктофона Plaud Note Pin, Notion Meeting Notes и ИИ-агентов.
OpenAI выпустили GPT-Realtime-2 — голосовые агенты научились думать во время разговора
Три новых модели для Realtime API: рассуждение уровня GPT-5 в голосе, живой перевод из 70+ языков и стриминговая транскрипция.
OpenAI выпустили три голосовых модели для Realtime API — и это тот случай, когда за сухим анонсом скрывается реальный сдвиг в том, как устроены голосовые агенты.
GPT-Realtime-2 — первая голосовая модель с рассуждением уровня GPT-5. Она думает прямо во время разговора: вызывает инструменты, обрабатывает перебивания, восстанавливается после ошибок. Контекстное окно выросло до 128K токенов — разговор на полчаса помещается целиком. Уровень рассуждения настраивается от minimal до xhigh, так что можно балансировать между скоростью отклика и глубиной ответа.
GPT-Realtime-Translate — живой перевод речи из 70+ языков в 13 выходных. Человек говорит на тамильском, собеседник слышит по-английски, задержка минимальная. Deutsche Telekom уже тестирует для мультиязычной поддержки.
GPT-Realtime-Whisper — стриминговая транскрипция. Текст появляется на экране, пока вы ещё говорите. Субтитры, протоколы встреч, заметки — всё в реальном времени.
Я полгода управляю агентами через голосовой ввод (Wispr Flow → Notion) и каждый раз упирался в то, что модели не тянут сложные запросы на лету. GPT-Realtime-2 с гибким reasoning — тот кусок пазла, которого не хватало для полноценных голосовых агентов.
Цены подъёмные: $32/$64 за миллион аудиотокенов (вход/выход), Translate — $0.034/мин, Whisper — $0.017/мин. Всё доступно в Realtime API прямо сейчас.
По теме
Если вы строите голосовые интерфейсы или думаете, как подключить речь к своим агентам — сейчас тот момент, когда инструменты наконец догнали идею.
Если захотите обсудить, как это применить у себя или в команде — пишите в Telegram @pimenov или на сайт pimenov.ai.
Если хотите разобрать свою задачу — напишите мне Если хотите разобрать свою задачу — напишите мне.
Можно прийти с идеей, черновым контекстом или уже живой задачей. Помогу быстро понять, где реальный следующий шаг, а где лишний шум.
Обычно хватает 2–3 сообщений, чтобы понять, могу ли я здесь реально помочь и в каком формате лучше двигаться дальше.
Связанные материалы
Гарри Тан открыл доступ к GBrain — своей рабочей системе долговременной памяти для ИИ-агентов на базе Postgres, pgvector и markdown-файлов в git. Разбираюсь, почему этот подход раб…
Google представил Open Knowledge Format — открытый стандарт хранения знаний в markdown-файлах для ИИ-агентов. Разбираю, заменит ли он Notion и Obsidian.