База знаний

OpenAI — линейка моделей GPT, Realtime и Images

Линейка OpenAI: GPT-5.5, GPT-Realtime-2, gpt-image-2 и ChatGPT Images 2.0. Что выбирать под код, голос и картинки. Тарифы и лимиты.

Опубликовано 02.06.2026

ИИ-агенты API и данные

OpenAI в 2026 году держит четыре линейки моделей: текстовые GPT-5.x, голосовая Realtime, генерация изображений GPT Image и набор специализированных моделей под транскрипцию и эмбеддинги. Этот справочник — как выбирать между ними под задачу, сколько это стоит и где не нарваться на двойной счёт за токены.

📌

Что выбирать по умолчанию:

Кодинг и сложные агенты → gpt-5.5 (gpt-5.5-pro для критичных задач)
Массовая обработка, дешёвая классификация → gpt-5.4-mini или gpt-5.4-nano
Длинные reasoning-задачи → gpt-5.5 с повышенным reasoning effort
Голосовые агенты в реальном времени → gpt-realtime (или GPT-Realtime-2 для премиума)
Картинки → gpt-image-2

Что изменилось за последний год

Серия «o» (o1, o3, o4-mini) ушла в архив. o4-mini был убран 13 февраля 2026, o3 снят с фронт-страницы ChatGPT следом. Reasoning теперь встроен прямо в GPT-5.x через параметр reasoning_effort — отдельная «думающая» модель больше не нужна, флагман сам решает, когда копать глубже.

GPT-4o тоже отключён в ChatGPT с 13 февраля 2026. В Realtime API он ещё работает как бэкенд для голоса, но для новых интеграций используйте gpt-realtime.

Ключевые релизы апреля 2026: gpt-5.5 (флагман для кодинга и агентов, выпущен 24 апреля) и gpt-image-2 (генерация изображений с внутренним reasoning).

Текстовые модели: GPT-5.x

gpt-5.5 (флагман)

Контекст 1M+ токенов: 922K input, 128K output.
Vision вход, function calling, structured outputs, MCP, web search, file search, image generation, code interpreter, hosted shell, skills, tool search, computer use.
Снапшот: gpt-5.5-2026-04-23.
Отличие от 5.4: меньше токенов на ту же задачу, заметно точнее следует длинным инструкциям с деталями.

gpt-5.5-pro

Та же модель с агрессивным внутренним reasoning. В 6 раз дороже базовой 5.5, но даёт лучшие результаты на сложных одно-промптовых задачах.
Хорош для финального синтеза, формальной верификации, критичной аналитики, сложных рефакторингов.

gpt-5.4 (предыдущий флагман, в продакшене)

В 2 раза дешевле 5.5. Хороший выбор там, где 5.5 — overkill.
Активно поддерживается, не deprecated.

gpt-5.4-mini

Production-рабочая лошадка для массовых задач: классификация, extraction, переформулировки, выбор из вариантов.
Лучший баланс цены и качества в линейке.

gpt-5.4-nano

Первый фильтр в пирамиде моделей. Короткие ответы, быстрый response.
Подходит для роутеров и предварительной фильтрации. Финальный ответ лучше отдавать модели старше.

gpt-5.4-pro

pro-версия линейки 5.4 для случаев, где 5.5-pro слишком дорого, но нужна повышенная точность.

gpt-5 (август 2025)

Контекст 400K. Сохранён в API как стабильная база для проектов, которые уже отладили под него промпты.

Голос и реальное время: Realtime API

gpt-realtime (GA)

Speech-to-speech модель напрямую, без связки STT → LLM → TTS. С момента выхода GA в API добавилось:

MCP-серверы как удалённые инструменты прямо в голосовой сессии.
Image input во время разговора.
Звонки по телефонии через SIP.
Эмоциональные интонации и прерывания в живом диалоге.

GPT-Realtime-2 (премиум)

Качественная версия для production voice agents. Тарифы: $32/$64 за 1M audio-токенов, $4/$24 за 1M text-токенов.

gpt-realtime-mini

Удешевлённый Realtime для приложений, которым полный тариф слишком дорог. Снапшот gpt-realtime-mini-2025-12-15. Открывает Voice Mode третьим сторонам.

gpt-realtime-translate

Live-перевод речи спикера. $0.034/мин ($0.00057/сек). Для синхронного перевода, а не для диалогов.

gpt-realtime-whisper

Streaming STT для realtime-сценариев, когда нужна транскрибация налету без полного speech-to-speech цикла.

Изображения

gpt-image-2 (флагман, апрель 2026)

Главное новшество — встроенный reasoning в процесс генерации. Заметные улучшения:

Рендеринг текста внутри картинки (кнопки, UI, надписи, многоязычные подписи).
Соблюдение сложных многослойных промптов.
Осмысленные многопанельные композиции: комиксы, брошюры, маркетинговые лайауты.

Доступен в /v1/images/generations и /v1/images/edits.

gpt-image-1.5

Вышел 16 декабря 2025. Раскатан как «ChatGPT Images» для всех пользователей и одновременно в API. На 20% дешевле gpt-image-1 на input/output, генерация до 4x быстрее. Подходит, если gpt-image-2 избыточен по цене.

ChatGPT Images 2.0

Продукт в ChatGPT, не отдельная модель в API. Использует gpt-image-2 под капотом с продуктовой обвязкой и UX. Если вы интегрируете генерацию в свой продукт — обращайтесь к gpt-image-2 напрямую через API.

DALL·E 2 / 3

Легаси. Variations endpoint поддерживается только в DALL·E 2. Для новых интеграций брать не стоит.

Транскрипция и аудио

Модель	Когда брать
Whisper	Batch-транскрибация, экономия, хорошее базовое качество
gpt-4o-transcribe	Шумные записи, акценты, сложные доменные термины
gpt-4o-mini-transcribe	Массовая транскрибация с экономией
gpt-realtime-whisper	Streaming STT в реальном времени
gpt-4o-mini-tts	Синтез речи, снапшот 2025-12-15 повысил стабильность голоса

Эмбеддинги

text-embedding-3-large — рабочий выбор для RAG, семантического поиска, классификации.
text-embedding-3-small — дешёвая версия для массовых задач, где премиум-качество не нужно.
Размерность эмбеддингов можно усекать через параметр dimensions — компромисс между качеством и стоимостью хранения.

Подключение по API

Два основных интерфейса для языковых моделей:

Responses API (/v1/responses) — текущий стандарт. Все 5.x модели работают здесь. Поддерживает stateful-режим, snapshots, hosted tools, MCP, skills.
Chat Completions API (/v1/chat/completions) — классический интерфейс. Поддерживается, но новые фичи приходят сначала в Responses.

Отдельные эндпоинты:

/v1/realtime — голос, стриминг, SIP, MCP.
/v1/images/generations, /v1/images/edits — изображения.
/v1/audio/transcriptions, /v1/audio/translations — STT и перевод.
/v1/audio/speech — TTS.
/v1/embeddings — векторы.
/v1/batch — оффлайн-задачи со скидкой 50%.
/v1/moderations — модерация контента.

SDK: официальные библиотеки Python и JavaScript. Для агентных пайплайнов — Agents SDK (openai-agents-python и TS-аналог) с контролем состояния, инструментами и retry-логикой.

Тарифы (актуально на июнь 2026)

Цены за 1M токенов в Standard tier.

Модель	Input
gpt-5.5	$5.00
gpt-5.5-pro	$30.00
gpt-5.4	$2.50
gpt-5.4-mini	$0.75
gpt-5.4-nano	$0.20
gpt-5	$1.25
GPT-Realtime-2 (audio)	$32.00
GPT-Realtime-2 (text)	$4.00
gpt-image-2	Текст $5/1M input, картинка $10/1M input, выходные изображения по тарифу токенов вывода
text-embedding-3-large	$0.13/1M input
text-embedding-3-small	$0.02/1M input

Дополнительные режимы тарификации:

Batch — скидка 50%, выполнение до 24 часов.
Flex — приоритет ниже стандартного по сниженной цене. Подходит для долгоиграющих агентов без жёсткого SLA.
Priority — 2.5x от стандарта, наоборот, повышенный приоритет.
Data residency — +10% к ценам моделей, выпущенных после 5 марта 2026, при использовании региональных endpoint'ов.

Кэшированный input стоит в 10 раз меньше обычного. На длинных стабильных системных промптах это даёт до 90% экономии на входной части счёта.

Выбор модели под задачу

Сценарий	Модель первого выбора	Когда брать дороже / дешевле
Codex CLI / Desktop, кодинг-агенты	gpt-5.5	gpt-5.5-pro для критичных рефакторингов
Длинные агентные сессии с инструментами	gpt-5.5	gpt-5.4 если задача попроще
Массовая классификация и extraction	gpt-5.4-mini	nano для роутеров
Дешёвый первый фильтр / роутер	gpt-5.4-nano	—
Math и формальные рассуждения	gpt-5.5 с reasoning_effort=high	gpt-5.5-pro для критичной точности
Multi-step planning с проверками	gpt-5.5	5.5-pro на финальной верификации
Голосовые агенты в продакшене	gpt-realtime или GPT-Realtime-2	gpt-realtime-mini для бюджета
Live-перевод речи	gpt-realtime-translate	—
Batch-транскрибация	Whisper	gpt-4o-transcribe для шумных записей
Streaming STT	gpt-realtime-whisper	—
Семантический поиск, RAG	text-embedding-3-large	3-small для массовых задач
Обложки и иллюстрации	gpt-image-2	gpt-image-1.5 при ограниченном бюджете

Принципы работы с API

Structured outputs

Используйте JSON Schema для production-вызовов. Это формальная схема, которой модель гарантированно следует. Структурные ошибки исчезают как класс, в отличие от просьбы «верни JSON» в системном промпте.

Function calling и tools

Function calling — стандарт для вызова внешних инструментов. В Responses API доступны hosted tools: web search, file search, code interpreter, image generation, hosted shell, MCP. Через MCP подключайте внешние системы без кастом-адаптеров.

Streaming

Для UX живого чата. Также экономит память на длинных ответах.

Prompt caching

Системные промпты кэшируются автоматически от 1K токенов. Cached input стоит 10% от обычного. Для агентов с большим system prompt это даёт прямую экономию 60–80% от общего счёта.

Snapshots

Каждая модель имеет дата-конкретные снапшоты, например gpt-5.5-2026-04-23. Закрепляйте снапшот в production: алиас без даты обновляется без предупреждения, и поведение может поменяться. Сломанные evals — частая причина дорогих ночных аварий.

Reasoning effort

Параметр для gpt-5.5: low, medium, high. Высокий уровень тратит больше внутренних токенов и даёт лучшие результаты на сложных задачах. По умолчанию medium — на простых запросах это уже избыточно.

Verbosity и стиль ответа

GPT-5.5 поддерживает параметр verbosity для управления длиной ответа. Используйте low для агентных пайплайнов, где важна сжатость, и high для аналитических текстов.

Экономия: что реально работает

Пирамида моделей. Ranking и filtering — nano или mini, итоговый синтез — 5.5. На массовых пайплайнах это даёт экономию в 10–50x.
Кэш системных промптов. 50K токенов в кэше стоят 10% от обычной цены.
Batch для оффлайн-задач. Ночные пересчёты, evals, бэкфилл — это batch. Минус 50%.
Flex tier для не-критичных задач — дополнительная скидка.
reasoning_effort=low там, где не нужна глубина.
Snapshot pinning. Закреплённые версии = стабильное качество = экономия на переделках evals.
Усечение размерности эмбеддингов через параметр dimensions для экономии на storage и индексах.
Раздельный мониторинг. Метрика «расход по модели и эндпоинту» — обязательна. Без неё первый кризис стоимости вы увидите только в инвойсе.

Интеграция в рабочий стек

Codex CLI / Codex Desktop — работают поверх gpt-5.5 по умолчанию. Для read-only режима подключайте 5.4-mini, чтобы не платить премиум за просмотр.
Claude Code и совместимые клиенты — большинство поддерживают OpenAI API через base URL override. Подключаются напрямую.
Собственные агенты — Agents SDK (Python/JS), LangGraph, CrewAI, Inngest. Для production выбирайте фреймворк с контролем состояния и retry-логикой.
MCP-серверы — де-факто стандарт для подключения инструментов. Поддерживаются в Responses API и Realtime API напрямую, без отдельных адаптеров.

Доступ из России

OpenAI не принимает российские карты и не выдаёт ключи на российские телефоны. Прямая регистрация и оплата с РФ-реквизитов не пройдёт. Способ работать есть и для одиночного разработчика, и для юрлица. На практике используется два пути: прямой аккаунт OpenAI с зарубежной обвязкой или работа через API-агрегатор.

Путь 1: прямой аккаунт OpenAI

Подойдёт, если нужны минимальная задержка, доступ к новым моделям в день релиза и объём не настолько большой, чтобы наценка агрегатора стала ощутимой.

Что понадобится:

Зарубежная карта. Стабильнее всего работают банки Грузии, Казахстана, Армении, ОАЭ. Виртуальные карты от российских необанков могут пройти, но без гарантий — успешность скачет от месяца к месяцу.
Зарубежный номер телефона для регистрации и SMS-подтверждения.
Биллинг-адрес из страны выпуска карты.
VPN или прокси с IP той же страны на момент регистрации и оплаты. После создания аккаунта API технически отвечает с любого не российского IP, но входить в портал и пополнять баланс лучше через тот же VPN, чтобы не попасть в антифрод.

Подводные камни:

Аккаунт могут заблокировать за подозрение в нарушении Terms (доступ из санкционных регионов). Снижает риск дисциплина: не входить в портал с РФ-IP, не платить картой, эмитированной в РФ, не указывать РФ-телефон.
При первой оплате OpenAI часто запрашивает дополнительную верификацию — готовьте паспорт или ID страны карты.
Юрлицу этот путь не подходит: оплату не получится закрыть документами для российской бухгалтерии.

Путь 2: API-агрегатор

Подойдёт, если нужен счёт в рублях, договор, закрывающие документы или если возиться с зарубежной картой и VPN не хочется.

Большинство агрегаторов работают как OpenAI-совместимый прокси: вы меняете base_url в SDK и используете обычные методы. Промпты и код менять не приходится.

Основные сервисы:

ProxyAPI (proxyapi.ru). Российский сервис. Принимает карты РФ, работает с физлицами и юрлицами, оплата по счёту, закрывающие документы. Покрывает OpenAI, Anthropic, Google. Хороший выбор, когда важна бухгалтерская отчётность.
VseGPT (vsegpt.ru). Мультипровайдер с оплатой в рублях. Кроме OpenAI — Anthropic, Google, локальные модели. Юрлицам даёт договор. Удобен тем, что один баланс работает на всех провайдеров.
Polza AI (polza.ai). Российский LLM-агрегатор с единым API на 400+ моделей. OpenAI-совместимый, без VPN, оплата токенами. Удобен, когда нужен быстрый старт с одним балансом на все провайдеры.
Timeweb Cloud (документация по OpenAI-совместимому API). Российский хостинг-провайдер с OpenAI-совместимым API через AI-платформу. Оплата от юрлица по счёту, договор, закрывающие документы. Цены примерно на 40% выше прямого тарифа OpenAI — наценка за прозрачную бухгалтерию.
OpenRouter (openrouter.ai). Глобальный агрегатор для разработчиков. OpenAI-совместимый API, прозрачное ценообразование, фоллбэки между провайдерами. РФ-карты принимает не всегда — зависит от эмитента. Юрлицам по документам обычно не подходит.

Что проверить перед выбором агрегатора

Доступны ли актуальные снапшоты (gpt-5.5, gpt-5.5-pro). Часть агрегаторов запаздывает на недели, иногда на месяцы.
Поддерживается ли нужный эндпоинт. Realtime (WebSocket / WebRTC), Images, Batch, Embeddings — у разных сервисов покрытие разное. Текстовые модели через /v1/chat/completions обычно есть везде, Responses API — реже.
Наценка. Считайте конечную цену за 1M токенов с учётом курса и комиссии. Разница между сервисами бывает 10–30%.
Лимиты. У агрегаторов часто есть rate limit и максимальный контекст на запрос, особенно на стартовых тарифах.
Логи и приватность. Узнайте, хранит ли сервис запросы и ответы. Для чувствительных данных это критично.
SLA и поддержка. Российские сервисы обычно реактивнее в Telegram, международные — через тикеты.

Подводные камни

Realtime через прокси. WebSocket-соединения проксируются не всегда корректно: бывают разрывы, задержки, потеря функций вроде image input или SIP. Голосового агента тестируйте на боевом нагрузочном сценарии до подписки.
Streaming. SSE-стримы у некоторых агрегаторов идут с буферизацией, что ломает UX живого чата. Проверяйте на длинных ответах.
Snapshot pinning. Некоторые прокси не пробрасывают конкретные снапшоты и отдают только алиасы. Для production это риск — поведение модели меняется без предупреждения.
Tool use и MCP. Не все прокси корректно передают function calling и hosted tools. Если активно используете MCP, проверяйте в первую очередь.
Курсовые колебания. При тарификации в рублях итоговая цена за 1M токенов зависит от курса агрегатора, который часто хуже биржевого.

Чеклист подключения из России

Решено, нужен ли прямой OpenAI или агрегатор (объём, юрлицо, требования к новизне моделей)

Для прямого пути: подготовлены зарубежная карта, телефон, VPN-инфраструктура

Для агрегатора: выбран сервис с поддержкой нужных эндпоинтов и моделей

Проверено, что актуальные снапшоты доступны и обновляются регулярно

Протестирован Realtime / Images / Batch, если они нужны

Согласованы документы и оплата для юрлица (если применимо)

Настроен мониторинг расходов в рублях и валюте

Готов план переключения провайдера на случай блокировки или отказа сервиса

Антипаттерны

❌ Брать gpt-5.5-pro на всё подряд. В 6 раз дороже базовой 5.5, медленнее. Нужен только там, где цена ошибки выше цены вызова.
❌ «Подумай шаг за шагом» в промпте к gpt-5.5. Модель сама решает, как рассуждать. Принудительный chain-of-thought тратит токены и иногда ухудшает качество.
❌ Слабые system prompts. Размытое описание роли выдаёт слабый результат. Outcome-first формулировки и явные ограничения работают лучше.
❌ Chat Completions для нового проекта. Новые фичи приходят в Responses API первыми. Стартуйте сразу с Responses.
❌ JSON «по просьбе» в промпте. Сломается при первом edge-case. Используйте structured outputs со схемой.
❌ Игнор snapshot pinning. Алиас без даты однажды обновится и сломает evals в ночь на понедельник.
❌ GPT-Realtime для текстовых задач. Realtime тарифицируется по audio-токенам — в 6–10 раз дороже текстовых моделей при той же задаче.
❌ Игнор кэша и batch. Счёт за месяц будет в разы выше возможного.
❌ Один общий API key на команду без лимитов. Минимум — отдельные проекты с rate limits, чтобы один баг не съел месячный бюджет.

Чеклист выбора и настройки

Сформулирован сценарий и приоритеты (стоимость / скорость / качество)

Подобрана базовая модель (5.5 / 5.5-pro / 5.4 / mini / nano)

Решено, нужен ли reasoning_effort выше дефолтного

Используется Responses API (для нового проекта)

Зафиксирован конкретный снапшот модели

Настроен формат вывода (structured outputs со схемой)

Развёрнут function calling или MCP-обвязка для инструментов

Подключён prompt cache (для длинных системных промптов)

Подключён batch для оффлайн-задач

Есть evals: набор примеров для сравнения моделей и снапшотов

Настроен мониторинг расхода по моделям и эндпоинтам

Отдельный API key и rate limits на каждый проект

Полезные ссылки

OpenAI Platform: platform.openai.com
Документация моделей: platform.openai.com/docs/models
Цены: openai.com/api/pricing
Realtime API: platform.openai.com/docs/guides/realtime
Image API: platform.openai.com/docs/guides/images
Agents SDK (Python): github.com/openai/openai-agents-python
Cookbook с примерами: cookbook.openai.com
Статус сервиса: status.openai.com
Релизы моделей: help.openai.com/en/articles/9624314-model-release-notes

По теме

Статья: 9 принципов настройки ИИ-агента
Блог: GPT-5.5 — OpenAI двигает планку, ставит на агентов
База знаний: Промпт-инжиниринг GPT-5.5: outcome-first подход

Если собираете продакшен-пирамиду моделей под свой кейс или выбираете между OpenAI и альтернативами — пишите в Telegram @pimenov

Если хотите разобрать свою задачу — напишите мне

Можно прийти с идеей, черновым контекстом или уже живой задачей. Помогу быстро понять, где реальный следующий шаг, а где лишний шум.

Напишите мне в Телеграм Мой Телеграм канал

Обычно хватает 2–3 сообщений, чтобы понять, могу ли я здесь реально помочь и в каком формате лучше двигаться дальше.