pimenov.ai

База знаний

OpenAI — линейка моделей GPT, Realtime и Images

Линейка OpenAI: GPT-5.5, GPT-Realtime-2, gpt-image-2 и ChatGPT Images 2.0. Что выбирать под код, голос и картинки. Тарифы и лимиты.

Опубликовано

OpenAI в 2026 году держит четыре линейки моделей: текстовые GPT-5.x, голосовая Realtime, генерация изображений GPT Image и набор специализированных моделей под транскрипцию и эмбеддинги. Этот справочник — как выбирать между ними под задачу, сколько это стоит и где не нарваться на двойной счёт за токены.

📌
Что выбирать по умолчанию:
  • Кодинг и сложные агенты → gpt-5.5 (gpt-5.5-pro для критичных задач)
  • Массовая обработка, дешёвая классификация → gpt-5.4-mini или gpt-5.4-nano
  • Длинные reasoning-задачи → gpt-5.5 с повышенным reasoning effort
  • Голосовые агенты в реальном времени → gpt-realtime (или GPT-Realtime-2 для премиума)
  • Картинки → gpt-image-2

Что изменилось за последний год

Серия «o» (o1, o3, o4-mini) ушла в архив. o4-mini был убран 13 февраля 2026, o3 снят с фронт-страницы ChatGPT следом. Reasoning теперь встроен прямо в GPT-5.x через параметр reasoning_effort — отдельная «думающая» модель больше не нужна, флагман сам решает, когда копать глубже.

GPT-4o тоже отключён в ChatGPT с 13 февраля 2026. В Realtime API он ещё работает как бэкенд для голоса, но для новых интеграций используйте gpt-realtime.

Ключевые релизы апреля 2026: gpt-5.5 (флагман для кодинга и агентов, выпущен 24 апреля) и gpt-image-2 (генерация изображений с внутренним reasoning).


Текстовые модели: GPT-5.x

gpt-5.5 (флагман)

  • Контекст 1M+ токенов: 922K input, 128K output.
  • Vision вход, function calling, structured outputs, MCP, web search, file search, image generation, code interpreter, hosted shell, skills, tool search, computer use.
  • Снапшот: gpt-5.5-2026-04-23.
  • Отличие от 5.4: меньше токенов на ту же задачу, заметно точнее следует длинным инструкциям с деталями.

gpt-5.5-pro

  • Та же модель с агрессивным внутренним reasoning. В 6 раз дороже базовой 5.5, но даёт лучшие результаты на сложных одно-промптовых задачах.
  • Хорош для финального синтеза, формальной верификации, критичной аналитики, сложных рефакторингов.

gpt-5.4 (предыдущий флагман, в продакшене)

  • В 2 раза дешевле 5.5. Хороший выбор там, где 5.5 — overkill.
  • Активно поддерживается, не deprecated.

gpt-5.4-mini

  • Production-рабочая лошадка для массовых задач: классификация, extraction, переформулировки, выбор из вариантов.
  • Лучший баланс цены и качества в линейке.

gpt-5.4-nano

  • Первый фильтр в пирамиде моделей. Короткие ответы, быстрый response.
  • Подходит для роутеров и предварительной фильтрации. Финальный ответ лучше отдавать модели старше.

gpt-5.4-pro

  • pro-версия линейки 5.4 для случаев, где 5.5-pro слишком дорого, но нужна повышенная точность.

gpt-5 (август 2025)

  • Контекст 400K. Сохранён в API как стабильная база для проектов, которые уже отладили под него промпты.

Голос и реальное время: Realtime API

gpt-realtime (GA)

Speech-to-speech модель напрямую, без связки STT → LLM → TTS. С момента выхода GA в API добавилось:

  • MCP-серверы как удалённые инструменты прямо в голосовой сессии.
  • Image input во время разговора.
  • Звонки по телефонии через SIP.
  • Эмоциональные интонации и прерывания в живом диалоге.

GPT-Realtime-2 (премиум)

Качественная версия для production voice agents. Тарифы: $32/$64 за 1M audio-токенов, $4/$24 за 1M text-токенов.

gpt-realtime-mini

Удешевлённый Realtime для приложений, которым полный тариф слишком дорог. Снапшот gpt-realtime-mini-2025-12-15. Открывает Voice Mode третьим сторонам.

gpt-realtime-translate

Live-перевод речи спикера. $0.034/мин ($0.00057/сек). Для синхронного перевода, а не для диалогов.

gpt-realtime-whisper

Streaming STT для realtime-сценариев, когда нужна транскрибация налету без полного speech-to-speech цикла.


Изображения

gpt-image-2 (флагман, апрель 2026)

Главное новшество — встроенный reasoning в процесс генерации. Заметные улучшения:

  • Рендеринг текста внутри картинки (кнопки, UI, надписи, многоязычные подписи).
  • Соблюдение сложных многослойных промптов.
  • Осмысленные многопанельные композиции: комиксы, брошюры, маркетинговые лайауты.

Доступен в /v1/images/generations и /v1/images/edits.

gpt-image-1.5

Вышел 16 декабря 2025. Раскатан как «ChatGPT Images» для всех пользователей и одновременно в API. На 20% дешевле gpt-image-1 на input/output, генерация до 4x быстрее. Подходит, если gpt-image-2 избыточен по цене.

ChatGPT Images 2.0

Продукт в ChatGPT, не отдельная модель в API. Использует gpt-image-2 под капотом с продуктовой обвязкой и UX. Если вы интегрируете генерацию в свой продукт — обращайтесь к gpt-image-2 напрямую через API.

DALL·E 2 / 3

Легаси. Variations endpoint поддерживается только в DALL·E 2. Для новых интеграций брать не стоит.


Транскрипция и аудио

МодельКогда брать
WhisperBatch-транскрибация, экономия, хорошее базовое качество
gpt-4o-transcribeШумные записи, акценты, сложные доменные термины
gpt-4o-mini-transcribeМассовая транскрибация с экономией
gpt-realtime-whisperStreaming STT в реальном времени
gpt-4o-mini-ttsСинтез речи, снапшот 2025-12-15 повысил стабильность голоса

Эмбеддинги

  • text-embedding-3-large — рабочий выбор для RAG, семантического поиска, классификации.
  • text-embedding-3-small — дешёвая версия для массовых задач, где премиум-качество не нужно.
  • Размерность эмбеддингов можно усекать через параметр dimensions — компромисс между качеством и стоимостью хранения.

Подключение по API

Два основных интерфейса для языковых моделей:

  • Responses API (/v1/responses) — текущий стандарт. Все 5.x модели работают здесь. Поддерживает stateful-режим, snapshots, hosted tools, MCP, skills.
  • Chat Completions API (/v1/chat/completions) — классический интерфейс. Поддерживается, но новые фичи приходят сначала в Responses.

Отдельные эндпоинты:

  • /v1/realtime — голос, стриминг, SIP, MCP.
  • /v1/images/generations, /v1/images/edits — изображения.
  • /v1/audio/transcriptions, /v1/audio/translations — STT и перевод.
  • /v1/audio/speech — TTS.
  • /v1/embeddings — векторы.
  • /v1/batch — оффлайн-задачи со скидкой 50%.
  • /v1/moderations — модерация контента.

SDK: официальные библиотеки Python и JavaScript. Для агентных пайплайнов — Agents SDK (openai-agents-python и TS-аналог) с контролем состояния, инструментами и retry-логикой.


Тарифы (актуально на июнь 2026)

Цены за 1M токенов в Standard tier.

МодельInput
gpt-5.5$5.00
gpt-5.5-pro$30.00
gpt-5.4$2.50
gpt-5.4-mini$0.75
gpt-5.4-nano$0.20
gpt-5$1.25
GPT-Realtime-2 (audio)$32.00
GPT-Realtime-2 (text)$4.00
gpt-image-2Текст $5/1M input, картинка $10/1M input, выходные изображения по тарифу токенов вывода
text-embedding-3-large$0.13/1M input
text-embedding-3-small$0.02/1M input

Дополнительные режимы тарификации:

  • Batch — скидка 50%, выполнение до 24 часов.
  • Flex — приоритет ниже стандартного по сниженной цене. Подходит для долгоиграющих агентов без жёсткого SLA.
  • Priority — 2.5x от стандарта, наоборот, повышенный приоритет.
  • Data residency — +10% к ценам моделей, выпущенных после 5 марта 2026, при использовании региональных endpoint'ов.

Кэшированный input стоит в 10 раз меньше обычного. На длинных стабильных системных промптах это даёт до 90% экономии на входной части счёта.


Выбор модели под задачу

СценарийМодель первого выбораКогда брать дороже / дешевле
Codex CLI / Desktop, кодинг-агентыgpt-5.5gpt-5.5-pro для критичных рефакторингов
Длинные агентные сессии с инструментамиgpt-5.5gpt-5.4 если задача попроще
Массовая классификация и extractiongpt-5.4-mininano для роутеров
Дешёвый первый фильтр / роутерgpt-5.4-nano
Math и формальные рассужденияgpt-5.5 с reasoning_effort=highgpt-5.5-pro для критичной точности
Multi-step planning с проверкамиgpt-5.55.5-pro на финальной верификации
Голосовые агенты в продакшенеgpt-realtime или GPT-Realtime-2gpt-realtime-mini для бюджета
Live-перевод речиgpt-realtime-translate
Batch-транскрибацияWhispergpt-4o-transcribe для шумных записей
Streaming STTgpt-realtime-whisper
Семантический поиск, RAGtext-embedding-3-large3-small для массовых задач
Обложки и иллюстрацииgpt-image-2gpt-image-1.5 при ограниченном бюджете

Принципы работы с API

Structured outputs

Используйте JSON Schema для production-вызовов. Это формальная схема, которой модель гарантированно следует. Структурные ошибки исчезают как класс, в отличие от просьбы «верни JSON» в системном промпте.

Function calling и tools

Function calling — стандарт для вызова внешних инструментов. В Responses API доступны hosted tools: web search, file search, code interpreter, image generation, hosted shell, MCP. Через MCP подключайте внешние системы без кастом-адаптеров.

Streaming

Для UX живого чата. Также экономит память на длинных ответах.

Prompt caching

Системные промпты кэшируются автоматически от 1K токенов. Cached input стоит 10% от обычного. Для агентов с большим system prompt это даёт прямую экономию 60–80% от общего счёта.

Snapshots

Каждая модель имеет дата-конкретные снапшоты, например gpt-5.5-2026-04-23. Закрепляйте снапшот в production: алиас без даты обновляется без предупреждения, и поведение может поменяться. Сломанные evals — частая причина дорогих ночных аварий.

Reasoning effort

Параметр для gpt-5.5: low, medium, high. Высокий уровень тратит больше внутренних токенов и даёт лучшие результаты на сложных задачах. По умолчанию medium — на простых запросах это уже избыточно.

Verbosity и стиль ответа

GPT-5.5 поддерживает параметр verbosity для управления длиной ответа. Используйте low для агентных пайплайнов, где важна сжатость, и high для аналитических текстов.


Экономия: что реально работает

  • Пирамида моделей. Ranking и filtering — nano или mini, итоговый синтез — 5.5. На массовых пайплайнах это даёт экономию в 10–50x.
  • Кэш системных промптов. 50K токенов в кэше стоят 10% от обычной цены.
  • Batch для оффлайн-задач. Ночные пересчёты, evals, бэкфилл — это batch. Минус 50%.
  • Flex tier для не-критичных задач — дополнительная скидка.
  • reasoning_effort=low там, где не нужна глубина.
  • Snapshot pinning. Закреплённые версии = стабильное качество = экономия на переделках evals.
  • Усечение размерности эмбеддингов через параметр dimensions для экономии на storage и индексах.
  • Раздельный мониторинг. Метрика «расход по модели и эндпоинту» — обязательна. Без неё первый кризис стоимости вы увидите только в инвойсе.

Интеграция в рабочий стек

  • Codex CLI / Codex Desktop — работают поверх gpt-5.5 по умолчанию. Для read-only режима подключайте 5.4-mini, чтобы не платить премиум за просмотр.
  • Claude Code и совместимые клиенты — большинство поддерживают OpenAI API через base URL override. Подключаются напрямую.
  • Собственные агенты — Agents SDK (Python/JS), LangGraph, CrewAI, Inngest. Для production выбирайте фреймворк с контролем состояния и retry-логикой.
  • MCP-серверы — де-факто стандарт для подключения инструментов. Поддерживаются в Responses API и Realtime API напрямую, без отдельных адаптеров.
  • Доступ из России. Платёж картой — основная боль. Используйте сервисы с приёмом российских карт (ProxyAPI, Vsegpt, AI/ML API, OpenRouter) или корпоративные карты через провайдеров. Сам API доступен через VPN или те же агрегаторы.

Антипаттерны

  • Брать gpt-5.5-pro на всё подряд. В 6 раз дороже базовой 5.5, медленнее. Нужен только там, где цена ошибки выше цены вызова.
  • «Подумай шаг за шагом» в промпте к gpt-5.5. Модель сама решает, как рассуждать. Принудительный chain-of-thought тратит токены и иногда ухудшает качество.
  • Слабые system prompts. Размытое описание роли выдаёт слабый результат. Outcome-first формулировки и явные ограничения работают лучше.
  • Chat Completions для нового проекта. Новые фичи приходят в Responses API первыми. Стартуйте сразу с Responses.
  • JSON «по просьбе» в промпте. Сломается при первом edge-case. Используйте structured outputs со схемой.
  • Игнор snapshot pinning. Алиас без даты однажды обновится и сломает evals в ночь на понедельник.
  • GPT-Realtime для текстовых задач. Realtime тарифицируется по audio-токенам — в 6–10 раз дороже текстовых моделей при той же задаче.
  • Игнор кэша и batch. Счёт за месяц будет в разы выше возможного.
  • Один общий API key на команду без лимитов. Минимум — отдельные проекты с rate limits, чтобы один баг не съел месячный бюджет.

Чеклист выбора и настройки

Сформулирован сценарий и приоритеты (стоимость / скорость / качество)
Подобрана базовая модель (5.5 / 5.5-pro / 5.4 / mini / nano)
Решено, нужен ли reasoning_effort выше дефолтного
Используется Responses API (для нового проекта)
Зафиксирован конкретный снапшот модели
Настроен формат вывода (structured outputs со схемой)
Развёрнут function calling или MCP-обвязка для инструментов
Подключён prompt cache (для длинных системных промптов)
Подключён batch для оффлайн-задач
Есть evals: набор примеров для сравнения моделей и снапшотов
Настроен мониторинг расхода по моделям и эндпоинтам
Отдельный API key и rate limits на каждый проект

Полезные ссылки


По теме

Если собираете продакшен-пирамиду моделей под свой кейс или выбираете между OpenAI и альтернативами — пишите в Telegram @pimenov