Справочник по экосистеме Google Gemini: актуальные модели, API и SDK, Gemini Live, мультимодальные возможности, региональные ограничения и сравнение с GPT и Claude.
База знаний
OpenAI — линейка моделей GPT, Realtime и Images
Линейка OpenAI: GPT-5.5, GPT-Realtime-2, gpt-image-2 и ChatGPT Images 2.0. Что выбирать под код, голос и картинки. Тарифы и лимиты.
OpenAI в 2026 году держит четыре линейки моделей: текстовые GPT-5.x, голосовая Realtime, генерация изображений GPT Image и набор специализированных моделей под транскрипцию и эмбеддинги. Этот справочник — как выбирать между ними под задачу, сколько это стоит и где не нарваться на двойной счёт за токены.
- Кодинг и сложные агенты → gpt-5.5 (gpt-5.5-pro для критичных задач)
- Массовая обработка, дешёвая классификация → gpt-5.4-mini или gpt-5.4-nano
- Длинные reasoning-задачи → gpt-5.5 с повышенным reasoning effort
- Голосовые агенты в реальном времени → gpt-realtime (или GPT-Realtime-2 для премиума)
- Картинки → gpt-image-2
Что изменилось за последний год
Серия «o» (o1, o3, o4-mini) ушла в архив. o4-mini был убран 13 февраля 2026, o3 снят с фронт-страницы ChatGPT следом. Reasoning теперь встроен прямо в GPT-5.x через параметр reasoning_effort — отдельная «думающая» модель больше не нужна, флагман сам решает, когда копать глубже.
GPT-4o тоже отключён в ChatGPT с 13 февраля 2026. В Realtime API он ещё работает как бэкенд для голоса, но для новых интеграций используйте gpt-realtime.
Ключевые релизы апреля 2026: gpt-5.5 (флагман для кодинга и агентов, выпущен 24 апреля) и gpt-image-2 (генерация изображений с внутренним reasoning).
Текстовые модели: GPT-5.x
gpt-5.5 (флагман)
- Контекст 1M+ токенов: 922K input, 128K output.
- Vision вход, function calling, structured outputs, MCP, web search, file search, image generation, code interpreter, hosted shell, skills, tool search, computer use.
- Снапшот:
gpt-5.5-2026-04-23. - Отличие от 5.4: меньше токенов на ту же задачу, заметно точнее следует длинным инструкциям с деталями.
gpt-5.5-pro
- Та же модель с агрессивным внутренним reasoning. В 6 раз дороже базовой 5.5, но даёт лучшие результаты на сложных одно-промптовых задачах.
- Хорош для финального синтеза, формальной верификации, критичной аналитики, сложных рефакторингов.
gpt-5.4 (предыдущий флагман, в продакшене)
- В 2 раза дешевле 5.5. Хороший выбор там, где 5.5 — overkill.
- Активно поддерживается, не deprecated.
gpt-5.4-mini
- Production-рабочая лошадка для массовых задач: классификация, extraction, переформулировки, выбор из вариантов.
- Лучший баланс цены и качества в линейке.
gpt-5.4-nano
- Первый фильтр в пирамиде моделей. Короткие ответы, быстрый response.
- Подходит для роутеров и предварительной фильтрации. Финальный ответ лучше отдавать модели старше.
gpt-5.4-pro
- pro-версия линейки 5.4 для случаев, где 5.5-pro слишком дорого, но нужна повышенная точность.
gpt-5 (август 2025)
- Контекст 400K. Сохранён в API как стабильная база для проектов, которые уже отладили под него промпты.
Голос и реальное время: Realtime API
gpt-realtime (GA)
Speech-to-speech модель напрямую, без связки STT → LLM → TTS. С момента выхода GA в API добавилось:
- MCP-серверы как удалённые инструменты прямо в голосовой сессии.
- Image input во время разговора.
- Звонки по телефонии через SIP.
- Эмоциональные интонации и прерывания в живом диалоге.
GPT-Realtime-2 (премиум)
Качественная версия для production voice agents. Тарифы: $32/$64 за 1M audio-токенов, $4/$24 за 1M text-токенов.
gpt-realtime-mini
Удешевлённый Realtime для приложений, которым полный тариф слишком дорог. Снапшот gpt-realtime-mini-2025-12-15. Открывает Voice Mode третьим сторонам.
gpt-realtime-translate
Live-перевод речи спикера. $0.034/мин ($0.00057/сек). Для синхронного перевода, а не для диалогов.
gpt-realtime-whisper
Streaming STT для realtime-сценариев, когда нужна транскрибация налету без полного speech-to-speech цикла.
Изображения
gpt-image-2 (флагман, апрель 2026)
Главное новшество — встроенный reasoning в процесс генерации. Заметные улучшения:
- Рендеринг текста внутри картинки (кнопки, UI, надписи, многоязычные подписи).
- Соблюдение сложных многослойных промптов.
- Осмысленные многопанельные композиции: комиксы, брошюры, маркетинговые лайауты.
Доступен в /v1/images/generations и /v1/images/edits.
gpt-image-1.5
Вышел 16 декабря 2025. Раскатан как «ChatGPT Images» для всех пользователей и одновременно в API. На 20% дешевле gpt-image-1 на input/output, генерация до 4x быстрее. Подходит, если gpt-image-2 избыточен по цене.
ChatGPT Images 2.0
Продукт в ChatGPT, не отдельная модель в API. Использует gpt-image-2 под капотом с продуктовой обвязкой и UX. Если вы интегрируете генерацию в свой продукт — обращайтесь к gpt-image-2 напрямую через API.
DALL·E 2 / 3
Легаси. Variations endpoint поддерживается только в DALL·E 2. Для новых интеграций брать не стоит.
Транскрипция и аудио
| Модель | Когда брать |
| Whisper | Batch-транскрибация, экономия, хорошее базовое качество |
| gpt-4o-transcribe | Шумные записи, акценты, сложные доменные термины |
| gpt-4o-mini-transcribe | Массовая транскрибация с экономией |
| gpt-realtime-whisper | Streaming STT в реальном времени |
| gpt-4o-mini-tts | Синтез речи, снапшот 2025-12-15 повысил стабильность голоса |
Эмбеддинги
- text-embedding-3-large — рабочий выбор для RAG, семантического поиска, классификации.
- text-embedding-3-small — дешёвая версия для массовых задач, где премиум-качество не нужно.
- Размерность эмбеддингов можно усекать через параметр
dimensions— компромисс между качеством и стоимостью хранения.
Подключение по API
Два основных интерфейса для языковых моделей:
- Responses API (
/v1/responses) — текущий стандарт. Все 5.x модели работают здесь. Поддерживает stateful-режим, snapshots, hosted tools, MCP, skills. - Chat Completions API (
/v1/chat/completions) — классический интерфейс. Поддерживается, но новые фичи приходят сначала в Responses.
Отдельные эндпоинты:
/v1/realtime— голос, стриминг, SIP, MCP./v1/images/generations,/v1/images/edits— изображения./v1/audio/transcriptions,/v1/audio/translations— STT и перевод./v1/audio/speech— TTS./v1/embeddings— векторы./v1/batch— оффлайн-задачи со скидкой 50%./v1/moderations— модерация контента.
SDK: официальные библиотеки Python и JavaScript. Для агентных пайплайнов — Agents SDK (openai-agents-python и TS-аналог) с контролем состояния, инструментами и retry-логикой.
Тарифы (актуально на июнь 2026)
Цены за 1M токенов в Standard tier.
| Модель | Input |
| gpt-5.5 | $5.00 |
| gpt-5.5-pro | $30.00 |
| gpt-5.4 | $2.50 |
| gpt-5.4-mini | $0.75 |
| gpt-5.4-nano | $0.20 |
| gpt-5 | $1.25 |
| GPT-Realtime-2 (audio) | $32.00 |
| GPT-Realtime-2 (text) | $4.00 |
| gpt-image-2 | Текст $5/1M input, картинка $10/1M input, выходные изображения по тарифу токенов вывода |
| text-embedding-3-large | $0.13/1M input |
| text-embedding-3-small | $0.02/1M input |
Дополнительные режимы тарификации:
- Batch — скидка 50%, выполнение до 24 часов.
- Flex — приоритет ниже стандартного по сниженной цене. Подходит для долгоиграющих агентов без жёсткого SLA.
- Priority — 2.5x от стандарта, наоборот, повышенный приоритет.
- Data residency — +10% к ценам моделей, выпущенных после 5 марта 2026, при использовании региональных endpoint'ов.
Кэшированный input стоит в 10 раз меньше обычного. На длинных стабильных системных промптах это даёт до 90% экономии на входной части счёта.
Выбор модели под задачу
| Сценарий | Модель первого выбора | Когда брать дороже / дешевле |
| Codex CLI / Desktop, кодинг-агенты | gpt-5.5 | gpt-5.5-pro для критичных рефакторингов |
| Длинные агентные сессии с инструментами | gpt-5.5 | gpt-5.4 если задача попроще |
| Массовая классификация и extraction | gpt-5.4-mini | nano для роутеров |
| Дешёвый первый фильтр / роутер | gpt-5.4-nano | — |
| Math и формальные рассуждения | gpt-5.5 с reasoning_effort=high | gpt-5.5-pro для критичной точности |
| Multi-step planning с проверками | gpt-5.5 | 5.5-pro на финальной верификации |
| Голосовые агенты в продакшене | gpt-realtime или GPT-Realtime-2 | gpt-realtime-mini для бюджета |
| Live-перевод речи | gpt-realtime-translate | — |
| Batch-транскрибация | Whisper | gpt-4o-transcribe для шумных записей |
| Streaming STT | gpt-realtime-whisper | — |
| Семантический поиск, RAG | text-embedding-3-large | 3-small для массовых задач |
| Обложки и иллюстрации | gpt-image-2 | gpt-image-1.5 при ограниченном бюджете |
Принципы работы с API
Structured outputs
Используйте JSON Schema для production-вызовов. Это формальная схема, которой модель гарантированно следует. Структурные ошибки исчезают как класс, в отличие от просьбы «верни JSON» в системном промпте.
Function calling и tools
Function calling — стандарт для вызова внешних инструментов. В Responses API доступны hosted tools: web search, file search, code interpreter, image generation, hosted shell, MCP. Через MCP подключайте внешние системы без кастом-адаптеров.
Streaming
Для UX живого чата. Также экономит память на длинных ответах.
Prompt caching
Системные промпты кэшируются автоматически от 1K токенов. Cached input стоит 10% от обычного. Для агентов с большим system prompt это даёт прямую экономию 60–80% от общего счёта.
Snapshots
Каждая модель имеет дата-конкретные снапшоты, например gpt-5.5-2026-04-23. Закрепляйте снапшот в production: алиас без даты обновляется без предупреждения, и поведение может поменяться. Сломанные evals — частая причина дорогих ночных аварий.
Reasoning effort
Параметр для gpt-5.5: low, medium, high. Высокий уровень тратит больше внутренних токенов и даёт лучшие результаты на сложных задачах. По умолчанию medium — на простых запросах это уже избыточно.
Verbosity и стиль ответа
GPT-5.5 поддерживает параметр verbosity для управления длиной ответа. Используйте low для агентных пайплайнов, где важна сжатость, и high для аналитических текстов.
Экономия: что реально работает
- Пирамида моделей. Ranking и filtering — nano или mini, итоговый синтез — 5.5. На массовых пайплайнах это даёт экономию в 10–50x.
- Кэш системных промптов. 50K токенов в кэше стоят 10% от обычной цены.
- Batch для оффлайн-задач. Ночные пересчёты, evals, бэкфилл — это batch. Минус 50%.
- Flex tier для не-критичных задач — дополнительная скидка.
- reasoning_effort=low там, где не нужна глубина.
- Snapshot pinning. Закреплённые версии = стабильное качество = экономия на переделках evals.
- Усечение размерности эмбеддингов через параметр
dimensionsдля экономии на storage и индексах. - Раздельный мониторинг. Метрика «расход по модели и эндпоинту» — обязательна. Без неё первый кризис стоимости вы увидите только в инвойсе.
Интеграция в рабочий стек
- Codex CLI / Codex Desktop — работают поверх gpt-5.5 по умолчанию. Для read-only режима подключайте 5.4-mini, чтобы не платить премиум за просмотр.
- Claude Code и совместимые клиенты — большинство поддерживают OpenAI API через base URL override. Подключаются напрямую.
- Собственные агенты — Agents SDK (Python/JS), LangGraph, CrewAI, Inngest. Для production выбирайте фреймворк с контролем состояния и retry-логикой.
- MCP-серверы — де-факто стандарт для подключения инструментов. Поддерживаются в Responses API и Realtime API напрямую, без отдельных адаптеров.
- Доступ из России. Платёж картой — основная боль. Используйте сервисы с приёмом российских карт (ProxyAPI, Vsegpt, AI/ML API, OpenRouter) или корпоративные карты через провайдеров. Сам API доступен через VPN или те же агрегаторы.
Антипаттерны
- ❌ Брать gpt-5.5-pro на всё подряд. В 6 раз дороже базовой 5.5, медленнее. Нужен только там, где цена ошибки выше цены вызова.
- ❌ «Подумай шаг за шагом» в промпте к gpt-5.5. Модель сама решает, как рассуждать. Принудительный chain-of-thought тратит токены и иногда ухудшает качество.
- ❌ Слабые system prompts. Размытое описание роли выдаёт слабый результат. Outcome-first формулировки и явные ограничения работают лучше.
- ❌ Chat Completions для нового проекта. Новые фичи приходят в Responses API первыми. Стартуйте сразу с Responses.
- ❌ JSON «по просьбе» в промпте. Сломается при первом edge-case. Используйте structured outputs со схемой.
- ❌ Игнор snapshot pinning. Алиас без даты однажды обновится и сломает evals в ночь на понедельник.
- ❌ GPT-Realtime для текстовых задач. Realtime тарифицируется по audio-токенам — в 6–10 раз дороже текстовых моделей при той же задаче.
- ❌ Игнор кэша и batch. Счёт за месяц будет в разы выше возможного.
- ❌ Один общий API key на команду без лимитов. Минимум — отдельные проекты с rate limits, чтобы один баг не съел месячный бюджет.
Чеклист выбора и настройки
Полезные ссылки
- OpenAI Platform: platform.openai.com
- Документация моделей: platform.openai.com/docs/models
- Цены: openai.com/api/pricing
- Realtime API: platform.openai.com/docs/guides/realtime
- Image API: platform.openai.com/docs/guides/images
- Agents SDK (Python): github.com/openai/openai-agents-python
- Cookbook с примерами: cookbook.openai.com
- Статус сервиса: status.openai.com
- Релизы моделей: help.openai.com/en/articles/9624314-model-release-notes
По теме
Если собираете продакшен-пирамиду моделей под свой кейс или выбираете между OpenAI и альтернативами — пишите в Telegram @pimenov