База знаний

Gemini (Google) — линейка моделей и API

Справочник по экосистеме Google Gemini: актуальные модели, API и SDK, Gemini Live, мультимодальные возможности, региональные ограничения и сравнение с GPT и Claude.

Опубликовано

Google Gemini — это семейство мультимодальных моделей от Google DeepMind, которое лежит в основе большинства AI-продуктов Google: от приложения Gemini и Google AI Studio до Vertex AI и встроенных функций Android.

В этом справочнике — актуальная линейка моделей, способы доступа через API, возможности Gemini Live и ключевые отличия от конкурентов.


Актуальная линейка моделей

На апрель 2026 года Google предлагает несколько поколений моделей одновременно. Вот ключевые.

Gemini 3.1 Pro Preview

Флагманская модель для сложных задач. Контекстное окно — 1 млн токенов. Улучшенная работа с агентными сценариями и автономным кодингом. Поддерживает мультимодальный ввод: текст, изображения, аудио, видео.

Когда использовать: сложный анализ, многошаговые рассуждения, работа с большими документами, агентные задачи.

Gemini 3 Flash

Самая мощная модель в линейке Flash — баланс между интеллектом и скоростью. По качеству рассуждений приближается к уровню Pro, но работает значительно быстрее и дешевле. Поддерживает режим «near-zero thinking» для мгновенных ответов.

Когда использовать: повседневные задачи, где нужен хороший интеллект без задержек. Основная рабочая лошадка для большинства сценариев.

Gemini 3.1 Flash-Lite Preview

Самая экономичная модель в линейке. Оптимизирована под высокую нагрузку и низкую задержку. Улучшенное качество распознавания речи (ASR).

Когда использовать: массовые запросы, чат-боты, задачи, где критична стоимость и скорость, а не максимальная глубина рассуждений.

Gemini 2.5 Pro / Flash

Модели предыдущего поколения, которые всё ещё доступны. Gemini 2.5 Pro долгое время лидировал в LMArena Elo-рейтинге. Gemini 2.5 Flash — «модель по умолчанию» в приложении Gemini с поддержкой Deep Think.

Когда использовать: если вы привязаны к конкретной версии или нужна совместимость с существующим кодом.


Аудиомодели и Gemini Live

Gemini 3.1 Flash Live Preview

Модель для диалога в реальном времени — audio-to-audio (A2A). Низкая задержка, двусторонняя передача голоса. Это первая модель Google, заточенная именно под голосовой ввод и вывод без промежуточного перевода в текст.

Gemini 2.5 Flash Live Preview

Флагманская модель Live API для двунаправленных голосовых и видео-агентов с нативным аудио-рассуждением.

Gemini 2.5 Flash TTS Preview

Модель для синтеза речи (text-to-speech). Быстрая и управляемая генерация голоса для приложений с низкой задержкой.

Что такое Gemini Live

Gemini Live — это режим голосового взаимодействия с Gemini в реальном времени. Доступен в мобильном приложении Gemini на 45+ языках в 150+ странах.

Возможности:

  • Голосовой диалог с естественной интонацией
  • Обсуждение того, что видит камера телефона (Live с видео)
  • Демонстрация экрана с комментариями в реальном времени
  • Прерывание модели голосом в любой момент

API и SDK

Gemini API (Google AI Studio)

Google AI Studio — бесплатный веб-интерфейс для экспериментов с моделями Gemini. Здесь же можно получить API-ключ и сразу начать работу.

Базовый вызов через REST:

curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H 'Content-Type: application/json' \
  -X POST \
  -d '{"contents": [{"parts": [{"text": "Explain how AI works"}]}]}'

SDK: официальные библиотеки для Python, JavaScript/TypeScript, Go, Swift, Dart. Установка для Python:

pip install google-genai

Vertex AI

Vertex AI — enterprise-платформа Google Cloud для работы с Gemini. Отличия от Google AI Studio:

  • Корпоративный SLA и безопасность
  • Provisioned Throughput (гарантированная пропускная способность)
  • Batch prediction
  • Интеграция с остальными сервисами Google Cloud

Live API

Live API — отдельный API для потокового взаимодействия с моделями в реальном времени. Поддерживает непрерывные потоки аудио, изображений и текста с мгновенными ответами.


Мультимодальность

Все модели Gemini 3.x нативно мультимодальны:

  • Текст — генерация, анализ, перевод, суммаризация
  • Изображения — понимание, описание, генерация (Gemini 2.5 Flash Image)
  • Аудио — распознавание речи, анализ звука, генерация голоса
  • Видео — анализ видеопотока, описание сцен, ответы на вопросы по видео
  • Код — генерация, ревью, дебаг, автономный кодинг

Контекстное окно до 1 млн токенов позволяет загружать большие документы, длинные видео и аудиозаписи целиком.


Региональные ограничения

Веб-приложение Gemini доступно в 230+ странах на 70+ языках. Мобильное приложение и Gemini Live — в 150+ странах.

Однако есть нюансы:

  • Google AI Studio и Gemini APIдоступны не во всех регионах. Россия не входит в список поддерживаемых стран для API
  • Vertex AI — привязан к регионам Google Cloud
  • Gemini Live на десктопе — пока ограничен по географии (преимущественно США)
  • При использовании VPN возможны блокировки аккаунта при резкой смене геолокации

Тарифы и лимиты

  • Бесплатный доступ: приложение Gemini с ограничениями по количеству запросов (Gemini 2.5 Pro — до 10 запросов в день)
  • Google AI Pro ($19.99/мес): расширенные лимиты, приоритетный доступ к новым функциям, генерация изображений до 100/день
  • Google AI Ultra ($249.99/мес): ещё больше лимитов, 2 ТБ хранилища, приоритетный доступ
  • Gemini API (бесплатный tier): есть бесплатный уровень с ограничениями по RPM
  • Gemini API (платный): pay-as-you-go, цены зависят от модели

Сравнение с GPT и Claude

ПараметрGemini 3.1 ProGPT-5.4 (OpenAI)Claude Opus 4.6 (Anthropic)
Контекст1 млн токенов400K токенов1 млн токенов
МультимодальностьТекст, изображения, аудио, видеоТекст, изображения, аудиоТекст, изображения
Голосовой режимGemini Live (A2A)Voice ModeНет нативного
Сильные стороныСкорость, мультимодальность, контекстУниверсальность, экосистемаКачество текста, рассуждения, код
Слабые стороныРегиональные ограничения APIМеньше контекстНет нативного голоса и видео

В бенчмарках ситуация примерно такая: Gemini лидирует по скорости и мультимодальности, Claude — по качеству текста и кода, GPT — по ширине экосистемы и универсальности. «Лучшей модели» не существует — выбор зависит от задачи.


Полезные ссылки


По теме

Если вы выбираете модель для своего проекта или хотите разобраться, как встроить Gemini API в рабочий процесс — давайте обсудим.