База знаний
Gemini (Google) — линейка моделей и API
Справочник по экосистеме Google Gemini: актуальные модели, API и SDK, Gemini Live, мультимодальные возможности, региональные ограничения и сравнение с GPT и Claude.
Google Gemini — это семейство мультимодальных моделей от Google DeepMind, которое лежит в основе большинства AI-продуктов Google: от приложения Gemini и Google AI Studio до Vertex AI и встроенных функций Android.
В этом справочнике — актуальная линейка моделей, способы доступа через API, возможности Gemini Live и ключевые отличия от конкурентов.
Актуальная линейка моделей
На апрель 2026 года Google предлагает несколько поколений моделей одновременно. Вот ключевые.
Gemini 3.1 Pro Preview
Флагманская модель для сложных задач. Контекстное окно — 1 млн токенов. Улучшенная работа с агентными сценариями и автономным кодингом. Поддерживает мультимодальный ввод: текст, изображения, аудио, видео.
Когда использовать: сложный анализ, многошаговые рассуждения, работа с большими документами, агентные задачи.
Gemini 3 Flash
Самая мощная модель в линейке Flash — баланс между интеллектом и скоростью. По качеству рассуждений приближается к уровню Pro, но работает значительно быстрее и дешевле. Поддерживает режим «near-zero thinking» для мгновенных ответов.
Когда использовать: повседневные задачи, где нужен хороший интеллект без задержек. Основная рабочая лошадка для большинства сценариев.
Gemini 3.1 Flash-Lite Preview
Самая экономичная модель в линейке. Оптимизирована под высокую нагрузку и низкую задержку. Улучшенное качество распознавания речи (ASR).
Когда использовать: массовые запросы, чат-боты, задачи, где критична стоимость и скорость, а не максимальная глубина рассуждений.
Gemini 2.5 Pro / Flash
Модели предыдущего поколения, которые всё ещё доступны. Gemini 2.5 Pro долгое время лидировал в LMArena Elo-рейтинге. Gemini 2.5 Flash — «модель по умолчанию» в приложении Gemini с поддержкой Deep Think.
Когда использовать: если вы привязаны к конкретной версии или нужна совместимость с существующим кодом.
Аудиомодели и Gemini Live
Gemini 3.1 Flash Live Preview
Модель для диалога в реальном времени — audio-to-audio (A2A). Низкая задержка, двусторонняя передача голоса. Это первая модель Google, заточенная именно под голосовой ввод и вывод без промежуточного перевода в текст.
Gemini 2.5 Flash Live Preview
Флагманская модель Live API для двунаправленных голосовых и видео-агентов с нативным аудио-рассуждением.
Gemini 2.5 Flash TTS Preview
Модель для синтеза речи (text-to-speech). Быстрая и управляемая генерация голоса для приложений с низкой задержкой.
Что такое Gemini Live
Gemini Live — это режим голосового взаимодействия с Gemini в реальном времени. Доступен в мобильном приложении Gemini на 45+ языках в 150+ странах.
Возможности:
- Голосовой диалог с естественной интонацией
- Обсуждение того, что видит камера телефона (Live с видео)
- Демонстрация экрана с комментариями в реальном времени
- Прерывание модели голосом в любой момент
API и SDK
Gemini API (Google AI Studio)
Google AI Studio — бесплатный веб-интерфейс для экспериментов с моделями Gemini. Здесь же можно получить API-ключ и сразу начать работу.
Базовый вызов через REST:
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
-X POST \
-d '{"contents": [{"parts": [{"text": "Explain how AI works"}]}]}'SDK: официальные библиотеки для Python, JavaScript/TypeScript, Go, Swift, Dart. Установка для Python:
pip install google-genaiVertex AI
Vertex AI — enterprise-платформа Google Cloud для работы с Gemini. Отличия от Google AI Studio:
- Корпоративный SLA и безопасность
- Provisioned Throughput (гарантированная пропускная способность)
- Batch prediction
- Интеграция с остальными сервисами Google Cloud
Live API
Live API — отдельный API для потокового взаимодействия с моделями в реальном времени. Поддерживает непрерывные потоки аудио, изображений и текста с мгновенными ответами.
Мультимодальность
Все модели Gemini 3.x нативно мультимодальны:
- Текст — генерация, анализ, перевод, суммаризация
- Изображения — понимание, описание, генерация (Gemini 2.5 Flash Image)
- Аудио — распознавание речи, анализ звука, генерация голоса
- Видео — анализ видеопотока, описание сцен, ответы на вопросы по видео
- Код — генерация, ревью, дебаг, автономный кодинг
Контекстное окно до 1 млн токенов позволяет загружать большие документы, длинные видео и аудиозаписи целиком.
Региональные ограничения
Веб-приложение Gemini доступно в 230+ странах на 70+ языках. Мобильное приложение и Gemini Live — в 150+ странах.
Однако есть нюансы:
- Google AI Studio и Gemini API — доступны не во всех регионах. Россия не входит в список поддерживаемых стран для API
- Vertex AI — привязан к регионам Google Cloud
- Gemini Live на десктопе — пока ограничен по географии (преимущественно США)
- При использовании VPN возможны блокировки аккаунта при резкой смене геолокации
Тарифы и лимиты
- Бесплатный доступ: приложение Gemini с ограничениями по количеству запросов (Gemini 2.5 Pro — до 10 запросов в день)
- Google AI Pro ($19.99/мес): расширенные лимиты, приоритетный доступ к новым функциям, генерация изображений до 100/день
- Google AI Ultra ($249.99/мес): ещё больше лимитов, 2 ТБ хранилища, приоритетный доступ
- Gemini API (бесплатный tier): есть бесплатный уровень с ограничениями по RPM
- Gemini API (платный): pay-as-you-go, цены зависят от модели
Сравнение с GPT и Claude
| Параметр | Gemini 3.1 Pro | GPT-5.4 (OpenAI) | Claude Opus 4.6 (Anthropic) |
| Контекст | 1 млн токенов | 400K токенов | 1 млн токенов |
| Мультимодальность | Текст, изображения, аудио, видео | Текст, изображения, аудио | Текст, изображения |
| Голосовой режим | Gemini Live (A2A) | Voice Mode | Нет нативного |
| Сильные стороны | Скорость, мультимодальность, контекст | Универсальность, экосистема | Качество текста, рассуждения, код |
| Слабые стороны | Региональные ограничения API | Меньше контекст | Нет нативного голоса и видео |
В бенчмарках ситуация примерно такая: Gemini лидирует по скорости и мультимодальности, Claude — по качеству текста и кода, GPT — по ширине экосистемы и универсальности. «Лучшей модели» не существует — выбор зависит от задачи.
Полезные ссылки
- Gemini API — документация
- Google AI Studio
- Vertex AI — модели Gemini
- Gemini Live API
- Доступные регионы
- Gemini Live — обзор
По теме
- Статья: ИИ-трансформация начинается с головы CEO — а не с отдела разработки
- Блог: Google запустил Gemini 3.1 Flash Live — и это первый серьёзный шаг к голосовым ИИ-агентам в реальном времени
- База знаний: Parallel — высокоточный поисковый API для AI-агентов
Если вы выбираете модель для своего проекта или хотите разобраться, как встроить Gemini API в рабочий процесс — давайте обсудим.