Gemini Embedding 2 вышел — и мультимодальный поиск стал на шаг ближе к продакшену

Google перевёл Gemini Embedding 2 из превью в GA. Теперь текст, картинки, видео и аудио живут в одном векторном пространстве — и это можно использовать в продакшене.

ИИ-агентыИнструменты

Google перевёл Gemini Embedding 2 из публичного превью в general availability. Если вы не следите за embedding-моделями — сейчас объясню, почему это событие стоит внимания.

Так что конкретно произошло

Gemini Embedding 2 — это первая нативно мультимодальная embedding-модель от Google. Она превращает в векторы не только текст, но и картинки, видео, аудио и PDF-документы. Причём всё это укладывается в единое векторное пространство.

Раньше, если нужно было искать по разным типам контента, приходилось собирать конвейер из нескольких моделей: одна для текста, другая для изображений, третья для аудио. И потом как-то выравнивать их пространства между собой. Gemini Embedding 2 делает это из коробки — одна модель, одно пространство, один API-вызов.

Чем это отличается от предыдущих подходов

Модель построена поверх архитектуры Gemini и понимает контекст между модальностями на уровне промежуточных слоёв трансформера — а не просто склеивает отдельные энкодеры в конце, как делали CLIP и его последователи. Это принципиальная разница: cross-modal связи формируются глубже, и итоговые эмбеддинги получаются семантически богаче.

Технические параметры:

  • До 8 192 входных токенов для текста (четырёхкратный рост по сравнению с предыдущей моделью)
  • До 6 изображений за один запрос
  • Видео до 120 секунд
  • Аудио — нативная обработка, без промежуточной транскрипции
  • PDF до 6 страниц
  • Выходная размерность — до 3 072, с гибкой настройкой (128, 768, 1 536, 3 072)

Доступна через Gemini API и Vertex AI.

А что это даёт на практике

Представьте: у вас база с тысячами товаров — фотографии, описания, видеообзоры. Раньше для мультимодального поиска нужно было городить сложную инфраструктуру. Теперь можно проиндексировать всё одной моделью и искать по любому типу запроса: текстом по картинкам, картинкой по видео, аудиозапросом по документам.

Paramount Skydance уже использует модель для поиска по видеоархивам и получает 85% точности при поиске видео по текстовому запросу. Everlaw применяет её в юридическом discovery для работы с миллионами записей, включая изображения и видео.

Для тех, кто строит RAG-системы, это тоже хорошая новость: теперь можно индексировать не только текстовые чанки, но и визуальный контент — графики, схемы, скриншоты — без потери семантики.

Пара нюансов

Модель пока доступна как gemini-embedding-2 (ранее gemini-embedding-2-preview). Цена на OpenRouter — $0.20 за миллион токенов, что вполне конкурентоспособно. Но если вам нужен полностью self-hosted вариант — стоит присмотреться к BAAI/bge-m3 как к мультиязычной альтернативе для локального развёртывания.

В целом, переход в GA — это сигнал: мультимодальные эмбеддинги перестали быть экспериментом. Для продакшен-систем, где нужен поиск по разнородному контенту, это уже рабочий инструмент.

По теме

Если вы строите поисковую или рекомендательную систему и задумываетесь о мультимодальности — сейчас подходящий момент попробовать. Давайте обсудим, как это можно встроить в ваш проект.