Открытый инструмент для извлечения и суммаризации контента из URL, YouTube, подкастов, PDF и локальных файлов — через терминал или боковую панель браузера.
Gemini Embedding 2 вышел — и мультимодальный поиск стал на шаг ближе к продакшену
Google перевёл Gemini Embedding 2 из превью в GA. Теперь текст, картинки, видео и аудио живут в одном векторном пространстве — и это можно использовать в продакшене.
Google перевёл Gemini Embedding 2 из публичного превью в general availability. Если вы не следите за embedding-моделями — сейчас объясню, почему это событие стоит внимания.
Так что конкретно произошло
Gemini Embedding 2 — это первая нативно мультимодальная embedding-модель от Google. Она превращает в векторы не только текст, но и картинки, видео, аудио и PDF-документы. Причём всё это укладывается в единое векторное пространство.
Раньше, если нужно было искать по разным типам контента, приходилось собирать конвейер из нескольких моделей: одна для текста, другая для изображений, третья для аудио. И потом как-то выравнивать их пространства между собой. Gemini Embedding 2 делает это из коробки — одна модель, одно пространство, один API-вызов.
Чем это отличается от предыдущих подходов
Модель построена поверх архитектуры Gemini и понимает контекст между модальностями на уровне промежуточных слоёв трансформера — а не просто склеивает отдельные энкодеры в конце, как делали CLIP и его последователи. Это принципиальная разница: cross-modal связи формируются глубже, и итоговые эмбеддинги получаются семантически богаче.
Технические параметры:
- До 8 192 входных токенов для текста (четырёхкратный рост по сравнению с предыдущей моделью)
- До 6 изображений за один запрос
- Видео до 120 секунд
- Аудио — нативная обработка, без промежуточной транскрипции
- PDF до 6 страниц
- Выходная размерность — до 3 072, с гибкой настройкой (128, 768, 1 536, 3 072)
Доступна через Gemini API и Vertex AI.
А что это даёт на практике
Представьте: у вас база с тысячами товаров — фотографии, описания, видеообзоры. Раньше для мультимодального поиска нужно было городить сложную инфраструктуру. Теперь можно проиндексировать всё одной моделью и искать по любому типу запроса: текстом по картинкам, картинкой по видео, аудиозапросом по документам.
Paramount Skydance уже использует модель для поиска по видеоархивам и получает 85% точности при поиске видео по текстовому запросу. Everlaw применяет её в юридическом discovery для работы с миллионами записей, включая изображения и видео.
Для тех, кто строит RAG-системы, это тоже хорошая новость: теперь можно индексировать не только текстовые чанки, но и визуальный контент — графики, схемы, скриншоты — без потери семантики.
Пара нюансов
Модель пока доступна как gemini-embedding-2 (ранее gemini-embedding-2-preview). Цена на OpenRouter — $0.20 за миллион токенов, что вполне конкурентоспособно. Но если вам нужен полностью self-hosted вариант — стоит присмотреться к BAAI/bge-m3 как к мультиязычной альтернативе для локального развёртывания.
В целом, переход в GA — это сигнал: мультимодальные эмбеддинги перестали быть экспериментом. Для продакшен-систем, где нужен поиск по разнородному контенту, это уже рабочий инструмент.
По теме
- Статья: Карпати перестал кодить и начал «компилировать знания» — разбираю его систему LLM Knowledge Bases
- Блог: Kimi K2.6 — опенсорсная модель, которая кодит 12 часов подряд и не теряет нить
- База знаний: BAAI/bge-m3 — мультиязычная embedding-модель для self-hosted RAG
Если вы строите поисковую или рекомендательную систему и задумываетесь о мультимодальности — сейчас подходящий момент попробовать. Давайте обсудим, как это можно встроить в ваш проект.