База знаний

Seedance 2.0 — мультимодальная генерация видео от ByteDance

Мультимодальная модель генерации видео от ByteDance: текст, изображения, аудио и видео на входе, кинематографичный клип с синхронным звуком на выходе. API, платформы доступа, тарифы.

Опубликовано 18.05.2026 Обновлено 19.05.2026

ИИ-агенты API и данные

Модель генерации видео от ByteDance, которая принимает на вход текст, изображения, аудио и видеоклипы одновременно — и выдаёт кинематографичное видео с синхронным звуком. Первое место на Artificial Analysis с ELO 1 273 для text-to-video.

Что это такое

Seedance 2.0 — видеомодель ByteDance, выпущенная в феврале 2026 года. Построена на архитектуре unified multimodal audio-video joint generation: звук и видео генерируются в одном проходе, а не накладываются друг на друга постфактум.

Ключевая фишка — мультимодальный вход. Модель принимает до 12 файлов одновременно: 9 изображений, 3 видеоклипа и 3 аудиофайла. Каждый файл помечается через @-ссылку, и вы указываете его роль: одно изображение задаёт начальный кадр, другое определяет внешность персонажа, видеоклип задаёт движение камеры, аудиотрек синхронизирует визуал с ритмом.

💡

Dual-branch diffusion transformer — архитектура Seedance 2.0 разделяет идентичность (как выглядят объекты) и движение (как они двигаются) на две независимые ветки. Благодаря этому лицо персонажа остаётся консистентным даже в сложных динамичных сценах.

Основные возможности

Возможность	Описание
Мультимодальный вход	До 12 файлов: 9 изображений + 3 видео (≤15 сек суммарно) + 3 аудио (MP3, ≤15 сек)
@-ссылки	Система тегирования входных файлов: @Image для визуального стиля, @Video для движения камеры, @Audio для ритма и звука
Audio-video joint generation	Lip sync, звуковые эффекты и фоновая музыка генерируются вместе с видео. Lip sync на фонемном уровне для 8+ языков
Консистентность персонажей	Стабильная внешность лиц, одежды, текста и сцен между кадрами и шотами
Разрешение до 1080p	Поддержка аспектов 16:9, 9:16, 4:3, 3:4, 21:9, 1:1
Длительность 4–15 секунд	Продление сцен с сохранением консистентности персонажей и окружения
Два режима	Standard (максимальное качество) и Fast (быстрые итерации)
Мультиязычный lip sync	Английский, китайский, японский, корейский, испанский, французский, немецкий, португальский

Платформы доступа и API

Официальные платформы ByteDance

Jimeng (即梦) — китайская платформа. Бесплатный тир с 260 ежедневными кредитами (не накапливаются). Платная подписка от 69 юаней/мес (~900 ₽). Интерфейс на китайском, оплата через Alipay/WeChat Pay.
Dreamina — международная версия Jimeng. Английский интерфейс, подписка $18–84/мес (~1 800–8 400 ₽). Запущена в феврале 2026.

Сторонние платформы

Платформа	Особенности	Примерная стоимость
Higgsfield	Полный набор функций Seedance 2.0, сообщество 22M+ пользователей	По кредитам
Artlist AI	Standard и Fast режимы, интеграция с библиотекой Artlist	В рамках подписки Artlist
fal.ai	API-доступ, image-to-video и text-to-video эндпоинты	Pay-per-use
WaveSpeed API	API для разработчиков	~$0.60/клип (~60 ₽)

API-интеграция

Официальный API доступен через ByteDance Seed. Сторонние провайдеры (fal.ai, WaveSpeed) предоставляют REST API с простой интеграцией:

curl -X POST https://api.wavespeed.ai/v1/seedance \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "prompt": "A woman walks through a sunlit forest, golden hour lighting, cinematic camera tracking shot",
    "resolution": "1080p",
    "duration": 5
  }'

📌

@-ссылки в API: при работе через API входные файлы передаются как массив с указанием роли каждого файла. Текстовый промпт ссылается на них через @Image1, @Video1, @Audio1.

Тарифы и лимиты

Кредитная система (official)

Модель	Разрешение	Кредитов/сек	5 сек клип
Seedance 2.0	480p	6	30 кредитов
Seedance 2.0	720p	12	60 кредитов
Seedance 2.0	1080p	30	150 кредитов
Seedance 2.0 Fast	480p	5	25 кредитов
Seedance 2.0 Fast	720p	10	50 кредитов

⚖️

Бесплатный тир: на Jimeng — 260 кредитов/день (не копятся). На Dreamina — бесплатные кредиты для новых аккаунтов (~800 секунд генерации). Водяной знак на бесплатном тире.

Ограничения

Максимальная длительность одной генерации: 15 секунд
Суммарная длительность входных видео: ≤15 секунд
Суммарная длительность входных аудио: ≤15 секунд
Количество входных файлов: до 12 (9 изображений + 3 видео + 3 аудио)

Практические сценарии

Короткие ролики для соцсетей

Сгенерировать 9:16 вертикальный клип 10–15 секунд для Reels / Shorts / TikTok. Загрузить фото продукта как @Image (начальный кадр) + аудиотрек как @Audio (синхронизация ритма). Результат: видеоролик без съёмки, монтажа и стоковых подписок.

B-roll для статей и презентаций

Текстовый промпт с описанием сцены → 5-секундный атмосферный клип в 1080p. Заменяет покупку стокового видео и найм видеографа для коротких вставок.

Прототипирование рекламных креативов

Загрузить 2–3 изображения продукта + референсный видеоклип с нужным движением камеры → получить черновой рекламный ролик за минуты. Десятки вариаций из одного набора входных файлов.

Озвучка и lip sync

Загрузить фото или видео говорящего человека + аудиозапись голоса → получить видео с синхронизированным движением губ. Работает на 8+ языках без дообучения.

Сравнение с альтернативами

Параметр	Seedance 2.0	Sora 2	Kling 3.0	Veo 3.1
Мультимодальный вход	Текст + 9 изображений + 3 видео + 3 аудио	Текст + изображение	Текст + изображение + видео	Текст + изображение
Audio-video joint generation	Да	Нет	Нет	Да
Макс. длительность	15 сек	25 сек	15 сек (6 шотов)	25 сек
Макс. разрешение	1080p	1080p	1080p	4K
Lip sync	Фонемный, 8+ языков	Нет	Базовый	Да
Self-hosted	Нет	Нет	Нет	Нет

Ссылки

Официальная страница: seed.bytedance.com/seedance2_0
Dreamina (международная платформа): dreamina.com
Higgsfield: higgsfield.ai/seedance/2.0
fal.ai API: fal.ai/models/bytedance/seedance-2.0
Тарифы (подробно): seedance2.ai/pricing

По теме

Если вы запускаете производство контента с генеративным видео или хотите разобраться, как встроить Seedance в свой пайплайн — пишите в Telegram @pimenov

Если хотите разобрать свою задачу — напишите мне

Можно прийти с идеей, черновым контекстом или уже живой задачей. Помогу быстро понять, где реальный следующий шаг, а где лишний шум.

Напишите мне в Телеграм Мой Телеграм канал

Обычно хватает 2–3 сообщений, чтобы понять, могу ли я здесь реально помочь и в каком формате лучше двигаться дальше.