База знаний

Seedance 2.0 — мультимодальная генерация видео от ByteDance

Мультимодальная модель генерации видео от ByteDance: текст, изображения, аудио и видео на входе, кинематографичный клип с синхронным звуком на выходе. API, платформы доступа, тарифы.

Опубликовано Обновлено

Модель генерации видео от ByteDance, которая принимает на вход текст, изображения, аудио и видеоклипы одновременно — и выдаёт кинематографичное видео с синхронным звуком. Первое место на Artificial Analysis с ELO 1 273 для text-to-video.


Что это такое

Seedance 2.0 — видеомодель ByteDance, выпущенная в феврале 2026 года. Построена на архитектуре unified multimodal audio-video joint generation: звук и видео генерируются в одном проходе, а не накладываются друг на друга постфактум.

Ключевая фишка — мультимодальный вход. Модель принимает до 12 файлов одновременно: 9 изображений, 3 видеоклипа и 3 аудиофайла. Каждый файл помечается через @-ссылку, и вы указываете его роль: одно изображение задаёт начальный кадр, другое определяет внешность персонажа, видеоклип задаёт движение камеры, аудиотрек синхронизирует визуал с ритмом.

💡
Dual-branch diffusion transformer — архитектура Seedance 2.0 разделяет идентичность (как выглядят объекты) и движение (как они двигаются) на две независимые ветки. Благодаря этому лицо персонажа остаётся консистентным даже в сложных динамичных сценах.

Основные возможности

ВозможностьОписание
Мультимодальный входДо 12 файлов: 9 изображений + 3 видео (≤15 сек суммарно) + 3 аудио (MP3, ≤15 сек)
@-ссылкиСистема тегирования входных файлов: @Image для визуального стиля, @Video для движения камеры, @Audio для ритма и звука
Audio-video joint generationLip sync, звуковые эффекты и фоновая музыка генерируются вместе с видео. Lip sync на фонемном уровне для 8+ языков
Консистентность персонажейСтабильная внешность лиц, одежды, текста и сцен между кадрами и шотами
Разрешение до 1080pПоддержка аспектов 16:9, 9:16, 4:3, 3:4, 21:9, 1:1
Длительность 4–15 секундПродление сцен с сохранением консистентности персонажей и окружения
Два режимаStandard (максимальное качество) и Fast (быстрые итерации)
Мультиязычный lip syncАнглийский, китайский, японский, корейский, испанский, французский, немецкий, португальский

Платформы доступа и API

Официальные платформы ByteDance

  • Jimeng (即梦) — китайская платформа. Бесплатный тир с 260 ежедневными кредитами (не накапливаются). Платная подписка от 69 юаней/мес (~900 ₽). Интерфейс на китайском, оплата через Alipay/WeChat Pay.
  • Dreamina — международная версия Jimeng. Английский интерфейс, подписка $18–84/мес (~1 800–8 400 ₽). Запущена в феврале 2026.

Сторонние платформы

ПлатформаОсобенностиПримерная стоимость
HiggsfieldПолный набор функций Seedance 2.0, сообщество 22M+ пользователейПо кредитам
Artlist AIStandard и Fast режимы, интеграция с библиотекой ArtlistВ рамках подписки Artlist
fal.aiAPI-доступ, image-to-video и text-to-video эндпоинтыPay-per-use
WaveSpeed APIAPI для разработчиков~$0.60/клип (~60 ₽)

API-интеграция

Официальный API доступен через ByteDance Seed. Сторонние провайдеры (fal.ai, WaveSpeed) предоставляют REST API с простой интеграцией:

curl -X POST https://api.wavespeed.ai/v1/seedance \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "prompt": "A woman walks through a sunlit forest, golden hour lighting, cinematic camera tracking shot",
    "resolution": "1080p",
    "duration": 5
  }'
📌
@-ссылки в API: при работе через API входные файлы передаются как массив с указанием роли каждого файла. Текстовый промпт ссылается на них через @Image1, @Video1, @Audio1.

Тарифы и лимиты

Кредитная система (official)

МодельРазрешениеКредитов/сек5 сек клип
Seedance 2.0480p630 кредитов
Seedance 2.0720p1260 кредитов
Seedance 2.01080p30150 кредитов
Seedance 2.0 Fast480p525 кредитов
Seedance 2.0 Fast720p1050 кредитов
⚖️
Бесплатный тир: на Jimeng — 260 кредитов/день (не копятся). На Dreamina — бесплатные кредиты для новых аккаунтов (~800 секунд генерации). Водяной знак на бесплатном тире.

Ограничения

  • Максимальная длительность одной генерации: 15 секунд
  • Суммарная длительность входных видео: ≤15 секунд
  • Суммарная длительность входных аудио: ≤15 секунд
  • Количество входных файлов: до 12 (9 изображений + 3 видео + 3 аудио)

Практические сценарии

Короткие ролики для соцсетей

Сгенерировать 9:16 вертикальный клип 10–15 секунд для Reels / Shorts / TikTok. Загрузить фото продукта как @Image (начальный кадр) + аудиотрек как @Audio (синхронизация ритма). Результат: видеоролик без съёмки, монтажа и стоковых подписок.

B-roll для статей и презентаций

Текстовый промпт с описанием сцены → 5-секундный атмосферный клип в 1080p. Заменяет покупку стокового видео и найм видеографа для коротких вставок.

Прототипирование рекламных креативов

Загрузить 2–3 изображения продукта + референсный видеоклип с нужным движением камеры → получить черновой рекламный ролик за минуты. Десятки вариаций из одного набора входных файлов.

Озвучка и lip sync

Загрузить фото или видео говорящего человека + аудиозапись голоса → получить видео с синхронизированным движением губ. Работает на 8+ языках без дообучения.


Сравнение с альтернативами

ПараметрSeedance 2.0Sora 2Kling 3.0Veo 3.1
Мультимодальный входТекст + 9 изображений + 3 видео + 3 аудиоТекст + изображениеТекст + изображение + видеоТекст + изображение
Audio-video joint generationДаНетНетДа
Макс. длительность15 сек25 сек15 сек (6 шотов)25 сек
Макс. разрешение1080p1080p1080p4K
Lip syncФонемный, 8+ языковНетБазовыйДа
Self-hostedНетНетНетНет

Ссылки


По теме

Если вы запускаете производство контента с генеративным видео или хотите разобраться, как встроить Seedance в свой пайплайн — пишите в Telegram @pimenov