Полный гайд по промптингу Seedance 2.0 — камера, свет, движение и 5-слойная структура, которая работает

Перевод подробного руководства по промптингу для Seedance 2.0: 5-слойная структура промпта, полная библиотека ключевых слов камеры, освещения и ограничений, а также готовые промпты для запуска прямо сейчас.

Опубликовано 16.04.2026 Обновлено 19.04.2026

ИИ Практика

Этот материал — не мой. Я нашёл его в X и считаю одним из лучших руководств по промптингу для генерации видео, которые мне попадались. Настолько хорошим, что решил перевести целиком — с сохранением всех промптов в оригинале, потому что именно так их и нужно использовать. В моей компании есть Фабрика контента, где мы делаем высококачественное генеративное видео и этот гайд уже используем в работе.

Если вы работаете с Seedance 2.0 или собираетесь попробовать — это тот самый справочник, который стоит держать открытым во время генерации.

Почему без правильного промптинга ничего не получится

Если вы не знаете специфические техники промптинга для Seedance 2.0, вы будете получать шлак — каждый раз, независимо от того, насколько креативна ваша идея и сколько вы платите за генерацию.

У модели свой собственный язык для камеры, освещения, движения и ограничений. Вбивать обычные текстовые описания в поле промпта — это как говорить по-французски с человеком, который понимает только японский.

Это руководство — полная справка по этому языку: каждое ключевое слово камеры, каждый модификатор освещения, каждое ограничение, которое реально работает, и точная 5-слойная структура, которая превращает одну и ту же генерацию за $0.60 из стокового футажа в видео, на котором останавливается скролл.

Фреймворк собран из сотен генераций, официальной документации Volcengine, каждого стоящего туториала от Higgsfield и Yaroflasher, а также комьюнити-техник, которые подтвердили свою эффективность.

С чем вы на самом деле работаете

Seedance 2.0 — это мультимодальная съёмочная площадка, а не коробка «текст → видео». Разница между этими двумя вещами — как между вбиванием запроса в Google и режиссурой рекламного ролика за $50 000.

За одну генерацию вы можете подать на вход:

До 9 референсных изображений (листы персонажей, мудборды, фото продукта, раскадровки)
До 3 видеоклипов (референс движения камеры, хореография, темп)
До 3 аудиотреков (озвучка, музыка, звуковые эффекты)
Плюс текстовый промпт

Это 12 референсных файлов, обрабатываемых одновременно через dual-branch diffusion transformer, который генерирует видео и аудио за один проход. Не склейка после факта, не два пайплайна, скрученных вместе. Один проход — синхронизированное видео с двухканальным стерео, синхронизация губ на 8+ языках (английский, мандаринский, японский, корейский, испанский, французский, немецкий, португальский и китайские диалекты), фоновая музыка и звуковое сопровождение.

На выходе — от 4 до 15 секунд видео за генерацию в разрешении до 1080p с синхронизированным стерео.

Sora 2 принимает текст и изображения. Kling 3.0 принимает текст и изображения. Veo 3.1 принимает текст и изображения. Seedance принимает все четыре модальности одновременно.

Если вы вводите только текст в поле промпта — вы используете примерно 15% инструмента, платя ту же цену, что и тот, кто использует его целиком.

5-слойный стек промпта

Официальная документация Volcengine описывает формулу из 6 элементов, но тестирование в комьюнити сжало её до 5 слоёв, которые стабильно дают результат лучше, чем длинные и рыхлые промпты:

Subject > Action > Camera > Style > Constraints

Порядок имеет значение:

Subject первым фиксирует центр притяжения, чтобы модель не распыляла внимание на конкурирующие элементы
Action вторым задаёт кинетический якорь — то, что должно двигаться, даже если всё остальное сдвинется
Camera третьим фиксирует кадрирование до того, как модель решит переключить объектив
Style добавляет визуальный вкус, не перехватывая контроль над движением
Constraints последними закрывают оставшиеся бреши

Слой 1: Subject (Субъект)

Детализация в описании субъекта реально нагружена смыслом.

Плохо: a woman

Лучше: a young woman with brown hair

Отлично: a woman in her late 20s, tight dark curls at ear length, small silver hoop in left ear, wearing a fitted black turtleneck, neutral expression

Каждый маркер идентичности, который вы указываете, — это один маркер, который модель не галлюцинирует. Длина волос, текстура одежды, поза, аксессуары, детали кожи — всё это «плывёт», если вы не задали их явно, потому что модель заполняет пробелы усреднёнными данными из обучающей выборки. А усреднённое — это всегда generic.

Один субъект на генерацию — самый надёжный путь. Два персонажа работают, если вы разводите их пространственно и тегируете каждого как @Character_A и @Character_B. Три и больше — это где монетка перестаёт падать в вашу пользу.

Слой 2: Action (Действие)

Что происходит. Настоящее время. Одно основное движение на кадр.

Именно здесь 90% промптов ломаются, потому что люди описывают состояния вместо направлений.

Плохо: she looks happy and is enjoying the sunset

Хорошо: she slowly turns toward the camera, breeze lifting the hem of her skirt, eyes narrowing against the light

Первое даёт модели фотографию для приближения. Второе даёт ей последовательность для исполнения. Разрыв в качестве — огромный.

Правило, которому почти никто не следует: разделяйте движение субъекта и движение камеры. Каждый раз.

spinning camera around a dancing person — одна инструкция, в которой модель не может понять, кто должен вращаться.

the dancer spins slowly, camera holds fixed framing — разделяет неоднозначность на две чёткие директивы и убирает большую часть трясущегося, хаотичного видео.

Слой 3: Camera (Камера)

Seedance воспринимает управление камерой как первоклассный сигнал обусловливания. Именно здесь модель отрывается от всего остального на рынке.

Одно основное движение камеры на генерацию. Описывайте ритм (slow, smooth, gentle), а не технические характеристики. Официальный гайд не рекомендует значения f-stop, ISO и точные миллиметры — модель лучше реагирует на описательный язык, чем на метаданные камеры.

Полная библиотека ключевых слов

Статичные кадры

fixed / locked-off — нулевое движение камеры
static wide — широкий неподвижный устанавливающий кадр
locked tripod, zero camera shake — когда сохраняется фоновый дрожь

Движения камеры

push-in / dolly in — камера к субъекту → напряжение, акцент, эмоциональные крупные планы
pull-out / dolly out — камера от субъекта → раскрытие окружения, контекст
pan left/right — горизонтальное вращение на месте → сканирование, следование за действием
tracking shot / follow — движение вдоль субъекта → экшн-сцены
orbit / arc / 360 orbit — облёт вокруг субъекта → продуктовые шоукейсы, портреты, героические моменты
aerial / drone shot — с высоты → ландшафты, установка географии
handheld — естественная тряска → документальный стиль, UGC-аутентичность
crane up/down — вертикальный подъём или спуск → драматические раскрытия высоты
gimbal — плавное стабилизированное движение → полированное кинематографичное, отличается от handheld
steadicam walk — плавное движение вперёд, следуя за персонажем через пространство
whip pan — быстрый горизонтальный свип → срочность, переходы между сценами
dolly zoom — эффект Хичкока, субъект остаётся того же размера, пока фон деформируется
rack focus — переключение фокуса между передним и задним планом для перенаправления внимания

Модификаторы скорости

imperceptible / barely — экстремально медленно, почти незаметное движение
slow / gentle / gradual — самая безопасная отправная точка и рекомендация по умолчанию
smooth / controlled — естественный ритм
dynamic / swift — высокий импакт, используйте с крайней осторожностью

Слово fast — самое опасное ключевое слово в промптинге Seedance. Комбинация fast camera + fast subject + busy scene почти гарантирует дрожание и артефакты сжатия. Решение: делайте быстрым только ОДИН элемент, а всё остальное держите стабильным.

Если вам нужно составное движение камеры — последовательно, а не в стопку: start: slow dolly-in, then: gentle pan right for the final 2 seconds даёт модели две чёткие временные фазы вместо двух конкурирующих инструкций в одном предложении.

Слой 4: Style (Стиль)

Освещение, цветокоррекция, кинореференсы, атмосфера.

Согласно официальному гайду Volcengine, описания освещения оказывают наибольшее влияние на качество видео среди всех элементов промпта — больше, чем стилевые прилагательные, больше, чем модификаторы качества, больше, чем запросы разрешения.

Если вы добавляете только один элемент к слабому промпту — пусть это будет описание освещения.

Ключевые слова освещения, которые стабильно работают

golden hour — единственное лучшее улучшение качества на слово
rim light / dramatic rim light against dark background — кинематографичное отделение краёв
soft key from 45 degrees — лестное освещение для talking-head
overcast daylight / even overcast diffused light — убирает мерцание в ярких сценах
backlit silhouette at sunset — драматическое настроение
motivated lighting from practical source — реализм с видимым источником света в кадре
volumetric fog — атмосферная глубина, хорошо сочетается с контровым светом
chiaroscuro — высококонтрастное освещение в стиле «Крёстного отца»

Цветокоррекция

teal and orange — классический голливуд
bleach bypass — обесцвеченная, грубая, высококонтрастная текстура
warm tone / amber-tinted — ностальгическое ощущение
crushed blacks — глубокие кинематографичные тени
pastel — мягкая аниме- или фэшн-эстетика

Кинореференсы как стилевые якоря

cinematic film tone, 35mm — самый надёжный универсальный якорь
16mm film, handheld camera — сырая инди-эстетика
anamorphic lens flare — широкоэкранное кино
national geographic quality — для документальных сцен о природе
documentary-style handheld framing — наблюдательный реализм

Слово cinematic само по себе не даёт ничего предсказуемого — официальный гайд называет его «слишком размытым». А вот cinematic film tone, 35mm, warm golden lighting даёт модели три пересекающихся ограничения.

Ловушка: слова glow, glimmer, glints провоцируют артефакты мерцания. Заменяйте их на steady intensity или diffuse, когда хотите мягкий свет без временной нестабильности.

Слой 5: Constraints (Ограничения)

Страхующие ограждения. Слой, который отделяет ИИ-видео от видео, которое проходит.

Обязательные ограничения для каждого промпта с персонажами

avoid jitter — предотвращает тряску кадра
avoid bent limbs — предотвращает искажённые руки и ноги, используйте в каждом промпте с персонажами без исключения
avoid identity drift — предотвращает изменение черт персонажа между кадрами
avoid temporal flicker — предотвращает покадровые осцилляции яркости
no distortion, no stretching — поддерживает геометрическую стабильность
maintain face consistency — сохраняет идентичность лица в разных кадрах

Комьюнити-суффикс качества

Добавляйте к каждой генерации:

sharp clarity, natural colors, stable picture, no blur, no ghosting, no flickering

Неэлегантно, но измеримо эффективно. Модель читает позитивные утверждения-ограничения надёжнее, чем негативный синтаксис: avoid X и maintain Y работают лучше, чем просто перечисление негативов.

Слова, которые активно ухудшают результат

Выглядят полезными, но это не так:

fast (без уточнения) — заставляет модель ускорить всё одновременно. Решение: назовите один конкретный быстрый элемент, остальное — steady
cinematic (одно) — не даёт модели ничего. Всегда сочетайте с текстурой, освещением или кинореференсом
epic — не имеет визуального значения для диффузионной модели
amazing / beautiful / stunning — это чувства, а не инструкции. Модель не может отрендерить прилагательное
lots of movement — провоцирует дрожание по всему кадру. Назовите одно конкретное движение
glow / glimmer / glints — создают мерцание. Используйте steady intensity или diffuse

Принцип под всеми этими правилами: если слово описывает, что должен почувствовать зритель, а не что должна увидеть камера, модель вынуждена угадывать, какой визуал вызовет это чувство. И угадывает она неправильно.

Тайм-кодированный мультикадровый промптинг

Вы можете режиссировать отдельные кадры внутри одной 15-секундной генерации, вписывая тайм-коды в промпт. Именно здесь Seedance становится чем-то принципиально отличным от любой другой модели.

Работают два формата:

Формат A (диапазоны в скобках)

[0-4s]: wide establishing shot, static camera, misty bamboo forest at dawn, golden hour light filtering through leaves
[4-9s]: medium shot, slow push-in, the fighter steps forward, white silk kimono billowing, determined expression
[9-15s]: close-up, orbit shot, the fighter strikes, slow motion, impact visible in the fabric ripple

Формат B (секунды в круглых скобках)

(0-3s) macro shot of perfume bottle among pink flowers, shallow depth of field, petals floating
(3-7s) camera glides closer, a feminine hand enters frame, touches the bottle
(7-12s) slow-motion spray, mist diffuses in air, particles catching rim light
(12-15s) pull-out to hero frame, product centered, volumetric lighting, minimal background

Каждый кадр должен указывать положение камеры, действие субъекта и состояние освещения. Переходный язык между кадрами (hard cut to, seamless morph into) даёт модели явные инструкции по монтажу вместо импровизации.

Шаблон 15-секундной кульминационной арки

[0-4s]: wide shot, static, world established, ambient sound
[4-8s]: medium shot, slow push-in, tension building, subject prepares
[8-12s]: close-up, emotional peak approaching, one specific detail in sharp focus
[12-15s]: extreme close-up or dramatic reveal, climax action, slow motion or static hold, silence

wide > tighter > tight > closest — универсальный паттерн эскалации из кинопроизводства, напрямую наложенный на 15-секундное окно генерации.

Система @-референсов

Люди, чьи результаты не читаются как ИИ, загружают от 6 до 12 референсных файлов и тегируют каждый с конкретной ролью в промпте. Разница между набором текста и режиссурой — целиком в этой системе.

Синтакс:

Каждый загруженный файл нуждается в явной роли в промпте. Изображение без @-тега обрабатывается неоднозначно, а неоднозначность в диффузионной модели порождает усреднение — визуальный эквивалент каши.

Техника «первый-последний кадр» — самый недоиспользуемый приём в модели. Загрузите желаемый первый кадр как @Image1, желаемый последний кадр как @Image2, опишите, что происходит между ними — и Seedance интерполирует когерентное движение, соединяющее две конечные точки. Без раскадровки, без многошагового пайплайна.

5 промптов, которые вы можете запустить прямо сейчас

От простого к полной мультимодальной продакшн-генерации.

1. Talking head (UGC)

15 seconds UGC style review video, filmed on smartphone, natural bedroom
window lighting, casual handheld selfie angle, a young woman with brown 
hair pulled back, natural skin with visible texture, wearing a casual grey 
t-shirt, in her cozy bedroom, she holds a product up to the camera with 
genuine excitement, quick jump cut slightly closer angle, she applies it 
showing the texture, jump cut she leans into the camera with a natural 
smile, the lighting is soft natural daylight no ring light no filters, 
direct phone mic audio room ambience natural voice

2. Product hero

ultra cinematic 15-second luxury product commercial, smooth continuous 
sequence elegant pacing, fluid cinematic glide macro dolly plus soft 
orbit plus gentle push-ins, seamless transitions masked by depth blur and 
motion continuity no hard cuts everything flows organically, (0-3s) macro 
shot of product on dark surface shallow depth of field rim light catching 
edges, (3-7s) camera glides closer warm light rakes across surface 
revealing texture, (7-11s) slow motion detail moment volumetric lighting, 
(11-15s) pull-out to centered hero frame product isolated premium 
minimalist background, sharp clarity no jitter stable picture

3. Кинематографичная сцена

cinematic film tone 35mm warm golden hour lighting, a man in his 40s 
with weathered features sits at a wooden desk in a sun-drenched workshop 
carefully carving walnut wood, slow push-in from medium shot to close-up 
on his hands, dust motes float in the light beams from the window, 
shallow depth of field background softly blurred, earthy color palette, 
quiet ambient sound of wood shavings, avoid jitter avoid bent limbs, 
stable picture no temporal flicker

4. Экшн-сцена (с тайм-кодами)

high-intensity cinematic fight in a misty bamboo forest 15 seconds 
photorealistic, [0-4s]: wide establishing shot static camera mist 
rolling between bamboo stalks golden hour light two fighters face each 
other, [4-8s]: medium tracking shot the fighter in white lunges forward 
with a spinning strike fluid orbital tracking follows the motion, 
[8-12s]: low-angle power shot impact moment slow motion bamboo leaves 
scatter, [12-15s]: pull-out wide shot the fighter in white stands 
victorious rim light separating figure from mist, film grain anamorphic 
texture, avoid bent limbs maintain face consistency

5. Полная мультимодальная продакшн-генерация

@Image1 — референс персонажа (сохранить точные черты лица и одежду)

@Image2 — референс окружения (совпадение по освещению и палитре)

@Video1 — референс движения камеры (воспроизвести медленный орбит)

@Audio1 — фоновая музыка (синхронизировать переходы сцен с битами)

15-second cinematic sequence 16:9 2K resolution, character from @Image1 
walks through the environment from @Image2, camera performs slow orbit 
matching @Video1's motion arc, scene transitions align with beat positions 
of @Audio1, golden hour rim lighting shallow depth of field, maintain 
character identity across all frames, avoid identity drift avoid jitter 
avoid temporal flicker, sharp clarity stable picture

Правило итерации

Сгенерируйте 2–3 базовых варианта с вашим промптом, затем измените одну переменную: камеру, освещение, модификатор скорости — что-то одно.

Оцените каждую генерацию на непрерывность и соответствие промпту, оставьте лучший вариант, измените ещё одну переменную.

Инстинкт после неудачной генерации — переписать весь промпт, изменив субъект, камеру, стиль и освещение одновременно. Но тогда вы не можете изолировать, что помогло, а что навредило, потому что следующая неудача имеет совершенно другие причины.

Контролируемая итерация с одной переменной за проход медленнее за цикл, но сходится быстрее — тот же принцип, по которому A/B-тестирование работает лучше, чем полный редизайн.

Если движение слишком слабое — добавьте dynamic motion или vibrant energy в начало промпта. Они работают как глобальные модификаторы интенсивности, усиливая заданное движение без добавления нового.

Итог

Seedance 2.0 — самая функциональная мультимодальная модель генерации видео на данный момент. Разрыв между тем, что она может выдать, и тем, что люди реально из неё получают, почти целиком сводится к архитектуре промпта.

5-слойный стек, библиотека ключевых слов, система ограничений и @-референсы из этого руководства — полный набор инструментов. Добавьте в закладки и используйте как рабочий справочник, а не как статью, которую прочитали один раз.

Оригинал: пост @exm7777 в X

По теме

Если вы занимаетесь генерацией видео или хотите разобраться, как строить рабочие процессы с ИИ-инструментами — напишите мне, обсудим вашу задачу.

Если хотите разобрать свою задачу — напишите мне

Можно прийти с идеей, черновым контекстом или уже живой задачей. Помогу быстро понять, где реальный следующий шаг, а где лишний шум.

Напишите мне в Телеграм Мой Телеграм канал

Обычно хватает 2–3 сообщений, чтобы понять, могу ли я здесь реально помочь и в каком формате лучше двигаться дальше.