ИИ уже умеет запускать рекламу, писать письма и делать контент. Агентства готовятся к ребрендингу. Но поможет ли им новая вывеска?
Полный гайд по промптингу Seedance 2.0 — камера, свет, движение и 5-слойная структура, которая работает
Перевод подробного руководства по промптингу для Seedance 2.0: 5-слойная структура промпта, полная библиотека ключевых слов камеры, освещения и ограничений, а также готовые промпты для запуска прямо сейчас.
Этот материал — не мой. Я нашёл его в X и считаю одним из лучших руководств по промптингу для генерации видео, которые мне попадались. Настолько хорошим, что решил перевести целиком — с сохранением всех промптов в оригинале, потому что именно так их и нужно использовать.
Если вы работаете с Seedance 2.0 или собираетесь попробовать — это тот самый справочник, который стоит держать открытым во время генерации.
Почему без правильного промптинга ничего не получится
Если вы не знаете специфические техники промптинга для Seedance 2.0, вы будете получать шлак — каждый раз, независимо от того, насколько креативна ваша идея и сколько вы платите за генерацию.
У модели свой собственный язык для камеры, освещения, движения и ограничений. Вбивать обычные текстовые описания в поле промпта — это как говорить по-французски с человеком, который понимает только японский.
Это руководство — полная справка по этому языку: каждое ключевое слово камеры, каждый модификатор освещения, каждое ограничение, которое реально работает, и точная 5-слойная структура, которая превращает одну и ту же генерацию за $0.60 из стокового футажа в видео, на котором останавливается скролл.
Фреймворк собран из сотен генераций, официальной документации Volcengine, каждого стоящего туториала от Higgsfield и Yaroflasher, а также комьюнити-техник, которые подтвердили свою эффективность.
С чем вы на самом деле работаете
Seedance 2.0 — это мультимодальная съёмочная площадка, а не коробка «текст → видео». Разница между этими двумя вещами — как между вбиванием запроса в Google и режиссурой рекламного ролика за $50 000.
За одну генерацию вы можете подать на вход:
- До 9 референсных изображений (листы персонажей, мудборды, фото продукта, раскадровки)
- До 3 видеоклипов (референс движения камеры, хореография, темп)
- До 3 аудиотреков (озвучка, музыка, звуковые эффекты)
- Плюс текстовый промпт

Это 12 референсных файлов, обрабатываемых одновременно через dual-branch diffusion transformer, который генерирует видео и аудио за один проход. Не склейка после факта, не два пайплайна, скрученных вместе. Один проход — синхронизированное видео с двухканальным стерео, синхронизация губ на 8+ языках (английский, мандаринский, японский, корейский, испанский, французский, немецкий, португальский и китайские диалекты), фоновая музыка и звуковое сопровождение.
На выходе — от 4 до 15 секунд видео за генерацию в разрешении до 1080p с синхронизированным стерео.
Sora 2 принимает текст и изображения. Kling 3.0 принимает текст и изображения. Veo 3.1 принимает текст и изображения. Seedance принимает все четыре модальности одновременно.
Если вы вводите только текст в поле промпта — вы используете примерно 15% инструмента, платя ту же цену, что и тот, кто использует его целиком.
5-слойный стек промпта
Официальная документация Volcengine описывает формулу из 6 элементов, но тестирование в комьюнити сжало её до 5 слоёв, которые стабильно дают результат лучше, чем длинные и рыхлые промпты:
Subject > Action > Camera > Style > Constraints
Порядок имеет значение:
- Subject первым фиксирует центр притяжения, чтобы модель не распыляла внимание на конкурирующие элементы
- Action вторым задаёт кинетический якорь — то, что должно двигаться, даже если всё остальное сдвинется
- Camera третьим фиксирует кадрирование до того, как модель решит переключить объектив
- Style добавляет визуальный вкус, не перехватывая контроль над движением
- Constraints последними закрывают оставшиеся бреши
Слой 1: Subject (Субъект)
Детализация в описании субъекта реально нагружена смыслом.
Плохо: a woman
Лучше: a young woman with brown hair
Отлично: a woman in her late 20s, tight dark curls at ear length, small silver hoop in left ear, wearing a fitted black turtleneck, neutral expression
Каждый маркер идентичности, который вы указываете, — это один маркер, который модель не галлюцинирует. Длина волос, текстура одежды, поза, аксессуары, детали кожи — всё это «плывёт», если вы не задали их явно, потому что модель заполняет пробелы усреднёнными данными из обучающей выборки. А усреднённое — это всегда generic.
Один субъект на генерацию — самый надёжный путь. Два персонажа работают, если вы разводите их пространственно и тегируете каждого как @Character_A и @Character_B. Три и больше — это где монетка перестаёт падать в вашу пользу.

Слой 2: Action (Действие)
Что происходит. Настоящее время. Одно основное движение на кадр.
Именно здесь 90% промптов ломаются, потому что люди описывают состояния вместо направлений.
Плохо: she looks happy and is enjoying the sunset
Хорошо: she slowly turns toward the camera, breeze lifting the hem of her skirt, eyes narrowing against the light
Первое даёт модели фотографию для приближения. Второе даёт ей последовательность для исполнения. Разрыв в качестве — огромный.
Правило, которому почти никто не следует: разделяйте движение субъекта и движение камеры. Каждый раз.
spinning camera around a dancing person — одна инструкция, в которой модель не может понять, кто должен вращаться.
the dancer spins slowly, camera holds fixed framing — разделяет неоднозначность на две чёткие директивы и убирает большую часть трясущегося, хаотичного видео.
Слой 3: Camera (Камера)
Seedance воспринимает управление камерой как первоклассный сигнал обусловливания. Именно здесь модель отрывается от всего остального на рынке.
Одно основное движение камеры на генерацию. Описывайте ритм (slow, smooth, gentle), а не технические характеристики. Официальный гайд не рекомендует значения f-stop, ISO и точные миллиметры — модель лучше реагирует на описательный язык, чем на метаданные камеры.
Полная библиотека ключевых слов
Статичные кадры
fixed/locked-off— нулевое движение камерыstatic wide— широкий неподвижный устанавливающий кадрlocked tripod, zero camera shake— когда сохраняется фоновый дрожь
Движения камеры
- push-in / dolly in — камера к субъекту → напряжение, акцент, эмоциональные крупные планы
- pull-out / dolly out — камера от субъекта → раскрытие окружения, контекст
- pan left/right — горизонтальное вращение на месте → сканирование, следование за действием
- tracking shot / follow — движение вдоль субъекта → экшн-сцены
- orbit / arc / 360 orbit — облёт вокруг субъекта → продуктовые шоукейсы, портреты, героические моменты
- aerial / drone shot — с высоты → ландшафты, установка географии
- handheld — естественная тряска → документальный стиль, UGC-аутентичность
- crane up/down — вертикальный подъём или спуск → драматические раскрытия высоты
- gimbal — плавное стабилизированное движение → полированное кинематографичное, отличается от handheld
- steadicam walk — плавное движение вперёд, следуя за персонажем через пространство
- whip pan — быстрый горизонтальный свип → срочность, переходы между сценами
- dolly zoom — эффект Хичкока, субъект остаётся того же размера, пока фон деформируется
- rack focus — переключение фокуса между передним и задним планом для перенаправления внимания
Модификаторы скорости
imperceptible/barely— экстремально медленно, почти незаметное движениеslow/gentle/gradual— самая безопасная отправная точка и рекомендация по умолчаниюsmooth/controlled— естественный ритмdynamic/swift— высокий импакт, используйте с крайней осторожностью
Слово fast — самое опасное ключевое слово в промптинге Seedance. Комбинация fast camera + fast subject + busy scene почти гарантирует дрожание и артефакты сжатия. Решение: делайте быстрым только ОДИН элемент, а всё остальное держите стабильным.
Если вам нужно составное движение камеры — последовательно, а не в стопку: start: slow dolly-in, then: gentle pan right for the final 2 seconds даёт модели две чёткие временные фазы вместо двух конкурирующих инструкций в одном предложении.
Слой 4: Style (Стиль)
Освещение, цветокоррекция, кинореференсы, атмосфера.
Согласно официальному гайду Volcengine, описания освещения оказывают наибольшее влияние на качество видео среди всех элементов промпта — больше, чем стилевые прилагательные, больше, чем модификаторы качества, больше, чем запросы разрешения.
Если вы добавляете только один элемент к слабому промпту — пусть это будет описание освещения.

Ключевые слова освещения, которые стабильно работают
- golden hour — единственное лучшее улучшение качества на слово
- rim light / dramatic rim light against dark background — кинематографичное отделение краёв
- soft key from 45 degrees — лестное освещение для talking-head
- overcast daylight / even overcast diffused light — убирает мерцание в ярких сценах
- backlit silhouette at sunset — драматическое настроение
- motivated lighting from practical source — реализм с видимым источником света в кадре
- volumetric fog — атмосферная глубина, хорошо сочетается с контровым светом
- chiaroscuro — высококонтрастное освещение в стиле «Крёстного отца»
Цветокоррекция
teal and orange— классический голливудbleach bypass— обесцвеченная, грубая, высококонтрастная текстураwarm tone / amber-tinted— ностальгическое ощущениеcrushed blacks— глубокие кинематографичные тениpastel— мягкая аниме- или фэшн-эстетика
Кинореференсы как стилевые якоря
cinematic film tone, 35mm— самый надёжный универсальный якорь16mm film, handheld camera— сырая инди-эстетикаanamorphic lens flare— широкоэкранное киноnational geographic quality— для документальных сцен о природеdocumentary-style handheld framing— наблюдательный реализм
Словоcinematicсамо по себе не даёт ничего предсказуемого — официальный гайд называет его «слишком размытым». А вотcinematic film tone, 35mm, warm golden lightingдаёт модели три пересекающихся ограничения.
Ловушка: словаglow,glimmer,glintsпровоцируют артефакты мерцания. Заменяйте их наsteady intensityилиdiffuse, когда хотите мягкий свет без временной нестабильности.
Слой 5: Constraints (Ограничения)
Страхующие ограждения. Слой, который отделяет ИИ-видео от видео, которое проходит.
Обязательные ограничения для каждого промпта с персонажами
avoid jitter— предотвращает тряску кадраavoid bent limbs— предотвращает искажённые руки и ноги, используйте в каждом промпте с персонажами без исключенияavoid identity drift— предотвращает изменение черт персонажа между кадрамиavoid temporal flicker— предотвращает покадровые осцилляции яркостиno distortion, no stretching— поддерживает геометрическую стабильностьmaintain face consistency— сохраняет идентичность лица в разных кадрах
Комьюнити-суффикс качества
Добавляйте к каждой генерации:
sharp clarity, natural colors, stable picture, no blur, no ghosting, no flickering

Неэлегантно, но измеримо эффективно. Модель читает позитивные утверждения-ограничения надёжнее, чем негативный синтаксис: avoid X и maintain Y работают лучше, чем просто перечисление негативов.
Слова, которые активно ухудшают результат
Выглядят полезными, но это не так:
fast(без уточнения) — заставляет модель ускорить всё одновременно. Решение: назовите один конкретный быстрый элемент, остальное — steadycinematic(одно) — не даёт модели ничего. Всегда сочетайте с текстурой, освещением или кинореференсомepic— не имеет визуального значения для диффузионной моделиamazing/beautiful/stunning— это чувства, а не инструкции. Модель не может отрендерить прилагательноеlots of movement— провоцирует дрожание по всему кадру. Назовите одно конкретное движениеglow/glimmer/glints— создают мерцание. Используйтеsteady intensityилиdiffuse
Принцип под всеми этими правилами: если слово описывает, что должен почувствовать зритель, а не что должна увидеть камера, модель вынуждена угадывать, какой визуал вызовет это чувство. И угадывает она неправильно.

Тайм-кодированный мультикадровый промптинг
Вы можете режиссировать отдельные кадры внутри одной 15-секундной генерации, вписывая тайм-коды в промпт. Именно здесь Seedance становится чем-то принципиально отличным от любой другой модели.
Работают два формата:
Формат A (диапазоны в скобках)
[0-4s]: wide establishing shot, static camera, misty bamboo forest at dawn, golden hour light filtering through leaves
[4-9s]: medium shot, slow push-in, the fighter steps forward, white silk kimono billowing, determined expression
[9-15s]: close-up, orbit shot, the fighter strikes, slow motion, impact visible in the fabric rippleФормат B (секунды в круглых скобках)
(0-3s) macro shot of perfume bottle among pink flowers, shallow depth of field, petals floating
(3-7s) camera glides closer, a feminine hand enters frame, touches the bottle
(7-12s) slow-motion spray, mist diffuses in air, particles catching rim light
(12-15s) pull-out to hero frame, product centered, volumetric lighting, minimal backgroundКаждый кадр должен указывать положение камеры, действие субъекта и состояние освещения. Переходный язык между кадрами (hard cut to, seamless morph into) даёт модели явные инструкции по монтажу вместо импровизации.
Шаблон 15-секундной кульминационной арки
[0-4s]: wide shot, static, world established, ambient sound
[4-8s]: medium shot, slow push-in, tension building, subject prepares
[8-12s]: close-up, emotional peak approaching, one specific detail in sharp focus
[12-15s]: extreme close-up or dramatic reveal, climax action, slow motion or static hold, silencewide > tighter > tight > closest — универсальный паттерн эскалации из кинопроизводства, напрямую наложенный на 15-секундное окно генерации.
Система @-референсов
Люди, чьи результаты не читаются как ИИ, загружают от 6 до 12 референсных файлов и тегируют каждый с конкретной ролью в промпте. Разница между набором текста и режиссурой — целиком в этой системе.

Синтакс:

Каждый загруженный файл нуждается в явной роли в промпте. Изображение без @-тега обрабатывается неоднозначно, а неоднозначность в диффузионной модели порождает усреднение — визуальный эквивалент каши.
Техника «первый-последний кадр» — самый недоиспользуемый приём в модели. Загрузите желаемый первый кадр как @Image1, желаемый последний кадр как @Image2, опишите, что происходит между ними — и Seedance интерполирует когерентное движение, соединяющее две конечные точки. Без раскадровки, без многошагового пайплайна.
5 промптов, которые вы можете запустить прямо сейчас
От простого к полной мультимодальной продакшн-генерации.
1. Talking head (UGC)
15 seconds UGC style review video, filmed on smartphone, natural bedroom
window lighting, casual handheld selfie angle, a young woman with brown
hair pulled back, natural skin with visible texture, wearing a casual grey
t-shirt, in her cozy bedroom, she holds a product up to the camera with
genuine excitement, quick jump cut slightly closer angle, she applies it
showing the texture, jump cut she leans into the camera with a natural
smile, the lighting is soft natural daylight no ring light no filters,
direct phone mic audio room ambience natural voice
2. Product hero
ultra cinematic 15-second luxury product commercial, smooth continuous
sequence elegant pacing, fluid cinematic glide macro dolly plus soft
orbit plus gentle push-ins, seamless transitions masked by depth blur and
motion continuity no hard cuts everything flows organically, (0-3s) macro
shot of product on dark surface shallow depth of field rim light catching
edges, (3-7s) camera glides closer warm light rakes across surface
revealing texture, (7-11s) slow motion detail moment volumetric lighting,
(11-15s) pull-out to centered hero frame product isolated premium
minimalist background, sharp clarity no jitter stable picture3. Кинематографичная сцена
cinematic film tone 35mm warm golden hour lighting, a man in his 40s
with weathered features sits at a wooden desk in a sun-drenched workshop
carefully carving walnut wood, slow push-in from medium shot to close-up
on his hands, dust motes float in the light beams from the window,
shallow depth of field background softly blurred, earthy color palette,
quiet ambient sound of wood shavings, avoid jitter avoid bent limbs,
stable picture no temporal flicker4. Экшн-сцена (с тайм-кодами)
high-intensity cinematic fight in a misty bamboo forest 15 seconds
photorealistic, [0-4s]: wide establishing shot static camera mist
rolling between bamboo stalks golden hour light two fighters face each
other, [4-8s]: medium tracking shot the fighter in white lunges forward
with a spinning strike fluid orbital tracking follows the motion,
[8-12s]: low-angle power shot impact moment slow motion bamboo leaves
scatter, [12-15s]: pull-out wide shot the fighter in white stands
victorious rim light separating figure from mist, film grain anamorphic
texture, avoid bent limbs maintain face consistency5. Полная мультимодальная продакшн-генерация
@Image1 — референс персонажа (сохранить точные черты лица и одежду)
@Image2 — референс окружения (совпадение по освещению и палитре)
@Video1 — референс движения камеры (воспроизвести медленный орбит)
@Audio1 — фоновая музыка (синхронизировать переходы сцен с битами)
15-second cinematic sequence 16:9 2K resolution, character from @Image1
walks through the environment from @Image2, camera performs slow orbit
matching @Video1's motion arc, scene transitions align with beat positions
of @Audio1, golden hour rim lighting shallow depth of field, maintain
character identity across all frames, avoid identity drift avoid jitter
avoid temporal flicker, sharp clarity stable pictureПравило итерации
Сгенерируйте 2–3 базовых варианта с вашим промптом, затем измените одну переменную: камеру, освещение, модификатор скорости — что-то одно.
Оцените каждую генерацию на непрерывность и соответствие промпту, оставьте лучший вариант, измените ещё одну переменную.
Инстинкт после неудачной генерации — переписать весь промпт, изменив субъект, камеру, стиль и освещение одновременно. Но тогда вы не можете изолировать, что помогло, а что навредило, потому что следующая неудача имеет совершенно другие причины.
Контролируемая итерация с одной переменной за проход медленнее за цикл, но сходится быстрее — тот же принцип, по которому A/B-тестирование работает лучше, чем полный редизайн.
Если движение слишком слабое — добавьте dynamic motion или vibrant energy в начало промпта. Они работают как глобальные модификаторы интенсивности, усиливая заданное движение без добавления нового.
Итог
Seedance 2.0 — самая функциональная мультимодальная модель генерации видео на данный момент. Разрыв между тем, что она может выдать, и тем, что люди реально из неё получают, почти целиком сводится к архитектуре промпта.
5-слойный стек, библиотека ключевых слов, система ограничений и @-референсы из этого руководства — полный набор инструментов. Добавьте в закладки и используйте как рабочий справочник, а не как статью, которую прочитали один раз.
Оригинал: пост @exm7777 в X
По теме
- Статья: Два агента лучше одного: как связать OpenClaw и Hermes Agent в единую систему
- Блог: YouTube разрешил клонировать себя через ИИ — и это не шутка
- База знаний: MaxClaw — облачный AI-агент от MiniMax на базе OpenClaw
Если вы занимаетесь генерацией видео или хотите разобраться, как строить рабочие процессы с ИИ-инструментами — напишите мне, обсудим вашу задачу.