18 марта 2026 г.
Звук в ИИ‑проекте: диалог, SFX и музыка отдельными слоями
Почему смешивать всё в один запрос — плохая идея, как думать в терминах stem‑ов и монтажной сетки.
- звук
- SFX
- музыка
- монтаж
Зритель прощает мягкий шум в картинке дольше, чем грязный звук. В генеративном пайплайне проще всего ошибиться на этапе «давайте одним промптом и голос, и музыку, и взрыв» — модель смешивает приоритеты, и вы получите кашу.
Три дорожки минимума
- Диалог — чистота, разборчивость, стабильный уровень. Музыка под диалогом должна уступать частотами (вырезать середину или опускать громкость).
- SFX — короткие, контекстные, привязанные к действию на экране. Лучше три точных звука, чем один «универсальный хаос».
- Музыка — характер сцены, темп, но не конкурирует с репликами.
Промпты для SFX
Описывайте материал и действие: «металлический люк закрывается в герметичной камере, короткое эхо». Избегайте «как в фильме про…» — вместо этого перечислите акустические качества: сухо/мокро, близко/далеко, один удар или серия.
Музыка как ритм сцены
Задайте темп, инструменты, жанровую окраску без названия чужого трека. «Медленный эмбиент, пады, без ударных, минор, ощущение пустого города ночью» — уже рабочая формулировка.
Сведение
Когда слои сгенерированы раздельно, монтажёр (или вы в таймлайне) контролирует дуки и атаки: взрыв не заглушает фразу, удар двери совпадает с кадром. Levsha держит звуковые задачи рядом с шотом, чтобы не потерять связь «картинка — звук».
В паре с этим текстом читайте про липсинк и чистоту реплики.