Levsha.Studio

18 марта 2026 г.

Звук в ИИ‑проекте: диалог, SFX и музыка отдельными слоями

Почему смешивать всё в один запрос — плохая идея, как думать в терминах stem‑ов и монтажной сетки.

Зритель прощает мягкий шум в картинке дольше, чем грязный звук. В генеративном пайплайне проще всего ошибиться на этапе «давайте одним промптом и голос, и музыку, и взрыв» — модель смешивает приоритеты, и вы получите кашу.

Три дорожки минимума

  • Диалог — чистота, разборчивость, стабильный уровень. Музыка под диалогом должна уступать частотами (вырезать середину или опускать громкость).
  • SFX — короткие, контекстные, привязанные к действию на экране. Лучше три точных звука, чем один «универсальный хаос».
  • Музыка — характер сцены, темп, но не конкурирует с репликами.

Промпты для SFX

Описывайте материал и действие: «металлический люк закрывается в герметичной камере, короткое эхо». Избегайте «как в фильме про…» — вместо этого перечислите акустические качества: сухо/мокро, близко/далеко, один удар или серия.

Музыка как ритм сцены

Задайте темп, инструменты, жанровую окраску без названия чужого трека. «Медленный эмбиент, пады, без ударных, минор, ощущение пустого города ночью» — уже рабочая формулировка.

Сведение

Когда слои сгенерированы раздельно, монтажёр (или вы в таймлайне) контролирует дуки и атаки: взрыв не заглушает фразу, удар двери совпадает с кадром. Levsha держит звуковые задачи рядом с шотом, чтобы не потерять связь «картинка — звук».


В паре с этим текстом читайте про липсинк и чистоту реплики.