25 марта 2026 г.
Липсинк и консистентность: как не ломать лицо персонажа
Цепочка «голос → рот → кадр», типичные артефакты и как библия проекта помогает держать одно лицо в десяти шотах.
- липсинк
- персонажи
- звук
Липсинк — это не «магическая кнопка», а сведение трёх сигналов: визуального ряда, фонемной дорожки и таймингов монтажа. Когда что‑то из этого тройного набора плавает, зритель мгновенно считывает фальшь.
Сначала текст и чтение, потом рот
Надёжный порядок работы:
- Зафиксировать реплику и темп (даже если потом подрежете паузы).
- Синтезировать или записать чистую диалоговую дорожку.
- Подобрать опорный кадр лица — крупный план или средний, где геометрия рта читается.
- Запустить липсинк и сравнить два-три варианта по краям губ и челюсти.
Откуда берутся «жидкие» губы
Чаще всего виноваты не «плохие нейросети», а входные данные: низкое разрешение лица, резкая смена ракурса внутри одного клипа, конфликт между освещением на кадре и тем, как модель «видит» объём. Стабильный свет на лице решает больше, чем десять страниц промпта.
Консистентность между шотами
Единый персонаж в разных сценах держится на наборе якорей: референс лица, фиксированные черты в библии (причёска, шрам, очки), повторяемая цветовая температура. Если каждый шот генерировать «с нуля» без этих опор, зритель подсознательно воспринимает смену актёра.
В Levsha библия и история кадров как раз помогают не скатываться в «каждый раз новый человек».
Дополнение: материал о кастинге голосов и промптах для TTS.