25 марта 2026 г.

Липсинк и консистентность: как не ломать лицо персонажа

Цепочка «голос → рот → кадр», типичные артефакты и как библия проекта помогает держать одно лицо в десяти шотах.

липсинк
персонажи
звук

Липсинк — это не «магическая кнопка», а сведение трёх сигналов: визуального ряда, фонемной дорожки и таймингов монтажа. Когда что‑то из этого тройного набора плавает, зритель мгновенно считывает фальшь.

Сначала текст и чтение, потом рот

Надёжный порядок работы:

Зафиксировать реплику и темп (даже если потом подрежете паузы).
Синтезировать или записать чистую диалоговую дорожку.
Подобрать опорный кадр лица — крупный план или средний, где геометрия рта читается.
Запустить липсинк и сравнить два-три варианта по краям губ и челюсти.

Откуда берутся «жидкие» губы

Чаще всего виноваты не «плохие нейросети», а входные данные: низкое разрешение лица, резкая смена ракурса внутри одного клипа, конфликт между освещением на кадре и тем, как модель «видит» объём. Стабильный свет на лице решает больше, чем десять страниц промпта.

Консистентность между шотами

Единый персонаж в разных сценах держится на наборе якорей: референс лица, фиксированные черты в библии (причёска, шрам, очки), повторяемая цветовая температура. Если каждый шот генерировать «с нуля» без этих опор, зритель подсознательно воспринимает смену актёра.

В Levsha библия и история кадров как раз помогают не скатываться в «каждый раз новый человек».

Дополнение: материал о кастинге голосов и промптах для TTS.