8 марта 2026 г.

Кастинг голоса в ИИ: промпты, которые звучат, а не читаются

Тембр, возраст, тембровые «края», акцент, темп — как описать персонажа для TTS без расплывчатых прилагательных.

голос
TTS
кастинг

Плохой голосовой промпт: «мужской, приятный, уверенный». Хороший: диапазон, плотность, манера, контекст сцены.

Из чего состоит описание

Возрастная вилка — не «молодой», а «25–30, без детской интонации».
Тембр — низкий/средний/высокий, «с лёгкой хрипотцой» или «чистый эфирный».
Темп и паузы — быстрый детектив vs размеренный ведущий документалки.
Акцент и география — только если модель это стабильно тянет; иначе лучше нейтральный русский.
Эмоциональный режим — сдержанный гнев, усталая ирония, сухой юмор (одно слово на тон, не пять).

Привязка к тексту

Один и тот же голос читает по‑разному новости, угрозу и признание. Добавьте строку контекста: «говорит в закрытой машине, слышен лёгкий гул мотора» — это помогает интонации, даже если в финале вы вычистите фон.

Тест короткой репликой

Не гоните сразу полстраницы. Две-три фразы из сценария — и вы слышите, подходит ли каст. Потом длинные блоки.

Согласованность с липсинком

Если речь быстрая, рот должен успевать; если медленная и весомая — зритель ожидает крупный план и читаемую артикуляцию. Несовпадение темпа речи и жеста бьёт по вере в персонажа сильнее, чем мелкий шум в картинке.

В Levsha голос, SFX и музыка живут в одном контексте шота — удобно держать каст в одном месте.