8 марта 2026 г.
Кастинг голоса в ИИ: промпты, которые звучат, а не читаются
Тембр, возраст, тембровые «края», акцент, темп — как описать персонажа для TTS без расплывчатых прилагательных.
- голос
- TTS
- кастинг
Плохой голосовой промпт: «мужской, приятный, уверенный». Хороший: диапазон, плотность, манера, контекст сцены.
Из чего состоит описание
- Возрастная вилка — не «молодой», а «25–30, без детской интонации».
- Тембр — низкий/средний/высокий, «с лёгкой хрипотцой» или «чистый эфирный».
- Темп и паузы — быстрый детектив vs размеренный ведущий документалки.
- Акцент и география — только если модель это стабильно тянет; иначе лучше нейтральный русский.
- Эмоциональный режим — сдержанный гнев, усталая ирония, сухой юмор (одно слово на тон, не пять).
Привязка к тексту
Один и тот же голос читает по‑разному новости, угрозу и признание. Добавьте строку контекста: «говорит в закрытой машине, слышен лёгкий гул мотора» — это помогает интонации, даже если в финале вы вычистите фон.
Тест короткой репликой
Не гоните сразу полстраницы. Две-три фразы из сценария — и вы слышите, подходит ли каст. Потом длинные блоки.
Согласованность с липсинком
Если речь быстрая, рот должен успевать; если медленная и весомая — зритель ожидает крупный план и читаемую артикуляцию. Несовпадение темпа речи и жеста бьёт по вере в персонажа сильнее, чем мелкий шум в картинке.
В Levsha голос, SFX и музыка живут в одном контексте шота — удобно держать каст в одном месте.