
Меня самого долго мучал свой голос. На записи он звучит вообще не так, как из головы, и каждое второе видео я переписывал по три раза, потому что «не то». Когда стало понятно, что AI-озвучка наконец-то перестала звучать как робот из метро, я попробовал перевести на неё ту часть контента, которую делал сам.
Что-то полетело сразу. Что-то — никак не взлетает до сих пор. Расскажу по форматам.
Где AI-голос реально приживается
Новостные дайджесты. Самый очевидный случай. Слушатель приходит за фактами, ему не нужны паузы и вздохи — нужны структура и темп. AI-диктор с этим справляется лучше, чем уставший я в пятницу вечером.
Образовательные ролики. Если рассказываешь про Древний Рим, ставку Центробанка или принципы работы CRISPR — голос вторичен, контент первичен. У AI ровный темп даже на длинных предложениях, ударения он не забывает, к концу часа не садится.
«5 фактов о…» и топы. Ничего личного, динамика держится на монтаже. Я перевёл свою рубрику с топами в AI и за месяц никто не написал «верни себя обратно».
Sleep stories и медитации. Тут ровность голоса вообще плюс. Живые дикторы часто переигрывают «расслабляющую» интонацию, и в итоге слушать неудобно.
Буктрейлеры. Двух-трёхминутный отрывок книги в AI-озвучке как реклама в соцсетях — это уже не «дёшево и сердито», это рабочий инструмент.
Где AI пробуксовывает, и слушатель это слышит
Личные блоги. Если канал — про тебя, твои мысли, твой опыт, то менять свой голос на AI-голос значит вынести из видео самое ценное. Я пробовал, не работает: люди подписывались на меня, а не на сервис синтеза речи.
Интервью. Очевидно. Реакция, паузы, неловкие смешки, перебивания — это и есть интервью. Сценарный AI-диалог получается стерильным.
Эмоциональный сторителлинг. Если ты рассказываешь личную историю про потерю, про большую радость, про переживание — голос должен слегка ломаться. AI читает ровно. И в этой ровности — фальшь.
Комедия. Вот тут AI пока проигрывает безусловно. Тайминг шутки — это десятые доли секунды между «и тогда я понял» и «что вообще происходит». Их AI не чувствует, поэтому панчлайн садится мимо. Юмористические ролики, озвученные нейросетью, обычно плоские.
ASMR. Нет.
Технические штуки, которые я выяснил на практике
Длина не проблема. Десятиминутный ролик рендерится за минуты, монтировать — столько же, сколько и с живым голосом, иногда быстрее (нет переписей).
Что я заметил по звуку: сырая AI-дорожка ложится на фоновую музыку немного «суше», чем живая. Лечится лёгким реверсом и парой dB атмосферы — после этого микс перестаёт выдавать AI на слух.
Ускорение на YouTube — отдельный сюрприз. AI-голос на 1.5x звучит ровнее, чем живой на 1.5x. Алгоритм уже зашил оптимальный темп, поэтому ускорение его не ломает.
Если сервис умеет сразу выдавать тайм-коды — берите. На сабтитрах это экономит вечер.
Деньги
В лоб: живой диктор за один десятиминутный ролик берёт от трёх тысяч рублей и выше. AI-озвучка того же ролика обходится в сотни рублей, иногда меньше. Если у тебя канал на одно-два видео в неделю, разница за квартал — это уже отпуск.
Свой голос «бесплатный», но есть час работы и эмоциональный счёт за прослушивание собственных «э-э-э». У меня этот счёт оказался выше, чем подписка.
Подкасты — отдельная история
Я долго хотел сказать «подкаст в AI работает», но не могу. Подкаст — это два живых человека, которые перебивают друг друга, удивляются, тянут паузы. Без этого получается не подкаст, а аудиостатья.
Что в подкаст-формате реально получается:
- Монологовые «чтения» — авторские эссе, лонгриды, разборы. Это по сути аудиостатья, и тут AI на месте.
- Новостные подкасты — те же дайджесты, что и в YouTube.
- Аудио-версии книг и постов из блога — буквально аудиокнига, только короткая.
Эксперименты с двумя AI-голосами «как будто диалог» я слышал. Пока это технически возможно, но эмоционально мёртвое — нет реакции на сказанное, есть очерёдность реплик. Может быть, через пару лет, не сейчас.
Юридическая часть, без занудства
Большинство нормальных провайдеров (мы в том числе) разрешают коммерческое использование синтезированного голоса — то есть монетизировать YouTube можно. Но я бы держал в голове три вещи: проверять условия конкретного сервиса, не использовать клоны голосов знаменитостей (это запрет почти везде), указывать AI-озвучку в описании, если платформа этого требует — TikTok, например, такое любит.
Что я советую попробовать
Возьмите сценарий одного уже выпущенного ролика — того, что вы записывали сами, и где можно сравнить вживую. Прогоните без редактуры. Через пять минут у вас будет аудио, которое можно поставить рядом со своей версией и сравнить. И вот тогда уже честно решать, что в каких форматах оставить себе, а что отдать машине.
Главный вывод после полугода такого тестирования: AI не заменяет голос — он заменяет этап записи. У этого есть очень конкретное место в продакшен-цепочке, и его не надо натягивать на всё. Ваш голос на личном канале — актив. Сценарий новостного дайджеста, который не имеет лица, — нет.