
Я долго не верил, что можно просто взять файл, кинуть в сервис и получить аудиокнигу, которую захочется дослушать. Все попытки до 2024 заканчивались одним и тем же: на пятой минуте уши свинцовые, мозг отрубается, диктор-робот бубнит сквозь пелену. А потом я попробовал то, что есть сейчас, — и закрыл вкладку с прайсом фриланс-диктора, которую держал открытой полтора месяца.
Этот текст — про то, что реально изменилось, и где остались дыры, в которые лучше заранее заглянуть.
Послушай сам. Короткий фрагмент в одном из наших голосов:
Что вообще теперь умеет AI-озвучка
Если коротко — звучит как живой человек. Если развернуть — звучит как живой человек, который, в отличие от живого, не устал, не запнулся, не уехал в отпуск и не попросил доплатить за переделку.
Технически разница простая. Старые TTS склеивали готовые кусочки фонем — от этого и был тот самый «робот из колл-центра». Новые модели генерируют волну целиком, поглядывая на контекст всего предложения и абзаца. Поэтому, когда персонаж в книге сердится, голос не подскакивает на эмодзи — он реально напряжённее, тише, ближе к зубам. Не идеально, но в слепом тесте я угадываю AI примерно через раз. Раньше — с первого слова.
Что можно скармливать
Почти всё, что у вас есть в виде текста: epub, fb2, txt, markdown, doc. Личный фанфик из Ficbook, конспект лекций, перевод старой повести бабушки, неизданный роман, который лежит четыре года и стесняется быть прочитанным. Я даже как-то прогнал через сервис файл с собственными заметками за год — и слушал в дороге, как саммари своей же головы.
Чего не любит:
- PDF (особенно отсканированные) — текст оттуда сначала надо вытащить, иначе будет каша.
- Книги с математикой и формулами. AI пока не умеет красиво проговаривать «∫(x²+1)dx», и притворяться, что умеет, я бы не стал.
- Сноски и ссылки. Чаще всего сервис их либо пропускает, либо читает ровным потоком, и в академическом тексте это разламывает мысль.
- Стихи. Стало лучше, но ритм поэзии всё равно идёт мимо большинства моделей.
С языками тоже не всё ровно. Английский и русский — топ. Украинский, белорусский, казахский — иногда хорошо, иногда странные ударения. Малые языки — лотерея.
Как это выглядит изнутри
Я попробую не превращать это в инструкцию из 12 пунктов, потому что когда читаешь такое в гайде, а потом открываешь сервис — всё равно всё интуитивно. Поэтому коротко.
Кидаешь файл. Сервис разбивает его на главы и абзацы, проходится по тексту и пытается понять, кто в нём вообще есть. В романе с диалогами он распознаёт персонажей и предлагает каждому свой голос — мужской, женский, по возрасту, иногда по характеру. Можно согласиться, можно перенастроить под себя. Дальше — рендер.
Время рендера зависит от длины. Короткий рассказ — пара минут. Сборник эссе — полчаса. Полноценный роман — несколько часов, иногда сутки, если очередь длинная или провайдер использует batch API. Хорошие сервисы (наш в том числе) сначала отдают первые главы — чтобы можно было послушать и не ждать конца, если качество вдруг не вытянуло.
Про деньги
Биллинг почти везде идёт за символы, не за минуты — это правильно, потому что 1000 символов даёт примерно минуту аудио, но скорость зависит от языка и от того, болтливый ли голос.
Если переводить в живые цифры: рассказ на 50 тысяч символов выходит дешевле билета в кино, роман на 600 тысяч — как ужин в нормальном ресторане. Большой том в полтора миллиона — порядок недорогой настольной игры. Не «доступно как чашка кофе», но и не та сумма, после которой жалеешь.
Подписки сейчас уходят. Большинство сервисов (мы в том числе) работают по разовым платежам: озвучил — заплатил — пользуешься. Никаких ежемесячных списаний за то, чем не пользуешься.
Про голоса персонажей

Самое осязаемое улучшение последних пары лет — что один диктор больше не читает за всех. Раньше Аня и Мария звучали одинаково, и слушатель догадывался по интонации, что сейчас говорит мама, а не дочка. Теперь у Ани — низкий мягкий, у Марии — звонкий, у рассказчика — нейтральный, и в диалоге не приходится пересматривать страницу.
Другой голос — другое звучание. Тот же текст в другом голосе:
В каталоге у нас сейчас 30 голосов — все живут на /voices, включай и слушай.
Я заметил, что для триллеров и детективов это вообще game-changer — там, где сюжет завязан на «кто что сказал», смена голоса экономит мозг. Для нон-фикшена контраст не так важен, можно вообще одним голосом.
Что обычно настраивается, кроме самого голоса:
- Стилевая подсказка («холодно, отстранённо», «с теплотой, по-домашнему»).
- Возрастной диапазон — подросток, взрослый, пожилой.
- Переопределение голоса для конкретного персонажа.
Совет, который сэкономил мне часы переслушивания: не доверяйтесь автоматическому распределению на ключевых героях. На второстепенных — пусть выбирает сам, разница не слышна. А вот главного героя стоит послушать в трёх вариантах, прежде чем гнать всю книгу.
Эмоции — без фанатизма
Современные модели умеют эмоциональную окраску, и тут есть соблазн перекрутить. Не надо. Реальные дикторы в аудиокнигах читают сдержаннее, чем кажется, — основная работа идёт паузами и темпом, а не криками. Если сделать всё на максимуме, через десять минут от текста хочется отдохнуть.
В нашем сервисе на эту тему есть отдельная заметка в памяти: лёгкие тонировки только когда интенсивность реально высокая. Грусть — да, тревога — да. Истерика и крик — почти никогда. Это не из-за бедности модели, это из-за того, что с криками не слушается.
Сколько вообще длится одна книга
Роман на 300 страниц — это 12–15 часов аудио на стандартной скорости. Это много. Большинство, кого я знаю, слушают на 1.25x: разборчивость не страдает, а уложиться в книгу можно за пару рабочих недель в дороге.
На рендер у нас уходит:
- Маленькое (до 10 тыс. символов) — буквально несколько минут.
- Среднее (до сотни тысяч) — четверть часа, плюс-минус.
- Полный роман — несколько часов.
Если вдруг в очереди затор — сервис всё равно начнёт отдавать первые главы первыми, дальше можно слушать параллельно с тем, как догоняется хвост.
Где AI всё ещё ломается
Не буду делать вид, что всё идеально. Узких мест хватает.
В именах собственных, особенно нерусских, часто слетают ударения. «Бертольт», «Пруст», «Маргарита Тереза» — пятьдесят на пятьдесят. На своей книге это лечится разметкой ударения в исходнике (за+мок вместо замок), но тратить вечер на ручную правку списка имён — не самое весёлое.
Графики, таблицы, инфографика просто пропадают. Если в книге есть ключевая визуалка — аудио её не передаст, и это не починится никаким AI.
Кириллица иногда натыкается на устаревшую лексику. Классику XIX века слушать можно, но иногда вылетают слова, которые модель явно не встречала, и она их «угадывает». Раздражает, если ты лингвист или редактор. Если нет — почти не замечается.
И ещё — индивидуальная утомляемость от синтезированной речи. У некоторых людей мозг через 40 минут чувствует, что что-то не так, даже если объяснить не может. У большинства — нет. Это просто факт, с которым ничего не поделать.
Своё vs публичное
Многие сервисы (мы в том числе) разделяют: своя книга — это когда вы загружаете текст и слушаете для себя; публичный каталог — это когда сервис сам лицензирует популярные книги и даёт всем. Личное прослушивание не упирается в авторские права. Коммерческое распространение AI-озвучки — отдельная тема, и по умолчанию оно почти везде запрещено: нужны лицензии и согласие правообладателей.
Что я советую сделать в первый раз
Не бросайтесь на 1000 страниц. Возьмите рассказ или повесть — что-то, что прочитается за пару часов, и где можно почувствовать, как оно вообще на слух. Через десять минут после загрузки у вас будет готовая первая глава. Если зашло — заливайте всё остальное. Если нет — поковыряйте голоса, темп, стиль, попробуйте ещё раз. С большой вероятностью на третьем-четвёртом подходе найдётся комбинация, в которой книга начинает звучать вашей.
Я свою первую книгу так и собрал. Она до сих пор лежит в плеере в дороге, и где-то на восьмом часе я перестаю замечать, что её читает не человек.