Главная
Войти
8 мин чтенияNarrator AI

Text-to-speech для русского — что умеют модели 2026

Технический обзор русскоязычных TTS. Где мы сейчас, что ещё не работает, куда движется индустрия.

#техника#tts#русский

Text-to-speech для русского — 2026

В 2020 я работал в проекте, где надо было синтезировать русскую речь для голосовых ассистентов. Мы перебрали тогда всё, что было на рынке, остановились на чём-то максимально терпимом, и я ещё года два после этого не мог слушать никакую TTS-озвучку — рефлекс. В 2026 я слушаю аудиокниги, синтезированные нейросетью, и через десять минут уже не помню, что они синтезированы. Что произошло за пять лет — и где всё ещё дыры — попробую разложить.

Что вообще поменялось архитектурно

Главный сдвиг — модель речи перестала быть «склейщицей». Раньше работало это так: текст → фонетическая разметка → база заранее записанных кусочков → склейка в волну. Получался тот самый колл-центровский голос, потому что склейка не умеет в контекст.

Современные модели генерируют звуковую волну напрямую через нейросеть, видя весь контекст предложения, а часто и абзаца. Это значит, что после запятой реально появляется естественная пауза, перед вопросительным знаком — подъём интонации, в драматической сцене — мягкое снижение тембра. Не «потому что в правилах прописано», а потому что модель видела миллионы примеров, как это делают живые люди.

В 2026 в проде в основном transformer-based модели — это та же архитектура, что и в больших языковых моделях, только заточена под аудио. Diffusion-based и flow-matching конкурируют с ними в академии и иногда дают лучшее качество, но медленнее. Gemini TTS, на котором мы сидим сами, — transformer-based.

Что русский TTS умеет в 2026

В нормальных задачах — почти всё, что хотелось бы.

Прозу с естественной интонацией — да. Ударения в 95-97% случаев — правильно. Эмоциональная окраска по контексту (грусть, радость, напряжение) — есть, и она не пережата. Разделение голосов в диалогах — работает. Темп подстраивается под тип текста (художку читает медленнее, нон-фикшен — быстрее).

Со средним результатом справляется с вопросительными и восклицательными интонациями (иногда чуть пережаты), с именами собственными (свои — нормально, иностранные — лотерея), с паузами в нужных местах (в основном да, но иногда «дышит» не там).

С чем пока не справляется. Поэзия с сохранением размера — нет. Тонкая ирония и сарказм без явных подсказок — почти нет. Тексты с большим количеством сносок — путается. Узкоспециальная терминология (медицина, право) — много ошибок. Формулы и математика — катастрофа.

Почему русский сложнее английского

Если коротко — потому что наш язык требует от модели больше «понимания», чем английский.

Омонимы с разным ударением — это уникальная боль русского. «За́мок» и «замо́к» пишутся одинаково, но это разные слова. Без понимания контекста модель просто угадывает.

Падежи. Окончание слова меняет грамматическую роль во фразе — субъект, объект, инструмент, пункт назначения. Чтобы правильно интонировать, модель должна понять структуру предложения, а не просто прочитать слова подряд.

Свободный порядок слов. «Я написал книгу» и «Книгу я написал» — одно и то же по смыслу, но акценты разные. В английском порядок слов жёсткий, и модели проще ориентироваться. В русском — приходится понимать, что важно, по контексту.

Размер обучающих данных. Английских аудиокниг с расшифровками в датасетах — на порядок больше, чем русских. Это чистая математика: модель учится на том, что есть, и на английском у неё материала больше.

Глагольный вид. «Делать» и «сделать» — разные глаголы, и интонационно их хорошо бы различать. В английском такого деления нет — там всё через времена и контекст.

Gemini справляется с этим лучше других — у Google ушло много усилий на русскую локализацию. Но если сравнивать в лоб качество русского и английского у одной и той же модели, английский всё равно ровнее. Это нормально, и через пару лет, скорее всего, разрыв сократится.

Конкретные глюки, на которые натыкаются все

Числительные. «1 500 000» одна модель прочитает как «полтора миллиона», другая — как «один пятьсот тысяч». Если в тексте критичные числа — лучше написать словами.

Даты. «12.04.2026» может прозвучать как «двенадцать точка ноль четыре точка две тысячи двадцать шестой». Жесть. Пишите «12 апреля 2026» — и модель прочитает корректно.

Аббревиатуры. «СССР» обычно произносится по буквам — и это правильно. «РАН» — может прочитаться словом «ран», и это уже мимо. «НАТО», «ВУЗ», «МИД» — лотерея, проверяйте.

Иностранные термины посреди русского. «DevOps-инженер» может прозвучать как «дев-опс-инженер» по слогам, через дефис. Или как «девопс инженер», что нормально. Зависит от модели и удачи.

URL-ы и email. AI не знает, что делать со знаком «@» — пропускает или читает как «эт». Если в тексте важный e-mail — переписывайте словами: «имя собака домен точка ру».

Куда это движется

Я не люблю прогнозы, но кое-что выглядит понятным на горизонте 2027-2028.

Клонирование голоса станет нормой. Сейчас это в основном история про английский и западные сервисы. Для русского качество клонов догонит оригинал — и это сильно изменит подкастинг, аудиокниги от первого лица, личные архивы.

Многоязычные модели с сохранением «характера» голоса. Сейчас при переходе с русского на английский внутри одной книги (цитата, имя, термин) голос «прыгает» — другой тембр, другая манера. Скоро будет ровный переход без потери идентичности.

Реалтайм. Сейчас полная книга рендерится часами. Это ограничение модели, не сервиса. К 2028 ждём реалтайм — загрузил, тут же слушаешь.

Эмоциональное управление через явные команды. Сейчас стилевые подсказки работают, но криво. В будущем — чёткие команды в тексте, типа «<gentle>», обработают аккуратно и предсказуемо.

Контекст уровня всей книги. Сейчас модель видит максимум абзац. Скоро — главу, потом всю книгу. Это даст консистентную интонацию персонажа от первой страницы до последней, без «то весел, то грустен по непонятной причине».

Что я бы выбрал на сегодня

Если вам сейчас нужно решить, какой TTS использовать на русском, я бы шёл так.

Для художественной литературы и аудиокниг — Gemini TTS. Это сейчас вершина. Мы сами на нём сидим, и я не знаю ничего лучше.

Для технического и системного контента (IVR, навигация, голосовые ассистенты) — Yandex SpeechKit. Стабильно, голосов мало, но они качественные и под задачу.

Для мультиязычных проектов с русским — Gemini, опять же. Если очень нужен клон голоса для коротких вещей — ElevenLabs, но осознавая, что русский там слабее английского.

Для опенсорса и личных пет-проектов — Silero. Бесплатно для личного использования, голосов мало, качество — приемлемое для домашних задач, не для продакшена.

Через год-два этот список наверняка поменяется. Сейчас рынок движется быстро, новые модели выкатываются ежеквартально, и держать в голове «топ-3 на сегодня» — это ровно то, что приходится делать. Хороший повод проверять обзоры раз в полгода и не уговаривать себя, что ваш текущий выбор — последний на годы.

Похожие статьи