Open-source библиотека готовых моделей речи от Silero Team: синтез (TTS), распознавание (STT) и детекция голоса (VAD). Особенно сильна на русском: 5 живых голосов, автоматические у…
База знаний
Yandex SpeechKit — синтез и распознавание речи от Яндекса
Облачный сервис Яндекса для синтеза (TTS) и распознавания речи: API v1 и v3, русские голоса, SSML и ударения, тарифы и наш кейс озвучки сайта.
Облачный сервис Яндекса для синтеза речи (TTS) и распознавания (STT). Те же модели стоят за голосовым помощником Алисой. На синтезе мы озвучили весь pimenov.ai, поэтому акцент здесь — на превращении текста в аудио.
Что это такое
Yandex SpeechKit — набор речевых технологий в составе Yandex Cloud и Yandex AI Studio. Сервис закрывает две задачи:
- Синтез речи — озвучивает текст голосами нейросетевых моделей.
- Распознавание речи — расшифровывает аудио в текст на 15+ языках.
Для контентных задач (озвучка статей, аудиоверсии, голосовые обзоры) основной инструмент — синтез.
Что умеет
| Возможность | Для чего |
| Синтез речи (TTS) | Аудиоверсии статей, озвучка интерфейсов, голосовые уведомления |
| Распознавание речи (STT) | Расшифровка звонков, голосовых сообщений, диктовка |
| Brand Voice | Создание уникального кастомного голоса под бренд (отдельный тариф) |
| Playground | Тест синтеза и распознавания в браузере без кода |
Голоса и языки
В Playground доступно 29 голосов: 19 русских, 4 казахских, 3 узбекских и по одному немецкому, английскому и на иврите. У многих голосов есть роли (амплуа) и эмоциональная окраска — нейтральная, дружелюбная, строгая.
- Языки синтеза: русский (
ru-RU), английский (en-US), турецкий (tr-TR), а также казахский и узбекский. - Роль (role) управляет тоном и эмоцией одного и того же голоса.
- Скорость (speed) задаётся числом от
0.1до3.0, где1.0— средний темп речи человека.
1.0–1.1. На коротком тесте любой голос звучит прилично — слушайте полный материал целиком, иначе роботичность вылезет на восьмой минуте.Подключение по API
У синтеза два API: v1 (проще, тарификация за символы) и v3 (новее, тарификация за запрос, поддержка MP3 и расширенной разметки).
Авторизация — заголовок Authorization с API-ключом сервисного аккаунта или IAM-токеном:
# Синтез через API v3 (endpoint)
curl -X POST \
-H "Authorization: Api-Key <ваш_API_ключ>" \
-H "Content-Type: application/json" \
-d @body.json \
https://tts.api.cloud.yandex.net/tts/v3/utteranceSynthesisМинимальное тело запроса v3 — текст плюс параметры голоса и формата:
{
"text": "Здравствуйте! Это аудиоверсия материала.",
"outputAudioSpec": {
"containerAudio": { "containerAudioType": "MP3" }
},
"hints": [
{ "voice": "anton" },
{ "role": "neutral" },
{ "speed": 1.1 }
]
}v1 против v3
| Параметр | API v1 | API v3 |
| Тарификация | За символы (за 1 млн) | За запрос |
| Форматы | WAV (LPCM), OggOpus, MP3 (премиум-голоса) | WAV, OggOpus, MP3 |
| Разметка | SSML, ударения | TTS-разметка, ударения, тонкая настройка |
| Когда выбирать | Простые сценарии, привычный биллинг по символам | Новые проекты, MP3 «из коробки», длинные материалы |
Форматы и параметры синтеза
| Параметр | Значения | Комментарий |
| Формат | WAV (LPCM), OggOpus, MP3 | Для голоса на вебе MP3 — оптимальный компромисс размера и совместимости |
| Скорость | 0.1 – 3.0 (по умолчанию 1.0) | Для длинных текстов 1.0–1.1 |
| Длина текста (v1) | до 5000 символов на запрос | Длинные материалы режут на части и склеивают |
| Язык | ru-RU, en-US, tr-TR и др. | Для смешанного текста помогает разметка |
Управление произношением
Самая капризная часть синтеза — произношение имён, англицизмов и технических терминов. Прочитанные «как есть», они звучат как аудиоверсия опечатки.
- Ударения ставятся знаком
+перед ударной гласной:контр+оль,def+ect. - Паузы между словами обозначаются дефисом
-. - SSML и TTS-разметка позволяют управлять паузами, интонацией и произношением фрагментов.
- Кириллизация англицизмов часто надёжнее латиницы: бренды и термины проще записать русскими буквами с нужным ударением.
Тарифы и лимиты
Цены зависят от версии API и режима. Ниже ориентиры — актуальные значения всегда сверяйте в официальном прайс-листе.
| Сценарий | Ориентир по цене |
| Синтез, API v1 | ≈ $11 за 1 000 000 символов (без НДС) |
| Синтез, API v3 | ≈ $0,00133 за запрос (без НДС) |
| Brand Voice, запрос | 0,1626 ₽ за единицу тарификации (с НДС) |
Лимиты распознавания:
- Синхронное — короткие записи до 30 секунд и до 1 МБ.
- Потоковое — до 5 минут и до 10 МБ.
- Асинхронное (файлы) — до 4 часов и до 60 МБ в теле запроса.
Практические сценарии
- Аудиоверсии статей и постов — полный текст материала озвучивается голосом, читатель слушает вместо чтения.
- Короткие аудиообзоры справочников — не диктовка инструкции, а человеческое вступление: о чём материал и стоит ли открывать его глазами.
- Голосовые уведомления и интерфейсы — озвучка коротких системных сообщений.
- Расшифровка звонков и голосовых — через STT для контакт-центров и заметок.
Наш кейс: как мы озвучили весь pimenov.ai
Мы прошли этот путь на собственном сайте — от первого теста голоса до полного аудиослоя на сотни материалов.
Что мы сделали и что выяснили:
- Сначала протестировали MiniMax, затем остановились на Yandex SpeechKit — он дал предсказуемый русский голос и понятный расчёт стоимости для массового прогона.
- Голос выбрали из связки
anton/neutral, формат — MP3 64 kbps: маленький файл, грузится быстро, открывается почти везде. - Главная война была за произношение: синтезатор сначала читал «pimenov.ai» как «пимэнов яйяй». Рабочей схемой стало «П+именов эйай» с ударением на «И», плюс отдельная дрессировка терминов (Codex, Directus, Notion).
- Развели два жанра: для статей и блога — полные аудиоверсии, для базы знаний — короткие аудиообзоры.
- Файлы лежат на VPS, метаданные — в Directus, на сайт попадает только аудио со статусом
approved. Появилась и отдельная аудиолента. - Для новых материалов настроен автопилот: он проверяет, где нет аудио, берёт партию, считает стоимость и добавляет результат на сайт.
Подробный разбор — в двух статьях:
- Я научил сайт говорить, и он первым делом переврал собственное имя — про тесты MiniMax и SpeechKit, войну с произношением и устройство аудиоконтура.
- Весь pimenov.ai теперь можно слушать: 365 аудиоматериалов — итоговые цифры по всему аудиослою сайта.
Полезные ссылки
- Сайт сервиса: yandex.cloud/services/speechkit
- Документация по синтезу: yandex.cloud/docs/speechkit/tts
- Список голосов: yandex.cloud/docs/speechkit/tts/voices
- Тарифы: yandex.cloud/docs/speechkit/pricing
- Playground в Yandex AI Studio: aistudio.yandex.ru
По теме
Если у вас есть длинные тексты или база знаний, которые хочется озвучить без боли с ударениями и произношением, такой аудиоконтур на SpeechKit реально собрать и довести до ума.
Если захотите обсудить, как это применить у себя или в команде — пишите в Telegram @pimenov
Если хотите разобрать свою задачу — напишите мне Если хотите разобрать свою задачу — напишите мне.
Можно прийти с идеей, черновым контекстом или уже живой задачей. Помогу быстро понять, где реальный следующий шаг, а где лишний шум.
Обычно хватает 2–3 сообщений, чтобы понять, могу ли я здесь реально помочь и в каком формате лучше двигаться дальше.
Связанные материалы
Простое объяснение очередей и фоновых задач: почему тяжёлую обработку, уведомления, генерацию и синхронизацию лучше выполнять отдельно.
Платформа Paperclip для оркестрации ИИ-агентов получила полноценную документацию. Разбираюсь, почему это важнее, чем кажется, и при чём тут оргструктуры для ботов.