pimenov.ai

База знаний

Yandex SpeechKit — синтез и распознавание речи от Яндекса

Облачный сервис Яндекса для синтеза (TTS) и распознавания речи: API v1 и v3, русские голоса, SSML и ударения, тарифы и наш кейс озвучки сайта.

Опубликовано

Облачный сервис Яндекса для синтеза речи (TTS) и распознавания (STT). Те же модели стоят за голосовым помощником Алисой. На синтезе мы озвучили весь pimenov.ai, поэтому акцент здесь — на превращении текста в аудио.

💡
TTS (text-to-speech) — синтез речи: текст превращается в аудио. STT (speech-to-text) — распознавание: аудио превращается в текст. SpeechKit умеет и то, и другое.

Что это такое

Yandex SpeechKit — набор речевых технологий в составе Yandex Cloud и Yandex AI Studio. Сервис закрывает две задачи:

  • Синтез речи — озвучивает текст голосами нейросетевых моделей.
  • Распознавание речи — расшифровывает аудио в текст на 15+ языках.

Для контентных задач (озвучка статей, аудиоверсии, голосовые обзоры) основной инструмент — синтез.

Что умеет

ВозможностьДля чего
Синтез речи (TTS)Аудиоверсии статей, озвучка интерфейсов, голосовые уведомления
Распознавание речи (STT)Расшифровка звонков, голосовых сообщений, диктовка
Brand VoiceСоздание уникального кастомного голоса под бренд (отдельный тариф)
PlaygroundТест синтеза и распознавания в браузере без кода

Голоса и языки

В Playground доступно 29 голосов: 19 русских, 4 казахских, 3 узбекских и по одному немецкому, английскому и на иврите. У многих голосов есть роли (амплуа) и эмоциональная окраска — нейтральная, дружелюбная, строгая.

  • Языки синтеза: русский (ru-RU), английский (en-US), турецкий (tr-TR), а также казахский и узбекский.
  • Роль (role) управляет тоном и эмоцией одного и того же голоса.
  • Скорость (speed) задаётся числом от 0.1 до 3.0, где 1.0 — средний темп речи человека.
💡
Для длинного авторского текста выбирайте спокойный голос на скорости около 1.0–1.1. На коротком тесте любой голос звучит прилично — слушайте полный материал целиком, иначе роботичность вылезет на восьмой минуте.

Подключение по API

У синтеза два API: v1 (проще, тарификация за символы) и v3 (новее, тарификация за запрос, поддержка MP3 и расширенной разметки).

Авторизация — заголовок Authorization с API-ключом сервисного аккаунта или IAM-токеном:

# Синтез через API v3 (endpoint)
curl -X POST \
  -H "Authorization: Api-Key <ваш_API_ключ>" \
  -H "Content-Type: application/json" \
  -d @body.json \
  https://tts.api.cloud.yandex.net/tts/v3/utteranceSynthesis

Минимальное тело запроса v3 — текст плюс параметры голоса и формата:

{
  "text": "Здравствуйте! Это аудиоверсия материала.",
  "outputAudioSpec": {
    "containerAudio": { "containerAudioType": "MP3" }
  },
  "hints": [
    { "voice": "anton" },
    { "role": "neutral" },
    { "speed": 1.1 }
  ]
}
⚠️
Никогда не храните API-ключ в коде репозитория. Держите его в переменной окружения или в хранилище секретов, в запрос подставляйте из окружения.

v1 против v3

ПараметрAPI v1API v3
ТарификацияЗа символы (за 1 млн)За запрос
ФорматыWAV (LPCM), OggOpus, MP3 (премиум-голоса)WAV, OggOpus, MP3
РазметкаSSML, ударенияTTS-разметка, ударения, тонкая настройка
Когда выбиратьПростые сценарии, привычный биллинг по символамНовые проекты, MP3 «из коробки», длинные материалы

Форматы и параметры синтеза

ПараметрЗначенияКомментарий
ФорматWAV (LPCM), OggOpus, MP3Для голоса на вебе MP3 — оптимальный компромисс размера и совместимости
Скорость0.1 – 3.0 (по умолчанию 1.0)Для длинных текстов 1.0–1.1
Длина текста (v1)до 5000 символов на запросДлинные материалы режут на части и склеивают
Языкru-RU, en-US, tr-TR и др.Для смешанного текста помогает разметка

Управление произношением

Самая капризная часть синтеза — произношение имён, англицизмов и технических терминов. Прочитанные «как есть», они звучат как аудиоверсия опечатки.

  • Ударения ставятся знаком + перед ударной гласной: контр+оль, def+ect.
  • Паузы между словами обозначаются дефисом -.
  • SSML и TTS-разметка позволяют управлять паузами, интонацией и произношением фрагментов.
  • Кириллизация англицизмов часто надёжнее латиницы: бренды и термины проще записать русскими буквами с нужным ударением.
⚖️
Где-то спасает кириллизация, где-то — ударение, а иногда проще переписать фразу по-человечески. Для повторяющихся терминов (названия сервисов, бренды) держите собственный словарь произношения.

Тарифы и лимиты

Цены зависят от версии API и режима. Ниже ориентиры — актуальные значения всегда сверяйте в официальном прайс-листе.

СценарийОриентир по цене
Синтез, API v1≈ $11 за 1 000 000 символов (без НДС)
Синтез, API v3≈ $0,00133 за запрос (без НДС)
Brand Voice, запрос0,1626 ₽ за единицу тарификации (с НДС)

Лимиты распознавания:

  • Синхронное — короткие записи до 30 секунд и до 1 МБ.
  • Потоковое — до 5 минут и до 10 МБ.
  • Асинхронное (файлы) — до 4 часов и до 60 МБ в теле запроса.
💡
На старте Яндекс обычно даёт грант на тестирование. Этого достаточно, чтобы прогнать реальные материалы и честно посчитать стоимость до перехода на платный контур.

Практические сценарии

  • Аудиоверсии статей и постов — полный текст материала озвучивается голосом, читатель слушает вместо чтения.
  • Короткие аудиообзоры справочников — не диктовка инструкции, а человеческое вступление: о чём материал и стоит ли открывать его глазами.
  • Голосовые уведомления и интерфейсы — озвучка коротких системных сообщений.
  • Расшифровка звонков и голосовых — через STT для контакт-центров и заметок.

Наш кейс: как мы озвучили весь pimenov.ai

Мы прошли этот путь на собственном сайте — от первого теста голоса до полного аудиослоя на сотни материалов.

📌
Итог: 365 аудиоматериалов, 21 час 25 минут звука и около 932,84 ₽ за всю генерацию через Yandex SpeechKit API v3 (5737 единиц тарификации по ставке 0,1626 ₽).

Что мы сделали и что выяснили:

  • Сначала протестировали MiniMax, затем остановились на Yandex SpeechKit — он дал предсказуемый русский голос и понятный расчёт стоимости для массового прогона.
  • Голос выбрали из связки anton / neutral, формат — MP3 64 kbps: маленький файл, грузится быстро, открывается почти везде.
  • Главная война была за произношение: синтезатор сначала читал «pimenov.ai» как «пимэнов яйяй». Рабочей схемой стало «П+именов эйай» с ударением на «И», плюс отдельная дрессировка терминов (Codex, Directus, Notion).
  • Развели два жанра: для статей и блога — полные аудиоверсии, для базы знаний — короткие аудиообзоры.
  • Файлы лежат на VPS, метаданные — в Directus, на сайт попадает только аудио со статусом approved. Появилась и отдельная аудиолента.
  • Для новых материалов настроен автопилот: он проверяет, где нет аудио, берёт партию, считает стоимость и добавляет результат на сайт.

Подробный разбор — в двух статьях:

Полезные ссылки


По теме

Если у вас есть длинные тексты или база знаний, которые хочется озвучить без боли с ударениями и произношением, такой аудиоконтур на SpeechKit реально собрать и довести до ума.

Если захотите обсудить, как это применить у себя или в команде — пишите в Telegram @pimenov