База знаний

Yandex SpeechKit — синтез и распознавание речи от Яндекса

Облачный сервис Яндекса для синтеза (TTS) и распознавания речи: API v1 и v3, русские голоса, SSML и ударения, тарифы и наш кейс озвучки сайта.

Опубликовано 07.06.2026 Обновлено 09.07.2026

API и данные Backend

🗓️

Актуальность: проверено 9 июля 2026 года по официальной документации Yandex AI Studio (тарифы, лимиты, список голосов). Сам сервис теперь живёт внутри Yandex AI Studio, там же появился Realtime API для голосовых агентов. Базовые вещи не изменились: эндпоинты, авторизация и формат запроса те же. Мы актуализировали список языков, нюанс тарификации v3 и ссылки. Цены и лимиты всё равно сверяйте перед запуском в продакшн — Яндекс их периодически меняет.

Облачный сервис Яндекса для синтеза речи (TTS) и распознавания (STT). Те же модели стоят за голосовым помощником Алисой. На синтезе мы озвучили весь pimenov.ai, поэтому акцент здесь — на превращении текста в аудио.

💡

TTS (text-to-speech) — синтез речи: текст превращается в аудио. STT (speech-to-text) — распознавание: аудио превращается в текст. SpeechKit умеет и то, и другое.

Что это такое

Yandex SpeechKit — набор речевых технологий в составе Yandex Cloud и Yandex AI Studio. Сервис закрывает две задачи:

Синтез речи — озвучивает текст голосами нейросетевых моделей.
Распознавание речи — расшифровывает аудио в текст на 15+ языках.

Для контентных задач (озвучка статей, аудиоверсии, голосовые обзоры) основной инструмент — синтез.

Что умеет

Возможность	Для чего
Синтез речи (TTS)	Аудиоверсии статей, озвучка интерфейсов, голосовые уведомления
Распознавание речи (STT)	Расшифровка звонков, голосовых сообщений, диктовка
Brand Voice	Создание уникального кастомного голоса под бренд (отдельный тариф)
Playground	Тест синтеза и распознавания в браузере без кода

Голоса и языки

В Yandex AI Studio доступно несколько десятков голосов: большинство русские, плюс отдельные голоса для других языков. У многих голосов есть роли (амплуа) и эмоциональная окраска — нейтральная, дружелюбная, строгая, радостная. Актуальный список смотрите в документации, он периодически пополняется.

Языки синтеза: русский (ru-RU), английский (en-US), немецкий (de-DE), иврит (he-IL), а также казахский и узбекский.
Роль (role) управляет тоном и эмоцией одного и того же голоса.
Скорость (speed) задаётся числом от 0.1 до 3.0, где 1.0 — средний темп речи человека.

💡

Для длинного авторского текста выбирайте спокойный голос на скорости около 1.0–1.1. На коротком тесте любой голос звучит прилично — слушайте полный материал целиком, иначе роботичность вылезет на восьмой минуте.

Подключение по API

У синтеза два API: v1 (проще, тарификация за символы) и v3 (новее, тарификация поштучно — одна единица на каждые 250 символов, поддержка MP3 и расширенной разметки).

Авторизация — заголовок Authorization с API-ключом сервисного аккаунта или IAM-токеном:

# Синтез через API v3 (endpoint)
curl -X POST \
  -H "Authorization: Api-Key <ваш_API_ключ>" \
  -H "Content-Type: application/json" \
  -d @body.json \
  https://tts.api.cloud.yandex.net/tts/v3/utteranceSynthesis

Минимальное тело запроса v3 — текст плюс параметры голоса и формата:

{
  "text": "Здравствуйте! Это аудиоверсия материала.",
  "outputAudioSpec": {
    "containerAudio": { "containerAudioType": "MP3" }
  },
  "hints": [
    { "voice": "anton" },
    { "role": "neutral" },
    { "speed": 1.1 }
  ]
}

⚠️

Никогда не храните API-ключ в коде репозитория. Держите его в переменной окружения или в хранилище секретов, в запрос подставляйте из окружения.

v1 против v3

Параметр	API v1	API v3
Тарификация	За символы (за 1 млн)	Поштучно: 1 единица на каждые 250 символов
Форматы	WAV (LPCM), OggOpus, MP3 (премиум-голоса)	WAV, OggOpus, MP3
Разметка	SSML, ударения	TTS-разметка, ударения, тонкая настройка
Когда выбирать	Простые сценарии, привычный биллинг по символам	Новые проекты, MP3 «из коробки», длинные материалы

Форматы и параметры синтеза

Параметр	Значения	Комментарий
Формат	WAV (LPCM), OggOpus, MP3	Для голоса на вебе MP3 — оптимальный компромисс размера и совместимости
Скорость	0.1 – 3.0 (по умолчанию 1.0)	Для длинных текстов 1.0–1.1
Длина текста	v1 — до 5000 символов; v3 — 250 символов и 24 секунды по умолчанию (до 5000 в режиме `unsafe_mode` или потоковом)	Длинные материалы режут на части и склеивают
Язык	ru-RU, en-US, de-DE, he-IL, kk, uz	Для смешанного текста помогает разметка

Управление произношением

Самая капризная часть синтеза — произношение имён, англицизмов и технических терминов. Прочитанные «как есть», они звучат как аудиоверсия опечатки.

Ударения ставятся знаком + перед ударной гласной: контр+оль, def+ect.
Паузы между словами обозначаются дефисом -.
SSML и TTS-разметка позволяют управлять паузами, интонацией и произношением фрагментов.
Кириллизация англицизмов часто надёжнее латиницы: бренды и термины проще записать русскими буквами с нужным ударением.

⚖️

Где-то спасает кириллизация, где-то — ударение, а иногда проще переписать фразу по-человечески. Для повторяющихся терминов (названия сервисов, бренды) держите собственный словарь произношения.

Тарифы и лимиты

Цены зависят от версии API и режима. Ниже ориентиры — актуальные значения всегда сверяйте в официальном прайс-листе.

Сценарий	Ориентир по цене
Синтез, API v1	≈ $11 за 1 000 000 символов (без НДС)
Синтез, API v3	≈ $0,00133 за единицу тарификации, без НДС (1 единица — до 250 символов)
Brand Voice, запрос	0,1626 ₽ за единицу тарификации (с НДС)

Лимиты распознавания:

Синхронное — короткие записи до 30 секунд и до 1 МБ.
Потоковое — до 5 минут и до 10 МБ.
Асинхронное (файлы) — до 4 часов и до 60 МБ в теле запроса.

💡

На старте Яндекс обычно даёт грант на тестирование. Этого достаточно, чтобы прогнать реальные материалы и честно посчитать стоимость до перехода на платный контур.

Практические сценарии

Аудиоверсии статей и постов — полный текст материала озвучивается голосом, читатель слушает вместо чтения.
Короткие аудиообзоры справочников — не диктовка инструкции, а человеческое вступление: о чём материал и стоит ли открывать его глазами.
Голосовые уведомления и интерфейсы — озвучка коротких системных сообщений.
Расшифровка звонков и голосовых — через STT для контакт-центров и заметок.

Наш кейс: как мы озвучили весь pimenov.ai

Мы прошли этот путь на собственном сайте — от первого теста голоса до полного аудиослоя на сотни материалов.

📌

Итог: 365 аудиоматериалов, 21 час 25 минут звука и около 932,84 ₽ за всю генерацию через Yandex SpeechKit API v3 (5737 единиц тарификации по ставке 0,1626 ₽).

Что мы сделали и что выяснили:

Сначала протестировали MiniMax, затем остановились на Yandex SpeechKit — он дал предсказуемый русский голос и понятный расчёт стоимости для массового прогона.
Голос выбрали из связки anton / neutral, формат — MP3 64 kbps: маленький файл, грузится быстро, открывается почти везде.
Главная война была за произношение: синтезатор сначала читал «pimenov.ai» как «пимэнов яйяй». Рабочей схемой стало «П+именов эйай» с ударением на «И», плюс отдельная дрессировка терминов (Codex, Directus, Notion).
Развели два жанра: для статей и блога — полные аудиоверсии, для базы знаний — короткие аудиообзоры.
Файлы лежат на VPS, метаданные — в Directus, на сайт попадает только аудио со статусом approved. Появилась и отдельная аудиолента.
Для новых материалов настроен автопилот: он проверяет, где нет аудио, берёт партию, считает стоимость и добавляет результат на сайт.

Подробный разбор — в двух статьях:

Я научил сайт говорить, и он первым делом переврал собственное имя — про тесты MiniMax и SpeechKit, войну с произношением и устройство аудиоконтура.
Весь pimenov.ai теперь можно слушать: 365 аудиоматериалов — итоговые цифры по всему аудиослою сайта.

Полезные ссылки

Сайт сервиса: yandex.cloud/services/speechkit
Документация по синтезу: aistudio.yandex.ru/docs/ru/speechkit/tts
Список голосов: aistudio.yandex.ru/docs/ru/speechkit/tts/voices
Тарифы: aistudio.yandex.ru/docs/ru/speechkit/pricing
Playground в Yandex AI Studio: aistudio.yandex.ru

По теме

Если у вас есть длинные тексты или база знаний, которые хочется озвучить без боли с ударениями и произношением, такой аудиоконтур на SpeechKit реально собрать и довести до ума.

Если захотите обсудить, как это применить у себя или в команде — пишите в Telegram @pimenov

Если хотите разобрать свою задачу — напишите мне

Можно прийти с идеей, черновым контекстом или уже живой задачей. Помогу быстро понять, где реальный следующий шаг, а где лишний шум.

Напишите мне в Телеграм Мой Телеграм канал

Обычно хватает 2–3 сообщений, чтобы понять, могу ли я здесь реально помочь и в каком формате лучше двигаться дальше.