pimenov.ai
Кейс / Аудиослой сайта

Как pimenov.ai стал сайтом, который можно слушать целиком

Два материала описывают один кейс в двух фазах. Сначала сайт учился говорить: тесты MiniMax и Yandex SpeechKit, борьба с произношением pimenov.ai, выбор формата MP3, блок аудио на страницах и первая аудиолента.

Потом пилот превратился в production-контур: 365 опубликованных аудиоматериалов, 21:25:01 звука, отдельная страница /audio/, постраничная лента и автопилот, который подхватывает новые материалы.

Аудио

365

Статьи, блог и база знаний получили опубликованные аудиоверсии или краткие аудиообзоры.

Длительность

21:25:01

Около 1285 минут прослушивания на обычной скорости 1x.

Стоимость

932,84 ₽

Расчёт по manifest-файлам Yandex SpeechKit API v3: 5737 единиц тарификации.

Лента

13 страниц

Аудио собрано в отдельный маршрут /audio/, где материалы можно слушать подряд.

Иллюстрация аудиослоя pimenov.ai: дашборд со звуковой дорожкой, метриками и числом 365

Первая фаза

Проблема оказалась не в кнопке TTS, а в редакционном контуре вокруг голоса

Первые тесты быстро показали, что длинный сайт нельзя просто скормить синтезатору. Ссылки, URL, английские термины, команды и названия вроде Codex, Directus, Notion или Synology превращаются в шум, если заранее не подготовить сценарий и произношение.

MiniMax помог проверить качество на длинном тексте

Короткий тест голоса обманывает. На полном материале проявляются повторы интонаций, странные паузы и усталость синтеза.

Yandex SpeechKit стал рабочим промежуточным провайдером

Для русскоязычного сайта важны цена, предсказуемость и скорость проверки. На этом этапе связка anton / neutral оказалась достаточно практичной.

Произношение стало отдельной задачей

Название pimenov.ai пришлось буквально дрессировать: латиница, кириллица, паузы, дефисы и ударения, пока не появился устойчивый вариант «Пименов эйай».

Текст надо превращать в сценарий

Технический материал перед озвучкой нужно очистить от шума: ссылки, команды и таблицы не должны звучать как случайный набор символов.

Иллюстрация пилотного аудиоконтура: текст превращается в звуковую волну через локальный процесс обработки

Продуктовое решение

Для разных типов материалов появились разные жанры аудио

Главный редакционный выбор: не все страницы нужно озвучивать одинаково. Авторские статьи и блог можно слушать почти целиком, а база знаний требует краткого аудиообзора, иначе инструкция превращается в длинную диктовку ссылок и технических команд.

Статьи и блог: полноценная аудиоверсия

Там есть повествование, ритм и авторская логика. Слушатель может пройти материал почти как длинный голосовой текст.

База знаний: краткий аудиообзор

Вместо дословной инструкции слушатель получает человеческое вступление: что это такое, зачем пригодится и стоит ли открыть материал глазами.

Честная альфа-пометка

На страницах прямо указано: аудио подготовлено через Yandex SpeechKit, возможны ошибки. Это не прячет шероховатости синтеза.

Скорости прослушивания как часть UX

Плеер поддерживает 0.85x, 1x, 1.25x, 1.5x и 2.0x, а интерфейс пересчитывает время прослушивания под выбранную скорость.

Архитектура публикации

Сгенерировано не значит опубликовано: аудио проходит approved-контур

Пилот сразу собирался как управляемая система, а не как папка случайных MP3. У каждого материала есть место хранения, сценарий, manifest генерации и метаданные, по которым сайт понимает, какое аудио можно показывать публично.

  1. Материал превращается в сценарий, где убран шум ссылок, команд и технических фрагментов.
  2. Yandex SpeechKit генерирует MP3 64 kbps как лёгкий формат для голосового контента.
  3. Файл, сценарий и manifest лежат в стабильной структуре /audio/.../, привязанной к материалу и версии генерации.
  4. Directus хранит метаданные в pimenov_ai_audio_variants, а сайт берёт только статус approved.
Иллюстрация пайплайна: текстовые материалы проходят обработку и превращаются в аудио на странице сайта

Вторая фаза

После пилота контур масштабировали на весь сайт

Финальный материал показывает, что аудио перестало быть демо. После тестового запуска был закрыт весь хвост: статьи, блог и база знаний получили опубликованные аудио, а сама лента стала отдельным режимом потребления сайта.

365 аудиоматериалов на сайте

Весь опубликованный аудиослой включает статьи, записи блога и материалы базы знаний.

331 новый материал после пилота

Финальная догенерация включала большой прогон на 327 материалов и догоняющую партию ещё на 4 свежих материала.

18:31:27 нового аудио

Именно столько звука добавил финальный проход после пилота: около 1111 минут прослушивания.

932,84 ₽ за весь слой

Итоговая стоимость рассчитана по публичным manifest-файлам и тарификации Yandex SpeechKit API v3.

Постраничная аудиолента

На момент выкладки в /audio/ было 13 страниц, а MP3 открывались как обычные файлы сайта.

Проверки проигрывания

После генерации проверялись карточки материалов, последние страницы ленты и Range-запросы к MP3 для перемотки.

Что изменилось

pimenov.ai стал не только текстовым архивом, но и слушаемым контуром

Теперь материал можно читать, слушать на странице, скачать как MP3 или идти по аудиоленте подряд. Это особенно важно для длинного сайта: не всегда удобно читать, но можно слушать по дороге, на прогулке или в фоне.

Аудио встроено рядом с текстом

Пользователю не нужно выносить материал в отдельный TTS-сервис. Плеер уже находится внутри страницы.

Появился отдельный маршрут /audio/

Сайт получил режим «включить и идти дальше», а не только каталог текстов для чтения глазами.

Новые материалы подхватывает автопилот

Контур проверяет, не появились ли материалы без аудио, считает стоимость, генерирует небольшую партию и добавляет результат в approved-слой.

Следующий фронт — качество голоса

Yandex SpeechKit закрыл массовую задачу, а дальше можно искать TTS-провайдера, который звучит естественнее на длинных авторских материалах.

Кому это полезно

Этот подход переносится на сайты, базы знаний и контентные архивы

Кейс особенно полезен тем, у кого уже есть много материалов, но часть аудитории не доходит до них глазами. Аудиослой делает такой архив ближе к реальному использованию, если не относиться к нему как к одной кнопке синтеза.

Авторским сайтам

Когда длинные статьи хочется дать не только для чтения, но и для прогулки, дороги или фонового прослушивания.

Базам знаний

Когда дословная озвучка вредна, но краткий обзор помогает быстро понять, стоит ли читать полную инструкцию.

Командам с контентным хвостом

Когда нужно не вручную озвучить пару страниц, а построить pipeline, стоимость, approved-статусы и регулярную догенерацию.

Источники

Один кейс связан с двумя материалами

Первый материал фиксирует пилот: как сайт учился говорить и почему понадобился полноценный аудиоконтур. Второй материал фиксирует масштабирование: сколько аудио получилось, сколько это стоило и что изменилось для сайта.