Аудио
365
Статьи, блог и база знаний получили опубликованные аудиоверсии или краткие аудиообзоры.
Два материала описывают один кейс в двух фазах. Сначала сайт учился говорить: тесты MiniMax и Yandex SpeechKit, борьба с произношением pimenov.ai, выбор формата MP3, блок аудио на страницах и первая аудиолента.
Потом пилот превратился в production-контур: 365 опубликованных аудиоматериалов, 21:25:01 звука, отдельная страница /audio/, постраничная лента и автопилот, который подхватывает новые материалы.
Аудио
365
Статьи, блог и база знаний получили опубликованные аудиоверсии или краткие аудиообзоры.
Длительность
21:25:01
Около 1285 минут прослушивания на обычной скорости 1x.
Стоимость
932,84 ₽
Расчёт по manifest-файлам Yandex SpeechKit API v3: 5737 единиц тарификации.
Лента
13 страниц
Аудио собрано в отдельный маршрут /audio/, где материалы можно слушать подряд.
Первая фаза
Первые тесты быстро показали, что длинный сайт нельзя просто скормить синтезатору. Ссылки, URL, английские термины, команды и названия вроде Codex, Directus, Notion или Synology превращаются в шум, если заранее не подготовить сценарий и произношение.
Короткий тест голоса обманывает. На полном материале проявляются повторы интонаций, странные паузы и усталость синтеза.
Для русскоязычного сайта важны цена, предсказуемость и скорость проверки. На этом этапе связка anton / neutral оказалась достаточно практичной.
Название pimenov.ai пришлось буквально дрессировать: латиница, кириллица, паузы, дефисы и ударения, пока не появился устойчивый вариант «Пименов эйай».
Технический материал перед озвучкой нужно очистить от шума: ссылки, команды и таблицы не должны звучать как случайный набор символов.
Продуктовое решение
Главный редакционный выбор: не все страницы нужно озвучивать одинаково. Авторские статьи и блог можно слушать почти целиком, а база знаний требует краткого аудиообзора, иначе инструкция превращается в длинную диктовку ссылок и технических команд.
Там есть повествование, ритм и авторская логика. Слушатель может пройти материал почти как длинный голосовой текст.
Вместо дословной инструкции слушатель получает человеческое вступление: что это такое, зачем пригодится и стоит ли открыть материал глазами.
На страницах прямо указано: аудио подготовлено через Yandex SpeechKit, возможны ошибки. Это не прячет шероховатости синтеза.
Плеер поддерживает 0.85x, 1x, 1.25x, 1.5x и 2.0x, а интерфейс пересчитывает время прослушивания под выбранную скорость.
Архитектура публикации
Пилот сразу собирался как управляемая система, а не как папка случайных MP3. У каждого материала есть место хранения, сценарий, manifest генерации и метаданные, по которым сайт понимает, какое аудио можно показывать публично.
/audio/.../, привязанной к материалу и версии генерации.
pimenov_ai_audio_variants, а сайт берёт только статус approved.Вторая фаза
Финальный материал показывает, что аудио перестало быть демо. После тестового запуска был закрыт весь хвост: статьи, блог и база знаний получили опубликованные аудио, а сама лента стала отдельным режимом потребления сайта.
Весь опубликованный аудиослой включает статьи, записи блога и материалы базы знаний.
Финальная догенерация включала большой прогон на 327 материалов и догоняющую партию ещё на 4 свежих материала.
Именно столько звука добавил финальный проход после пилота: около 1111 минут прослушивания.
Итоговая стоимость рассчитана по публичным manifest-файлам и тарификации Yandex SpeechKit API v3.
На момент выкладки в /audio/ было 13 страниц, а MP3 открывались как обычные файлы сайта.
После генерации проверялись карточки материалов, последние страницы ленты и Range-запросы к MP3 для перемотки.
Что изменилось
Теперь материал можно читать, слушать на странице, скачать как MP3 или идти по аудиоленте подряд. Это особенно важно для длинного сайта: не всегда удобно читать, но можно слушать по дороге, на прогулке или в фоне.
Пользователю не нужно выносить материал в отдельный TTS-сервис. Плеер уже находится внутри страницы.
Сайт получил режим «включить и идти дальше», а не только каталог текстов для чтения глазами.
Контур проверяет, не появились ли материалы без аудио, считает стоимость, генерирует небольшую партию и добавляет результат в approved-слой.
Yandex SpeechKit закрыл массовую задачу, а дальше можно искать TTS-провайдера, который звучит естественнее на длинных авторских материалах.
Кому это полезно
Кейс особенно полезен тем, у кого уже есть много материалов, но часть аудитории не доходит до них глазами. Аудиослой делает такой архив ближе к реальному использованию, если не относиться к нему как к одной кнопке синтеза.
Когда длинные статьи хочется дать не только для чтения, но и для прогулки, дороги или фонового прослушивания.
Когда дословная озвучка вредна, но краткий обзор помогает быстро понять, стоит ли читать полную инструкцию.
Когда нужно не вручную озвучить пару страниц, а построить pipeline, стоимость, approved-статусы и регулярную догенерацию.
Источники
Первый материал фиксирует пилот: как сайт учился говорить и почему понадобился полноценный аудиоконтур. Второй материал фиксирует масштабирование: сколько аудио получилось, сколько это стоило и что изменилось для сайта.
Кейсы
Кейс
Материалы pimenov.ai получили мягкий agent-ready вход: человек дочитывает текст, а затем может передать его ChatGPT или Claude с готовым промптом для резюме, выводов и применения.
Открыть →Кейс
Связка человека, агента, Notion и кода, в которой мысль быстро превращается в опубликованный результат на живом сайте.
Открыть →Кейс
Обратная связь показала, что сайту нужен не ещё один раздел, а новый слой навигации: поиск как вход по задаче и граф как маршрут по смыслу.
Открыть →