Все бегут за трендами в ИИ, но настоящее конкурентное преимущество — там, где технология встречается с вашей уникальной экспертизой.
Короткий отчёт по аудио на pimenov.ai: после тестового запуска мы со Стёпой Codex закрыли весь хвост и довели сайт до состояния, когда его действительно можно слушать.
Теперь на сайте есть 365 аудиоматериалов. Это статьи, записи блога и база знаний: для больших материалов — полноценные аудиоверсии, для базы знаний — короткие аудиообзоры, чтобы быстро понять, о чём материал и стоит ли открывать полный текст.
Самая приятная часть: это уже не демо и не отдельная тестовая витрина. Аудио встроено в сами материалы, собрано в отдельную аудиоленту и нормально работает постранично. На момент выкладки в ленте 13 страниц, все опубликованные аудио лежат на сайте и открываются как обычные MP3.
Цифры
Главная цифра: 365 аудиоматериалов.
Общая длительность опубликованного аудио на сайте — 21:25:01. Это примерно 1285 минут прослушивания на обычной скорости 1x.
Финальная догенерация после пилота заняла 331 новый материал: большой прогон на 327 материалов и маленькая догоняющая партия ещё на 4 свежих материала, которые появились уже после основной генерации.
По финальной догенерации получилось 18 часов 31 минута 27 секунд нового аудио. Это примерно 1111 минут.
По деньгам: весь опубликованный аудиослой на 365 материалов обошёлся примерно в 932,84 ₽ по тарификации Яндекс SpeechKit API v3. Это расчёт по публичным manifest-файлам: 5737 единиц тарификации по ставке 0,1626 ₽ за единицу.
Финальный проход после пилота стоил 808,21 ₽. Из них 802,36 ₽ пришлись на основной прогон, ещё 5,85 ₽ — на догоняющую партию последних материалов. Остальное — пилотные аудио, которые были сделаны раньше.
Как это было сделано
В качестве рабочего TTS-провайдера для этого этапа использовали Яндекс SpeechKit. Не потому что это идеальный голос на все времена, а потому что он оказался достаточно предсказуемым для массового прогона: можно посчитать стоимость, нарезать длинные тексты, получить MP3 и встроить результат в сайт.
Для статей и блога генерировалась аудиоверсия текста. Для базы знаний — короткий аудиообзор: не полноценная замена материала, а быстрый рассказ о том, что это такое и зачем может пригодиться.
После генерации аудио были загружены на сайт, для материалов появились approved-записи, сайт был пересобран, а поисковые хуки и sitemap отправлены на обновление. Отдельно проверили аудиоленту, последние страницы, карточки материалов и Range-запросы к MP3, чтобы проигрывание и перемотка работали нормально.
Что изменилось для сайта
Раньше аудио было экспериментом: несколько материалов, тест качества голоса, проверка интерфейса и произношения. Теперь это полноценный слой сайта.
Можно открыть материал и послушать его прямо на странице. Можно зайти в /audio/ и идти по ленте подряд. Можно скачать MP3. Можно включить скорость 1.25x, 1.5x или 2x, если хочется пройти материал быстрее.
Это превращает сайт из текстового архива в более живой формат. Не всегда удобно читать. Иногда материал проще послушать по дороге, во время прогулки или в фоне, пока разбираешься с темой. Теперь это не надо делать вручную через отдельные сервисы: аудио уже рядом с текстом.
Что дальше
Этот этап я считаю закрытым: сайт получил полный аудиослой.
Для новых материалов уже есть автопилот: он регулярно проверяет, не появились ли статьи, записи блога или материалы базы знаний без аудио, берёт небольшую партию, считает стоимость, генерирует аудио через Яндекс SpeechKit и добавляет результат на сайт сразу в approved-контур.
Теперь можно спокойно экспериментировать с качеством голоса. Яндекс SpeechKit хорошо закрыл массовую задачу: быстро, понятно по деньгам, без ручной возни на сотни материалов. Но это не значит, что на нём нужно останавливаться. Следующий интересный поиск — TTS-провайдер, который звучит естественнее и лучше подходит под длинные авторские материалы.
Пока же важный рубеж такой: pimenov.ai теперь можно не только читать, но и слушать целиком.
По теме
Если вы тоже думаете, как добавить аудиослой к своему сайту или собрать пайплайн озвучки для своего контента — это вполне посильная задача, и подходов тут уже хватает.
Если захотите обсудить, как это применить у себя или в команде — пишите в Telegram @pimenov
Если хотите разобрать свою задачу — напишите мне Если хотите разобрать свою задачу — напишите мне.
Можно прийти с идеей, черновым контекстом или уже живой задачей. Помогу быстро понять, где реальный следующий шаг, а где лишний шум.
Обычно хватает 2–3 сообщений, чтобы понять, могу ли я здесь реально помочь и в каком формате лучше двигаться дальше.
Связанные материалы
Open-source embedding-модель от BAAI для поиска, RAG и семантического сравнения текстов. Контекст 8192 токена, 100+ языков, MIT-лицензия, работает на CPU. Разбор возможностей, срав…
Gemini 3.1 Flash Live — модель для создания голосовых ИИ-агентов с минимальной задержкой. Разбираюсь, что это значит для разработчиков и почему это важно.