ACE-Step 1.5 XL — open-source генератор музыки, который обогнал Suno
ACE-Step выпустил XL-версию с 4B параметрами — и она обходит Suno v5 на метриках качества. MIT-лицензия, три варианта модели, запуск на своём железе.
Если вы следите за генеративным ИИ в музыке, вот новость, которую стоит запомнить: ACE-Step выпустил версию 1.5 XL — и она обходит Suno v5 на общепринятых метриках качества.
ACE-Step 1.5 XL — это open-source модель с 4 миллиардами параметров (DiT-декодер), которая генерирует музыку локально, на вашем компьютере. Не в облаке, не по подписке — у вас на машине. MIT-лицензия, коммерчески безопасные данные для обучения.
Три варианта под разные задачи
- XL Base — универсальная модель: text-to-music, каверы, ремиксы, завершение треков. Лучший выбор для файн-тюнинга через LoRA
- XL SFT — максимальное качество звука с поддержкой CFG (Classifier-Free Guidance — метод управления стилем генерации)
- XL Turbo — самая быстрая: 8 шагов генерации, без CFG. Ранний релиз, но уже работает
Все три совместимы с языковыми моделями на 0.6B, 1.7B и 4B параметров.
Что по железу
Минимум — 12 ГБ видеопамяти (с INT8-квантизацией и offload), комфортно — от 20 ГБ. На A100 генерация целого трека занимает менее 2 секунд, на RTX 3090 — менее 10 секунд.
Так почему это важно
Музыкальная генерация долго была территорией закрытых сервисов вроде Suno и Udio. ACE-Step показывает, что open-source догоняет — и по качеству, и по скорости. На бенчмарке SongEval модель набрала 4.79 против 4.72 у Suno v5, а по Style Alignment заняла первое место среди всех протестированных моделей.
Для тех, кто делает контент, подкасты, видео или просто экспериментирует со звуком — это реальная возможность генерировать музыку без подписок и ограничений. Плюс поддержка LoRA: обучите модель на нескольких треках — и получите генерацию в вашем стиле.
GitHub проекта · Демо на Hugging Face · acemusic.ai
По теме
- Статья: Карпати перестал кодить и начал «компилировать знания» — разбираю его систему LLM Knowledge Bases
- Блог: Qwen3.5-Omni от Alibaba — модель, которая видит, слышит и говорит. И это не демо
- База знаний: Wispr Flow — голосовой ввод с AI-командами для любого приложения
Если вы работаете с аудио-контентом и думаете, как встроить генерацию музыки в свои процессы — давайте обсудим.