@junmingong: Khala 1.0 刚刚发布——来自北京中央音乐学院的一个音乐生成模型。论文、代码、权重……
摘要
Khala 1.0 是一个开源音乐生成模型,用于从文本和歌词生成高保真完整歌曲,采用统一的声学标记管道。由北京中央音乐学院发布,附带论文、代码、权重和演示。
查看缓存全文
缓存时间: 2026/05/16 13:18
Khala 1.0 刚刚发布 —— 来自北京中央音乐学院的音乐生成模型。论文、代码、权重和演示全部开源。我最近在那里讲了 ACE-Step,并提前看到了 Khala。很高兴看到它正式发布。开源音乐生成正在蓬勃发展。 https://github.com/Khala-Music-AI/Khala… https://arxiv.org/abs/2605.01790 https://khala-music-ai.github.io/Khala-demo/ — # Khala-Music-AI/Khala 源码:https://github.com/Khala-Music-AI/Khala # 高保真歌曲生成 —— 统一的声学标记管道 English | 中文 ## ✨ Khala 是什么? Khala 是一个用于高保真歌曲生成的开源系统,能够根据文本描述和歌词条件生成完整歌曲。与基于语义标记、扩散模型或多阶段音频生成方案的方法不同,Khala 采用统一的声学标记路线,在同一个离散音频表示空间内同时生成粗粒度音乐结构和细粒度声学细节。 Khala 的核心特性包括: - 完整歌曲生成:设计用于生成完整歌曲,而非短片段或循环式伴奏。 - 文本与歌词控制:支持自然语言提示和歌词,控制风格、情绪、人声和内容。 - 统一声学标记表示:基于 64 层 RVQ 声学标记层级结构,将音频表示为从粗到细的离散声学标记。 - 两阶段生成管道:主干网络先生成粗粒度声学标记,然后超分辨率模型补全更高的 RVQ 标记层,最后解码器重建波形。 - 完整系统实现:包含前端 UI、FastAPI 后端调度器、单 GPU 推理工作节点、模型加载以及端到端音频生成路径,而非仅仅独立的推理脚本。 ## 📰 新闻 - ⚠️ [2026-05-07] 我们发现了一个可能严重影响推理质量的问题。目前正在调查中,可能与数值精度有关。在此通知移除前,请将当前生成质量视为不稳定的。 ### ✅ 已更新 - [2026-05-16] 在线音频演示页面现已开放:Khala 演示 (https://khala-music-ai.github.io/Khala-demo/) - [2026-05-11] 后端推理启动现在默认支持单 GPU 安全启动,并增加了多 GPU 和运行时模式覆盖,以适应部署兼容性。 - [2026-05-05] arXiv 论文现已可用:Khala: Scaling Acoustic Token Language Models Toward High-Fidelity Music Generation (https://arxiv.org/abs/2605.01790) - [2026-05-01] 代码库、环境文档和 Dockerfile 已清理完毕以供发布。 ### ⏳ 待办事项 - [即将推出] 面向音乐人和初学者的完整部署指南。 - [即将推出] Discord 社区服务器。 ### 🖥️ Web UI #### 提示模式 Khala 前端演示 1 #### 标签模式 Khala 前端演示 2 ### 🎧 音频样本 请在线演示页面收听生成的样本:Khala 演示 (https://khala-music-ai.github.io/Khala-demo/) ## ✅ 运行时要求 当前发布版本主要面向已经熟悉 GPU 服务器的研究人员和开发者。 - NVIDIA GPU,完整推理管道建议 24GB 或以上显存,例如 RTX 4090 或更高级别 GPU。 - Docker 和 NVIDIA Container Toolkit。 - 支持 CUDA 的 NVIDIA 驱动程序。 - Python 和 Node.js 已包含在预构建镜像中。 - 模型权重需要下载到仓库根目录的 checkpoints/ 目录中。 ## 🚀 快速开始 本节面向已经熟悉基本 Docker 和 CUDA 工作流程的研究人员和开发者,提供运行系统的最短路径。 如果你想从干净的 NGC 容器逐步配置环境,请阅读: - ENVIRONMENT_SETUP.md - ENVIRONMENT_SETUP_zh.md 如果你想了解后端结构和运行时逻辑,请阅读: - backend/README_backend.md - backend/README_backend_zh.md ### 1. 准备运行时环境 当前可用的预构建镜像为: bash docker pull ghcr.io/davidliujiafeng/khala-env:ngc25.02-node24 docker run --gpus all -it --rm \ --name khala \ -p 30869:30869 \ -p 8889:8889 \ ghcr.io/davidliujiafeng/khala-env:ngc25.02-node24 > 注意:上述命令使用了 --rm,因此容器内创建的文件在容器退出后将被删除。如果你想要一个长期使用的开发容器或希望保留下载的模型权重,请使用挂载目录或移除 --rm。 ### 2. 克隆仓库 进入容器后,运行: bash cd /workspace git clone https://github.com/Khala-Music-AI/Khala.git cd Khala ### 3. 下载模型检查点 模型仓库: - Hugging Face:liujiafeng/Khala-MusicGeneration-v1.0 (https://huggingface.co/liujiafeng/Khala-MusicGeneration-v1.0) 在仓库根目录下运行: bash mkdir -p checkpoints hf download liujiafeng/Khala-MusicGeneration-v1.0 --local-dir checkpoints 此命令会将模型仓库内容下载到本地 checkpoints/ 目录。 ### 4. 启动后端 bash cd /workspace/Khala/backend bash run_backend.sh 默认启动器现在以单 GPU 安全模式启动。高级用户也可以从同一脚本中选择特定的 GPU ID 并在 one_shot 和 keep_loaded 运行时模式之间切换;详情请参见 backend/README_backend.md。 ### 5. 启动前端 在另一个终端中运行: bash cd /workspace/Khala/frontend npm install npm run dev ### 6. 打开 Web UI 默认 URL: - http://127.0.0.1:30869 ## 🧠 系统概览 当前系统包含三个层次: - 前端:接受提示、歌词和生成设置,并显示结果。 - API 调度器:接收请求,创建作业,排队并将其分发给空闲的工作节点。 - 推理工作节点:运行主干、超分辨率和解码器推理。 请求路径如下: mermaid flowchart LR A["前端 UI"] --> B["backend_api.py"] B --> C["backend_worker.py"] C --> D["主干网络"] D --> E["超分辨率"] E --> F["解码器"] F --> G["生成的音频"] G --> B B --> A ## 🔗 项目资源 - 演示页面:Khala 演示 (https://khala-music-ai.github.io/Khala-demo/) - arXiv 论文:Khala: Scaling Acoustic Token Language Models Toward High-Fidelity Music Generation (https://arxiv.org/abs/2605.01790) - 模型权重:https://huggingface.co/liujiafeng/Khala-MusicGeneration-v1.0 - 环境设置:ENVIRONMENT_SETUP.md - 后端文档:backend/README_backend.md ## 🗂 仓库结构 text Khala/ ├── backend/ ├── frontend/ ├── core/ ├── models/ ├── checkpoints/ ├── assets/ ├── Dockerfile ├── requirements.txt ├── ENVIRONMENT_SETUP.md └── ENVIRONMENT_SETUP_zh.md 主要目录: - frontend/:前端页面和 Vite 项目。 - backend/:后端 API、工作节点和启动脚本。 - core/:项目特定的核心模块。 - models/:Megatron、解码器和分词器相关代码。 - checkpoints/:模型检查点目录。 - assets/:README 和演示材料使用的图像。 ## 📚 引用 如果本项目对你的研究或开发工作有帮助,欢迎引用我们的论文: - Khala: Scaling Acoustic Token Language Models Toward High-Fidelity Music Generation (https://arxiv.org/abs/2605.01790) 最终的 BibTeX 信息将在稍后添加到论文页面和仓库文档中。 ## 🙏 致谢 当前实现基于多个优秀的开源项目和工具,包括但不限于: - NVIDIA NGC - Megatron / Megatron Core - Hugging Face - FastAPI - Vite / React ## 📜 许可证 模型权重目前计划以 CC BY-NC 4.0(Creative Commons Attribution-NonCommercial 4.0 International)发布。 ## 💬 联系方式 欢迎加入微信群进行讨论、使用问题咨询和获取未来更新:
相似文章
@HuggingPapers:谷歌刚刚在Hugging Face上发布了Magenta RealTime 2,这是唯一一个用于实时连续音乐生成的开源权重模型……
谷歌在Hugging Face上发布了Magenta RealTime 2,这是一个开源权重模型,可在设备上实现实时连续音乐生成,延迟约200毫秒,并可通过文本、音频或MIDI进行控制。
Jukebox
# Jukebox 来源:[https://openai.com/index/jukebox/](https://openai.com/index/jukebox/) 自动音乐生成的历史已有半个多世纪\.[1](https://openai.com/index/jukebox/#citation-bottom-1),[2](https://openai.com/index/jukebox/#citation-bottom-2),[3](https://openai.com/index/jukebox/#citation-bottom-3),[4](https://openai.com/index/jukebox/#citation-bottom-4)一个主要的方法是以钢琴卷的形式生成符号音乐,它指定了时序和音高
最佳本地AI音乐生成器来了!免费无限制
ACE-Step 1.5 XL是一款开源音乐生成器,在质量与速度上超越Suno与Udio,仅需12 GB GPU即可无限运行,生成速度约120×实时。
@thepatch_kev:有些AI音乐模型实际上是专为音乐人打造的,Stable Audio 3就是一个很好的例子。感谢 @z…
Stability AI 发布了 Stable Audio 3.0,这是一个用于生成音频的开放权重模型系列,旨在支持艺术实验并集成到 gary4juce 等 DAW 中。
google/magenta-realtime-2
Google DeepMind 发布了 Magenta RealTime 2,这是一个开源音乐生成模型,支持设备端流式处理,可通过文本、音频示例和 MIDI 实现低延迟控制。