cnn_vocoder下载cnn_vocoder源代码下载

cnn_vocoder

Ai源码

1.0.0

下载

cnnvocoder

注意：我不再从事这个项目。参见＃9。

基于CNN的Vocoder。

这项工作的灵感来自使用多头卷积神经网络在快速频谱反转中描述的M-CNN模型。作者表明，即使是一个简单的UPSMPLING网络也足以从频谱图/MEL-SPECTROGRAM合成波形。

在此存储库中，我将频谱功能用于训练模型，因为它包含的信息多于MEL-Spectrogram功能。但是，由于从频谱图到MEL光谱图的转换只是一个线性投影，因此，基本上，您可以训练一个简单的网络预测MEL光谱图的频谱图。您还可以更改参数，以便能够从MEL-Spectrogram功能中训练Vocoder。

示例音频

建筑注释

与M-CNN相比，我提出的网络有一些差异：

我使用UPS采样 + Conv层而不是转置Conconv层。这有助于防止棋盘工件。
该模型使用许多残留块预先/在UPS采样模块之后，以使网络更大/更深。
我仅在预测波形和目标波形的对数尺度的stft尺度之间使用L1损失。对数空间上的评估损失比原始的stft-ragnitude更好，因为它更接近人类对响度的感觉。我试图在频谱图功能上计算损失，但这无济于事。

安装要求

$ pip install -r requirements.txt

培训Vocoder

1。准备数据集

我将LJSpeech数据集用于实验。如果您还没有，请下载数据集并将其放在某个地方。

之后，您可以运行命令为我们的实验生成数据集：

$ python preprocessing.py --samples_per_audio 20  
--out_dir ljspeech 
--data_dir path/to/ljspeech/dataset 
--n_workers 4

2

$ python train.py --out_dir ${output_directory}

有关更多培训选项，请运行：

$ python train.py --help

从频谱图生成音频

从音频产生频谱图

$ python gen_spec.py -i sample.wav -o out.npz

从频谱图生成音频

$ python synthesis.py --model_path path/to/checkpoint 
                      --spec_path out.npz 
                      --out_path out.wav

预验证的模型

您可以在这里获得我的预训练模型。

致谢

该实现使用NVIDIA，Ryuichi Yamamoto，Keith Ito的代码，如我的代码中所述。

执照

麻省理工学院

展开

附加信息

版本 1.0.0
类型 Ai源码
更新时间 2025-08-21
大小 2.5MB
来自于 Github

cnn_vocoder

cnnvocoder

基于CNN的Vocoder。

示例音频

建筑注释

安装要求

培训Vocoder

1。准备数据集

2

从频谱图生成音频

预验证的模型

致谢

执照

OpenCore_NO_ACPI_Build

nspanel_pro_tools_apk

YuQue_Book_Download

zkwork_aleo_gpu_worker

nextcloud_share_url_downloader

丽华数据分析引擎免费版3.0_搜索_导航_采集_舆情_排行_api

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

pywin_contextmenu

Google Dorks

shepherd

mongo express