cnn_vocoder下載cnn_vocoder源代碼下載

cnn_vocoder

Ai源碼

1.0.0

下載

cnnvocoder

注意：我不再從事這個項目。參見＃9。

基於CNN的Vocoder。

這項工作的靈感來自使用多頭卷積神經網絡在快速頻譜反轉中描述的M-CNN模型。作者表明，即使是一個簡單的UPSMPLING網絡也足以從頻譜圖/MEL-SPECTROGRAM合成波形。

在此存儲庫中，我將頻譜功能用於訓練模型，因為它包含的信息多於MEL-Spectrogram功能。但是，由於從頻譜圖到MEL光譜圖的轉換只是一個線性投影，因此，基本上，您可以訓練一個簡單的網絡預測MEL光譜圖的頻譜圖。您還可以更改參數，以便能夠從MEL-Spectrogram功能中訓練Vocoder。

示例音頻

建築註釋

與M-CNN相比，我提出的網絡有一些差異：

我使用UPS採樣 + Conv層而不是轉置Conconv層。這有助於防止棋盤工件。
該模型使用許多殘留塊預先/在UPS採樣模塊之後，以使網絡更大/更深。
我僅在預測波形和目標波形的對數尺度的stft尺度之間使用L1損失。對數空間上的評估損失比原始的stft-ragnitude更好，因為它更接近人類對響度的感覺。我試圖在頻譜圖功能上計算損失，但這無濟於事。

安裝要求

$ pip install -r requirements.txt

培訓Vocoder

1。準備數據集

我將LJSpeech數據集用於實驗。如果您還沒有，請下載數據集並將其放在某個地方。

之後，您可以運行命令為我們的實驗生成數據集：

$ python preprocessing.py --samples_per_audio 20  
--out_dir ljspeech 
--data_dir path/to/ljspeech/dataset 
--n_workers 4

2

$ python train.py --out_dir ${output_directory}

有關更多培訓選項，請運行：

$ python train.py --help

從頻譜圖生成音頻

從音頻產生頻譜圖

$ python gen_spec.py -i sample.wav -o out.npz

從頻譜圖生成音頻

$ python synthesis.py --model_path path/to/checkpoint 
                      --spec_path out.npz 
                      --out_path out.wav

預驗證的模型

您可以在這裡獲得我的預訓練模型。

致謝

該實現使用NVIDIA，Ryuichi Yamamoto，Keith Ito的代碼，如我的代碼中所述。

執照

麻省理工學院

展開

附加信息

版本 1.0.0
類型 Ai源碼
更新時間 2025-08-21
大小 2.5MB
來自於 Github

相關應用

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
YuQue_Book_Download

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
麗華資料分析引擎免費版3.0_搜尋_導航_採集_輿情_排行_api

2022-06-28

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
ML stack

Ai源碼

1.0.0
awesome free chatgpt

Ai源碼

1.0.0
pywin_contextmenu

Ai源碼

Version update
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3

相關資訊全部