WavThruVec_pytorch下載WavThruVec_pytorch源代碼下載

WavThruVec_pytorch

Ai源碼

1.0.0

下載

Wavthruvec pytorch

基於Pytorch的WavThruvec的非正式實施。

原始論文是wavthruvec：潛在語音表示為神經語音綜合的中間特徵

建築學

Text2VEC模型主要遵循FastSpeech（XCMYZ）架構。我修改了該模型，主要基於RAD-TTS（NVIDIA）。我添加了一個ecapa_tdnn作為揚聲器編碼器，用於多說話的條件。

對於論文中未提及的其他細節，我也遵循RAD-TT。

VEC2WAV主要基於HIFI-GAN，並引入有條件的批准化以調節揚聲器嵌入的網絡。上樣本率序列為（5,4,4,2,2），因此上採樣因子為 $ times 320 $ （原始紙是 $ times 640 $ ），換句話說，產生的波的樣本率為16kHz（原始紙中的32kHz）。

Text2Vec培訓

text2Vec推斷

vec2wav

輸入

對於文字：

請勿使用任何基於規則的文本歸一化或音義方法，而是使用原始字符，而是將其轉換為文本插入作為輸入。

對於音頻：

使用wav2Vec 2.0的輸出作為WAV的功能（而不是MEL頻譜圖），並具有'float32'的dtype和(batch_size, n_frame, n_channel)的形狀。

注意：N_Channel = 768或1024，這取決於您正在使用的WAV2VEC 2.0的版本，因為TencentGamemate提供Fairseq-version（768）和HuggingFace-version（1024）。這兩個版本具有不同的輸出形狀。

WAV2VEC 2.0預算

從此存儲庫WAV2VEC2.0（中國的演講預處理），也可以在Huggingface中找到

attn_prior

Wavthuvec和FastSpeech之間最大的區別之一是單調對齊搜索（MAS）模塊（請參閱alignment.py ）。

在FastSpeech中，培訓輸入包括梅爾框架和文本令牌的教師對齊。具體而言，它涉及使用MFA在訓練之前為每個文本令牌生成MEL框架的duration 。

在WavThruvec中，使用RAD-TTS的MAS生成duration ，並將其送入長度調節器（持續時間預測器）。

根據單調對齊搜索和RAD-TTS實現，當您訓練模型時，將在'./data/align_prior'下生成Align-Prior文件，並使用{n_token}_{n_feat}_prior.pth的文件名格式。

環境

CUDA 10.1
Python 3.9.7
火炬1.8.1+CU101
火炬選擇器0.3.0
Torchaudio 0.8.1
張板2.12.0
天秤座0.8.0
numba 0.56.4
Numpy 1.22.4
llvmlite 0.39.1

數據集並準備

aishell3

prepar_data.py：

1.閱讀WAV文件和WAV2VEC2預處理的模型，將WAV重新採樣至16KHz，然後轉換為.npy文件，該文件佔據了相應的WAV2VEC 2.0功能。
2.閱讀Aishell3轉錄（content.txt），然後過濾中文音素和空白。採用轉錄和文件路徑來構建火車列表（./ data/enc_train.txt）。
3.構建詞彙，將用於將字符轉換為火炬變量。

例如，準備_data.py只需幾個揚聲器和幾個WAV文件。

訓練

WavThruvec違反了2個組件：Text2Vec（編碼器）和VEC2WAV（解碼器），它們獨立訓練

因此，我將它們放在兩個單獨的DIRS中，並為每種配置使用了不同的訓練配置。

張板

張板記錄器存儲在run/{log_seed}/tb_logs目錄中。假設log_seed=1 ，您可以使用此命令在本地主機上使用張量。

 tensorboard --logdir run/1/tb_logs

保存檢查點並還原

模型檢查點保存在run/{log_seed}/model_new目錄中。

假設您每10000迭代保存檢查點，現在您有一個檢查點checkpoint_10000.pth.tar 。如果您需要在step 10000重新啟動培訓，請使用此命令。

 python ./text2vec/train.py --restore_step 10000

托多

實驗和表演
實施的更多詳細信息

參考

存儲庫

fastspeech（xcmyz's）
wav2vec2.0（中國言語預告片）
rad-tts（nvidia's）
gan-tts（yanggeng1995's）
hifi-gan
FastPitch（Dan-Wells'）
ecapa_tdnn（tao ruijie's）
ecapa_tdnn（lawlict's）
Glow-tts（Jaywalnut310）

紙

fastspeech
FastSpeech2
hifi-gan
wav2vec
rad-tts
單調對齊搜索

展開

附加信息

版本 1.0.0
類型 Ai源碼
更新時間 2025-09-14
大小 892.77KB
來自於 Github

相關應用

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
pytorch image models

2024-11-03
nextcloud_share_url_downloader

2024-11-01
麗華資料分析引擎免費版3.0_搜尋_導航_採集_輿情_排行_api

2022-06-28

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
ML stack

Ai源碼

1.0.0
awesome free chatgpt

Ai源碼

1.0.0
pywin_contextmenu

Ai源碼

Version update
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3

相關資訊全部