deepvoice3_pytorch下載deepvoice3_pytorch源代碼下載

deepvoice3_pytorch

Ai源碼

v0.1.0 release

下載

Alt文字

deepvoice3_pytorch

基於卷積網絡基於文本到語音綜合模型的Pytorch實現：

ARXIV：1710.07654：深語音3：使用卷積序列學習縮放文本到語音。
ARXIV：1710.08969：基於深度卷積網絡的有效訓練的文本到語音系統，並引導了人們的注意。

音頻樣本可在https://r9y9.github.io/deepvoice3_pytorch/上找到。

伙計們

https://github.com/hash2430/dv3_world：DeepVoice3帶有世界Vocoder支持。＃166

在線TTS演示

筆記本應該在https://colab.research.google.com上執行：

DeepVoice3：多演講者文本到語音演示
DeepVoice3：單揚聲器文本到語音演示

亮點

卷積序列到序列模型，並註意文本到語音綜合
DeepVoice3的多演講者和單揚聲器版本3
音頻樣本和預訓練的模型
LJSpeech（EN），JSUT（JP）和VCTK數據集的預處理器，以及CarpedM20/Multi-E-takotron-Tensorflow兼容兼容的自定義數據集（以JSON格式）
依賴語言的英語和日語的前端文本處理器

樣品

JA Step000380000預測
JA Step000370000預測
ko_single step000410000預測
ko_single step000400000預測
ko_multi step001680000預測
ko_multi step001700000預測

預驗證的模型

注意：驗證的模型與主體不兼容。即將更新。

URL	模型	數據	超級參數	git提交	步驟
關聯	DeepVoice3	ljspeech	關聯	ABF0A21	640k
關聯	Nyanko	ljspeech	`builder=nyanko,preset=nyanko_ljspeech`	BA59DC7	585k
關聯	多演講者DeepVoice3	VCTK	`builder=deepvoice3_multispeaker,preset=deepvoice3_vctk`	0421749	300k + 300k

要使用預訓練的模型，強烈建議您使用上述特定的git訂單。 IE，

 git checkout ${commit_hash}

然後遵循“從檢查點的合成”部分，在“特定git commit”的讀書中。請注意，最新的開發版本可能無法使用。

您可以嘗試：

 # pretrained model (20180505_deepvoice3_checkpoint_step000640000.pth)
# hparams (20180505_deepvoice3_ljspeech.json)
git checkout 4357976
python synthesis.py --preset=20180505_deepvoice3_ljspeech.json 
  20180505_deepvoice3_checkpoint_step000640000.pth 
  sentences.txt 
  output_dir

關於超級參數的註釋

在預處理/培訓/合成階段期間使用的默認超級參數使用LJSpeech數據集進行了英語TT。如果您想嘗試其他數據集，則必須更改一些參數。有關詳細信息，請參見hparams.py 。
builder指定您要使用的型號。 deepvoice3 ， deepvoice3_multispeaker [1]和nyanko [2]被覆蓋。
DeepVoice3紙中描述的單個揚聲器中描述的超級參數不適用於LJSpeech數據集，因此我更改了一些內容。添加擴張的捲積，更多的頻道，更多的層，並添加引導的注意力丟失等。請參閱代碼以獲取詳細信息。這些更改也適用於多演講者模型。
多個關注層很難學習。從經驗上講，一兩個（第一和最後一個）注意層似乎足夠了。
有了引導性的注意（請參閱https://arxiv.org/abs/1710.08969），如果我們使用多個注意力層，對齊方式就會更快，可靠地產生單調。有了引導性的關注，我可以確認五個注意層變得單調，儘管我無法獲得語音質量的改進。
二進制差異（在https://arxiv.org/abs/1710.08969中進行了描述）似乎可以穩定訓練，尤其是對深層（> 10層）網絡的培訓。
Adam與步驟LR Decay有效。但是，對於更深的網絡，我發現Adam + Noam的LR調度程序更穩定。

要求

Python> = 3.5
cuda> = 8.0
pytorch> = v1.0.0
nnmnkwii> = v0.0.11
mecab（僅日本）

安裝

請首先安裝上面列出的軟件包，然後

 git clone https://github.com/r9y9/deepvoice3_pytorch && cd deepvoice3_pytorch
pip install -e ".[bin]"

入門

預設參數

有許多超級參數要轉動取決於您正在使用的模型和數據。對於典型的數據集和模型，存儲庫中提供了已知工作良好的參數（預設）。有關詳細信息，請參見presets目錄。注意

preprocess.py
train.py
synthesis.py

接受--preset=<json>可選參數，該參數指定在哪裡加載預設參數。如果要使用預設參數，則必須在整個預處理，培訓和評估中使用相同的--preset=<json> 。例如，

 python preprocess.py --preset=presets/deepvoice3_ljspeech.json ljspeech ~/data/LJSpeech-1.0
python train.py --preset=presets/deepvoice3_ljspeech.json --data-root=./data/ljspeech

而不是

 python preprocess.py ljspeech ~/data/LJSpeech-1.0
# warning! this may use different hyper parameters used at preprocessing stage
python train.py --preset=presets/deepvoice3_ljspeech.json --data-root=./data/ljspeech

0。下載數據集

ljspeech（en）：https：//keithito.com/lj-speech-dataset/
VCTK（en）：http：//homepages.inf.ed.ac.uk/jyamagis/page3/page58/page58.html
JSUT（JP）：https：//sites.google.com/site/shinnosuketakamichi/publication/jsut
Nikl（KO）（需要韓國手機號碼以訪問它）：http：//www.korean.go.kr/front/board/board/boardstandardview.do？

1。預處理

用法：

 python preprocess.py ${dataset_name} ${dataset_path} ${out_dir} --preset=<json>

支持的${dataset_name} s是：

ljspeech （en，單揚聲器）
vctk （EN，多演講者）
jsut （JP，單人揚聲器）
nikl_m （KO，多演講者）
nikl_s （KO，單揚聲器）

假設您使用已知的預設參數可用於ljspeech數據集/deepVoice3，並且在~/data/LJSpeech-1.0中具有數據，則可以通過以下方式進行預處理數據

 python preprocess.py --preset=presets/deepvoice3_ljspeech.json ljspeech ~/data/LJSpeech-1.0/ ./data/ljspeech

完成此操作後，您將在./data/ljspeech中看到提取的功能（MEL-SPECTROGINS和線性譜圖）。

1-1。構建自定義數據集。（使用JSON_META）

目前支持使用JSON格式的元數據（與CARPEDM20/Multi-E-Takotron-TensorFlow）建立自己的數據集。用法：

 python preprocess.py json_meta ${list-of-JSON-metadata-paths} ${out_dir} --preset=<json>

您可能需要修改預先存在的預設JSON文件，尤其是n_speakers 。對於英語MultiSpeaker，請從presets/deepvoice3_vctk.json開始。

假設您有數據集A（揚聲器A）和數據集B（揚聲器B），則每個數據集在JSON Metadata File ./datasets/datasetA/alignment.json and ./datasets/datasetB/alignment.json中進行了描述。

 python preprocess.py json_meta "./datasets/datasetA/alignment.json,./datasets/datasetB/alignment.json" "./datasets/processed_A+B" --preset=(path to preset json file)

1-2。長期沉默的預處理自定義英語數據集。（基於VCTK_PREPROCESS）

一些數據集，尤其是自動生成的數據集可能包括長時間的沉默和不良的前導/尾聲噪聲，從而破壞了char-Level SEQ2SEQ模型。（例如，VCTK，儘管它用VCTK_PREPROCESS涵蓋）

為了解決問題， gentle_web_align.py將

為所有話語準備音素對齊
在預處理期間減少沉默

gentle_web_align.py使用Gentle，一種基於Kaldi的語音文本對齊工具。這訪問了網絡安裝的溫和應用程序，對成績單的聲音段對齊，並將結果轉換為htk式標籤文件，並在preprocess.py中處理。溫和可以在Linux/Mac/Windows（通過Docker）中運行。

初步結果表明，雖然vctk_preprocess/prepare_vctk_labels.py在VCTK上的htk/Festival/基於Merlin的方法在VCTK上的工作效果更好，但柔和的音頻剪輯具有帶有環境噪音的音頻剪輯。（例如電影摘錄）

用法：（假設溫柔在localhost:8567 （未指定時默認值））

當聲音文件和成績單文件保存在單獨的文件夾中時。（例如，聲音文件位於datasetA/wavs和成績單位於datasetA/txts ）

 python gentle_web_align.py -w "datasetA/wavs/*.wav" -t "datasetA/txts/*.txt" --server_addr=localhost --port=8567

當聲音文件和成績單文件保存在嵌套結構中時。（例如datasetB/speakerN/blahblah.wav和datasetB/speakerN/blahblah.txt ）

 python gentle_web_align.py --nested-directories="datasetB" --server_addr=localhost --port=8567

每種話語都具有音素對齊後，您可以通過運行preprocess.py提取功能

2。訓練

用法：

 python train.py --data-root=${data-root} --preset=<json> --hparams="parameters you may want to override"

假設您使用LJSpeech數據集構建DeepVoice3風格的模型，然後可以通過以下方式訓練您的模型

 python train.py --preset=presets/deepvoice3_ljspeech.json --data-root=./data/ljspeech/

默認情況下，模型檢查點（.pth）和對齊（.png ./checkpoints保存在每10000個步驟中。

尼克

請先檢查一下，然後按照以下命令進行檢查。

 python preprocess.py nikl_s ${your_nikl_root_path} data/nikl_s --preset=presets/deepvoice3_nikls.json

python train.py --data-root=./data/nikl_s --checkpoint-dir checkpoint_nikl_s --preset=presets/deepvoice3_nikls.json

4。用張板監視器

默認情況下，將日誌傾倒在./log目錄中。您可以通過張板監視日誌：

 tensorboard --logdir=log

5。從檢查點合成

給定文本列表， synthesis.py合成了訓練有素的模型的音頻信號。用法是：

 python synthesis.py ${checkpoint_path} ${text_list.txt} ${output_dir} --preset=<json>

示例test_list.txt：

 Generative adversarial network or variational auto-encoder.
Once upon a time there was a dear little girl who was loved by every one who looked at her, but most of all by her grandmother, and there was nothing that she would not have given to the child.
A text-to-speech synthesis system typically consists of multiple stages, such as a text analysis frontend, an acoustic model and an audio synthesis module.

高級用法

多揚聲器模型

VCTK和NIKL受支持用於構建多演講型模型的數據集。

VCTK

由於VCTK中的某些音頻樣本會影響性能長時間，因此建議進行音素對齊並根據VCTK_PREPROCESS去除沉默。

一旦對每種話語進行音素對齊，就可以通過以下方式提取功能：

 python preprocess.py vctk ${your_vctk_root_path} ./data/vctk

現在您準備了數據，然後您可以通過以下方式培訓DeepVoice3的多演講者版本

 python train.py --data-root=./data/vctk --checkpoint-dir=checkpoints_vctk 
   --preset=presets/deepvoice3_vctk.json 
   --log-event-path=log/deepvoice3_multispeaker_vctk_preset

如果您想重用從其他數據集中學習的學習嵌入，則可以通過：

 python train.py --data-root=./data/vctk --checkpoint-dir=checkpoints_vctk 
   --preset=presets/deepvoice3_vctk.json 
   --log-event-path=log/deepvoice3_multispeaker_vctk_preset 
   --load-embedding=20171213_deepvoice3_checkpoint_step000210000.pth

這可能會提高訓練速度。

尼克

您將能夠在../ nikl_preprocoess中獲得清理的音頻樣本。詳細信息在此處找到。

一旦Nikl語料庫準備從預處理中使用，您就可以通過以下方式提取功能

 python preprocess.py nikl_m ${your_nikl_root_path} data/nikl_m

現在您準備了數據，然後您可以通過以下方式培訓DeepVoice3的多演講者版本

 python train.py --data-root=./data/nikl_m  --checkpoint-dir checkpoint_nikl_m 
   --preset=presets/deepvoice3_niklm.json

揚聲器適應

如果您的數據非常有限，則可以考慮嘗試微調預訓練的模型。例如，使用LJSpeech上的預訓練模型，您可以通過以下命令將其調整為VCTK揚聲器p225 （30分鐘）的數據：

 python train.py --data-root=./data/vctk --checkpoint-dir=checkpoints_vctk_adaptation 
    --preset=presets/deepvoice3_ljspeech.json 
    --log-event-path=log/deepvoice3_vctk_adaptation 
    --restore-parts="20171213_deepvoice3_checkpoint_step000210000.pth"
    --speaker-id=0

根據我的經驗，它可以很快獲得合理的語音質量，而不是從頭開始訓練模型。

上面有兩個重要的選項：

--restore-parts=<N> ：它指定了加載模型參數的位置。選項--checkpoint=<N>的差異為1） --restore-parts=<N>忽略所有無效的參數，而--checkpoint=<N>則沒有。 2） --restore-parts=<N>告訴教練從0步啟動，而--checkpoint=<N>告訴教練從最後一步開始。 --checkpoint=<N>如果您使用完全相同的型號並繼續訓練，則應該可以，但是如果您想自定義模型體系結構並獲得預訓練的模型，那將是有用的。
--speaker-id=<N> ：它指定數據使用者用於培訓。僅當您使用多演講者數據集時，才能指定這一點。至於VCTK，根據數據集中的speaker_info.txt ，將自動分配揚聲器ID（0，1，...，107）。

如果您正在培訓多演講型模型，則只有在n_speakers相同的情況下，揚聲器的改編才能起作用。

故障射擊

＃5 RuntimeError：主線程不在主循環中

這可能會根據Matplotlib的後端而定。嘗試更改matplotlib的後端，看看它是否工作如下：

 MPLBACKEND=Qt5Agg python train.py ${args...}

在＃78中，Engiecat報告說，將Matplotlib的後端從TKINTER（TKAGG）更改為PYQT5（QT5AGG）解決了問題。

贊助商

https://github.com/echelon

致謝

代碼的一部分是根據以下項目改編的：

https://github.com/keithito/tacotron
https://github.com/facebookresearch/fairseq-py

@jraulhernandezi創建的橫幅和徽標（＃76）

展開

附加信息

版本 v0.1.0 release
類型 Ai源碼
更新時間 2025-08-21
大小 6.71MB
來自於 Github

相關應用

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
pytorch image models

2024-11-03
nextcloud_share_url_downloader

2024-11-01
麗華資料分析引擎免費版3.0_搜尋_導航_採集_輿情_排行_api

2022-06-28

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
ML stack

Ai源碼

1.0.0
awesome free chatgpt

Ai源碼

1.0.0
pywin_contextmenu

Ai源碼

Version update
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3

相關資訊全部

deepvoice3_pytorch

deepvoice3_pytorch

伙計們

在線TTS演示

亮點

樣品

預驗證的模型

關於超級參數的註釋

要求

安裝

入門

預設參數

0。下載數據集

1。預處理

1-1。構建自定義數據集。 （使用JSON_META）

1-2。長期沉默的預處理自定義英語數據集。 （基於VCTK_PREPROCESS）

2。訓練

尼克

4。用張板監視器

5。從檢查點合成

高級用法

多揚聲器模型

VCTK

尼克

揚聲器適應

故障射擊

＃5 RuntimeError：主線程不在主循環中

贊助商

致謝

1-1。構建自定義數據集。（使用JSON_META）

1-2。長期沉默的預處理自定義英語數據集。（基於VCTK_PREPROCESS）