PortaSpeech下載 - PortaSpeech源代碼下載

下載

PortAspeech -Pytorch實施

PORTASPEECH的PYTORCH實現：便攜式和高質量的生成文本到語音。

音頻樣本可在 /演示中找到。

模塊	普通的	小的	正常（紙）	小（紙）
全部的	24m	76m	2180萬	6.7m
語言語言編碼器	3.7m	14m	-	-
變性生機體	11m	28m	-	-
FlowPostnet	9.3m	3.4m	-	-

數據集是指以下文檔中的數據集的名稱，例如LJSpeech 。

您可以使用

 pip3 install -r requirements.txt

此外，還為Docker用戶提供Dockerfile 。

您必須下載驗證的型號，並將它們放入output/ckpt/DATASET/ 。

對於單揚聲器TTS ，運行

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step RESTORE_STEP --mode single --dataset DATASET

生成的話語將放入output/result/ 。

也支持批次推理，嘗試

 python3 synthesize.py --source preprocessed_data/DATASET/val.txt --restore_step RESTORE_STEP --mode batch --dataset DATASET

綜合preprocessed_data/DATASET/val.txt中的所有話語。

可以通過指定所需的持續時間比來控制合成的話語的口語速率。例如，一個人可以將口語率提高20

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step RESTORE_STEP --mode single --dataset DATASET --duration_control 0.8

請注意，可控性起源於FastSpeech2，而不是PortAspeech的重要利益。

支持的數據集是

跑步

 python3 prepare_align.py --dataset DATASET

用於一些準備工作。

對於強制對準，蒙特利爾強制對準器（MFA）用於獲得發音和音素序列之間的比對。此處提供了數據集的預提取對齊。您必須在preprocessed_data/DATASET/TextGrid/中解壓縮文件。或者，您可以自己運行對準器。

之後，通過

 python3 preprocess.py --dataset DATASET

培訓您的模型

 python3 train.py --dataset DATASET

有用的選項：

使用

 tensorboard --logdir output/log

在您的本地主機上提供張板。顯示了損耗曲線，合成的MEL光譜圖和音頻。

對於Vocoder， Hifi-Gan和Melgan得到了支持。
在變異生長器中沒有relu激活和分層，以避免搗碎的輸出。
Speed up the convergence of word-to-phoneme alignment in LinguisticEncoder by dividing long words into subwords and sorting the dataset by mel-spectrogram frame length.
有兩種助手損失可以改善單詞到詞素的對準：“ CTC”和“ DGA”。您可以按照以下方式切換它們：
```
 # In the train.yaml
aligner :
    helper_type : " dga " # ["dga", "ctc", "none"]
```
- “ DGA”：對角線引導注意力（DGA）損失
- “ CTC”：連接派時間分類（CTC）帶有前向算法的損失
- 如果您設置“無”，則不會在訓練期間施加助手損失。
- 三種方法的對齊比較（“ DGA”，“ CTC”和“無”從上到下）：
- 默認設置為“ DGA”。儘管“ CTC”是最強的對齊方式，但輸出質量和準確性比“ DGA”差。
- 但是，仍然有一個改善產出質量的空間。音頻質量和主張（準確性）似乎是一個權衡。
將擴展到多揚聲器TTS 。