這是一個模塊化的文本到語音框架,旨在支持快速的研究和產品發展。主要功能包括
歡迎捐款。
在這裡查看演示
git clone https://github.com/ranchlai/mandarin-tts.git
cd mandarin-tts
git submodule update --force --recursive --init --remote
pip install -e . f
這裡提供了兩個例子:Biaobei和Aishell3。
要訓練自己的型號,請首先從現有示例中製作副本,然後使用wav2mel.py準備MelspectRogragron功能
cd examples
python wav2mel.py -c ./aishell3/config.yaml -w < aishell3_wav_folder > -m < mel_folder > -d cpu準備培訓所需的SCP文件,
cd examples/aishell3
python prepare.py --wav_folder < aishell3_wav_folder > --mel_folder < mel_folder > --dst_folder ./train/這將生成config.yaml所需的SCP文件(在數據集/火車部分中)。您還需要檢查配置文件中的所有內容是否正常。通常,您不需要更改代碼。
現在您可以開始培訓
cd examples/aishell3
python ../../mtts/train.py -c config.yaml -d cuda對於Biaobei數據集,工作流程相同,除了沒有揚聲器嵌入,但您可以添加韻律嵌入。
將添加更多示例。請留下。
當前提供了兩個示例,並總結了相應的檢查點/配置,如下所示。
| 數據集 | 檢查點 | config |
|---|---|---|
| aishell3 | 關聯 | 關聯 |
| Biaobei | 關聯 | 關聯 |
Vocoder的作用是將Melspectrograms轉換為波形。它們被添加為子模型,並將接受該項目的培訓。因此,您應該在合成之前下載檢查站。在培訓中,不是必需的,因為您可以從生成的Melspectrogram和損失曲線中監視訓練過程。當前我們支持以下聲音編碼器,
| Vocoder | 檢查點 | github |
|---|---|---|
| 浪潮 | 關聯 | 關聯 |
| hifi-gan | 關聯 | 關聯 |
| vocgan | 鏈接鏈接 | 關聯 |
| 梅爾根 | 關聯 | 關聯 |
運行git submodule update --force --recursive --init --remote 。但是,您必須手動下載檢查點並正確設置config.yaml文件中的路徑。
input.txt應與您在配置文件中的eng_type_n的設置設置為emb_type1,即,同一類型,相同的訂單。
為了促進Hanzi到Pinyin的轉錄,您可以嘗試:
cd examples/aishell3/
python ../../mtts/text/gp2py.py -t "为适应新的网络传播方式和读者阅读习惯"
>> sil wei4 shi4 ying4 xin1 de5 wang3 luo4 chuan2 bo1 fang1 shi4 he2 du2 zhe3 yue4 du2 xi2 guan4 sil|sil 为 适 应 新 的 网 络 传 播 方 式 和 读 者 阅 读 习 惯 sil
不是您可以將文本複製到input.txt,並記住放下由'|'隔開的自定義名稱和揚聲器ID。
有了上述檢查點和文本準備就緒,您最終可以運行綜合過程,
python ../../mtts/synthesize.py -d cuda --c config.yaml --checkpoint ./checkpoints/checkpoint_1240000.pth.tar -i input.txt請檢查Vocoder設置的Config.yaml文件。
如果幸運的話,可以在輸出文件夾中找到音頻示例。