Turkish Text to Speech下載 - Turkish Text to Speech源代碼下載

Turkish Text to Speech

Ai源碼

1.0.0

下載

土耳其文字到語音

為了訓練語音合成模型，需要表達聲音的聲音和音素序列。這是第一步中的WYH，將輸入文本編碼為符號列表。在這項研究中，我們將使用土耳其角色和音素作為符號。由於土耳其語是一種語音語言，因此在閱讀時會表達單詞。也就是說，字符序列是在土耳其語中構造的單詞。在非語音語言（例如英語）中，可以用音素表示單詞。要將土耳其語音與英語數據合成，英語數據集中的單詞必須首先用語音轉換為土耳其語。

在這項研究中，使用了cmudict_tr和regonyms_tr。 cmudict（土耳其語音詞典）是一本詞典，用語音表示土耳其語約為150萬個單詞。
以下音素代表音素的土耳其發音。

 valid_symbols = [ '1' , '1:' , '2' , '2:' , '5' , 'a' , 'a:' , 'b' , 'c' , 'd' , 'dZ' , 'e' , 'e:' , 'f' , 'g' , 'gj' , 'h' , 'i' , 'i:' , 'j' ,
  'k' , 'l' , 'm' , 'n' , 'N' , 'o' , 'o:' , 'p' , 'r' , 's' , 'S' , 't' , 'tS' , 'u' , 'u' , 'v' , 'y' , 'y:' , 'z' , 'Z' ]

文本歸一化將文本從書面形式轉換為其語言形式，這是文本到語音綜合之前的必不可少的預處理步驟。它確保TT可以處理所有輸入文本而無需跳過未知符號。文本歸一化適用於土耳其語。

數據準備

為了加快培訓，可以在預處理步驟中生成這些培訓，並在培訓期間直接從磁盤上閱讀。請按照以下步驟使用自定義數據集。

使用.wav文件，filelists（數據訓練/驗證拆分）的成績單和路徑的目錄，以text2speech/Fastpitch/dataset/ location的路徑進行準備。這些filelists應列出每行單一的話語：

 < audio file path > | < transcript >

運行預處理腳本以計算pitch和text2speech/Fastpitch/data_preperation.ipynb

$ python prepare_dataset . py  
    - - wav - text - filelists dataset / tts_data . txt  
    - - n - workers 16 
    - - batch - size 1 
    - - dataset - path dataset 
    - - extract - pitch 
    - - f0 - method pyin 
    - - extract - mels

從text2speech/Fastpitch/data_preperation.ipynb這些filelists列出每行的單一話語，準備了使用路徑的文件列表，以通往預計的螺距來運行create_picth_text_file(manifest_path) 。

 < mel or wav file path > | < pitch file path > | < text > | < speaker_id >

完整的數據集具有以下結構：

. / dataset
├── mels
├── pitch
├── wavs
├── tts_data . txt  # train + val
├── tts_data_train . txt
├── tts_data_val . txt
├── tts_pitch_data . txt  # train + val
├── tts_pitch_data_train . txt
├── tts_pitch_data_val . txt

從頭開始訓練FastPitch（頻譜發電機）

該培訓將產生一種能夠從原始文本生成MEL-SPECTROGRAGIN的快速模型。它將被序列化為單個.pt檢查點文件，以及一系列中間檢查點。

$ python train . py - - cuda - - amp - - p - arpabet 1.0 - - dataset - path dataset  
                - - output saved_fastpicth_models / 
                - - training - files dataset / tts_pitch_data_train . txt  
                - - validation - files dataset / tts_pitch_data_val . txt  
                - - epochs 1000 - - learning - rate 0.001 - - batch - size 32 
                - - load - pitch - from - disk

用hifi-gan微調模型

最後一步是將頻譜圖轉換為波形。從頻譜圖生成語音的過程也稱為Vocoder。

一些MEL光譜發電機容易建模偏差。由於頻譜圖與HIFI-GAN訓練的真實數據不同，因此生成的音頻的質量可能會受到影響。為了克服此問題，可以在特定的MEL光譜發電機的輸出上微調HIFI-GAN模型，以適應此偏差。在本節中，我們將對FastPitch輸出進行微調。

使用FastPitch模型生成數據集中所有話語

在text2speech/Hifigan/data/pretrained_fastpicth_model/目錄中復制最佳性能快速輸出.pt文件。
在text2speech/Hifigan/data/ Directory中復制清單文件tts_pitch_data.txt 。

$ python extract_mels . py - - cuda 
    - o data / mels - fastpitch - tr22khz  
    - - dataset - path / text2speech / Fastpitch / dataset 
    - - dataset - files data / tts_pitch_data . txt  # train + val 
    - - load - pitch - from - disk 
    - - checkpoint - path data / pretrained_fastpicth_model / FastPitch_checkpoint . pt - bs 16

現在應在text2speech/Hifigan/data/mels-fastpitch-tr22khz目錄中準備MEL-SPECTROGRAM。微調腳本將加載現有的HIFI-GAN模型，並使用最後一步中生成的頻譜圖運行幾個訓練時期。

用hifi-gan微調快速模型

此步驟將生成另一個.pt Hifi-GAN模型檢查點文件，該文件對特定的FastPitch模型進行了微調。

打開一個新文件夾會導致text2speech/Hifigan目錄中的results 。

$ nohup python train . py - - cuda - - output / results / hifigan_tr22khz 
 - - epochs 1000 - - dataset_path / Fastpitch / dataset 
 - - input_mels_dir / data / mels - fastpitch - tr22khz 
 - - training_files / Fastpitch / dataset / tts_data . txt 
 - - validation_files / Fastpitch / dataset / tts_data . txt 
 - - fine_tuning - - fine_tune_lr_factor 3 - - batch_size 16  
 - - learning_rate 0.0003 - - lr_decay 0.9998 - - validation_interval 10 > log . txt

打開另一個終端並跟踪日誌如下

$ tail - f log . txt

推理

運行以下命令與MEL-SPECTROGRAM GERTATOR合成原始文本的音頻

 python inference . py - - cuda 
  - - hifigan / Hifigan / results / hifigan_tr22khz / hifigan_gen_checkpoint . pt 
  - - fastpitch / Fastpitch / saved_fastpicth_models / FastPitch_checkpoint . pt 
  - i test_text . txt 
  - o wavs /