Turkish Text to Speech下载 - Turkish Text to Speech源代码下载

Turkish Text to Speech

Ai源码

1.0.0

下载

土耳其文字到语音

为了训练语音合成模型，需要表达声音的声音和音素序列。这是第一步中的WYH，将输入文本编码为符号列表。在这项研究中，我们将使用土耳其角色和音素作为符号。由于土耳其语是一种语音语言，因此在阅读时会表达单词。也就是说，字符序列是在土耳其语中构造的单词。在非语音语言（例如英语）中，可以用音素表示单词。要将土耳其语音与英语数据合成，英语数据集中的单词必须首先用语音转换为土耳其语。

在这项研究中，使用了cmudict_tr和regonyms_tr。 cmudict（土耳其语音词典）是一本词典，用语音表示土耳其语约为150万个单词。
以下音素代表音素的土耳其发音。

 valid_symbols = [ '1' , '1:' , '2' , '2:' , '5' , 'a' , 'a:' , 'b' , 'c' , 'd' , 'dZ' , 'e' , 'e:' , 'f' , 'g' , 'gj' , 'h' , 'i' , 'i:' , 'j' ,
  'k' , 'l' , 'm' , 'n' , 'N' , 'o' , 'o:' , 'p' , 'r' , 's' , 'S' , 't' , 'tS' , 'u' , 'u' , 'v' , 'y' , 'y:' , 'z' , 'Z' ]

文本归一化将文本从书面形式转换为其语言形式，这是文本到语音综合之前的必不可少的预处理步骤。它确保TT可以处理所有输入文本而无需跳过未知符号。文本归一化适用于土耳其语。

数据准备

为了加快培训，可以在预处理步骤中生成这些培训，并在培训期间直接从磁盘上阅读。请按照以下步骤使用自定义数据集。

使用.wav文件，filelists（数据训练/验证拆分）的成绩单和路径的目录，以text2speech/Fastpitch/dataset/ location的路径进行准备。这些filelists应列出每行单一的话语：

 < audio file path > | < transcript >

运行预处理脚本以计算pitch和text2speech/Fastpitch/data_preperation.ipynb

$ python prepare_dataset . py  
    - - wav - text - filelists dataset / tts_data . txt  
    - - n - workers 16 
    - - batch - size 1 
    - - dataset - path dataset 
    - - extract - pitch 
    - - f0 - method pyin 
    - - extract - mels

从text2speech/Fastpitch/data_preperation.ipynb这些filelists列出每行的单一话语，准备了使用路径的文件列表，以通往预计的螺距来运行create_picth_text_file(manifest_path) 。

 < mel or wav file path > | < pitch file path > | < text > | < speaker_id >

完整的数据集具有以下结构：

. / dataset
├── mels
├── pitch
├── wavs
├── tts_data . txt  # train + val
├── tts_data_train . txt
├── tts_data_val . txt
├── tts_pitch_data . txt  # train + val
├── tts_pitch_data_train . txt
├── tts_pitch_data_val . txt

从头开始训练FastPitch（频谱发电机）

该培训将产生一种能够从原始文本生成MEL-SPECTROGRAGIN的快速模型。它将被序列化为单个.pt检查点文件，以及一系列中间检查点。

$ python train . py - - cuda - - amp - - p - arpabet 1.0 - - dataset - path dataset  
                - - output saved_fastpicth_models / 
                - - training - files dataset / tts_pitch_data_train . txt  
                - - validation - files dataset / tts_pitch_data_val . txt  
                - - epochs 1000 - - learning - rate 0.001 - - batch - size 32 
                - - load - pitch - from - disk

用hifi-gan微调模型

最后一步是将频谱图转换为波形。从频谱图生成语音的过程也称为Vocoder。

一些MEL光谱发电机容易建模偏差。由于频谱图与HIFI-GAN训练的真实数据不同，因此生成的音频的质量可能会受到影响。为了克服此问题，可以在特定的MEL光谱发电机的输出上微调HIFI-GAN模型，以适应此偏差。在本节中，我们将对FastPitch输出进行微调。

使用FastPitch模型生成数据集中所有话语

在text2speech/Hifigan/data/pretrained_fastpicth_model/目录中复制最佳性能快速输出.pt文件。
在text2speech/Hifigan/data/ Directory中复制清单文件tts_pitch_data.txt 。

$ python extract_mels . py - - cuda 
    - o data / mels - fastpitch - tr22khz  
    - - dataset - path / text2speech / Fastpitch / dataset 
    - - dataset - files data / tts_pitch_data . txt  # train + val 
    - - load - pitch - from - disk 
    - - checkpoint - path data / pretrained_fastpicth_model / FastPitch_checkpoint . pt - bs 16

现在应在text2speech/Hifigan/data/mels-fastpitch-tr22khz目录中准备MEL-SPECTROGRAM。微调脚本将加载现有的HIFI-GAN模型，并使用最后一步中生成的频谱图运行几个训练时期。

用hifi-gan微调快速模型

此步骤将生成另一个.pt Hifi-GAN模型检查点文件，该文件对特定的FastPitch模型进行了微调。

打开一个新文件夹会导致text2speech/Hifigan目录中的results 。

$ nohup python train . py - - cuda - - output / results / hifigan_tr22khz 
 - - epochs 1000 - - dataset_path / Fastpitch / dataset 
 - - input_mels_dir / data / mels - fastpitch - tr22khz 
 - - training_files / Fastpitch / dataset / tts_data . txt 
 - - validation_files / Fastpitch / dataset / tts_data . txt 
 - - fine_tuning - - fine_tune_lr_factor 3 - - batch_size 16  
 - - learning_rate 0.0003 - - lr_decay 0.9998 - - validation_interval 10 > log . txt

打开另一个终端并跟踪日志如下

$ tail - f log . txt

推理

运行以下命令与MEL-SPECTROGRAM GERTATOR合成原始文本的音频

 python inference . py - - cuda 
  - - hifigan / Hifigan / results / hifigan_tr22khz / hifigan_gen_checkpoint . pt 
  - - fastpitch / Fastpitch / saved_fastpicth_models / FastPitch_checkpoint . pt 
  - i test_text . txt 
  - o wavs /