Turkish Text to Speech Скачать - Turkish Text to Speech исходный код скачать

Turkish Text to Speech

AI Исходный код

1.0.0

Скачать

Турецкий текст в речь

Настраивать
Предварительная обработка текста (фонетическое преобразование и нормализация для турецкого)
Подготовка данных
Обучение Fastpitch с нуля (генератор спектрограммы)
Точная настройка модели с помощью Hifi-Gan (генератор сигналов)
Вывод

Настраивать

Этот репозиторий содержит DockerFile, который расширяет контейнер Pytorch 21.02-Py3 NGC и инкапсулирует некоторые зависимости. Чтобы создать свой собственный контейнер, выберите контейнер Pytorch из версий Nvidia Pytorch Container и создайте DockerFile в следующем формате:

 FROM nvcr . io / nvidia / pytorch : 21.02 - py3
WORKDIR / path / to / working / directory / text2speech /
COPY requirements . txt .
RUN pip install - r requirements . txt

Стройте и запустите Docker

Перейти к /path/to/working/directory/text2speech/docker

$ docker build - - no - cache - t torcht2s .
$ docker run - it - - rm - - gpus all - p 2222 : 8888 - v / path / to / working / directory / text2speech : / path / to / working / directory / text2speech torcht2s

Добавьте среду в ноутбук Jupyter и запустите ноутбук Jupyter

$ python - m ipykernel install - - user - - name = torcht2s
$ jupyter notebook - - ip = 0.0 . 0.0 - - port = 8888 - - no - browser - - allow - root

Откройте браузер с местной машины и перейдите по адресу http://127.0.0.1:2222/?token=${TOKEN}

Предварительная обработка текста (фонетическое преобразование и нормализация для турецкого)

Чтобы обучить модели синтеза речи, необходимы звуки и фонемные последовательности. Это wyh На первом шаге, входной текст кодируется в список символов. В этом исследовании мы будем использовать турецкие символы и фонемы в качестве символов. Поскольку турецкий - фонетический язык, слова выражаются, как они читаются. То есть последовательности символов являются построенными словами на турецком языке. На нефонетических языках, таких как английский, слова могут быть выражены с фонемами. Чтобы синтезировать турецкую речь с английскими данными, слова в английском наборе данных сначала должны быть фонетически переведены на турецкий.

В этом исследовании использовались Cmudict_tr и Heteronyms_tr. Cmudict (турецкая фонетическая лексика) - это словарь, который фонетически выражает около 1,5 млн слов на турецком языке.
Следующие фонемы представляют турецкое произношение фонем.

 valid_symbols = [ '1' , '1:' , '2' , '2:' , '5' , 'a' , 'a:' , 'b' , 'c' , 'd' , 'dZ' , 'e' , 'e:' , 'f' , 'g' , 'gj' , 'h' , 'i' , 'i:' , 'j' ,
  'k' , 'l' , 'm' , 'n' , 'N' , 'o' , 'o:' , 'p' , 'r' , 's' , 'S' , 't' , 'tS' , 'u' , 'u' , 'v' , 'y' , 'y:' , 'z' , 'Z' ]

Нормализация текста преобразует текст из написанной формы в его вербализованную форму, и это важная стадия предварительной обработки перед синтезом текста в речь. Это гарантирует, что TTS может обрабатывать все входные тексты без пропуска неизвестных символов. Нормализация текста применяется для турецких высказываний.

Подготовка данных

Для ускорения тренировок они могут быть получены на шаге предварительной обработки и читаются непосредственно с диска во время обучения. Следуйте этим шагам, чтобы использовать пользовательский набор данных.

Подготовьте каталог с файлами .WAV, FileLists (разделение обучения/валидации данных) с транскриптами и путями в файлы .WAV в соответствии с text2speech/Fastpitch/dataset/ Defice. Эти файлы должны перечислить одно высказывание на строку как:

 < audio file path > | < transcript >

Запустите сценарий предварительной обработки, чтобы вычислять шаг и мелы с помощью text2speech/Fastpitch/data_preperation.ipynb

$ python prepare_dataset . py  
    - - wav - text - filelists dataset / tts_data . txt  
    - - n - workers 16 
    - - batch - size 1 
    - - dataset - path dataset 
    - - extract - pitch 
    - - f0 - method pyin 
    - - extract - mels

Подготовьте списки файлов text2speech/Fastpitch/data_preperation.ipynb путями к предварительно create_picth_text_file(manifest_path) шага.

 < mel or wav file path > | < pitch file path > | < text > | < speaker_id >

Полный набор данных имеет следующую структуру:

. / dataset
├── mels
├── pitch
├── wavs
├── tts_data . txt  # train + val
├── tts_data_train . txt
├── tts_data_val . txt
├── tts_pitch_data . txt  # train + val
├── tts_pitch_data_train . txt
├── tts_pitch_data_val . txt

Обучение Fastpitch с нуля (генератор спектрограммы)

Обучение будет производить модель FastPitch, способную генерировать мель-спектрограммы из необработанного текста. Он будет сериализован как единый файл контрольной точки .pt , а также серию промежуточных контрольных точек.

$ python train . py - - cuda - - amp - - p - arpabet 1.0 - - dataset - path dataset  
                - - output saved_fastpicth_models / 
                - - training - files dataset / tts_pitch_data_train . txt  
                - - validation - files dataset / tts_pitch_data_val . txt  
                - - epochs 1000 - - learning - rate 0.001 - - batch - size 32 
                - - load - pitch - from - disk

Настраивая модель с Hifi-Gan

Последним шагом является преобразование спектрограммы в форму волны. Процесс создания речи из спектрограммы также называется Vocoder.

Некоторые генераторы Mel-Spectrogram склонны к моделированию смещения. Поскольку спектрограммы отличаются от истинных данных, на которых обучался Hifi-Gan, качество генерируемого звука может пострадать. Чтобы преодолеть эту проблему, модель Hifi-Gan может быть точно настроена на выходы конкретного генератора мель-спектрограммы, чтобы адаптироваться к этому смещению. В этом разделе мы будем выполнять точную настройку на выходы FastPitch.

Генерировать мель-спектрограммы для всех высказываний в наборе данных с моделью FastPitch

Скопируйте наиболее text2speech/Hifigan/data/pretrained_fastpicth_model/ результаты FastPitch.
Скопируйте манифестный файл tts_pitch_data.txt в каталоге text2speech/Hifigan/data/ .

$ python extract_mels . py - - cuda 
    - o data / mels - fastpitch - tr22khz  
    - - dataset - path / text2speech / Fastpitch / dataset 
    - - dataset - files data / tts_pitch_data . txt  # train + val 
    - - load - pitch - from - disk 
    - - checkpoint - path data / pretrained_fastpicth_model / FastPitch_checkpoint . pt - bs 16

Мела-спектрограммы теперь должны быть подготовлены в каталоге text2speech/Hifigan/data/mels-fastpitch-tr22khz . Сценарий с тонкой настройкой загрузит существующую модель Hifi-Gan и запустит несколько эпох обучения с использованием спектрограмм, генерируемых на последнем этапе.

Настройте модель FastPitch с Hifi-Gan

Этот шаг создаст еще один файл контрольной точки модели .pt -Gan.

Откройте новую папку results в каталоге text2speech/Hifigan .

$ nohup python train . py - - cuda - - output / results / hifigan_tr22khz 
 - - epochs 1000 - - dataset_path / Fastpitch / dataset 
 - - input_mels_dir / data / mels - fastpitch - tr22khz 
 - - training_files / Fastpitch / dataset / tts_data . txt 
 - - validation_files / Fastpitch / dataset / tts_data . txt 
 - - fine_tuning - - fine_tune_lr_factor 3 - - batch_size 16  
 - - learning_rate 0.0003 - - lr_decay 0.9998 - - validation_interval 10 > log . txt

Откройте еще один терминал и журнал треков в следующем

$ tail - f log . txt

Вывод

Запустите следующую команду для синтеза аудио из необработанного текста с генератором мель-спектрограммы

 python inference . py - - cuda 
  - - hifigan / Hifigan / results / hifigan_tr22khz / hifigan_gen_checkpoint . pt 
  - - fastpitch / Fastpitch / saved_fastpicth_models / FastPitch_checkpoint . pt 
  - i test_text . txt 
  - o wavs /