Turkish Text to Speechダウンロード - Turkish Text to Speechソースコードダウンロード

Turkish Text to Speech

AI ソースコード

1.0.0

ダウンロード

トルコ語のテキストからスピーチ

このリポジトリには、Pytorch 21.02-PY3 NGCコンテナを拡張し、いくつかの依存関係をカプセル化するDockerFileが含まれています。独自のコンテナを作成するには、nvidia pytorchコンテナバージョンからpytorchコンテナを選択し、次の形式としてdockerfileを作成します。

 FROM nvcr . io / nvidia / pytorch : 21.02 - py3
WORKDIR / path / to / working / directory / text2speech /
COPY requirements . txt .
RUN pip install - r requirements . txt

Dockerを構築して実行します

/path/to/working/directory/text2speech/dockerに移動します

$ docker build - - no - cache - t torcht2s .
$ docker run - it - - rm - - gpus all - p 2222 : 8888 - v / path / to / working / directory / text2speech : / path / to / working / directory / text2speech torcht2s

Jupyterノートブックに環境を追加し、Jupyterノートブックを起動します

$ python - m ipykernel install - - user - - name = torcht2s
$ jupyter notebook - - ip = 0.0 . 0.0 - - port = 8888 - - no - browser - - allow - root

ローカルマシンからブラウザを開き、 http://127.0.0.1:2222/?token=${TOKEN}に移動し、ターミナルで指定されたトークンを入力します。

テキストの前処理（トルコ語の音声的変換と正規化）

音声合成モデルを訓練するには、音を表現する音と音素シーケンスが必要です。これが最初のステップでは、入力テキストはシンボルのリストにエンコードされています。この研究では、トルコのキャラクターと音素をシンボルとして使用します。トルコ語は音声言語であるため、言葉が読まれたときに言葉が表現されます。つまり、文字シーケンスはトルコ語で単語が構築されています。英語などの非音声言語では、言葉は音素で表現できます。英語のデータを使用してトルコのスピーチを統合するには、最初に英語のデータセットの単語を音声的にトルコ語に翻訳する必要があります。

この研究では、cmudict_trとheteronyms_trが使用されました。 cmudict（トルコの音声辞書）は、トルコ語で約150万語を音声的に表現する辞書です。
次の音素は、音素のトルコの発音を表しています。

 valid_symbols = [ '1' , '1:' , '2' , '2:' , '5' , 'a' , 'a:' , 'b' , 'c' , 'd' , 'dZ' , 'e' , 'e:' , 'f' , 'g' , 'gj' , 'h' , 'i' , 'i:' , 'j' ,
  'k' , 'l' , 'm' , 'n' , 'N' , 'o' , 'o:' , 'p' , 'r' , 's' , 'S' , 't' , 'tS' , 'u' , 'u' , 'v' , 'y' , 'y:' , 'z' , 'Z' ]

テキストの正規化は、テキストを書かれた形式から言語化された形式に変換します。これは、テキスト間合成の前の不可欠な前処理ステップです。 TTSは、未知のシンボルをスキップすることなく、すべての入力テキストを処理できるようにします。テキストの正規化は、トルコの発言に適用されます。

データの準備

トレーニングをスピードアップするために、それらは前処理ステップ中に生成され、トレーニング中にディスクから直接読むことができます。これらの手順に従って、カスタムデータセットを使用します。

.wavファイル、フィルリスト（データのトレーニング/検証分割）を使用してディレクトリを準備しtext2speech/Fastpitch/dataset/ locationの下の.wavファイルへの転写とパスを使用します。これらのフィルリストは、行ごとに単一の発話を次のようにリストする必要があります。

 < audio file path > | < transcript >

前処理スクリプトを実行して、 text2speech/Fastpitch/data_preperation.ipynbでピッチとmelsを計算します

$ python prepare_dataset . py  
    - - wav - text - filelists dataset / tts_data . txt  
    - - n - workers 16 
    - - batch - size 1 
    - - dataset - path dataset 
    - - extract - pitch 
    - - f0 - method pyin 
    - - extract - mels

事前に計算されたピッチへのパスを使用してファイルリストを準備するcreate_picth_text_file(manifest_path)からtext2speech/Fastpitch/data_preperation.ipynbこれらのファイルリストは、1行あたりの1つの発話を次のようにリストする必要があります。

 < mel or wav file path > | < pitch file path > | < text > | < speaker_id >

完全なデータセットには次の構造があります。

. / dataset
├── mels
├── pitch
├── wavs
├── tts_data . txt  # train + val
├── tts_data_train . txt
├── tts_data_val . txt
├── tts_pitch_data . txt  # train + val
├── tts_pitch_data_train . txt
├── tts_pitch_data_val . txt

ゼロからfastpitchをトレーニングする（スペクトログラムジェネレーター）

このトレーニングは、生のテキストからメルスペクトルグラムを生成できるFastPitchモデルを生成します。一連の中間チェックポイントとともに、単一の.ptチェックポイントファイルとしてシリアル化されます。

$ python train . py - - cuda - - amp - - p - arpabet 1.0 - - dataset - path dataset  
                - - output saved_fastpicth_models / 
                - - training - files dataset / tts_pitch_data_train . txt  
                - - validation - files dataset / tts_pitch_data_val . txt  
                - - epochs 1000 - - learning - rate 0.001 - - batch - size 32 
                - - load - pitch - from - disk

Hifi-Ganでモデルを微調整します

最後のステップは、スペクトログラムを波形に変換することです。スペクトログラムから音声を生成するプロセスは、ボコーダーとも呼ばれます。

一部のメルスペクトルグラムジェネレーターは、バイアスをモデル化する傾向があります。スペクトログラムは、Hifi-Ganが訓練された真のデータとは異なるため、生成されたオーディオの品質が損なわれる可能性があります。この問題を克服するために、HiFi-Ganモデルは、このバイアスに適応するために、特定のメルスペクトルグラムジェネレーターの出力で微調整できます。このセクションでは、FastPitchの出力から微調整を実行します。

FastPitchモデルを使用して、データセット内のすべての発話に対してメルスペクトルグラムを生成します

text2speech/Hifigan/data/pretrained_fastpicth_model/ディレクトリに最適なfastpitch出力.ptファイルをコピーします。
マニフェストファイルtts_pitch_data.txtをtext2speech/Hifigan/data/ directoryにコピーします。

$ python extract_mels . py - - cuda 
    - o data / mels - fastpitch - tr22khz  
    - - dataset - path / text2speech / Fastpitch / dataset 
    - - dataset - files data / tts_pitch_data . txt  # train + val 
    - - load - pitch - from - disk 
    - - checkpoint - path data / pretrained_fastpicth_model / FastPitch_checkpoint . pt - bs 16

Mel-SpectRogramsはtext2speech/Hifigan/data/mels-fastpitch-tr22khzディレクトリで準備する必要があります。微調整されたスクリプトは、既存のHIFI-GANモデルをロードし、最後のステップで生成されたスペクトログラムを使用して、いくつかのトレーニングのエポックを実行します。

Hifi-GanでFastPitchモデルを微調整します

このステップにより、特定のFastPitchモデルに微調整された別の.pt Hifi-Ganモデルチェックポイントファイルが生成されます。

新しいフォルダーを開くと、 text2speech/Hifiganディレクトリがresults 。

$ nohup python train . py - - cuda - - output / results / hifigan_tr22khz 
 - - epochs 1000 - - dataset_path / Fastpitch / dataset 
 - - input_mels_dir / data / mels - fastpitch - tr22khz 
 - - training_files / Fastpitch / dataset / tts_data . txt 
 - - validation_files / Fastpitch / dataset / tts_data . txt 
 - - fine_tuning - - fine_tune_lr_factor 3 - - batch_size 16  
 - - learning_rate 0.0003 - - lr_decay 0.9998 - - validation_interval 10 > log . txt

別の端末を開き、次のようにログを追跡します

$ tail - f log . txt

推論

次のコマンドを実行して、メルスペクトルグラムジェネレーターを使用して生のテキストからオーディオを合成します

 python inference . py - - cuda 
  - - hifigan / Hifigan / results / hifigan_tr22khz / hifigan_gen_checkpoint . pt 
  - - fastpitch / Fastpitch / saved_fastpicth_models / FastPitch_checkpoint . pt 
  - i test_text . txt 
  - o wavs /