Kazakh_TTS DOWNLOAD - Kazakh_TTS Quellcode Download

Kazakh_TTS

AI-Quellcode

1.0.0

Herunterladen

Kasachts Rezept

Dies ist das Rezept des kasachischen Text-zu-Sprach-Modells, das auf Kasachts und kasachischen Korpora basiert.

Einrichtung und Anforderungen

Unser Code baut auf ESPNET auf und erfordert eine vorherige Installation des Frameworks. Bitte befolgen Sie den Installationshandbuch und geben Sie den Ordner Kasachts in espnet/egs2/ Verzeichnis ein:

 cd espnet/egs2
git clone https://github.com/IS2AI/Kazakh_TTS.git

Gehen Sie zum Ordner Kasakh_tts/TTS1 und erstellen Sie Links zu den Abhängigkeiten:

 ln -s ../../TEMPLATE/tts1/path.sh .
ln -s ../../TEMPLATE/asr1/pyscripts .
ln -s ../../TEMPLATE/asr1/scripts .
ln -s ../../../tools/kaldi/egs/wsj/s5/steps .
ln -s ../../TEMPLATE/tts1/tts.sh .
ln -s ../../../tools/kaldi/egs/wsj/s5/utils .

Herunterladen des Datensatzes

Laden Sie den Kasakhtts -Datensatz und Untar im Verzeichnis Ihrer Wahl herunter. Geben Sie den Pfad zum Dataset -Verzeichnis an (wobei Audio/Transcripts -Dires sich befinden) innerhalb von KazakhTTS/tts1/local/data.sh Skript:

 db_root=/path-to-speaker-folder

Zum Beispiel db_root=/home/datasets/ISSAI_KazakhTTS/M1/Books

Ausbildung

Um die Modelle zu trainieren, führen Sie das Skript ./run.sh in KazakhTTS/tts1/ Ordner aus. GPU- und RAM -Spezifikationen finden Sie im Ordner Konfiguration ( conf/ ).

 ./run.sh --stage 1 --stop_stage 6 --train_config conf/train.yaml

Wenn Sie Fastspeech/Transformator -Modelle trainieren möchten, ändern Sie train_config=conf/train.yaml entsprechend. Die detaillierte Beschreibung jeder Phase ist im Repository von ESPNET dokumentiert.

Vorbereitete Modelle

Das Modell wurde vom Institut für intelligente Systeme und künstliche Intelligenz, der Nazarbayev University Kasachstan (fortan ISSAI), entwickelt.

Bitte verwenden Sie das Modell nur für einen guten Zweck und klug. Sie dürfen das Modell nicht verwenden, um Daten zu generieren, die obszön, beleidigend oder Diskriminierung in Bezug auf Religion, Geschlecht, Rasse, Sprache oder Herkunftsgebiet enthalten.

Issai schätzt und erfordert eine Zuordnung. Eine Zuschreibung sollte den Titel des Originalpapiers, des Autors und des Namens der Organisation enthalten, unter der die Entwicklung des Modells stattfand. Zum Beispiel:

Mussakhojayeva, S., Janaliyeva, A., Mirzakhmmetov, A., Khassanov, Y., Varol, HA (2021) Kasachts: Ein Open-Source-Kasach-Text-to-Speech-Synthese-Datensatz. Proc. Interspeech 2021, 2786-2790, doi: 10.21437/interspeech.2021-2124. Das Institut für intelligente Systeme und künstliche Intelligenz (ISSAI.NU.EDU.KZ), Nazarbayev University, Kasachstan

KAZTTS_FEMALE1_TACOTRON2_TRAIN.USS.AVE

https://issai.nu.edu.kz/wp-content/uploads/2022/03/KAZTTS_FEMALE1_TACOTRON2_TRAIN.LOSS.AVE.zip

KAZTTS_FEMALE2_TACOTRON2_TRAIN.USS.AVE

https://issai.nu.edu.kz/wp-content/uploads/2022/03/KAZTTS_FEMALE2_TACOTRON2_TRAIN.LOSS.AVE.zip

KAZTTS_FEMALE3_TACOTRON2_TRAIN.USS.AVE

https://issai.nu.edu.kz/wp-content/uploads/2022/03/KAZTTS_FEMALE3_TACOTRON2_TRAIN.LOSS.AVE.zip

KAZTTS_MALE1_TACOTRON2_TRAIN.USS.AVE

https://issai.nu.edu.kz/wp-content/uploads/2022/03/KAZTTS_MALE1_TACOTRON2_TRAIN.LOSS.AVE.zip

KAZTTS_MALE2_TACOTRON2_TRAIN.USS.AVE

https://issai.nu.edu.kz/wp-content/uploads/2022/03/KAZTTS_MALE2_TACOTRON2_TRAIN.LOSS.AVE.zip

Vorbereitete Vocoder

parallelwavegan_female1_checkpoint

https://issai.nu.edu.kz/wp-content/uploads/2022/03/parallelwavegan_female1_checkpoint.zip

parallelwavegan_female2_checkpoint

https://issai.nu.edu.kz/wp-content/uploads/2022/03/parallelwavegan_female2_checkpoint.zip

parallelwavegan_female3_checkpoint

https://issai.nu.edu.kz/wp-content/uploads/2022/03/parallelwavegan_female3_checkpoint.zip

Parallelwavegan_Male1_Checkpoint

https://issai.nu.edu.kz/wp-content/uploads/2022/03/parallelwavegan_Male1_checkpoint.zip

Parallelwavegan_Male2_Checkpoint

https://issai.nu.edu.kz/wp-content/uploads/2022/03/parallelwavegan_Male2_checkpoint.zip

Sprachsynthese

Sie können einen willkürlichen Text mit synthesize.py -Skript synthetisieren. Ändern Sie die folgenden Zeilen im Skript:

 ## specify the path to vocoder's checkpoint, i.e
vocoder_checkpoint="exp/vocoder/checkpoint-400000steps.pkl"

## specify path to the main model(transformer/tacotron2/fastspeech) and its config file
config_file = "exp/tts_train_raw_char/config.yaml"
model_path = "exp/tts_train_raw_char/train.loss.ave_5best.pth"

Jetzt können Sie das Skript mit einem willkürlichen Text ausführen, z. B.:

 python synthesize.py --text "бүгінде өңірде тағы бес жобаның құрылысы жүргізілуде."

Die generierte Datei wird im Ordner tts1/synthesized_wavs gespeichert.

Zitat

 @inproceedings{mussakhojayeva21_interspeech,
  author={Saida Mussakhojayeva and Aigerim Janaliyeva and Almas Mirzakhmetov and Yerbolat Khassanov and Huseyin Atakan Varol},
  title={{KazakhTTS: An Open-Source Kazakh Text-to-Speech Synthesis Dataset}},
  year=2021,
  booktitle={Proc. Interspeech 2021},
  pages={2786--2790},
  doi={10.21437/Interspeech.2021-2124}
}

Expandieren

Zusätzliche Informationen