Dies ist das Rezept des kasachischen Text-zu-Sprach-Modells, das auf Kasachts und kasachischen Korpora basiert.
Unser Code baut auf ESPNET auf und erfordert eine vorherige Installation des Frameworks. Bitte befolgen Sie den Installationshandbuch und geben Sie den Ordner Kasachts in espnet/egs2/ Verzeichnis ein:
cd espnet/egs2
git clone https://github.com/IS2AI/Kazakh_TTS.git
Gehen Sie zum Ordner Kasakh_tts/TTS1 und erstellen Sie Links zu den Abhängigkeiten:
ln -s ../../TEMPLATE/tts1/path.sh .
ln -s ../../TEMPLATE/asr1/pyscripts .
ln -s ../../TEMPLATE/asr1/scripts .
ln -s ../../../tools/kaldi/egs/wsj/s5/steps .
ln -s ../../TEMPLATE/tts1/tts.sh .
ln -s ../../../tools/kaldi/egs/wsj/s5/utils .
Laden Sie den Kasakhtts -Datensatz und Untar im Verzeichnis Ihrer Wahl herunter. Geben Sie den Pfad zum Dataset -Verzeichnis an (wobei Audio/Transcripts -Dires sich befinden) innerhalb von KazakhTTS/tts1/local/data.sh Skript:
db_root=/path-to-speaker-folder
Zum Beispiel db_root=/home/datasets/ISSAI_KazakhTTS/M1/Books
Um die Modelle zu trainieren, führen Sie das Skript ./run.sh in KazakhTTS/tts1/ Ordner aus. GPU- und RAM -Spezifikationen finden Sie im Ordner Konfiguration ( conf/ ).
./run.sh --stage 1 --stop_stage 6 --train_config conf/train.yaml
Wenn Sie Fastspeech/Transformator -Modelle trainieren möchten, ändern Sie train_config=conf/train.yaml entsprechend. Die detaillierte Beschreibung jeder Phase ist im Repository von ESPNET dokumentiert.
Das Modell wurde vom Institut für intelligente Systeme und künstliche Intelligenz, der Nazarbayev University Kasachstan (fortan ISSAI), entwickelt.
Bitte verwenden Sie das Modell nur für einen guten Zweck und klug. Sie dürfen das Modell nicht verwenden, um Daten zu generieren, die obszön, beleidigend oder Diskriminierung in Bezug auf Religion, Geschlecht, Rasse, Sprache oder Herkunftsgebiet enthalten.
Issai schätzt und erfordert eine Zuordnung. Eine Zuschreibung sollte den Titel des Originalpapiers, des Autors und des Namens der Organisation enthalten, unter der die Entwicklung des Modells stattfand. Zum Beispiel:
Mussakhojayeva, S., Janaliyeva, A., Mirzakhmmetov, A., Khassanov, Y., Varol, HA (2021) Kasachts: Ein Open-Source-Kasach-Text-to-Speech-Synthese-Datensatz. Proc. Interspeech 2021, 2786-2790, doi: 10.21437/interspeech.2021-2124. Das Institut für intelligente Systeme und künstliche Intelligenz (ISSAI.NU.EDU.KZ), Nazarbayev University, Kasachstan
Sie können einen willkürlichen Text mit synthesize.py -Skript synthetisieren. Ändern Sie die folgenden Zeilen im Skript:
## specify the path to vocoder's checkpoint, i.e
vocoder_checkpoint="exp/vocoder/checkpoint-400000steps.pkl"
## specify path to the main model(transformer/tacotron2/fastspeech) and its config file
config_file = "exp/tts_train_raw_char/config.yaml"
model_path = "exp/tts_train_raw_char/train.loss.ave_5best.pth"
Jetzt können Sie das Skript mit einem willkürlichen Text ausführen, z. B.:
python synthesize.py --text "бүгінде өңірде тағы бес жобаның құрылысы жүргізілуде."
Die generierte Datei wird im Ordner tts1/synthesized_wavs gespeichert.
@inproceedings{mussakhojayeva21_interspeech,
author={Saida Mussakhojayeva and Aigerim Janaliyeva and Almas Mirzakhmetov and Yerbolat Khassanov and Huseyin Atakan Varol},
title={{KazakhTTS: An Open-Source Kazakh Text-to-Speech Synthesis Dataset}},
year=2021,
booktitle={Proc. Interspeech 2021},
pages={2786--2790},
doi={10.21437/Interspeech.2021-2124}
}