Kazakh_TTS Download - Kazakh_TTS Code source Télécharger

Kazakh_TTS

Code Source AI

1.0.0

Télécharger

Recette de kazakhtts

Il s'agit de la recette du modèle de texte à dispection kazakh basé sur les sociétés Kazakhtts et Kazakhtts2.

Configuration et exigences

Notre code s'appuie sur ESPNET et nécessite une installation préalable du cadre. Veuillez suivre le guide d'installation et mettre le dossier Kazakhtts dans espnet/egs2/ répertoire:

 cd espnet/egs2
git clone https://github.com/IS2AI/Kazakh_TTS.git

Allez dans le dossier kazakh_tts / tts1 et créez des liens vers les dépendances:

 ln -s ../../TEMPLATE/tts1/path.sh .
ln -s ../../TEMPLATE/asr1/pyscripts .
ln -s ../../TEMPLATE/asr1/scripts .
ln -s ../../../tools/kaldi/egs/wsj/s5/steps .
ln -s ../../TEMPLATE/tts1/tts.sh .
ln -s ../../../tools/kaldi/egs/wsj/s5/utils .

Télécharger l'ensemble de données

Téléchargez l'ensemble de données Kazakhtts et UNTAR dans le répertoire de votre choix. Spécifiez le chemin d'accès au répertoire de jeu de données (où se trouvent les réseaux audio / transcriptions) à l'intérieur KazakhTTS/tts1/local/data.sh script:

 db_root=/path-to-speaker-folder

Par exemple db_root=/home/datasets/ISSAI_KazakhTTS/M1/Books

Entraînement

Pour former les modèles, exécutez le script ./run.sh à l'intérieur du dossier KazakhTTS/tts1/ . Les spécifications GPU et RAM peuvent être trouvées dans le dossier Configuration ( conf/ ).

 ./run.sh --stage 1 --stop_stage 6 --train_config conf/train.yaml

Si vous souhaitez entraîner les modèles FastSpeech / Transformer, modifiez train_config=conf/train.yaml en conséquence. La description détaillée de chaque étape est documentée dans le référentiel d'ESPNET.

Modèles pré-entraînés

Le modèle a été développé par l'Institut des systèmes intelligents et de l'intelligence artificielle de l'Université de Nazarbayev Kazakhstan (désormais ISSAI).

Veuillez utiliser le modèle uniquement pour une bonne cause et de manière sage. Vous ne devez pas utiliser le modèle pour générer des données obscènes, offensantes ou contenir une discrimination en ce qui concerne la religion, le sexe, la race, la langue ou le territoire d'origine.

Issai apprécie et nécessite une attribution. Une attribution doit inclure le titre du document original, l'auteur et le nom de l'organisation sous laquelle le développement du modèle a eu lieu. Par exemple:

Mussakhojayeva, S., Janaliyeva, A., Mirzakhmetov, A., Khassanov, Y., Varol, HA (2021) Kazakhtts: un jeu de données de synthèse de texte à la parole à la source à source ouverte. Proc. Interspeech 2021, 2786-2790, doi: 10.21437 / interspeech.2021-2124. L'Institut des systèmes intelligents et de l'intelligence artificielle (Issai.nu.edu.kz), Université de Nazarbayev, Kazakhstan

kaztts_female1_tacotron2_train.loss.ave

https://issai.nu.edu.kz/wp-content/uploads/2022/03/kaztts_female1_tacotron2_train.loss.ave.zip

kaztts_female2_tacotron2_train.loss.ave

https://issai.nu.edu.kz/wp-content/uploads/2022/03/kaztts_female2_tacotron2_train.loss.ave.zip

kaztts_female3_tacotron2_train.loss.ave

https://issai.nu.edu.kz/wp-content/uploads/2022/03/kaztts_female3_tacotron2_train.loss.ave.zip

kaztts_male1_tacotron2_train.loss.ave

https://issai.nu.edu.kz/wp-content/uploads/2022/03/kaztts_male1_tacotron2_train.loss.ave.zip

kaztts_male2_tacotron2_train.loss.ave

https://issai.nu.edu.kz/wp-content/uploads/2022/03/kaztts_male2_tacotron2_train.loss.ave.zip

Vocoders pré-entraînés

parallelwavegan_female1_checkpoint

https://issai.nu.edu.kz/wp-content/uploads/2022/03/ParallWavegan_Female1_checkpoint.zip

parallelwavegan_female2_checkpoint

https://issai.nu.edu.kz/wp-content/uploads/2022/03/ParallWavegan_female2_checkpoint.zip

parallelwavegan_female3_checkpoint

https://issai.nu.edu.kz/wp-content/uploads/2022/03/Parallelwavegan_female3_checkpoint.zip

parallelwavegan_male1_checkpoint

https://issai.nu.edu.kz/wp-content/uploads/2022/03/Parallelwavegan_Male1_checkpoint.zip

parallelwavegan_male2_checkpoint

https://issai.nu.edu.kz/wp-content/uploads/2022/03/Parallelwavegan_Male2_checkpoint.zip

Synthèse de la parole

Vous pouvez synthétiser un texte arbitraire à l'aide du script synthesize.py . Modifiez les lignes suivantes dans le script:

 ## specify the path to vocoder's checkpoint, i.e
vocoder_checkpoint="exp/vocoder/checkpoint-400000steps.pkl"

## specify path to the main model(transformer/tacotron2/fastspeech) and its config file
config_file = "exp/tts_train_raw_char/config.yaml"
model_path = "exp/tts_train_raw_char/train.loss.ave_5best.pth"

Vous pouvez maintenant exécuter le script à l'aide d'un texte arbitraire, par exemple:

 python synthesize.py --text "бүгінде өңірде тағы бес жобаның құрылысы жүргізілуде."

Le fichier généré sera enregistré dans le dossier tts1/synthesized_wavs .

Citation

 @inproceedings{mussakhojayeva21_interspeech,
  author={Saida Mussakhojayeva and Aigerim Janaliyeva and Almas Mirzakhmetov and Yerbolat Khassanov and Huseyin Atakan Varol},
  title={{KazakhTTS: An Open-Source Kazakh Text-to-Speech Synthesis Dataset}},
  year=2021,
  booktitle={Proc. Interspeech 2021},
  pages={2786--2790},
  doi={10.21437/Interspeech.2021-2124}
}

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2025-08-24
taille 28.7KB
Provenant de Github

Applications connexes

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
F5 TTS ComfyUI

2024-11-02
nextcloud_share_url_downloader

2024-11-01
Moteur d'analyse de données Lihua version gratuite 3.0_search_navigation_collection_public opinion_ranking_api

2022-06-28

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout