Descargar Kazakh_TTS - Descargar el código fuente Kazakh

Kazakh_TTS

Código Fuente de IA

1.0.0

Descargar

Receta de kazajas

Esta es la receta del modelo de texto a voz kazajos basado en los corpusas Kazajhtts y Kazajhtts2.

Configuración y requisitos

Nuestro código se basa en ESPNet y requiere la instalación previa del marco. Siga la guía de instalación y coloque la carpeta Kazajhtts dentro de espnet/egs2/ Directorio:

 cd espnet/egs2
git clone https://github.com/IS2AI/Kazakh_TTS.git

Vaya a la carpeta KAZAKH_TTS/TTS1 y cree enlaces a las dependencias:

 ln -s ../../TEMPLATE/tts1/path.sh .
ln -s ../../TEMPLATE/asr1/pyscripts .
ln -s ../../TEMPLATE/asr1/scripts .
ln -s ../../../tools/kaldi/egs/wsj/s5/steps .
ln -s ../../TEMPLATE/tts1/tts.sh .
ln -s ../../../tools/kaldi/egs/wsj/s5/utils .

Descargar el conjunto de datos

Descargue el conjunto de datos de Kazajhtts y un untar en el directorio de su elección. Especifique la ruta al directorio del conjunto de datos (donde se encuentran los directivos de audio/transcripciones) dentro de KazakhTTS/tts1/local/data.sh script:

 db_root=/path-to-speaker-folder

Por ejemplo db_root=/home/datasets/ISSAI_KazakhTTS/M1/Books

Capacitación

Para entrenar los modelos, ejecute el script ./run.sh dentro de KazakhTTS/tts1/ carpeta. Las especificaciones de GPU y RAM se pueden encontrar en la carpeta de configuración ( conf/ ).

 ./run.sh --stage 1 --stop_stage 6 --train_config conf/train.yaml

Si desea entrenar modelos FastSpeech/Transformer, cambie train_config=conf/train.yaml en consecuencia. La descripción detallada de cada etapa se documenta en el repositorio de ESPNet.

Modelos previos a la aparición

El modelo fue desarrollado por el Instituto de Sistemas Smart e Inteligencia Artificial, Universidad de Nazarbayev Kazajstan (en adelante Issai).

Utilice el modelo solo para una buena causa y de manera sabia. No debe usar el modelo para generar datos obscenos, ofensivos o que contengan ninguna discriminación con respecto a la religión, el sexo, la raza, el idioma o el territorio de origen.

Issai aprecia y requiere atribución. Una atribución debe incluir el título del documento original, el autor y el nombre de la organización bajo el cual tuvo lugar el desarrollo del modelo. Por ejemplo:

Mussakhojayeva, S., Janaliyeva, A., Mirzakhmetov, A., Khassanov, Y., Varol, HA (2021) Kazajhtts: un conjunto de síntesis de texto a voz kazajos de código abierto. Proc. Interspeech 2021, 2786-2790, doi: 10.21437/interspeech.2021-2124. El Instituto de Sistemas Smart e Inteligencia Artificial (issai.nu.edu.kz), Universidad de Nazarbayev, Kazajstán

kaztts_female1_tacotron2_train.loss.ave

https://issai.nu.edu.kz/wp-content/uploads/2022/03/kaztts_female1_tacotron2_train.loss.zip

kaztts_female2_tacotron2_train.loss.ave

https://issai.nu.edu.kz/wp-content/uploads/2022/03/kaztts_female2_tacotron2_train.loss.zip

kaztts_female3_tacotron2_train.loss.ave

https://issai.nu.edu.kz/wp-content/uploads/2022/03/kaztts_female3_tacotron2_train.loss.zip

kaztts_male1_tacotron2_train.loss.ave

https://issai.nu.edu.kz/wp-content/uploads/2022/03/kaztts_male1_tacotron2_train.loss.zip

kaztts_male2_tacotron2_train.loss.ave

https://issai.nu.edu.kz/wp-content/uploads/2022/03/kaztts_male2_tacotron2_train.loss.zip

Vocodadores previos a la aparición

paralelowavegan_female1_checkpoint

https://issai.nu.edu.kz/wp-content/uploads/2022/03/parallelwavegan_female1_checkpoint.zip

paralelowavegan_female2_checkpoint

https://issai.nu.edu.kz/wp-content/uploads/2022/03/parallelwavegan_female2_checkpoint.zip

paralelowavegan_female3_checkpoint

https://issai.nu.edu.kz/wp-content/uploads/2022/03/parallelwavegan_female3_checkpoint.zip

paralelowavegan_male1_checkpoint

https://issai.nu.edu.kz/wp-content/uploads/2022/03/parallelwavegan_male1_checkpoint.zip

Parallelwavegan_male2_checkpoint

https://issai.nu.edu.kz/wp-content/uploads/2022/03/parallelwavegan_male2_checkpoint.zip

Síntesis del habla

Puede sintetizar un texto arbitrario usando synthesize.py script. Modifique las siguientes líneas en el script:

 ## specify the path to vocoder's checkpoint, i.e
vocoder_checkpoint="exp/vocoder/checkpoint-400000steps.pkl"

## specify path to the main model(transformer/tacotron2/fastspeech) and its config file
config_file = "exp/tts_train_raw_char/config.yaml"
model_path = "exp/tts_train_raw_char/train.loss.ave_5best.pth"

Ahora puede ejecutar el script usando un texto arbitrario, por ejemplo:

 python synthesize.py --text "бүгінде өңірде тағы бес жобаның құрылысы жүргізілуде."

El archivo generado se guardará en la carpeta tts1/synthesized_wavs .

Citación

 @inproceedings{mussakhojayeva21_interspeech,
  author={Saida Mussakhojayeva and Aigerim Janaliyeva and Almas Mirzakhmetov and Yerbolat Khassanov and Huseyin Atakan Varol},
  title={{KazakhTTS: An Open-Source Kazakh Text-to-Speech Synthesis Dataset}},
  year=2021,
  booktitle={Proc. Interspeech 2021},
  pages={2786--2790},
  doi={10.21437/Interspeech.2021-2124}
}

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-08-24
tamaño 28.7KB
Proviene de Github

Aplicaciones relacionadas

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
F5 TTS ComfyUI

2024-11-02
nextcloud_share_url_downloader

2024-11-01
Motor de análisis de datos Lihua versión gratuita 3.0_search_navigation_collection_public opinion_ranking_api

2022-06-28

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo