Descargar text2speech - Descargar el código fuente de text2speech

text2speech

Código Fuente de IA

1.0.0

Descargar

Hacia la creación de sistemas de texto a voz para los próximos mil millones de usuarios

? Aceptado en ICASSP 2023

Los sistemas de texto a voz basados en el aprendizaje profundo (TTS) han evolucionado rápidamente con los avances en las arquitecturas de modelos, las metodologías de capacitación y la generalización entre los altavoces y los idiomas. Sin embargo, estos avances no han sido investigados a fondo para la síntesis del habla del idioma indio. Dicha investigación es computacionalmente costosa dado el número y la diversidad de los idiomas indios, la disponibilidad de recursos relativamente más baja y el conjunto diverso de avances en TT neural que permanecen sin probar. En este artículo, evaluamos la elección de modelos acústicos, vocoders, funciones de pérdida complementarias, horarios de capacitación y diversidad de oradores y idiomas para idiomas dravidianos e indo-arios. Según esto, identificamos modelos monolingües con FastPitch y Hifi-Gan V1, entrenados conjuntamente en altavoces masculinos y femeninos para que funcionen mejor. Con esta configuración, capacitamos y evaluamos los modelos TTS para 13 idiomas y encontramos que nuestros modelos mejoran significativamente los modelos existentes en todos los idiomas medidos por las puntuaciones medias de opinión. De código abierto todos los modelos en la plataforma Bhashini.

TL; DR: Modelos de texto a voz de código abierto para 13 idiomas indios: asamés, bengalí, bodo, gujarati, hindi, kannada, malayalam, manipuri, marathi, odia, rajasthani, tamil y telugu .

Autores: Gokul Karthik Kumar*, Praveen SV*, Pratyush Kumar, Mitesh M. Khapra, Karthik Nandakumar

[Preprint] [muestras de audio] [Pruébalo en vivo] [Video]

Arquitectura unificada de nuestro sistema TTS

Resultados

Configuración:

Configuración del medio ambiente:

 # 1. Create environment
sudo apt-get install libsndfile1-dev
conda create -n tts-env
conda activate tts-env

# 2. Setup PyTorch
pip3 install -U torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu113

# 3. Setup Trainer
git clone https://github.com/gokulkarthik/Trainer 

cd Trainer
pip3 install -e .[all]
cd ..
[or]
cp Trainer/trainer/logging/wandb_logger.py to the local Trainer installation # fixed wandb logger
cp Trainer/trainer/trainer.py to the local Trainer installation # fixed model.module.test_log and added code to log epoch 
add `gpus = [str(gpu) for gpu in gpus]` in line 53 of trainer/distribute.py

# 4. Setup TTS
git clone https://github.com/gokulkarthik/TTS 

cd TTS
pip3 install -e .[all]
cd ..
[or]
cp TTS/TTS/bin/synthesize.py to the local TTS installation # added multiple output support for TTS.bin.synthesis

# 5. Install other requirements
> pip3 install -r requirements.txt

Configuración de datos:

Formato de conjunto de datos de acusación en formato ljspeech utilizando preprocesamiento/formatdataSets.ipynb
Analice el conjunto de datos de Inicividos para verificar la idoneidad de TTS utilizando preprocesamiento/analizeDataSet.ipynb

Pasos de entrenamiento:

Establezca la configuración con main.py, vocoder.py, configs and run.sh. Asegúrese de actualizar los CUDA_VISABLE_DEVICES en todos estos archivos.
Entrena y prueba ejecutando sh run.sh

Inferencia:

Los archivos de peso y de configuración de modelo capacitado se pueden descargar en este enlace.

 python3 -m TTS.bin.synthesize --text <TEXT> 
    --model_path <LANG>/fastpitch/best_model.pth 
    --config_path <LANG>/config.json 
    --vocoder_path <LANG>/hifigan/best_model.pth 
    --vocoder_config_path <LANG>/hifigan/config.json 
    --out_path <OUT_PATH>

Referencia de código: https://github.com/coqui-ai/tts

Expandir

Información adicional