Descarga tts arabic pytorch - Descargar el código fuente de tts arabic pytorch

tts arabic pytorch

Código Fuente de IA

1.0.0

Descargar

tts-arabic-pytorch

[Muestras 1] [Muestras 2] [Modelos ONNX] [Aplicación Flutter]

Los modelos TTS (Tacotron2, Fastpitch), entrenados en el Corpus del Discurso Árabe de Nawar Halabi, incluido el Vocoder Hifi-Gan para la inferencia directa de TTS.

Papeles:

Tacotron2 | Síntesis de TTS natural mediante acondicionamiento de wavenet en predicciones de espectrograma MEL (ARXIV)

Fastpitch | FastPitch: texto paralelo a voz con predicción de tono (ARXIV)

Hifi-Gan | Hifi-Gan: redes adversas generativas para la síntesis de habla eficiente y de alta fidelidad (ARXIV)

Muestras de audio

Puedes escuchar algunas muestras de audio aquí.

Modelo multiespeaker (en progreso)

Los pesos de multiespeaker están disponibles para el modelo FastPitch. Actualmente, se han agregado otra voz masculina y dos voces femeninas. Las muestras de audio se pueden encontrar aquí. Descargue pesas aquí. También existe una versión ONNX para este modelo.

El conjunto de datos MultIspeaker se creó sintetizando datos con el modelo XTTS-V2 de Coqui y una combinación de voces del conjunto de datos Tunisian_MSA.

Configuración rápida

Los modelos fueron entrenados con la pérdida de MSE como se describe en los documentos. También entrené los modelos utilizando una pérdida adversaria adicional (ADV). La diferencia no es grande, pero creo que la versión (adv) a menudo suena un poco más clara. Puedes compararlos tú mismo.

Ejecutar python download_files.py descargará todos los pesos previos a la aparición, alternativamente:

Descargue los pesos previos a la aparición para el modelo Tacotron2 (MSE | ADV).

Descargue los pesos previos a la aparición para el modelo FastPitch (MSE | ADV).

Descargue los pesos Hifi-Gan Vocoder (enlace). Póngalos en pretrained/hifigan-asc-v1 o edite las siguientes líneas en configs/basic.yaml .

 # vocoder
vocoder_state_path : pretrained/hifigan-asc-v1/hifigan-asc.pth
vocoder_config_path : pretrained/hifigan-asc-v1/config.json

Este repositorio incluye los modelos de diacritización Shakkala y Shakkelha.

Los pesos se pueden descargar aquí. También existe un repositorio y un paquete separados.

-> Alternativamente, descargue todos los modelos y coloque el contenido del archivo ZIP en la carpeta pretrained .

Paquetes requeridos:

torch torchaudio pyyaml

~ Para el entrenamiento: librosa matplotlib tensorboard

~ Para la aplicación de demostración: fastapi "uvicorn[standard]"

Usando los modelos

El Tacotron2 / FastPitch de models.tacotron2 / models.fastpitch son envoltorios que simplifican la inferencia de texto a mezcla. Los modelos Tacotron2Wave / FastPitch2Wave incluyen el Vocoder Hifi-Gan para la inferencia directa de texto a voz.

Opciones de inferencia

 text = "اَلسَّلامُ عَلَيكُم يَا صَدِيقِي."

wave = model . tts (
    text_input = text , # input text
    speed = 1 , # speaking speed
    denoise = 0.005 , # HifiGAN denoiser strength
    speaker_id = 0 , # speaker id
    batch_size = 2 , # batch size for batched inference
    vowelizer = None , # vowelizer model
    pitch_mul = 1 , # pitch multiplier (for FastPitch)
    pitch_add = 0 , # pitch offset (for FastPitch)
    return_mel = False # return mel spectrogram?
)

Inferir el espectrograma MEL

 from models . tacotron2 import Tacotron2
model = Tacotron2 ( 'pretrained/tacotron2_ar_adv.pth' )
model = model . cuda ()
mel_spec = model . ttmel ( "اَلسَّلامُ عَلَيكُم يَا صَدِيقِي." )

 from models . fastpitch import FastPitch
model = FastPitch ( 'pretrained/fastpitch_ar_adv.pth' )
model = model . cuda ()
mel_spec = model . ttmel ( "اَلسَّلامُ عَلَيكُم يَا صَدِيقِي." )

Texto a extremo a voz

 from models . tacotron2 import Tacotron2Wave
model = Tacotron2Wave ( 'pretrained/tacotron2_ar_adv.pth' )
model = model . cuda ()
wave = model . tts ( "اَلسَّلامُ عَلَيكُم يَا صَدِيقِي." )

wave_list = model . tts ([ "صِفر" , "واحِد" , "إِثنان" , "ثَلاثَة" , "أَربَعَة" , "خَمسَة" , "سِتَّة" , "سَبعَة" , "ثَمانِيَة" , "تِسعَة" , "عَشَرَة" ])

 from models . fastpitch import FastPitch2Wave
model = FastPitch2Wave ( 'pretrained/fastpitch_ar_adv.pth' )
model = model . cuda ()
wave = model . tts ( "اَلسَّلامُ عَلَيكُم يَا صَدِيقِي." )

wave_list = model . tts ([ "صِفر" , "واحِد" , "إِثنان" , "ثَلاثَة" , "أَربَعَة" , "خَمسَة" , "سِتَّة" , "سَبعَة" , "ثَمانِيَة" , "تِسعَة" , "عَشَرَة" ])

Por defecto, las letras árabes se convierten utilizando la transliteración de Buckwalter, que también se puede usar directamente.

 wave = model . tts ( ">als~alAmu Ealaykum yA Sadiyqiy." )
wave_list = model . tts ([ "Sifr" , "wAHid" , "<i^nAn" , "^alA^ap" , ">arbaEap" , "xamsap" , "sit~ap" , "sabEap" , "^amAniyap" , "tisEap" , "Ea$arap" ])

Texto no coveral

 text_unvoc = "اللغة العربية هي أكثر اللغات السامية تحدثا، وإحدى أكثر اللغات انتشارا في العالم"
wave_shakkala = model . tts ( text_unvoc , vowelizer = 'shakkala' )
wave_shakkelha = model . tts ( text_unvoc , vowelizer = 'shakkelha' )

Inferencia del archivo de texto

python inference.py
# default parameters:
python inference.py --list data/infer_text.txt --out_dir samples/results --model fastpitch --checkpoint pretrained/fastpitch_ar_adv.pth --batch_size 2 --denoise 0

Probar el modelo

Para probar la ejecución del modelo:

python test.py
# default parameters:
python test.py --model fastpitch --checkpoint pretrained/fastpitch_ar_adv.pth --out_dir samples/test

Detalles de procesamiento

Este repositorio utiliza el fonetizador árabe de Nawar Halabi, pero simplifica el resultado de tal manera que se ignoran diferentes contextos (ver text/symbols.py ). Además, una consonante duplicada se representa como consonante + duplicación de duplicación.

El modelo Tacotron2 a veces puede luchar para pronunciar el último fonema de una oración cuando termina en una consonante uncalizada. La pronunciación es más confiable si uno agrega un token de separador de palabras al final y lo corta utilizando los pesos de las alineaciones (detalles en models.networks ). Esta opción se implementa como un paso de postprocesamiento predeterminado que se puede deshabilitar configurando postprocess_mel=False .

Entrenando el modelo

Antes de la capacitación, los archivos de audio deben volver a muestrear. El modelo fue entrenado después de preprocesar los archivos usando scripts/preprocess_audio.py .

Para entrenar el modelo con opciones especificadas en el archivo de configuración ejecutado:

python train.py
# default parameters:
python train.py --config configs/nawar.yaml

Aplicación web

La aplicación web utiliza la biblioteca Fastapi. Para ejecutar la aplicación necesita los siguientes paquetes:

Fastapi: para la API de backend | Uvicorn: para servir la aplicación

Instale con: pip install fastapi "uvicorn[standard]"

Ejecutar con: python app.py

Avance:

Expresiones de gratitud

Me referí a la implementación de Tacotron2 de NVIDIA para obtener detalles sobre la capacitación del modelo.

Los archivos de FastPitch provienen de DeeplearningExmples de NVIDIA

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-09-15
tamaño 1.6MB
Proviene de Github

Aplicaciones relacionadas

Clima en Arabia Saudita - Árabe

2024-11-12
GitHub sgrebnov/cordova plugin background download

2024-11-05
pytorch image models

2024-11-03
F5 TTS ComfyUI

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Información en inglés sobre desarrollo de voz (Guía del usuario TTS versión Delphi)

2009-05-28

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo