Descargar Turkish Text to Speech - Descargar el código fuente Turkish Text to Speech

Turkish Text to Speech

Código Fuente de IA

1.0.0

Descargar

Texto turco a voz

Tabla de contenido

Configuración
Preprocesamiento de texto (conversión fonética y normalización para turco)
Preparación de datos
Entrenamiento de FastPitch desde cero (generador de espectrograma)
Ajuste del modelo con Hifi-Gan (Generador de formas de onda)
Inferencia

Configuración

Este repositorio contiene un DockerFile que extiende el contenedor Pytorch 21.02-Py3 NGC y encapsula algunas dependencias. Para crear su propio contenedor, elija un contenedor de pytorch de las versiones de contenedores Nvidia Pytorch y cree un DockerFile como formato siguiente:

 FROM nvcr . io / nvidia / pytorch : 21.02 - py3
WORKDIR / path / to / working / directory / text2speech /
COPY requirements . txt .
RUN pip install - r requirements . txt

Construir y ejecutar Docker

Vaya a /path/to/working/directory/text2speech/docker

$ docker build - - no - cache - t torcht2s .
$ docker run - it - - rm - - gpus all - p 2222 : 8888 - v / path / to / working / directory / text2speech : / path / to / working / directory / text2speech torcht2s

Agregar entorno al cuaderno de Jupyter y iniciar el cuaderno de Jupyter

$ python - m ipykernel install - - user - - name = torcht2s
$ jupyter notebook - - ip = 0.0 . 0.0 - - port = 8888 - - no - browser - - allow - root

Abra un navegador desde su máquina local y navegue a http://127.0.0.1:2222/?token=${TOKEN} e ingrese su token especificado en su terminal.

Preprocesamiento de texto (conversión fonética y normalización para turco)

Para entrenar modelos de síntesis de voz, son necesarios sonidos y secuencias de fonemas que expresan sonidos. Ese es WYH en el primer paso, el texto de entrada está codificado en una lista de símbolos. En este estudio, usaremos personajes y fonemas turcos como símbolos. Dado que el turco es un lenguaje fonético, las palabras se expresan a medida que se leen. Es decir, las secuencias de caracteres son palabras construidas en turco. En idiomas no fonéticos como el inglés, las palabras se pueden expresar con fonemas. Para sintetizar el discurso turco con datos en inglés, las palabras en el conjunto de datos en inglés primero deben traducirse fonéticamente al turco.

En este estudio, se utilizaron CMUDICT_TR y HETERONONMS_TR. CMUDICT (léxico fonético turco) es un diccionario que expresa fonéticamente unas 1,5 millones de palabras en turco.
Los siguientes fonemas representan la pronunciación turca de los fonemas.

 valid_symbols = [ '1' , '1:' , '2' , '2:' , '5' , 'a' , 'a:' , 'b' , 'c' , 'd' , 'dZ' , 'e' , 'e:' , 'f' , 'g' , 'gj' , 'h' , 'i' , 'i:' , 'j' ,
  'k' , 'l' , 'm' , 'n' , 'N' , 'o' , 'o:' , 'p' , 'r' , 's' , 'S' , 't' , 'tS' , 'u' , 'u' , 'v' , 'y' , 'y:' , 'z' , 'Z' ]

La normalización del texto convierte el texto de la forma escrita en su forma verbalizada, y es un paso de preprocesamiento esencial antes de la síntesis de texto a voz. Asegura que TTS pueda manejar todos los textos de entrada sin omitir símbolos desconocidos. La normalización del texto se aplica para expresiones turcas.

Preparación de datos

Para acelerar el entrenamiento, podrían generarse durante el paso de preprocesamiento y leer directamente desde el disco durante el entrenamiento. Siga estos pasos para usar un conjunto de datos personalizado.

Prepare un directorio con archivos .WAV, filelistas (división de capacitación/validación de los datos) con transcripciones y rutas a archivos .wav en text2speech/Fastpitch/dataset/ ubicación. Esos filelistas deben enumerar un solo enunciado por línea como:

 < audio file path > | < transcript >

Ejecute el script de preprocesamiento para calcular Pitch y Mels con text2speech/Fastpitch/data_preperation.ipynb

$ python prepare_dataset . py  
    - - wav - text - filelists dataset / tts_data . txt  
    - - n - workers 16 
    - - batch - size 1 
    - - dataset - path dataset 
    - - extract - pitch 
    - - f0 - method pyin 
    - - extract - mels

Prepare las listas de archivos con rutas para el tono precalculado que se ejecuta create_picth_text_file(manifest_path) desde text2speech/Fastpitch/data_preperation.ipynb Esos filelistas deben enumerar un solo enunciado por línea como:

 < mel or wav file path > | < pitch file path > | < text > | < speaker_id >

El conjunto de datos completo tiene la siguiente estructura:

. / dataset
├── mels
├── pitch
├── wavs
├── tts_data . txt  # train + val
├── tts_data_train . txt
├── tts_data_val . txt
├── tts_pitch_data . txt  # train + val
├── tts_pitch_data_train . txt
├── tts_pitch_data_val . txt

Entrenamiento de FastPitch desde cero (generador de espectrograma)

El entrenamiento producirá un modelo FastPitch capaz de generar espectrogramas MEL a partir de texto bruto. Se serializará como un solo archivo de punto de control .pt , junto con una serie de puntos de control intermedios.

$ python train . py - - cuda - - amp - - p - arpabet 1.0 - - dataset - path dataset  
                - - output saved_fastpicth_models / 
                - - training - files dataset / tts_pitch_data_train . txt  
                - - validation - files dataset / tts_pitch_data_val . txt  
                - - epochs 1000 - - learning - rate 0.001 - - batch - size 32 
                - - load - pitch - from - disk

Ajuste el modelo con hifi-gan

El último paso es convertir el espectrograma en la forma de onda. El proceso para generar discurso a partir del espectrograma también se llama Vocoder.

Algunos generadores de espectrograma MEL son propensos a modelar sesgo. Como los espectrogramas difieren de los datos verdaderos en los que se capacitó Hifi-Gan, la calidad del audio generado podría sufrir. Para superar este problema, un modelo HIFI-GAN se puede ajustar en las salidas de un generador de espectrograma MEL particular para adaptarse a este sesgo. En esta sección realizaremos el ajuste de las salidas de FastPitch.

Genere espectrogramas MEL para todas las expresiones en el conjunto de datos con el modelo FastPitch

Copie el archivo de FastPitch mejor realizado .Pt en el text2speech/Hifigan/data/pretrained_fastpicth_model/ Directory.
Copie el archivo manifiesto tts_pitch_data.txt en el text2speech/Hifigan/data/ directorio.

$ python extract_mels . py - - cuda 
    - o data / mels - fastpitch - tr22khz  
    - - dataset - path / text2speech / Fastpitch / dataset 
    - - dataset - files data / tts_pitch_data . txt  # train + val 
    - - load - pitch - from - disk 
    - - checkpoint - path data / pretrained_fastpicth_model / FastPitch_checkpoint . pt - bs 16

Los espectrogramas MEL ahora deben estar preparados en el directorio text2speech/Hifigan/data/mels-fastpitch-tr22khz . El script de ajuste fino cargará un modelo Hifi-Gan existente y ejecutará varias épocas de entrenamiento utilizando espectrogramas generados en el último paso.

Atrae el modelo FastPitch con Hifi-Gan

Este paso producirá otro archivo de punto de control del modelo .pt Hifi-gan ajustado al modelo de FastPitch particular.

Abra una nueva carpeta results en el directorio text2speech/Hifigan .

$ nohup python train . py - - cuda - - output / results / hifigan_tr22khz 
 - - epochs 1000 - - dataset_path / Fastpitch / dataset 
 - - input_mels_dir / data / mels - fastpitch - tr22khz 
 - - training_files / Fastpitch / dataset / tts_data . txt 
 - - validation_files / Fastpitch / dataset / tts_data . txt 
 - - fine_tuning - - fine_tune_lr_factor 3 - - batch_size 16  
 - - learning_rate 0.0003 - - lr_decay 0.9998 - - validation_interval 10 > log . txt

Abra otra terminal y rastree el registro de la siguiente manera

$ tail - f log . txt

Inferencia

Ejecute el siguiente comando para sintetizar el audio del texto sin procesar con el generador de espectrograma MEL

 python inference . py - - cuda 
  - - hifigan / Hifigan / results / hifigan_tr22khz / hifigan_gen_checkpoint . pt 
  - - fastpitch / Fastpitch / saved_fastpicth_models / FastPitch_checkpoint . pt 
  - i test_text . txt 
  - o wavs /

El discurso se genera a partir de un archivo aprobado con el argumento -i . El audio de salida se almacenará en la ruta especificada por el argumento -o .

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-08-21
tamaño 17.62MB
Proviene de Github

Aplicaciones relacionadas

How to download hydrax abyss.to

2024-11-11
Texto Con Jesús Chino

2023-08-23
Texto con Jesús

2023-08-17
Texto con Jesús versión china

2023-08-17
Texto o morir

2023-07-03
Regreso a Kurgansk

2022-07-24

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo