Descargar TensorFlowTTS - Descargar el código fuente TensorFlowTTS

TensorFlowTTS

Código Fuente de IA

v1.8

Descargar

? Tensorflowtts

Síntesis del habla de vanguardia en tiempo real para TensorFlow 2

? Tensorflowtts proporciona arquitecturas de síntesis de voz en tiempo real en tiempo real, como Tacotron-2, Melgan, Multiband-Melgan, FastSpeech, FastSpeech2 Based-On TensorFlow 2. Con TensorFlow 2, podemos acelerar la capacitación/progreso de inferencia, optimizador más al usar los modelos falsos de los modelos móvil sistemas integrados.

Qué hay de nuevo

2021/08/18 ( ¡Nuevo! ) Integrado a los espacios Huggingface con Gradio. Ver Demo web de Gradio.
2021/08/12 ( ¡Nuevo! ) Apoyo a los TTS franceses (Tacotron2, Multiband Melgan). Por favor, ver el Colab. Muchas gracias Samuel Delalez
2021/06/01 integrado con Huggingface Hub. Ver el PR. Gracias Patrickvonplaten y Osanseviero
2021/03/18 Soporte de iOS para FastSpeech2 y MB Melgan. Gracias Kewlbear. Ver aquí
2021/01/18 Soporte de inferencia TFLITE C ++. Gracias Luan78zaoha. Ver aquí
2020/12/02 Soporte TTS alemán con el conjunto de datos Thorsten. Ver el Colab. Gracias Thorstenmueller y Monatis
2020/11/24 Agregue Hifi-Gan Vocoder. Ver aquí
2020/11/19 Agregar acumulador de gradiente multi-GPU. Ver aquí
2020/08/23 Agregue la implementación paralela de Wavan TensorFlow. Ver aquí
2020/08/20 Agregue el código de inferencia C ++. Gracias @zdisket. Ver aquí
2020/08/18 Actualizar el nuevo procesador base. Agregue el autoprocesador y el archivo JSON del procesador previamente
2020/08/14 Soporte de TTS chino. Por favor, ver el Colab. Gracias @Azraelkuan
2020/08/05 Soporte de TTS coreano. Por favor, ver el Colab. Gracias @Crux153
2020/07/17 Soporte Multigpu para todos los entrenadores
2020/07/05 Soporte Convertir Tacotron-2, FastSpeech a Tflite. Por favor, ver el Colab. Gracias a @jayoyo del equipo TFLITE por su apoyo
2020/06/20 FastSpeech2 La implementación con TensorFlow es compatible.
2020/06/07 se admite la implementación de Melgan (MB Melgan) con TensorFlow

Características

Alto rendimiento en la síntesis del habla.
Poder ajustar en otros idiomas.
Rápido, escalable y confiable.
Adecuado para la implementación.
Fácil de implementar un nuevo modelo, basada en la clase abstracta.
Precisión mixta para acelerar el entrenamiento si es posible.
Admite acumular gradiente de una sola/múltiple GPU.
Admite tanto la GPU simple/multi en la clase de entrenador base.
Conversión de tflite para todos los modelos compatibles.
Ejemplo de Android.
Apoya muchos idiomas (actualmente, apoyamos chino, coreano, inglés, francés y alemán)
Apoya la inferencia de C ++.
Apoye el peso de Convertir para algunos modelos de Pytorch a TensorFlow para acelerar la velocidad.

Requisitos

Este repositorio se prueba en Ubuntu 18.04 con:

Python 3.7+
CUDA 10.1
Cudnn 7.6.5
TensorFlow 2.2/2.3/2.4/2.5/2.6
TensorFlow Addons> = 0.10.0

Diferente versión de TensorFlow debería estar funcionando pero aún no probada. Este repositorio intentará trabajar con la última versión estable TensorFlow. Le recomendamos que instale TensorFlow 2.6.0 a la capacitación en caso de que desee usar multigpu.

Instalación

Con Pip

$ pip install TensorFlowTTS

De la fuente

Se incluyen ejemplos en el repositorio, pero no se envían con el marco. Por lo tanto, para ejecutar la última versión de ejemplos, debe instalar la fuente a continuación.

$ git clone https://github.com/TensorSpeech/TensorFlowTTS.git
$ cd TensorFlowTTS
$ pip install .

Si desea actualizar el repositorio y sus dependencias:

$ git pull
$ pip install --upgrade .

Arquitecturas de modelos compatibles

TensorFlowtts actualmente proporciona las siguientes arquitecturas:

Melgan lanzado con el documento Melgan: redes adversas generativas para la síntesis de forma de onda condicional por Kundan Kumar, Rithesh Kumar, Thibault de Boissiere, Lucas Gestin, Wei Zhen Teoh, José Sotelo, Alexandre de Brebisson, Yoshua Bengio, Aaron Courville.
Tacotron-2 released with the paper Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions by Jonathan Shen, Ruoming Pang, Ron J. Weiss, Mike Schuster, Navdeep Jaitly, Zongheng Yang, Zhifeng Chen, Yu Zhang, Yuxuan Wang, RJ Skerry-Ryan, Rif A. Saurous, Yannis Agiomyrgiannakis, Yonghui Wu.
FastSpeech lanzado con el papel FastSpeech: TEXTO RÁPIDO, Robusto y controlable a discurso de Yi Ren, Yangjun Ruan, Xu Tan, Tao Qin, Sheng Zhao, Zhou Zhao, Tie-Yan Liu.
Melgan de banda múltiple lanzada con el papel Melgan Multiband Melgan: Generación de forma de onda más rápida para texto a voz de alta calidad por Geng Yang, Shan Yang, Kai Liu, Peng Fang, Wei Chen, Lei Xie.
FastSpeech2 lanzado con el papel FastSpeech 2: Texto de extremo a extremo rápido y de alta calidad a discurso de Yi Ren, Chenxu Hu, Xu Tan, Tao Qin, Sheng Zhao, Zhou Zhoo, Tie-Yan Liu.
Paralelo WaveGan lanzado con el documento Paralelo Wavan: un modelo de generación de forma de onda rápida basado en redes adversas generativas con espectrograma de resolución múltiple por Ryuichi Yamamoto, Eunwoo Song, Jae-Min Kim.
Hifi-Gan lanzado con el documento Hifi-Gan: redes adversas generativas para la síntesis de habla eficiente y de alta fidelidad por Jungil Kong, Jaehyeon Kim, Jaekyoung Bae.

También estamos implementando algunas técnicas para mejorar la velocidad de calidad y convergencia de los siguientes documentos:

Pérdida de atención guiada liberada con el sistema de texto a voz eficiente basado en redes convolucionales profundas con atención guiada de Hideyuki Tachibana, Katsuya Uenoyama, Shunsuke Aihara.

Muestras de audio

Aquí en una muestra de audio en un conjunto válido. Tacotron-2, FastSpeech, Melgan, Melgan.stft, FastSpeech2, Multiband_melgan

Tutorial de extremo a extremo

Preparar el conjunto de datos

Prepare un conjunto de datos en el siguiente formato:

 |- [NAME_DATASET]/
|   |- metadata.csv
|   |- wavs/
|       |- file1.wav
|       |- ...

Donde metadata.csv tiene el siguiente formato: id|transcription . Este es un formato similar a LJSpeech; Puede ignorar los pasos de preprocesamiento si tiene otros conjuntos de datos de formato.

Tenga en cuenta que NAME_DATASET debe ser [ljspeech/kss/baker/libritts/synpaflex] por ejemplo.

Preprocesamiento

El preprocesamiento tiene dos pasos:

Características de audio de preprocesos
- Convertir personajes a IDS
- Calcular espectrogramas MEL
- Normalizar los espectrogramas MEL al rango [-1, 1]
- Dividir el conjunto de datos en tren y validación
- Calcule la media y la desviación estándar de múltiples características de la división de entrenamiento
Estandarizar el espectrograma MEL basado en estadísticas calculadas

Para reproducir los pasos anteriores:

 tensorflow-tts-preprocess --rootdir ./[ljspeech/kss/baker/libritts/thorsten/synpaflex] --outdir ./dump_[ljspeech/kss/baker/libritts/thorsten/synpaflex] --config preprocess/[ljspeech/kss/baker/thorsten/synpaflex]_preprocess.yaml --dataset [ljspeech/kss/baker/libritts/thorsten/synpaflex]
tensorflow-tts-normalize --rootdir ./dump_[ljspeech/kss/baker/libritts/thorsten/synpaflex] --outdir ./dump_[ljspeech/kss/baker/libritts/thorsten/synpaflex] --config preprocess/[ljspeech/kss/baker/libritts/thorsten/synpaflex]_preprocess.yaml --dataset [ljspeech/kss/baker/libritts/thorsten/synpaflex]

En este momento solo admitemos ljspeech , kss , baker , libritts , thorsten y synpaflex para el argumento del conjunto de datos. En el futuro, tenemos la intención de admitir más conjuntos de datos.

Nota : Para ejecutar el preprocesamiento libritts , primero lea las instrucciones en ejemplos/fastspeech2_libritts. Necesitamos reformatearlo primero antes de ejecutar el preprocesamiento.

Nota : Para ejecutar el preprocesamiento synpaflex , primero ejecute los cuadernos de cuaderno/prepare_synpaflex.ipynb. Necesitamos reformatearlo primero antes de ejecutar el preprocesamiento.

Después del preprocesamiento, la estructura de la carpeta del proyecto debe ser:

 |- [NAME_DATASET]/
|   |- metadata.csv
|   |- wav/
|       |- file1.wav
|       |- ...
|- dump_[ljspeech/kss/baker/libritts/thorsten]/
|   |- train/
|       |- ids/
|           |- LJ001-0001-ids.npy
|           |- ...
|       |- raw-feats/
|           |- LJ001-0001-raw-feats.npy
|           |- ...
|       |- raw-f0/
|           |- LJ001-0001-raw-f0.npy
|           |- ...
|       |- raw-energies/
|           |- LJ001-0001-raw-energy.npy
|           |- ...
|       |- norm-feats/
|           |- LJ001-0001-norm-feats.npy
|           |- ...
|       |- wavs/
|           |- LJ001-0001-wave.npy
|           |- ...
|   |- valid/
|       |- ids/
|           |- LJ001-0009-ids.npy
|           |- ...
|       |- raw-feats/
|           |- LJ001-0009-raw-feats.npy
|           |- ...
|       |- raw-f0/
|           |- LJ001-0001-raw-f0.npy
|           |- ...
|       |- raw-energies/
|           |- LJ001-0001-raw-energy.npy
|           |- ...
|       |- norm-feats/
|           |- LJ001-0009-norm-feats.npy
|           |- ...
|       |- wavs/
|           |- LJ001-0009-wave.npy
|           |- ...
|   |- stats.npy
|   |- stats_f0.npy
|   |- stats_energy.npy
|   |- train_utt_ids.npy
|   |- valid_utt_ids.npy
|- examples/
|   |- melgan/
|   |- fastspeech/
|   |- tacotron2/
|   ...

stats.npy contiene la media y la ETS de los espectrogramas MEL divididos de entrenamiento
stats_energy.npy contiene la media y la ETS de los valores de energía de la división de entrenamiento
stats_f0.npy contiene la media y la ETS de los valores de F0 en la división de entrenamiento
train_utt_ids.npy / valid_utt_ids.npy contiene ID de enunciación de entrenamiento y validación respectivamente

Utilizamos sufijo ( ids , raw-feats , raw-energy , raw-f0 , norm-feats y wave ) para cada tipo de entrada.

Notas importantes :

Este paso de preprocesamiento se basa en ESPNet, por lo que puede combinar todos los modelos aquí con otros modelos del repositorio de ESPNet.
Independientemente de cómo se formatee su conjunto de datos, la estructura final de la carpeta dump debe seguir la estructura anterior para poder usar el script de entrenamiento, o puede modificarlo usted mismo.

Modelos de entrenamiento

Para saber cómo entrenar el modelo desde cero o ajustar con otros conjuntos de datos/lenguajes, consulte los detalles en el directorio de ejemplo.

Para el tutorial Tacotron-2, por favor ver ejemplos/tacotron2
Para el tutorial de FastSpeech, ver ejemplos/FastSpeech
Para el tutorial de FastSpeech2, por favor vea ejemplos/FastSpeech2
Para el tutorial de FastSpeech2 + MFA, por favor consulte Ejemplos/FastSpeech2_Libritts
Para el tutorial de Melgan, por favor ver ejemplos/Melgan
Para el tutorial de pérdida de Melgan + STFT, ver ejemplos/Melgan.stft
Para tutorial de múltiples múltiples, ver ejemplos/multiband_melgan
Para el tutorial paralelo de Wavan, por favor ver ejemplos/paralelo_wavegan
Para el generador multiband-Melgan + Hifi-Gan, por favor ver ejemplos/multiband_melgan_hf
Para el tutorial Hifi-Gan, por favor ver ejemplos/Hifigan

Explicación de clase abstracta

Conjunto de datos basado en dataader tensorflow

Una implementación detallada de la clase de conjunto de datos abstractos de TensorFlow_TTS/DataSet/Abstract_Dataset. Hay algunas funciones que necesitas Overide y comprende:

get_args : esta función return argumentation para la clase del generador , normalmente es utt_ids.
Generador : esta función tiene una entrada de la función get_args y devuelve una entrada para los modelos. Tenga en cuenta que devolvemos un diccionario para todas las funciones del generador con las claves que coinciden exactamente con los parámetros del modelo porque base_trainer usará el modelo (** lote) para hacer el paso hacia adelante.
get_output_dtypes : esta función necesita devolver dtypes para cada elemento desde la función generador .
get_len_dataset : return Len de conjuntos de datos, normalmente es len (utt_ids).

Notas importantes :

Una tubería de creación de datos de datos debe ser: caché -> shuffle -> map_fn -> get_batch -> Prefetch.
Si se baraja antes de la memoria caché, el conjunto de datos no se barajará cuando reitere los conjuntos de datos.
Debe aplicar MAP_FN para que cada elemento regrese de la función del generador tenga la misma longitud antes de obtener un lote y alimentarla en un modelo.

Algunos ejemplos para usar este abstract_dataset son tacotron_dataset.py, fastspeech_dataset.py, melgan_dataset.py, fastspeech2_dataset.py

Clase de entrenador abstracto

Una implementación detallada de base_trainer de tensorflow_tts/entrenador/base_trainer.py. Incluye Seq2SeqBasedTrainer y GanBasedTrainer heredado de BasedTrainer. Todos los entrenadores admiten tanto una sola/multi GPU. Hay algunas funciones que debes superar cuando implementan new_trainer:

Compilar : esta función tiene como objetivo definir modelos y pérdidas.
Generate_and_save_intermediate_result : esta función guardará el resultado intermedio, como: alineación de trazado, guardar audio generado, trazar mel-spectrogram ...
Compute_per_example_losses : esta función computará Per_example_Loss para el modelo, tenga en cuenta que todo el elemento de la pérdida debe tener forma [Batch_Size].

Todos los modelos de este reposition se basan en GanBasedTrainer (ver Train_melgan.py, Train_melgan_stft.py, Train_Multiband_Melgan.py) y SEQ2SEQBaseDtrainer (ver Train_tacotron2.py, Train_Fastspeech.py).

Ejemplos de extremo a extremo

Puede saber cómo inferir cada modelo en cuadernos o ver un Colab (para inglés), Colab (para coreano), Colab (para chino), Colab (para francés), Colab (para alemán). Aquí hay un código de ejemplo para la inferencia de End2END con FastSpeech2 y Melgan de la banda múltiple. Subimos todo nuestro estado previo en Huggingface Hub.

 import numpy as np
import soundfile as sf
import yaml

import tensorflow as tf

from tensorflow_tts . inference import TFAutoModel
from tensorflow_tts . inference import AutoProcessor

# initialize fastspeech2 model.
fastspeech2 = TFAutoModel . from_pretrained ( "tensorspeech/tts-fastspeech2-ljspeech-en" )


# initialize mb_melgan model
mb_melgan = TFAutoModel . from_pretrained ( "tensorspeech/tts-mb_melgan-ljspeech-en" )


# inference
processor = AutoProcessor . from_pretrained ( "tensorspeech/tts-fastspeech2-ljspeech-en" )

input_ids = processor . text_to_sequence ( "Recent research at Harvard has shown meditating for as little as 8 weeks, can actually increase the grey matter in the parts of the brain responsible for emotional regulation, and learning." )
# fastspeech inference

mel_before , mel_after , duration_outputs , _ , _ = fastspeech2 . inference (
    input_ids = tf . expand_dims ( tf . convert_to_tensor ( input_ids , dtype = tf . int32 ), 0 ),
    speaker_ids = tf . convert_to_tensor ([ 0 ], dtype = tf . int32 ),
    speed_ratios = tf . convert_to_tensor ([ 1.0 ], dtype = tf . float32 ),
    f0_ratios = tf . convert_to_tensor ([ 1.0 ], dtype = tf . float32 ),
    energy_ratios = tf . convert_to_tensor ([ 1.0 ], dtype = tf . float32 ),
)

# melgan inference
audio_before = mb_melgan . inference ( mel_before )[ 0 , :, 0 ]
audio_after = mb_melgan . inference ( mel_after )[ 0 , :, 0 ]

# save to file
sf . write ( './audio_before.wav' , audio_before , 22050 , "PCM_16" )
sf . write ( './audio_after.wav' , audio_after , 22050 , "PCM_16" )

Contacto

Minh Nguyen Quan Anh: [email protected]
Erogol: [email protected]
Kuan Chen: [email protected]
Dawid Kobus: má[email protected]
Takuya Ebata: [email protected]
Trinh Le Quang: [email protected]
Yunchao él: [email protected]
Alejandro Miguel Velásquez: [email protected]

Licencia

Todos los modelos aquí tienen licencia bajo el Apache 2.0

Reconocimiento

Queremos agradecer a Tomoki Hayashi, quien discutió mucho con nosotros sobre Melgan, Melgan Melgan, FastSpeech y Tacotron. Este marco basado en su gran proyecto paralelo de código abierto.

Expandir

Información adicional

Versión v1.8
Tipo Código Fuente de IA
Fecha de actualización 2025-08-21
tamaño 41.84MB
Proviene de Github

Aplicaciones relacionadas

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo