Descargar ttts - Descargar el código fuente de ttts

ttts

Código Fuente de IA

1.0.0

Descargar

DetalleTts: Información de detalle residual de aprendizaje para texto a voz de disparo cero

imagen

Inspiración

Que yo sepa, el método en este proyecto es el primero de su tipo que he propuesto. La idea principal proviene del modelado de 'detalle', ya que me ha preocupado el hecho de que los métodos basados en VQ (cuantificación vectorial) no pueden reconstruir muy bien el audio, y tampoco hay forma de modelar este residuo. Sin embargo, para los VIT tradicionales, hay formas de crear algunas señales de supervisión, como espectros lineales o mediante el uso de embebidos aprendices para aprender la duración. Estas observaciones finalmente llevaron a este método a lograr muy buenos resultados.

Manifestación

Visite la página de demostración

Instalar

Visite los modelos previamente capacitados

 pip install -e .

Capacitación

1. Entrenamiento de tokenizador

Use el ttts/prepare/bpe_all_text_to_one_file.py para fusionar todo el texto que haya recopilado. Para entrenar el tokenizador, consulte el ttts/gpt/voice_tokenizer para obtener más información.

2. Entrenamiento de vqvae

Use 1_vad_asr_save_to_jsonl.py y 2_romanize_text.py para preprocess DataSet. Use las siguientes instrucciones para entrenar el modelo.

 accelerate launch ttts/vqvae/train_v3.py

Lenguaje múltiple

Ahora apoya chino, inglés, japonés, coreano.

Puede usar cualquier idioma con este modelo con dos pasos.

Primero, recopile muchos texto de este idioma.
En segundo lugar, entrene el ttts/gpt/voice_tokenizer para obtener un diccionario.

Para el inglés, puede usar directamente el texto. Sin embargo, para el chino, debe usar pinyin y para japonés, debe usar romaji, asegurarse de incluir información de pronunciación en el texto.

Inferencia

Consulte la api.py para obtener detalles de inferencia.

Sintonia FINA

Cambie la ruta de carga en Train_V3.py con el modelo previamente petrano, luego entrene. Sobre el conjunto de datos, debe preprocesar el texto y la ruta de audio y el latín. Puede consultar ttts/prepare/2_romanize_text.py para obtener información.