Descargar vits2_pytorch - vits2_pytorch Código fuente de descarga

vits2_pytorch

Código Fuente de IA

1.0.0

Descargar

VITS2: Mejora de la calidad y eficiencia del texto a voz de una sola etapa con aprendizaje adversario y diseño de arquitectura

Jungil Kong, Jihoon Park, Bomjeong Kim, Jeongmin Kim, Dohee Kong, Sangjin Kim

Implementación no oficial del documento VITS2, secuela de VITS Paper. (¡Gracias a los autores por su trabajo!)

Texto alternativo

Los modelos de texto a voz de una sola etapa se han estudiado activamente recientemente, y sus resultados han superado a los sistemas de tuberías de dos etapas. Aunque el modelo anterior de una sola etapa ha hecho un gran progreso, hay margen de mejora en términos de su antinatural intermitente, eficiencia computacional y una fuerte dependencia de la conversión de fonemas. En este trabajo, presentamos VITS2, un modelo de texto a voz de una sola etapa que sintetiza eficientemente un discurso más natural al mejorar varios aspectos del trabajo anterior. Proponemos estructuras y mecanismos de entrenamiento mejorados y presentamos que los métodos propuestos son efectivos para mejorar la naturalidad, la similitud de las características del habla en un modelo de múltiples altavoces y la eficiencia de entrenamiento e inferencia. Además, demostramos que la fuerte dependencia de la conversión de fonemas en trabajos anteriores puede reducirse significativamente con nuestro método, lo que permite un enfoque de una sola etapa totalmente de extremo a finales.

Créditos

Construiremos este repositorio basado en el repositorio VITS. ¡El objetivo es hacer que este modelo sea más fácil de transferir el aprendizaje del modelo VITS antes del metro!
(17-17-2023)-Los autores fueron realmente amables al guiarme a través del documento y responder mis preguntas. Estoy abierto a discutir cualquier cambio o responder preguntas sobre la implementación. No dude en abrir un problema o contácteme directamente.

Puntos de control previos al detenido

LJSPEECH-No-SDP (consulte config.yaml en esta carpeta de checkppoint) | 64k pasos | ¡Prueba de que la capacitación funciona! Recomendaría a los expertos que renombraran los CKPTS a *_0.pth y comenzar la capacitación utilizando el aprendizaje de transferencia. (Agregaré un cuaderno para esto pronto para ayudar a los principiantes).
Verifique la página 'Discusión' para registros de capacitación y enlaces de tablero de tensor y otras contribuciones comunitarias.

Audio de muestra

Muestras de modelo de entrenamiento ruso #32. Gracias a @shigabeev por compartir las muestras.
Algunas muestras en la página de discusión del conjunto de datos no nativo. ¡Gracias a @athenasaurav por usar sus recursos de GPU privados y su conjunto de datos!
Audio de muestra agregado @104k pasos. ljspeech-nosdp; tabla tensor
Muestras vietnamitas gracias a @ductho9799 por compartir!

Requisitos previos

Python> = 3.10
Probado en Pytorch versión 1.13.1 con Google Colab y Lambdalabs Cloud.
Clon este repositorio
Instale los requisitos de Python. Consulte requisitos.txt
1. Es posible que deba instalar Espeak primero: apt-get install espeak
Descargar conjuntos de datos
1. Descargue y extraiga el conjunto de datos de discurso LJ, luego cambie el nombre o cree un enlace a la carpeta del conjunto de datos: ln -s /path/to/LJSpeech-1.1/wavs DUMMY1
2. Para la configuración de múltiples altas, descargue y extraiga el conjunto de datos VCTK, y los archivos WAV de muestra a 22050 Hz. Luego cambie el nombre o cree un enlace a la carpeta del conjunto de datos: ln -s /path/to/VCTK-Corpus/downsampled_wavs DUMMY2
Cree búsqueda de alineación monotónica y ejecute preprocesamiento si usa sus propios conjuntos de datos.

 # Cython-version Monotonoic Alignment Search
cd monotonic_align
python setup.py build_ext --inplace

# Preprocessing (g2p) for your own datasets. Preprocessed phonemes for LJ Speech and VCTK have been already provided.
# python preprocess.py --text_index 1 --filelists filelists/ljs_audio_text_train_filelist.txt filelists/ljs_audio_text_val_filelist.txt filelists/ljs_audio_text_test_filelist.txt 
# python preprocess.py --text_index 2 --filelists filelists/vctk_audio_sid_text_train_filelist.txt filelists/vctk_audio_sid_text_val_filelist.txt filelists/vctk_audio_sid_text_test_filelist.txt

Cómo correr (administrado en seco)

Modelo de avance de avance (carrera en seco)

 import torch
from models import SynthesizerTrn

net_g = SynthesizerTrn (
    n_vocab = 256 ,
    spec_channels = 80 , # <--- vits2 parameter (changed from 513 to 80)
    segment_size = 8192 ,
    inter_channels = 192 ,
    hidden_channels = 192 ,
    filter_channels = 768 ,
    n_heads = 2 ,
    n_layers = 6 ,
    kernel_size = 3 ,
    p_dropout = 0.1 ,
    resblock = "1" , 
    resblock_kernel_sizes = [ 3 , 7 , 11 ],
    resblock_dilation_sizes = [[ 1 , 3 , 5 ], [ 1 , 3 , 5 ], [ 1 , 3 , 5 ]],
    upsample_rates = [ 8 , 8 , 2 , 2 ],
    upsample_initial_channel = 512 ,
    upsample_kernel_sizes = [ 16 , 16 , 4 , 4 ],
    n_speakers = 0 ,
    gin_channels = 0 ,
    use_sdp = True , 
    use_transformer_flows = True , # <--- vits2 parameter
    # (choose from "pre_conv", "fft", "mono_layer_inter_residual", "mono_layer_post_residual")
    transformer_flow_type = "fft" , # <--- vits2 parameter 
    use_spk_conditioned_encoder = True , # <--- vits2 parameter
    use_noise_scaled_mas = True , # <--- vits2 parameter
    use_duration_discriminator = True , # <--- vits2 parameter
)

x = torch . LongTensor ([[ 1 , 2 , 3 ],[ 4 , 5 , 6 ]]) # token ids
x_lengths = torch . LongTensor ([ 3 , 2 ]) # token lengths
y = torch . randn ( 2 , 80 , 100 ) # mel spectrograms
y_lengths = torch . Tensor ([ 100 , 80 ]) # mel spectrogram lengths

net_g (
    x = x ,
    x_lengths = x_lengths ,
    y = y ,
    y_lengths = y_lengths ,
)

# calculate loss and backpropagate

Ejemplo de entrenamiento

 # LJ Speech
python train.py -c configs/vits2_ljs_nosdp.json -m ljs_base # no-sdp; (recommended)
python train.py -c configs/vits2_ljs_base.json -m ljs_base # with sdp;

# VCTK
python train_ms.py -c configs/vits2_vctk_base.json -m vctk_base

# for onnx export of trained models
python export_onnx.py --model-path= " G_64000.pth " --config-path= " config.json " --output= " vits2.onnx "
python infer_onnx.py --model= " vits2.onnx " --config-path= " config.json " --output-wav-path= " output.wav " --text= " hello world, how are you? "

Todos, características y notas

Predictor de duración (Fig. 1A)

Se agregó discriminador LSTM al predictor de duración.
Se agregó pérdida de adversidad al predictor de duración. ("Use_duration_discriminator" en el archivo de configuración; el valor predeterminado es "verdadero")
Búsqueda de alineación monotónica con ruido gaussiano agregado; podría necesitar verificación de expertos (Sección 2.2)
Se agregó el indicador "Use_noise_scaled_mas" en el archivo de configuración. Elija entre Verdadero o Falso; Actualiza el ruido mientras el entrenamiento se basa en el número de pasos y nunca va por debajo de 0.0
Actualizar modelos.py/train.py/train_ms.py
Actualizar archivos de configuración (vits2_vctk_base.json; vits2_ljs_base.json)
Actualizar las pérdidas en Train.py y Train_ms.py

Bloque de transformador en el flujo de normalización (Fig. 1B)

Bloque de transformador agregado al flujo de normalización. Hay tres tipos de bloques de transformadores: preconvolución (mi implementación), FFT (del repositorio SO-VITS-SVC) y la capa mono.
Se agregó el indicador "Transformer_flow_type" en el archivo de configuración. Elija entre "pre_conv", "fft", "mono_layer_inter_residual", "mono_layer_post_residual".
Se agregaron capas y bloques en modelos.py (residualCoupplingTransformerSlayer, residualCoupplingTransformersBlock, FFTRANSFRANSCOUPLINGLINELYer, MonotransformerFlowlayer)
Agregue el archivo config (vits2_ljs_base.json; se puede activar usando el indicador "use_transformer_flows")

Codador de texto condicionado por el altavoz (Fig. 1C)

Incrustación de altavoz agregada al codificador de texto en modelos.py (textEncoder; compatible con VITs)
Agregue el archivo de configuración (Vits2_ljs_base.json; se puede activar usando el indicador "Use_spk_conditioned_encoder")

Codador posterior del espectrograma MEL (Sección 3)

Codador posterior del espectrograma MEL agregado en trenes.
Nuevo archivo de configuración Addded (Vits2_LJS_Base.json; se puede activar usando el indicador "USE_MEL_POSTORIOR_ENCODER")
Actualizado 'data_utils.py' para usar el indicador "Use_mel_posterior_encoder" para VITS2

Guiones de entrenamiento

Se agregaron banderas VITS2 a Train.py (modelo de un solo espectáculo)
Se agregaron banderas VITS2 a Train_Ms.py (modelo de múltiples altavoces)

Exportación de ONNX

Agregar soporte de exportación de ONNX.

Demostración de Gradio

Agregue soporte de demostración de Gradio.

Menciones especiales

@erogol para comentarios y orientación rápidos. (Revise su increíble repositorio de Coquitts).
@LEXKORO para discusiones y ayuda con el entrenamiento prototipo.
@Manmay-Nakhashi para discusiones y ayuda con el código.
@athenasurav por ofrecer apoyo de GPU para el entrenamiento.
@w11wo para soporte ONNX.
@Subarasheese para la interfaz de usuario de Gradio.

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-08-20
tamaño 5.59MB
Proviene de Github

Aplicaciones relacionadas

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
pytorch image models

2024-11-03
nextcloud_share_url_downloader

2024-11-01
Motor de análisis de datos Lihua versión gratuita 3.0_search_navigation_collection_public opinion_ranking_api

2022-06-28

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo