Descarga Grad TTS Chinese - Código fuente Grad TTS Chinese Descargar

Grad TTS Chinese

Código Fuente de IA

release grad-tts-cfm

Descargar

Huawei Grad-TTS para chino, integrado Bert y Bigvgan

El proyecto de algoritmo TTS para el aprendizaje tiene una velocidad de razonamiento lenta, pero la difusión es una gran tendencia

Grad_tts

bert_grad_tts Marco Grad-TTS-CFM

Probado con modelos entrenados

Descargue el modelo VOCODER bigvgan_base_24khz_100band desde nvidia/bigvgan
Pon G_05000000 en ./Bigvgan_Prain/G_0500000
Descargue Bert Prosody_Model de EjecutedOne/Chinese-FastSpeech2
Renombrar mejor_model.pt a prosody_model.pt y póngalo en ./bert/prosody_model.pt
Descargue el modelo TTS desde la página de lanzamiento grad_tts.pt desde la página de versión
Poner grad_tts.pt en el directorio actual, o en cualquier lugar
Dependencia del entorno de instalación
PIP install -r requisitos.txt
CD ./GRAD/Monotonic_align
Python setup.py build_ext -inplace
cd -
Prueba de inferencia
Python Inference.py - -File Test.txt --Checkpoint Grad_tts.pt - -Timesteps 10 - -Temperatura 1.015
Generar audio en ./inference_out
Cuanto más grande sea timesteps , mejor es el efecto, más largo es el tiempo de razonamiento; Cuando se establece en 0, se omitirá la difusión y se emitirá el espectro MEL generado por FrameEncoder.
temperature determina la cantidad de ruido agregado por el razonamiento de difusión y necesita depurar el mejor valor.

Datos estándar

Descargue el enlace oficial de los datos de Biaobei: https://www.data-baker.com/data/index/tntts/
Poner Waves en ./data/waves
Poner 000001-010000.txt en ./data/000001-010000.txt
Volver a muestrear a 24 kHz, ya que se usa el modelo BigVgan 24K
Python Tools/Preprocess_a.py -w ./data/wave/ -o ./data/wavs -s 24000
Extraiga el espectro MEL y reemplace el Vocoder, debe prestar atención a los parámetros MEL escritos en el código.
Python Tools/Preprocess_m.py -Wavs Data/Wavs/--out data/mels/
Extraiga el vector de pronunciación de Bert y genere los archivos de índice de entrenamiento train.txt y valid.txt al mismo tiempo
Python Tools/Preprocess_B.Py
La salida incluye data/berts/ y data/files
Nota: La información de impresión es eliminar儿化音(el proyecto es una demostración de algoritmo y no realiza producción)

Instrucciones adicionales

Etiqueta original

 000001	卡尔普#2陪外孙#1玩滑梯#4。
	ka2 er2 pu3 pei2 wai4 sun1 wan2 hua2 ti1
000002	假语村言#2别再#1拥抱我#4。
	jia2 yu3 cun1 yan2 bie2 zai4 yong1 bao4 wo3

Debe estar marcado ya que Bert requiere que los caracteres chinos卡尔普陪外孙玩滑梯。 (incluida la puntuación), TTS requiere la vocal final sil k a2 ^ er2 p u3 p ei2 ^ uai4 s uen1 ^ uan2 h ua2 t i1 sp sil

 000001	卡尔普陪外孙玩滑梯。
	ka2 er2 pu3 pei2 wai4 sun1 wan2 hua2 ti1
	sil k a2 ^ er2 p u3 p ei2 ^ uai4 s uen1 ^ uan2 h ua2 t i1 sp sil
000002	假语村言别再拥抱我。
	jia2 yu3 cun1 yan2 bie2 zai4 yong1 bao4 wo3
	sil j ia2 ^ v3 c uen1 ^ ian2 b ie2 z ai4 ^ iong1 b ao4 ^ uo3 sp sil

Etiqueta de entrenamiento

 ./data/wavs/000001.wav|./data/mels/000001.pt|./data/berts/000001.npy|sil k a2 ^ er2 p u3 p ei2 ^ uai4 s uen1 ^ uan2 h ua2 t i1 sp sil
./data/wavs/000002.wav|./data/mels/000002.pt|./data/berts/000002.npy|sil j ia2 ^ v3 c uen1 ^ ian2 b ie2 z ai4 ^ iong1 b ao4 ^ uo3 sp sil

Esta oración cometerá un error

 002365	这图#2难不成#2是#1Ｐ过的#4？
	zhe4 tu2 nan2 bu4 cheng2 shi4 P IY1 guo4 de5

tren

Conjunto de datos de depuración
Python Tools/Preprocess_D.Py
Comience el entrenamiento
Python Train.py
Capacitación de recuperación
Python Train.py -p logs/new_exp/grad_tts _ ***. PT

razonamiento

Python Inference.py --file test.txt --checkpoint ./logs/new_exp/grad_tts_***.pt ---Timesteps 20 - -Temperatura 1.15

Pérdida

Grad_tts_loss

Este proyecto se basa en los siguientes proyectos

https://github.com/huawei-noah/speech-backbones/blob/main/grad-tts

https://github.com/shivammehta25/matcha-tts

https://github.com/thuhcsi/lightgrad

https://github.com/executedone/chinese-stspeech2

https://github.com/playvoice/vits_chinesese

https://github.com/nvidia/bigvgan

Información oficial de Grad-TTS

Implementación oficial del modelo Grad-TTS basado en el modelado probabilístico de difusión. Para todos los detalles, consulte nuestro documento aceptado en ICML 2021 a través de este enlace.

Autores : Vadim Popov*, Ivan Vovk*, Vladimir GoGoryan, Tasnima Sadekova, Mikhail Kudinov.

^{*Contribución igual.}

Abstracto

Página de demostración con resumen expresado: enlace.

Recientemente, los modelos probabilísticos de difusión de difusión y la coincidencia de puntaje generalizada han mostrado un alto potencial en el modelado de distribuciones de datos complejos, mientras que el cálculo estocástico ha proporcionado un punto de vista unificado sobre estas técnicas que permiten esquemas de inferencia flexibles. En este artículo presentamos Grad-TTS, un nuevo modelo de texto a voz con un decodificador basado en puntaje que produce espectrogramas MEL al transformar gradualmente el ruido predicho por el codificador y alineado con la entrada de texto por medio de la búsqueda de alineación monotónica. El marco de las ecuaciones diferenciales estocásticas nos ayuda a generalizar modelos de probabilidad de diferencia convencional al caso de reconstruir datos del ruido con diferentes parámetros y permite hacer que esta reconstrucción sea flexible controlando explícitamente la compensación entre la calidad del sonido y la velocidad de inferencia. La evaluación humana subjetiva muestra que Grad-TTS es competitivo con los enfoques de texto a voz de vanguardia en términos de puntaje de opinión media.

Referencias

El modelo Hifi-Gan se utiliza como Vocoder, Repositorio oficial de GitHub: Link.
El algoritmo de búsqueda de alineación monotónica se utiliza para modelado de duración no supervisado, repositorio oficial de GitHub: enlace.
La fonemización utiliza CMUDICT, repositorio oficial de GitHub: Link.

Información oficial de Bigvgan

Bigvgan: un vocoder neural universal con entrenamiento a gran escala

Sang-Gil Lee, Wei Ping, Boris Ginsburg, Bryan Catanzaro, Sungroh Yoon

Enlace del proyecto: https://github.com/nvidia/bigvgan

Inferir prueba

Descargar el modelo Pretrin BigVgan_base_24khz_100band

python bigvgan/inference.py 
--input_wavs_dir bigvgan_debug 
--output_dir bigvgan_out

Entrenar con panadero

Python Bigvgan/Train.py - -Config BigVgan_pretrain/config.json

Referencias

Hifi-Gan (para generador y discriminador de múltiples períodos)
Serpiente (para activación periódica)
Torch sin alias (para anti-aliasing)
Julius (para filtro de paso bajo)
Univnet (para discriminador de resolución múltiple)

Expandir

Información adicional

Versión release grad-tts-cfm
Tipo Código Fuente de IA
Fecha de actualización 2025-08-22
tamaño 639.22KB
Proviene de Github

Aplicaciones relacionadas

GitHub sgrebnov/cordova plugin background download

2024-11-05
F5 TTS ComfyUI

2024-11-02
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Versión oficial del código fuente del proyecto de juegos chinos de DOS (juegos chinos de DOS en el navegador)

2022-11-01
Información en inglés sobre desarrollo de voz (Guía del usuario TTS versión Delphi)

2009-05-28

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo