Descarga Chinese FastSpeech2 - Descargar el código fuente Chinese FastSpeech2

Chinese FastSpeech2

Código Fuente de IA

1.0.0

Descargar

Expeche de rápido chino2

Basado en los datos de voz femeninos estándar de los chinos Biaobei, se mejoró el modelo FastSpeech2 del documento original, y se introdujo la representación rítmica y el módulo de predicción de ritmo para que la pronunciación china fuera más vívida y rítmica

Actualización 20230402

1. Agregue el código de entrenamiento del modelo de ritmo, en el directorio de BertProsody
2. Agregue el código de preprocesamiento para la capacitación del modelo de ritmo (para los datos de shell estándar, el código no se ha solucionado, primera versión), en preprocesador/biaobei.py

Muestra

Consulte el audio generado en muestras

Archivo modelo

La estructura principal de este proyecto es la estructura de Hifigan FastSpeech2+. Además, el vector de ritmo del texto chino se introduce en la etapa de entrada. Por lo tanto, hay tres modelos: FastSpeech_Model, Hifigan_Model, Prosody_Model (enlace de disco neto, código de extracción: QGPI). Después de descargar, coloque el archivo modelo en el directorio especificado:

8000.pth.tar ---> salida/ckpt/biaobei/
generador_universal.pth.tar ---> hifigan/
best_model.pt ---> transformer/prosody_model/

predecir

Se proporcionan dos métodos de predicción: 1) Python Synthesize_all.py; 2) Llamada de interfaz HTTP

El primer método es interactivo . Después de ejecutar Python synthesize_all.py en la línea de comando, ingrese el texto que debe convertirse. Después de ejecutar, el archivo tmp.wav se generará en el código en el directorio de trabajo actual;
El segundo método es llamar a la API , ejecutar tts_server.py, que iniciará la interfaz de voz a texto. Si llama a esta interfaz, puede consultar testServer.py. El mismo archivo de audio generado (tmp.wav) se guardará en el directorio de trabajo actual.

tren

Dado que este proyecto se refiere al proyecto FastSpeech2, si desea personalizar la capacitación, el proyecto proporciona un método de capacitación más detallado para referencia;
Este proyecto ha hecho algunas optimizaciones al método original. Para la parte de optimización, consulte el blog: Síntesis del habla china basada en la optimización de FastSpeech2

Este proyecto es un intento de hacer síntesis del habla a partir de intereses personales. ¡Todos son bienvenidos para criticarme y corregirme y comunicarse más!

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-08-24
tamaño 5.43MB
Proviene de Github

Aplicaciones relacionadas

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Versión oficial del código fuente del proyecto de juegos chinos de DOS (juegos chinos de DOS en el navegador)

2022-11-01

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo