Descargar MTTS - Descargar el código fuente de MTTS

MTTS

Código Fuente de IA

1.0.0

Descargar

Este proyecto ha sido detenido y es bastante viejo

recomendar:

https://github.com/paddlepaddle/paddlespeech/tree/develop/paddlespeech/t2s/frontend
https://github.com/thuhcsi/crystal

Bienvenido a unirse

COMUNICACIÓN DE SINTES DE VOZ GRUPO QQ: 882726654

Una demostración de MTTS mandarín/texto chino al frontend del habla

Mandarina/texto chino a discurso basado en la síntesis de discurso de los parámetros estadísticos utilizando Merlin Toolkit

Esto es solo una demostración en el frente de la síntesis de pronunciación. No proporciona funciones de regularización de texto y predicción de ritmo. Use pypinyin para convertir el texto en pinyin y use tartamudeo para participar. La precisión de estos dos no es tan buena como el nivel comercial.

Para otros proyectos de síntesis de voz, el portal de extremo a extremo es una buena dirección, y la naturalidad es mejor que la de Merlín.

Esta es solo una demostración de frontend de mandarín que es la falta de algunas partes como "normalización de texto" y "predicción de prosodia", y el teléfono establece && preguntas establecidas Este proyecto usa que todavía no ha probado completamente.

Una documentación aproximada: un borrador de documentación escrita en mandarín

Datos

No existe un conjunto de datos de síntesis de discurso de mandarín de código abierto en Internet, este proyecto de datos de THCHS30 para demostrar la síntesis del habla

ACTUALIZAR

Datos de síntesis de discurso de mandarín de código abierto de la compañía de bancarero de datos, datos de síntesis de habla china de código abierto, gracias a la compañía Biaobei

【Descarga de datos】 https://weixinxcxdb.oss-cn-beijing.aliyunc.com/gwyinpinku/bznsyp.rar 【Descripción de datos】 http://www.data-baker.com/open_source.html

Muestras generadas

Escuche https://jackiexiao.github.io/mtts/

Cómo reproducir

Primero, necesita datos contiene WAV y TXT (Prosody Mark es opcional)
En segundo lugar, genere la etiqueta HTS utilizando este proyecto
Usar Merlin/EGS/Mandarin_Voice para entrenar y generar voz de mandarín

Anotación relacionada con el contexto y conjunto de preguntas

Anotación relacionada con el contexto
Conjunto de preguntas
Reglas para diseñar reglas de diseño de un conjunto de preguntas

Instalar

Python: Python3.6
Sistema: Linux (probado en Ubuntu16.04)

 pip install jieba pypinyin
sudo apt-get install libatlas3-base

Ejecutar bash tools/install_mtts.sh
O descargue el archivo por usted mismo

Descargar Montreal-Forced-Aligner y Unzip a Directory Tools/
Descargar ACOUSTIC_MODEL THCHS30.ZIP y copiar a Directory Misc/

CORRA DEMO

 bash run_demo.sh

Uso

1. Genere la etiqueta HTS por wav y texto

Uso: ejecute python src/mtts.py txtfile wav_directory_path output_directory_path (ruta absoluta o ruta relativa), entonces obtendrá la etiqueta HTS, si tiene su propio modelo acústico capacitado por el modelador de Monthreal-Fored-Align, agrega -a your_acoustic_model.zip , de lo contrario, use este proyecto.
Atención: actualmente solo apoya el carácter chino, TXT no debe tener ningún número de Arabia o alfabeto inglés (no puede contener números árabes y caracteres ingleses)

Ejemplo de Txtfile

 A_01 这是一段文本
A_02 这是第二段文本

Ejemplo de WAV_Directory (la velocidad de muestra debe mayor a 16 kHz)

 A_01.wav  
A_02.wav

2. Genere la etiqueta HTS por texto con o sin archivo de alineación

Uso: ejecute python src/mandarin_frontend.py txtfile output_directory_path
o importar mandarin_frontend

 from mandarin_frontend import txt2label

result = txt2label('向香港特别行政区同胞澳门和台湾同胞海外侨胞')
[print(line) for line in result]

# with prosody mark and alignment file (sfs file)
# result = txt2label('向#1香港#2特别#1行政区#1同胞#4澳门#2和#1台湾#1同胞#4海外#1侨胞',
            sfsfile='example_file/example.sfs')

Consulte el código fuente para obtener más información, pero preste atención al archivo de alineación (archivo SFS), el formato es endtime phone_type no start_time, phone_type (que es diferente de los datos de Speech Ocean)

3. Alineación forzada

Este proyecto usa el alineador de Montreal-Forced para hacer una alineación forzada, si desea obtener una mejor alineación, use sus datos para capacitar a un modelo de alineación, consulte MFA: Algin-Using-the Dataset

Entrenamos el modelo acústico usando el conjunto de datos THCHS30, ver misc/thchs30.zip , el diccionario que usamos mandarin_mtts.lexicon. Si usa un conjunto de datos más grande que THCHS30, puede obtener una mejor alineación.
Si desea utilizar el modelo de mandarina pretrontrado de MFA (Montreal-Forced-Aligner), este es el diccionario que necesita mandarina por montonal-alineador-alineador-pre-entrenado.

Prosodia

Puede generar etiqueta HTS sin marca de prosodia. Suponemos que el segmento de palabras es más pequeño que la palabra prosódica (que se ajusta en el código)

"#0", "#1", "#2", "#3" y "#4" son los símbolos de etiquetado Prosody.

#0 significa segmento de palabras
#1 significa Palabra prosódica
#2 significa Palabra estresante (en realidad en este proyecto lo regresamos como #1)
#3 significa frase prosódica
#4 significa frase internacional