recomendar:
Bienvenido a unirse
Mandarina/texto chino a discurso basado en la síntesis de discurso de los parámetros estadísticos utilizando Merlin Toolkit
Esto es solo una demostración en el frente de la síntesis de pronunciación. No proporciona funciones de regularización de texto y predicción de ritmo. Use pypinyin para convertir el texto en pinyin y use tartamudeo para participar. La precisión de estos dos no es tan buena como el nivel comercial.
Para otros proyectos de síntesis de voz, el portal de extremo a extremo es una buena dirección, y la naturalidad es mejor que la de Merlín.
Esta es solo una demostración de frontend de mandarín que es la falta de algunas partes como "normalización de texto" y "predicción de prosodia", y el teléfono establece && preguntas establecidas Este proyecto usa que todavía no ha probado completamente.
Una documentación aproximada: un borrador de documentación escrita en mandarín
No existe un conjunto de datos de síntesis de discurso de mandarín de código abierto en Internet, este proyecto de datos de THCHS30 para demostrar la síntesis del habla
ACTUALIZAR
Datos de síntesis de discurso de mandarín de código abierto de la compañía de bancarero de datos, datos de síntesis de habla china de código abierto, gracias a la compañía Biaobei
【Descarga de datos】 https://weixinxcxdb.oss-cn-beijing.aliyunc.com/gwyinpinku/bznsyp.rar 【Descripción de datos】 http://www.data-baker.com/open_source.html
Escuche https://jackiexiao.github.io/mtts/
Python: Python3.6
Sistema: Linux (probado en Ubuntu16.04)
pip install jieba pypinyin
sudo apt-get install libatlas3-base
Ejecutar bash tools/install_mtts.sh
O descargue el archivo por usted mismo
CORRA DEMO
bash run_demo.sh
python src/mtts.py txtfile wav_directory_path output_directory_path (ruta absoluta o ruta relativa), entonces obtendrá la etiqueta HTS, si tiene su propio modelo acústico capacitado por el modelador de Monthreal-Fored-Align, agrega -a your_acoustic_model.zip , de lo contrario, use este proyecto.Ejemplo de Txtfile
A_01 这是一段文本
A_02 这是第二段文本
Ejemplo de WAV_Directory (la velocidad de muestra debe mayor a 16 kHz)
A_01.wav
A_02.wav
python src/mandarin_frontend.py txtfile output_directory_path from mandarin_frontend import txt2label
result = txt2label('向香港特别行政区同胞澳门和台湾同胞海外侨胞')
[print(line) for line in result]
# with prosody mark and alignment file (sfs file)
# result = txt2label('向#1香港#2特别#1行政区#1同胞#4澳门#2和#1台湾#1同胞#4海外#1侨胞',
sfsfile='example_file/example.sfs')
Consulte el código fuente para obtener más información, pero preste atención al archivo de alineación (archivo SFS), el formato es endtime phone_type no start_time, phone_type (que es diferente de los datos de Speech Ocean)
Este proyecto usa el alineador de Montreal-Forced para hacer una alineación forzada, si desea obtener una mejor alineación, use sus datos para capacitar a un modelo de alineación, consulte MFA: Algin-Using-the Dataset
misc/thchs30.zip , el diccionario que usamos mandarin_mtts.lexicon. Si usa un conjunto de datos más grande que THCHS30, puede obtener una mejor alineación.Puede generar etiqueta HTS sin marca de prosodia. Suponemos que el segmento de palabras es más pequeño que la palabra prosódica (que se ajusta en el código)
"#0", "#1", "#2", "#3" y "#4" son los símbolos de etiquetado Prosody.