shanghainese tts
2023.06.06
Para construir un sistema de texto a voz (TTS) para Shanghainese desde cero, buscando mejorar la producción de tono Sandhi en comparación con los modelos existentes al prestar especial atención al preprocesamiento del texto.
Ver escrito/main.pdf.
pip install -r phonemisation/requirements.txt
pip install -r speech_synthesis/requirements.txt
pip install -r comparison_questionnaire/requirements.txt # for analysis of questionnaire results Ver speech_synthesis/README.md .
phonemisation/ : Contiene el módulo de fonemizaciónphonemisation/__init__.pypython -m phonemisation "text to phonemise"jieba se usa para la segmentación de palabrasQieyun para agregar el tono número 1 a las sílabas del tono 陰平yinping / inbin ; Otros tonos están fonológicamente sin marcarromanisation_to_ipa en romanisation.py contiene la función de fonemizaciónmake_metadata.py : utiliza el módulo phonemisation para convertir la transcripción en IPA y generar metadatos para el entrenamientodata/data/ : contiene el conjunto de datos utilizado para la capacitaciónshh.dict.cn/ se usa para capacitación*/metadata.txt son generados por make_metadata.pytraining/coqui-ai/TTS , que contiene una implementación de VITSwriteup/ : la redacciónspeech_synthesis/ : contiene el modelo de síntesis de discursospeech_synthesis/README.md para más detallescomparison_questionnaire/ : contiene el cuestionario y los archivos de audio utilizados para comparar el habla producida por este modelo, el modelo de Apple y un altavoz humano*-1.wav : producido por este modelo*-2.wav : Producido por Apple Voicever (MacBook Pro 14-pulgada, 2021; MacOS Ventura 13.0.1)*-3.wav : hablado por mí mismostats.ipynb : cuaderno de Jupyter para analizar los resultados del cuestionario