Descarga de shanghainese tts - Descargar el código fuente shanghainese tts

shanghainese tts

Código Fuente de IA

2023.06.06

Descargar

Tts shanghaineses

Dartmouth Ling 48 Proyecto final: Mejora de TTS para Shanghainese
Yuanhao chen [email protected] primavera 2023

Descripción

Ver escrito/main.pdf.

Dependencias

pip install -r phonemisation/requirements.txt
pip install -r speech_synthesis/requirements.txt
pip install -r comparison_questionnaire/requirements.txt  # for analysis of questionnaire results

Uso

Ver speech_synthesis/README.md .

Estructura

phonemisation/ : Contiene el módulo de fonemización
- Ver explicación de la producción en phonemisation/__init__.py
- Uso: python -m phonemisation "text to phonemise"
- Mecanismo: oración china - segmentación de palabras ⟶ Palabras chinas - Romanización ⟶ Pinyin shanghaines - Fonemización ⟶ Fonemas Shanghaineses
  - jieba se usa para la segmentación de palabras
  - Un diccionario shanghainese que hice anteriormente se usa para la romanización
    - Utiliza el módulo Qieyun para agregar el tono número 1 a las sílabas del tono 陰平yinping / inbin ; Otros tonos están fonológicamente sin marcar
  - La función romanisation_to_ipa en romanisation.py contiene la función de fonemización
make_metadata.py : utiliza el módulo phonemisation para convertir la transcripción en IPA y generar metadatos para el entrenamiento
- Ver a continuación en data/
data/ : contiene el conjunto de datos utilizado para la capacitación
- Las transcripciones y los archivos de audio se adaptan de este repositorio
  - Muestreado a 16 kHz para el entrenamiento
  - Actualmente, solo shh.dict.cn/ se usa para capacitación
- Los archivos */metadata.txt son generados por make_metadata.py
training/
- Notebook Juptyer para capacitar al modelo
- Destinado a ser cargado y ejecutado en el entorno de Google Colab; necesita ser modificado para uso local
- Utiliza el reposition coqui-ai/TTS , que contiene una implementación de VITS
writeup/ : la redacción
speech_synthesis/ : contiene el modelo de síntesis de discurso
- Ver speech_synthesis/README.md para más detalles
comparison_questionnaire/ : contiene el cuestionario y los archivos de audio utilizados para comparar el habla producida por este modelo, el modelo de Apple y un altavoz humano
- *-1.wav : producido por este modelo
- *-2.wav : Producido por Apple Voicever (MacBook Pro 14-pulgada, 2021; MacOS Ventura 13.0.1)
- *-3.wav : hablado por mí mismo
- stats.ipynb : cuaderno de Jupyter para analizar los resultados del cuestionario