download shanghainese tts - shanghainese tts download de código fonte

shanghainese tts

Código-Fonte de IA

2023.06.06

Baixar

Shanghainese TTS

Dartmouth Ling 48 Projeto Final: Melhorando o TTS para Shanghainese
Yuanhao chen [email protected] Spring 2023

Descrição

Consulte WriteUp/main.pdf.

Dependências

pip install -r phonemisation/requirements.txt
pip install -r speech_synthesis/requirements.txt
pip install -r comparison_questionnaire/requirements.txt  # for analysis of questionnaire results

Uso

Veja speech_synthesis/README.md .

Estrutura

phonemisation/ : contém o módulo de fonemização
- Veja a explicação da saída na phonemisation/__init__.py
- Uso: python -m phonemisation "text to phonemise"
- Mecanismo: frase chinesa - Segmentação de palavras ⟶ Palavras chinesas - Romanização ⟶ Pinyin Shanghainese - Foneminação ⟶ Fonemas Shanghainese
  - jieba é usado para segmentação de palavras
  - Um dicionário shanghainês que eu fiz anteriormente é usado para romanização
    - Usa o módulo Qieyun para adicionar o tom número 1 às sílabas de "tom de yinping / inbin ; Outros tons são fonologicamente não marcados
  - A função romanisation_to_ipa em romanisation.py contém a função de fonemização
make_metadata.py : usa o módulo phonemisation para converter a transcrição em IPA e gerar metadados para treinamento
- Veja abaixo em data/
data/ : contém o conjunto de dados usado para treinamento
- As transcrições e arquivos de áudio são adaptados a partir deste repositório
  - Desmembrado para 16kHz para treinamento
  - Atualmente, apenas shh.dict.cn/ é usado para treinamento
- Os arquivos */metadata.txt são gerados por make_metadata.py
training/
- Notebook Juptyer para treinar o modelo
- Destinado a ser carregado e executado no ambiente do Google Colab; precisa ser modificado para uso local
- Usa coqui-ai/TTS repos
writeup/ : The Write-Up
speech_synthesis/ : contém o modelo de síntese de fala
- Veja speech_synthesis/README.md para mais detalhes
comparison_questionnaire/ : contém o questionário e os arquivos de áudio usados para comparar a fala produzida por este modelo, o modelo Apple e um falante humano
- *-1.wav : produzido por este modelo
- *-2.wav : produzido pela Apple VoiceOver (MacBook Pro 14 polegadas, 2021; MacOS Ventura 13.0.1)
- *-3.wav : falado sozinho
- stats.ipynb : Notebook Jupyter para analisar os resultados do questionário