CDFSE_FastSpeech2 Download - CDFSE_FastSpeech2 Download do código fonte

CDFSE_FastSpeech2

Código-Fonte de IA

1.0.0

Baixar

CDFSE_FASTSPEECH2

Este repositório contém código que acompanha o documento "Alto-falante de granulação fina dependente de conteúdo para a adaptação do alto-falante zero na síntese de texto a fala", que é implementado com base no Ming024/FastSpeech2 (muito obrigado!).

2022-06-15 ATUALIZAÇÃO: Este trabalho foi aceito para o intercepation 2022.

Amostras | Papel

Uso

0. DataSet

Mandarim: Aishell3
Inglês: Libritts

1. Configuração do ambiente

pip3 install -r requirements.txt

2. Pré-processamento de dados

Consulte o Ming024/FastSpeech2 para obter mais detalhes.

Por exemplo,

Primeira execução

python3 prepare_align.py config/AISHELL3/preprocess.yaml

Em seguida, faça o download dos arquivos textGrid ou use o MFA para alinhar o corpus e coloque os arquivos textGrid em seu [preprocessd_data_path] como pré -Processed_data/aishell3/textGrid/.
Finalmente, execute o script de pré -processamento

python3 preprocess.py config/AISHELL3/preprocess.yaml

Além disso:

Dividimos os conjuntos de trem, Val e testes no pré -processado_data/[DataSet]/*. Assim, você pode colocá-los diretamente em seu [pré-Procession_data_path] após o preprocessamento de dados ou re-dividi-los.
Fornecemos "speakerfile_dict.json" em pré -Proceded_data/[DataSet]/* (usado no DataSet.py para carregar aleatoriamente discursos de referência) e você pode gerá -lo com generate_speakerfiledict.py.
Fornecemos alguns parâmetros pré-gravados em hifigan em hifigan/pré-criado/ *, você pode apenas carregá-los (lembre-se de descompactar o arquivo *.zip) ou usar seu próprio vocoder bem treinado em utils/model.py.

3. Treinamento

Treine o modelo

python3 train.py -p config/AISHELL3/preprocess.yaml -m config/AISHELL3/model.yaml -t config/AISHELL3/train.yaml

Observado: se você achar que a perda de phnCls não parece estar tendendo ou não é perceptível, tente ajustar manualmente os ditos de símbolo em texto/símbolos.py (contém apenas fonemas relevantes) para melhorar a classificação do fonema funcionar melhor, e isso pode resolver o problema.

(Opcional) Use Tensorboard

tensorboard --logdir output/log/AISHELL3

4. Inferência

Para lote

python3 synthesize.py --source synbatch_chinese.txt --restore_step 250000 --mode batch -p config/AISHELL3/preprocess.yaml -m config/AISHELL3/model.yaml -t config/AISHELL3/train.yaml

Para solteiro

 # For Mandarin
python3 synthesize.py --text "清华大学人机语音交互实验室，聚焦人工智能场景下的智能语音交互技术研究。 " --ref [REF_SPEECH_PATH.wav] --restore_step 250000 --mode single -p config/AISHELL3/preprocess.yaml -m config/AISHELL3/model.yaml -t config/AISHELL3/train.yaml 
# For English
python3 synthesize.py --text " Human Computer Speech Interaction Lab at Tsinghua University, targets artificial intelligence technologies for smart voice user interface. " --ref [REF_SPEECH_PATH.wav] --restore_step 250000 --mode single -p config/LibriTTS/preprocess.yaml -m config/LibriTTS/model.yaml -t config/LibriTTS/train.yaml

Atualizações de implementação

(2022-06-20) A normalização da instância é adotada no codificador de conteúdo MEL para melhor desempenho.
(2022-06-01) Suportar Configuração em inglês: Libritts DataSet multi-falante (Train-Clean-100 + Dev-Clean + Test-Clean).
(2022-04-27) Suporte diretamente usando o wavfile (*.wav) como fala de referência em vez do arquivo numpy de espectrograma MEL no modo único.

Referências

Ming024/FastSpeech2
jik876/hifi-gan

Citação

 @misc{zhou2022content,
  title={Content-Dependent Fine-Grained Speaker Embedding for Zero-Shot Speaker Adaptation in Text-to-Speech Synthesis}, 
  author={Zhou, Yixuan and Song, Changhe and Li, Xiang and Zhang, Luwen and Wu, Zhiyong and Bian, Yanyao and Su, Dan and Meng, Helen},
  year={2022},
  eprint={2204.00990},
  archivePrefix={arXiv},
  primaryClass={eess.AS}
}

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-08-21
tamanho 112.78MB
Vindo de Github

Aplicativos Relacionados

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
YuQue_Book_Download

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
Mecanismo de análise de dados Lihua versão gratuita 3.0_search_navigation_collection_public parecer_ranking_api

2022-06-28

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos