CDFSE_FastSpeech2 다운로드 CDFSE_FastSpeech2 소스 코드 다운로드

CDFSE_FastSpeech2

AI 소스 코드

1.0.0

다운로드

cdfse_fastspeech2

이 repo에는 Ming024/FastSpeech2를 기반으로 구현되는 텍스트 음성 연사 합성에 제로 샷 스피커 적응을위한 내용 의존적 세분화 스피커 임베딩 "이 논문과 함께 코드가 포함되어 있습니다 (많은 감사합니다!).

2022-06-15 업데이트 :이 작업은 Interspeech 2022에 수락되었습니다.

샘플 | 종이

용법

0. 데이터 세트

만다린 : Aishell3
영어 : libritts

1. 환경 설정

pip3 install -r requirements.txt

2. 데이터 사전 처리

자세한 내용은 Ming024/Fastspeech2를 참조하십시오.

예를 들어,

첫 번째 실행

python3 prepare_align.py config/AISHELL3/preprocess.yaml

그런 다음 TextGrid 파일을 다운로드하거나 MFA를 사용하여 코퍼스를 정렬하고 preprocessed_data/aishell3/textgrid/와 같이 [preprocessed_data_path]에 TextGrid 파일을 넣습니다.
마지막으로 전처리 스크립트를 실행하십시오

python3 preprocess.py config/AISHELL3/preprocess.yaml

게다가:

우리는 preprocessed_data/[dataSet]/*에서 기차, VAL 및 테스트 세트를 분할했습니다. 따라서 데이터를 미리 처리 한 후 [preprocessed_data_path]에 직접 넣거나 직접 스플릿 할 수 있습니다.
preprocessed_data/[dataSet]/*에서 "speakerfile_dict.json"을 제공했으며 (무작위로 참조 음성을로드하기 위해 DataSet.py에서 사용) Generate_speakerFiledict.py를 사용하여 생성 할 수 있습니다.
우리는 Hifigan/Pretreded/ *에 Hifigan 사전 각 매개 변수를 제공했습니다. 당신은 그것들을로드하거나 ( *.zip 파일을 압축하지 않음) Utils/model.py에서 잘 훈련 된 보코더를 사용할 수 있습니다.

3. 훈련

모델을 훈련하십시오

python3 train.py -p config/AISHELL3/preprocess.yaml -m config/AISHELL3/model.yaml -t config/AISHELL3/train.yaml

언급 : PHNCLS 손실이 무행하거나 눈에 띄지 않는 것으로 보이면 Text/Symbols.py에서 기호 딕트를 수동으로 조정하여 음소 분류가 개선되도록하여 문제를 해결할 수 있습니다.

(선택 사항) Tensorboard를 사용하십시오

tensorboard --logdir output/log/AISHELL3

4. 추론

배치 용

python3 synthesize.py --source synbatch_chinese.txt --restore_step 250000 --mode batch -p config/AISHELL3/preprocess.yaml -m config/AISHELL3/model.yaml -t config/AISHELL3/train.yaml

싱글의 경우

 # For Mandarin
python3 synthesize.py --text "清华大学人机语音交互实验室，聚焦人工智能场景下的智能语音交互技术研究。 " --ref [REF_SPEECH_PATH.wav] --restore_step 250000 --mode single -p config/AISHELL3/preprocess.yaml -m config/AISHELL3/model.yaml -t config/AISHELL3/train.yaml 
# For English
python3 synthesize.py --text " Human Computer Speech Interaction Lab at Tsinghua University, targets artificial intelligence technologies for smart voice user interface. " --ref [REF_SPEECH_PATH.wav] --restore_step 250000 --mode single -p config/LibriTTS/preprocess.yaml -m config/LibriTTS/model.yaml -t config/LibriTTS/train.yaml

구현 업데이트

(2022-06-20) 인스턴스 정규화는 MEL 컨텐츠 인코더에 채택되어 성능을 향상시킵니다.
(2022-06-01) 지원 영어 설정 : Libritts 멀티 스피커 데이터 세트 (Train-Clean-100 + Dev-Clean + Test-Clean).
(2022-04-27) 단일 모드에서 Mel-Spectrogram Numpy 파일 대신 Wavfile (*.wav)을 참조 음성으로 직접 사용하여 지원합니다.

참조

Ming024/FastSpeech2
jik876/hifi-gan

소환

 @misc{zhou2022content,
  title={Content-Dependent Fine-Grained Speaker Embedding for Zero-Shot Speaker Adaptation in Text-to-Speech Synthesis}, 
  author={Zhou, Yixuan and Song, Changhe and Li, Xiang and Zhang, Luwen and Wu, Zhiyong and Bian, Yanyao and Su, Dan and Meng, Helen},
  year={2022},
  eprint={2204.00990},
  archivePrefix={arXiv},
  primaryClass={eess.AS}
}

확장하다

추가 정보