제어 가능한 음성 합성을위한 계층 적 생성 모델링의 비공식적 구현
Tacotron-2
├── datasets
├── LJSpeech-1.1 (0)
│ └── wavs
├── logs-Tacotron (2)
│ ├── mel-spectrograms
│ ├── plots
│ ├── pretrained
│ └── wavs
├── papers
├── tacotron
│ ├── models
│ └── utils
├── tacotron_output (3)
│ ├── eval
│ ├── gta
│ ├── logs-eval
│ │ ├── plots
│ │ └── wavs
│ └── natural
└── training_data (1)
├── audio
└── mels
이전 트리는 리포지토리의 현재 상태를 보여줍니다.
먼저 Tensorflow v1.6과 함께 Python 3.5를 설치해야합니다.
다음으로 요구 사항을 설치할 수 있습니다.
PIP 설치 -R 요구 사항 .txt
또 다른:
PIP3 설치 -R 요구 사항 .txt
이 repo는 LJSpeech 데이터 세트에서 테스트되었으며, 거의 24 시간의 싱글 여배우 음성 녹음이 있습니다.
다음 단계를 실행하기 전에 Tacotron-2 폴더 내부에 있는지 확인하십시오.
CD 타코 트론 -2
그런 다음 전처리를 사용하여 시작할 수 있습니다.
Python preprocess.py
또는
python3 preprocess.py
-dataset 인수를 사용하여 데이터 세트를 선택할 수 있습니다. 기본값은 ljspeech 입니다.
기능 예측 모델은 다음을 사용하여 교육 할 수 있습니다.
Python Train.py -모델 = '타코트론'
또는
python3 train.py -모델 = '타코트론'
Spectrogram Prediction Network (Tacotron)에 대한 세 가지 유형 의 Mel 스펙트럼 합성이 있습니다.
Python ynthesize.py --- 모드 = '타코트론' -모드 = '평가'--reference_audio = 'ref_1.wav'
또는
python3 ynthesize.py - -model = 'tacotron' - -mode = 'Eval'--reference_audio = 'ref_1.wav'
메모:
eval 모드로 만 테스트되었습니다.Blizzard 2013 voice dataset 2013 DATASET 2013 DATASET에서 24 시간의 데이터 세트에서 좋은 결과를 낳을 수도 있습니다.wavenet 및 WaveRNN 과 쉽게 통합되었습니다.TODO
진행중인 작업