TTS Tacotron Pytorch Download TTS Tacotron Pytorch 소스 코드 다운로드

TTS Tacotron Pytorch

AI 소스 코드

1.0.0

다운로드

타코트론

Google의 Tacotron Speech Synthesis Network의 Pytorch 구현.

이 구현에는 또한 위치에 민감한 관심 과 Tacotron 2의 스톱 토큰 기능이 포함됩니다.

또한이 모델은 LJ 음성 데이터 세트에서 훈련 된 모델과 함께 교육을받습니다.

오디오 샘플은 결과 디렉토리에서 찾을 수 있습니다.

소개

이 구현은 r9y9/tacotron_pytorch를 기반으로하며 주요 차이점은 다음과 같습니다.

타코트론 2 용지에서 위치에 민감한 관심 과 스톱 토큰을 추가합니다. 이것은 모델을 훈련시키는 데 필요한 시간과 데이터를 크게 줄일 수 있습니다.
R9Y9가 사용하는 모든 텐서 플로 의존성을 제거하면 이제 Pytorch 및 Pytorch에서만 실행됩니다 .
손실 모듈을 추가하고 L1 손실 대신 L2 (MSE) 손실을 사용합니다.
데이터 로더 모듈을 추가합니다.
Keithito에서 LJ Spection Data Preprocessing 스크립트를 통합하십시오.
더 쉬운 디버그 및 털을 확장하기위한 코드 팩터링 및 최적화.

또한 원래 타코트론 용지와의 일부 차이점은 다음과 같습니다.

r = 2 대신 각 디코더 단계에서 r = 5 번의 겹치지 않는 연속 아웃 풋 프레임을 예측하십시오.
R 프레임의 마지막 프레임 대신 모든 R 프레임을 다음 디코더 입력 단계에 공급하십시오.
인간 음성 (0 ~ 3000Hz)에 해당하는 낮은 주파수의 무게가 더 많은 예측 된 선형 스펙트로 그램의 손실을 확장하십시오.
시퀀스-시퀀스 학습에서 손실 마스크를 사용하지 않았으므로 모델이 합성을 중지 할시기를 배우도록 강요합니다.
CBHG ModuleHas의 1 차원 컨볼 루션 장치에 대한 바이어스를 비활성화합니다. 이러한 구현 세부 사항은 모델의 수렴에 도움이됩니다.

오디오 품질은 아직 Google의 데모만큼 좋지는 않지만 결국에는 개선되기를 바랍니다. 풀 요청을 환영합니다!

빠른 시작

설정

이 repo를 복제하십시오 : git clone [email protected]:andi611/Tacotron-Pytorch.git
이 repo에 CD : cd Tacotron-Pytorch

종속성 설치

파이썬 3을 설치하십시오.
플랫폼에 따라 최신 버전의 Pytorch를 설치하십시오. 더 나은 성능을 보려면 GPU 지원 (CUDA)으로 실행 가능한 경우 설치하십시오. 이 코드는 Pytorch 0.4 이상에서 작동합니다.
요구 사항 설치 :
```
 pip3 install -r requirements.txt
```
경고 : 플랫폼에 따라 토치를 설치해야합니다. 다음은이 프로젝트를 구축 할 때 사용 된 Pytorch 버전을 나열합니다.

훈련

LJ 음성 데이터 세트를 다운로드하십시오.
- LJ 연설
올바른 형식으로 변환하면 다른 데이터 세트를 사용할 수 있습니다. 자세한 내용은 Training_Data.md를 참조하십시오.
데이터 세트를 ~/Tacotron-Pytorch/data 로 포장하십시오
포장을 풀고 나면 LJ 연설의 경우 나무가 이와 같이 보일 것입니다.
```
 |- Tacotron-Pytorch
	 |- data
		 |- LJSpeech-1.1
			 |- metadata.csv
			 |- wavs
```

LJ Speech DataSet을 전처리하고 preprocess.py를 사용하여 모델 지원 메타 파일을 만듭니다.

 python3 preprocess.py --mode make

전처리 후에는 나무가 다음과 같습니다.

 |- Tacotron-Pytorch
	 |- data
		 |- LJSpeech-1.1 (The downloaded dataset)
			 |- metadata.csv
			 |- wavs
		 |- meta (generate by preprocessing)
			 |- meta_text.txt 
			 |- meta_mel_xxxxx.npy ...
			 |- meta_spec_xxxxx.npy ...
		 |- test_transcripts.txt (provided)

Train.py를 사용하여 모델을 훈련하십시오
```
 python3 train.py --ckpt_dir ckpt/ --log_dir log/
```
이전 검문소에서 교육을 복원하십시오.
```
 python3 train.py --ckpt_dir ckpt/ --log_dir log/ --model_name 500000
```
조정 가능한 하이퍼 파라미터는 config.py에서 발견됩니다.
파일을 편집하여 이러한 매개 변수를 조정하고 설정할 수 있으며 LJ Speech에는 기본 하이퍼 파라미터가 권장됩니다.
텐서 보드로 모니터링 (선택 사항)
```
 tensorboard --logdir 'path to log_dir'
```
트레이너는 기본적으로 2000 단계마다 오디오 및 정렬을 덤프합니다. tacotron/ckpt/ 에서 찾을 수 있습니다.

테스트 : 미리 훈련 된 모델과 test.py를 사용합니다

대화식 모드로 테스트 환경을 실행하십시오 .

 python3 test.py --interactive --plot --model_name 500000

일련의 성적표에서 테스트 알고리즘을 실행합니다 (결과/500000 디렉토리에서 결과를 찾을 수 있음) :
```
 python3 test.py --plot --model_name 500000 --test_file_path ./data/test_transcripts.txt
```