dc_tts 다운로드 dc_tts 소스 코드 다운로드

dc_tts

AI 소스 코드

1.0.0

다운로드

DC-TTS의 Tensorflow 구현 : 또 다른 텍스트 음성 연설 모델

나는주의를 기울인 깊은 컨볼 루션 네트워크를 기반으로 효율적으로 훈련 가능한 텍스트 음성 음성 시스템에 도입 된 또 다른 텍스트 음성 모델 인 DC-TTS를 구현합니다. 그러나 저의 목표는 단지 논문을 복제하는 것이 아닙니다. 오히려 다양한 사운드 프로젝트에 대한 통찰력을 얻고 싶습니다.

요구 사항

Numpy> = 1.11.1
Tensorflow> = 1.3 ( tf.contrib.layers.layer_norm 의 API가 1.3 이후로 변경되었습니다)
Librosa
TQDM
matplotlib
Scipy

데이터

나는 4 개의 다른 음성 데이터 세트에서 영어 모델과 한국 모델을 훈련시킵니다.

1. LJ 음성 데이터 세트
2. Nick Offerman의 오디오 북
3. 케이트 윈슬렛의 오디오 북
4. KSS 데이터 세트

LJ Speech DataSet은 최근 공개적으로 사용할 수 있기 때문에 TTS 작업의 벤치 마크 데이터 세트로 널리 사용되며 24 시간의 합리적인 품질 샘플이 있습니다. Nick 's와 Kate의 오디오 북은 데이터가 적은 데이터, 가변 음성 샘플로도 배울 수 있는지 확인하는 데 추가로 사용됩니다. 그들은 각각 18 시간 5 시간 길이입니다. 마지막으로 KSS 데이터 세트는 12 시간 이상 지속되는 한국의 단일 스피커 음성 데이터 세트입니다.

훈련

단계 0. LJ 음성 데이터 세트를 다운로드하거나 자신의 데이터를 준비하십시오.
1 단계. hyperparams.py 에서 하이퍼 파라미터를 조정하십시오. (사전 처리를하고 싶다면 Prepro True`를 설정하십시오.
2 단계. 훈련 텍스트 2mel의 경우 python train.py 1 실행하십시오. (Prepro True를 설정하면 Python Prepro.py를 먼저 실행하십시오)
3 단계. SSRN 훈련을 위해 python train.py 2 실행하십시오.

둘 이상의 GPU 카드가있는 경우 2 단계와 3 단계를 동시에 수행 할 수 있습니다.

훈련 곡선

주의 음모

샘플 합성

원래 논문과 마찬가지로 하버드 문장을 기반으로 한 언어 샘플을 생성합니다. 이미 리포에 포함되어 있습니다.

synthesize.py 실행하고 samples 에서 파일을 확인하십시오.

생성 된 샘플

데이터 세트	샘플
LJ	50K 200K 310K 800K
건강 상태	40K 170K 300K 800K
케이트	40K 160K 300K 800K
KSS	400K

LJ에 대한 사전 모델 모델

이것을 다운로드하십시오.

메모

이 논문은 정규화를 언급하지 않았지만 정규화 없이는 작동 할 수 없었습니다. 그래서 레이어 정규화를 추가했습니다.
이 논문은 학습 속도를 0.001로 고정했지만 나에게는 효과가 없었습니다. 그래서 나는 그것을 부패했다.
Text2mel과 SSRN을 동시에 훈련 시키려고했지만 작동하지 않았습니다. 이 두 네트워크를 분리하면 교육의 부담이 완화됩니다.
저자들은이 모델이 하루 안에 훈련 될 수 있다고 주장했지만 불행히도 행운은 내 것이 아니었다. 그러나 분명히 이것은 컨볼 루션 층 만 사용하기 때문에 타코트론보다 훨씬 분명합니다.
안내 된 관심 덕분에주의 플롯은 거의 처음부터 단조로 보입니다. 나는 이것이 aligment를 단단히 잡는 것처럼 보이도록 트랙을 잃지 않을 것 같다.
이 논문은 중퇴를 언급하지 않았다. 나는 그것이 정규화에 도움이된다고 생각하면서 그들을 적용했습니다.
Tacotron 및 Deep Voice 3과 같은 다른 TTS 모델도 확인하십시오.

확장하다

추가 정보