타코트론과 DCTT의 구현을보고 많은 사람들이 "신경 TT에 얼마나 큰 음성 데이터 세트가 필요한가?"라고 물었습니다. 또는 "훈련 데이터의 x 시간/분으로 TTS 모델을 만들 수 있습니까?" 나는 그 질문의 중요성을 완전히 알고 있습니다. TTS를 사용하여 서비스를 계획 할 때는 항상 많은 음성 샘플을 얻을 수있는 것은 아닙니다. 나는 대답하고 싶다. 나는 정말로한다. 그러나 불행히도 나는 대답이 없습니다. 내가 아는 유일한 것은 Kate Winslet의 오디오 북에서 추출한 5 시간의 언어 샘플로 모델을 성공적으로 훈련시킬 수 있다는 것입니다. 나는 그것보다 적은 데이터를 시도하지 않았습니다. 시도해 볼 수는 있지만 실제로는 더 나은 아이디어가 있습니다. LJ Speech 데이터 세트로 며칠 동안 교육을받은 괜찮은 모델이 있으므로 왜 사용하지 않습니까? 결국, 우리 모두는 다른 목소리를 가지고 있지만, 우리가 영어를 구사하는 방식은 완전히 다르지 않습니다.
위의 두 저장소에서 나는 내가 가장 좋아하는 두 유명 인사 인 Nick Offerman과 Kate Winslet의 모든 연설 샘플을 사용하여 TTS 모델을 처음부터 훈련시켰다. 이번에는 1 분의 음성 샘플 만 사용합니다. 다음은 10 분의 미세 조정 훈련 후 합성 된 샘플입니다. 그들이 그들처럼 들리는 것 같아?
또한 YouTube에서 현대 가족 유명인의 10 개의 연설 샘플을 수집하고 그 샘플에 대한 훈련을 통해 목소리를 생성했습니다.
여기에서 모델 세부 사항, 소스 코드 및 종자 역할을하는 사전 처리 된 모델을 확인하십시오.