gmvae_tacotron 다운로드 gmvae_tacotron 소스 코드 다운로드

gmvae_tacotron

AI 소스 코드

1.0.0

다운로드

GMVAE Tacotron-2 :

제어 가능한 음성 합성을위한 계층 적 생성 모델링의 비공식적 구현

저장소 구조 :

 Tacotron-2
├── datasets
├── LJSpeech-1.1	(0)
│   └── wavs
├── logs-Tacotron	(2)
│   ├── mel-spectrograms
│   ├── plots
│   ├── pretrained
│   └── wavs
├── papers
├── tacotron
│   ├── models
│   └── utils
├── tacotron_output	(3)
│   ├── eval
│   ├── gta
│   ├── logs-eval
│   │   ├── plots
│   │   └── wavs
│   └── natural
└── training_data	(1)
    ├── audio
    └── mels

이전 트리는 리포지토리의 현재 상태를 보여줍니다.

단계 (0) : 데이터 세트를 얻으십시오. 여기에서 ljspeech 의 예를 설정했습니다.
단계 (1) : 데이터를 전처리하십시오. 이것은 당신에게 training_data 폴더를 제공합니다.
단계 (2) : 타코트론 모델을 훈련시킵니다. 로그-타코 트론 폴더를 생성합니다.
단계 (3) : 타코트론 모델을 합성/평가합니다. Tacotron_output 폴더를 제공합니다.

요구 사항

먼저 Tensorflow v1.6과 함께 Python 3.5를 설치해야합니다.

다음으로 요구 사항을 설치할 수 있습니다.

PIP 설치 -R 요구 사항 .txt

또 다른:

PIP3 설치 -R 요구 사항 .txt

데이터 세트 :

이 repo는 LJSpeech 데이터 세트에서 테스트되었으며, 거의 24 시간의 싱글 여배우 음성 녹음이 있습니다.

전처리

다음 단계를 실행하기 전에 Tacotron-2 폴더 내부에 있는지 확인하십시오.

CD 타코 트론 -2

그런 다음 전처리를 사용하여 시작할 수 있습니다.

Python preprocess.py

또는

python3 preprocess.py

-dataset 인수를 사용하여 데이터 세트를 선택할 수 있습니다. 기본값은 ljspeech 입니다.

훈련:

기능 예측 모델은 다음을 사용하여 교육 할 수 있습니다.

Python Train.py -모델 = '타코트론'

또는

python3 train.py -모델 = '타코트론'

합성

Spectrogram Prediction Network (Tacotron)에 대한 세 가지 유형 의 Mel 스펙트럼 합성이 있습니다.

평가 (사용자 정의 문장에 대한 합성). 이것이 전체 엔드 - 엔드 모델을 갖는 후에 우리가 일반적으로 사용하는 것입니다.

Python ynthesize.py --- 모드 = '타코트론' -모드 = '평가'--reference_audio = 'ref_1.wav'

또는

python3 ynthesize.py - -model = 'tacotron' - -mode = 'Eval'--reference_audio = 'ref_1.wav'

메모:

이 구현은 모든 시나리오에 대해 완전히 테스트되지는 않았지만 참조 오디오 작업을 통한 교육 및 합성.
GTA없이 합성 및 eval 모드로 만 테스트되었습니다.
LJSPEECH에서 32 배치 크기로 250K 단계를 훈련 한 후 KL 오류는 제로 (약 0.001)에 가까워졌습니다 (약 0.001)은 여전히 좋은 스타일 전송 및 제어를 얻지 못할 수 있습니다.이 모델은 표현적인 데이터 세트가 아니며 24 시간의 데이터 만 가지고 있지 않은 LJSpeech에 대한 교육을 받았기 때문에 Blizzard 2013 voice dataset 2013 DATASET 2013 DATASET에서 24 시간의 데이터 세트에서 좋은 결과를 낳을 수도 있습니다.
테스트에서, 나는 지금까지 스타일 전송 측면에서 좋은 결과를 얻지 못할 것입니다.이 구현은 wavenet 및 WaveRNN 과 쉽게 통합되었습니다.
일부 변화를 제안하거나 PR을 더 잘 인상하십시오.