ZeroSpeech TTS without T ZeroSpeech TTS without T 소스 코드 다운로드

ZeroSpeech TTS without T

AI 소스 코드

1.0.0

다운로드

Zerospeech 2019 : t -pytorch가없는 tts

이것은 "음성 변환을위한 개별 언어 단위의 감독되지 않은 엔드 투 엔드 학습"의 원래 소스 코드입니다.
Furthurmore, 우리는이 구현을 사용하여 Zerospeech 2019 챌린지에서 경쟁했습니다. 놀라운 데이터 세트 리더 보드에서, 제안 된 방법은 낮은 비트 전송률 측면에서 2 ^위 이며, MOS (Mean Exection Score)를 달성하고 1 ^ST Place 팀보다 CER이 낮습니다 .
버그 보고서 또는 개선 제안에 감사 드리면 자유롭게 사용하거나 수정하십시오. 궁금한 점이 있으면 [email protected]로 문의하십시오. 이 프로젝트가 귀하의 연구에 도움이되면이 논문을 인용하십시오. 감사합니다!

빠른 시작

설정

이 repo를 복제하십시오 : git clone [email protected]:andi611/ZeroSpeech-TTS-without-T.git
이 repo에 cd : cd ZeroSpeech-TTS-without-T

종속성 설치

파이썬 3을 설치하십시오.
플랫폼에 따라 최신 버전의 Pytorch를 설치하십시오. 더 나은 성능을 보려면 GPU 지원 (CUDA)으로 실행 가능한 경우 설치하십시오. 이 코드는 Pytorch 0.4 이상에서 작동합니다.

데이터 준비

Zerospeech 데이터 세트를 다운로드하십시오.

영어 데이터 세트 :

 wget https://download.zerospeech.com/2019/english.tgz
tar xvfz english.tgz -C data
rm -f english.tgz

놀라운 데이터 세트 :

 wget https://download.zerospeech.com/2019/surprise.zip
# Go to https://download.zerospeech.com  and accept the licence agreement 
# to get the password protecting the archive
unzip surprise.zip -d data
rm -f surprise.zip

데이터 세트를 ~/ZeroSpeech-TTS-without-T/data 로 포장 한 후 데이터 트리는 다음과 같습니다.

 |- ZeroSpeech-TTS-without-T
	 |- data
		 |- english
			 |- train
			 	|- unit
			 	|- voice
			 |- test
		|- surprise
			 |- train
			 	|- unit
			 	|- voice
			 |- test

데이터 세트 및 샘플 모델 지원 인덱스 파일 전처리 :
```
 python3 main.py --preprocess —-remake
```

용법

훈련

개별 언어 단위 발견을위한 ASR-TTS 자동 코디더 모델을 훈련시킵니다.
```
 python3 main.py --train_ae
```
조정 가능한 하이퍼 파라미터는 HPS/Zerospeech.json에서 찾을 수 있습니다. 파일을 편집하여 이러한 매개 변수를 조정하고 설정할 수 있으며이 프로젝트에는 기본 하이퍼 파라미터가 권장됩니다.

음성 변환 성능 향상을위한 TTT 패치기 열차 :

 python3 main.py --train_p --load_model --load_train_model_name=model.pth-ae-400000

대상 가이드 대적 훈련으로 TTS 패치를 기차 :

 python3 main.py --train_tgat --load_model --load_train_model_name=model.pth-ae-400000

텐서 보드로 모니터링 (선택 사항)

 tensorboard --logdir='path to log dir'
or
python3 -m tensorboard.main --logdir='path to log dir'

테스트

단일 연설에서 테스트 ::

 python3 main.py --test_single --load_test_model_name=model.pth-ae-200000

'synthesis.txt'를 테스트하고 재 동기화 된 오디오 파일을 생성합니다. : :
```
 python3 main.py --test --load_test_model_name=model.pth-ae-200000
```
test/ 중인 모든 테스트 음성을 테스트하고 인코딩 파일을 생성합니다.
```
 python3 main.py --test_encode --load_test_model_name=model.pth-ae-200000
```

ASR-TTS Autoencoder로만 테스트하는 경우 --enc_only 추가하십시오.

 python3 main.py --test_single --load_test_model_name=model.pth-ae-200000 --enc_only
python3 main.py --test --load_test_model_name=model.pth-ae-200000 --enc_only
python3 main.py --test_encode --load_test_model_name=model.pth-ae-200000 --enc_only

데이터 세트간에 전환

단순히 --dataset=surprise 사용하여 기본 대체 세트로 전환하려면 데이터 트리 구조가 제안 된대로 배치되면 모든 경로가 자동으로 처리됩니다. 예를 들어:
```
 python3 main.py --train_ae --dataset=surprise
```

훈련 된 모델

우리는 CKPT 파일, donwload 링크 : bit.ly/zerospeech2019-liu로 훈련 된 모델을 제공합니다.
교육용 모델 새로 고요 :
```
 --load_train_model_name=model.pth-ae-400000-128-multi-1024-english
```
( --ckpt_dir=./ckpt_english 또는 --ckpt_dir=./ckpt_surprise ).

테스트를위한 모델로드하는 두 가지 방법 :

 --load_test_model_name=model.pth-ae-400000-128-multi-1024-english (by name)
--ckpt_pth=ckpt/model.pth-ae-400000-128-multi-1024-english (direct path)

HPS/ZEROSPEECH.JSON은로드하는 모델에 따라 설정해야합니다. 128-multi-1024 모델이로드되면 seg_len 및 enc_size 각각 128과 1024로 설정해야합니다. ae 모델이로드되는 경우 main.py 실행할 때 --enc_only 를 사용해야합니다 (테스트 섹션의 4. 참조).

메모

이 코드에는 우리 가이 도전에 대해 테스트 한 모든 설정과 방법이 포함되어 있으며, 그 중 일부는 신호를받지 않았지만 코드에서 제거하지 않았습니다. 그러나 이전 지침과 기본 설정은 제안한 방법에 대한 것입니다. 그것들을 실행함으로써 우리의 결과를 쉽게 재현 할 수 있습니다.
TODO : 미리 훈련 된 모델을 업로드하십시오

소환

 @article{Liu_2019,
   title={Unsupervised End-to-End Learning of Discrete Linguistic Units for Voice Conversion},
   url={http://dx.doi.org/10.21437/interspeech.2019-2048},
   DOI={10.21437/interspeech.2019-2048},
   journal={Interspeech 2019},
   publisher={ISCA},
   author={Liu, Andy T. and Hsu, Po-chun and Lee, Hung-Yi},
   year={2019},
   month={Sep}
}

확장하다

추가 정보