Comprehensive E2E TTS 다운로드 - Comprehensive E2E TTS 소스 코드 다운로드

Comprehensive E2E TTS

AI 소스 코드

1.0.0

다운로드

포괄적 인 -E2E-TTS- Pytorch 구현

비 독창적 인 엔드 투 엔드 텍스트 음성 연설 (텍스트가 주어진 파형 생성)으로 SOTA 비 감독 기간 모델링 패밀리를 지원합니다. 이 프로젝트는 궁극적 인 E2E-TT를 달성하기 위해 연구 커뮤니티와 함께 성장합니다. 최고의 엔드 투 엔드 TT에 대한 제안을 환영합니다 :)

건축 디자인

Wavthruvec : 신경 언어 합성을위한 중간 특징으로서의 잠재적 인 언어 표현 (Siuzdak et al., 2022)
제트기 : 공동으로 FastSpeech2와 Hifi-Gan은 끝에서 끝 텍스트를 연설 할 수 있습니다 (Lim et al., 2022)

언어 인코더

Fastspeech 2 : FAST 및 고품질 엔드 투 엔드-엔드 투 엔드-연설에 대한 텍스트 (Ren et al., 2020)

오디오 업 샘플러

Hifi ++ : 신경 보보, 대역폭 확장 및 음성 향상을위한 통합 프레임 워크 (Andreev et al., 2022)
HIFIGAN : 효율적이고 고 충실도 음성 합성을위한 생성 적대적 네트워크 (Kong et al., 2020)

지속 시간 모델링

엔드 투 엔드 텍스트 음성 연설을위한 차별적 인 지속 시간 모델링 (Nguyen et al., 2022)
그들 모두를 지배하기위한 하나의 tts 정렬 (Badlani et al., 2021)

QuickStart

데이터 세트는 다음 문서에서 LJSpeech 및 VCTK 와 같은 데이터 세트의 이름을 나타냅니다.

의존성

파이썬 종속성을 설치할 수 있습니다

 pip3 install -r requirements.txt

또한 Dockerfile Docker 사용자에게 제공됩니다.

추론

사전 처리 된 모델 (곧 공유 될 예정)을 다운로드하고 output/ckpt/DATASET/ 에 넣어야합니다.

단일 스피커 TTS 의 경우 실행하십시오

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step RESTORE_STEP --mode single --dataset DATASET

멀티 스피커 TTS 의 경우 실행하십시오

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --speaker_id SPEAKER_ID --restore_step RESTORE_STEP --mode single --dataset DATASET

학습 된 스피커 사전은 preprocessed_data/DATASET/speakers.json 에서 찾을 수 있으며 생성 된 발화는 output/result/ 에 넣습니다.

배치 추론

배치 추론도 지원됩니다

 python3 synthesize.py --source preprocessed_data/DATASET/val.txt --restore_step RESTORE_STEP --mode batch --dataset DATASET

preprocessed_data/DATASET/val.txt 의 모든 발화를 종합합니다.

제어 가능성

합성 된 발화의 피치/볼륨/말하기 속도는 원하는 피치/에너지/지속 시간 비율을 지정하여 제어 할 수 있습니다. 예를 들어, 말하기 속도를 20 % 증가시키고 양을 20 % 감소시킬 수 있습니다.

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step RESTORE_STEP --mode single --dataset DATASET --duration_control 0.8 --energy_control 0.8

멀티 스피커 TTS에 대해 -speaker_id speaker_id를 추가하십시오.

훈련

데이터 세트

지원되는 데이터 세트는입니다

LJSPEECH : 단일 스피커 영어 데이터 세트는 총 7 개의 논픽션 서적의 여성 스피커 독서 구절의 13100 개의 짧은 오디오 클립으로 구성되어 있으며 총 약 24 시간입니다.
VCTK : CSTR VCTK 코퍼스에는 다양한 악센트가있는 110 명의 영어 사용자 ( 멀티 스피커 TTS )가 발표 한 음성 데이터가 포함되어 있습니다. 각 스피커는 신문, 레인보우 통로 및 Speech Accent Archive에 사용되는 Elicitation 단락에서 선택된 약 400 개의 문장을 읽습니다.

단일 스피커 TTS 데이터 세트 (예 : Blizzard Challenge 2013) 및 Multi-Speaker TTS 데이터 세트 (예 : Libritts)는 각각 LJSpeech 및 VCTK에 따라 추가 될 수 있습니다. 또한, 자신의 언어와 데이터 세트는 여기에 다음을 수행 할 수 있습니다.

전처리

외부 스피커 임베더가있는 멀티 스피커 TT 의 경우 스피커를 포함시키기 위해 Philipperemy의 DeepSpeaker의 Rescnn SoftMax+Triplet Pretrated 모델을 다운로드하여 ./deepspeaker/pretrained_models/ 에서 찾으십시오.
전처리 스크립트를 실행하십시오
```
 python3 preprocess.py --dataset DATASET
```

훈련

모델을 훈련하십시오

 python3 train.py --dataset DATASET

유용한 옵션 :

트레이너는 단일 노드 멀티 GPU 교육을 가정합니다. 특정 gpus를 사용하려면 위의 명령의 시작 부분에서 CUDA_VISIBLE_DEVICES=<GPU_IDs> 지정하십시오.

텐서 보드

사용

 tensorboard --logdir output/log

지역 호스트에서 텐서 보드를 제공합니다.

메모

멀티 스피커 TTS 설정을위한 두 가지 옵션 : 처음부터 훈련 스피커 임베더 또는 미리 훈련 된 Philipperemy의 Deepspeaker 모델 (스타일러처럼)을 사용합니다. 구성을 설정하여 ( 'none' 과 'DeepSpeaker' 사이)를 설정하여 전환 할 수 있습니다.
VCTK 데이터 세트의 DeepSpeaker는 스피커간에 명확한 식별을 보여줍니다. 다음 그림은 추출 된 스피커 임베딩의 T-SNE 플롯을 보여줍니다.