PortaSpeech 다운로드 - PortaSpeech 소스 코드 다운로드

PortaSpeech

AI 소스 코드

v0.2.0

다운로드

portaspeech -Pytorch 구현

Pytorch PortAspeech의 구현 : 휴대용 및 고품질 생성 텍스트 음성 연설.

오디오 샘플

오디오 샘플은 /데모에서 사용할 수 있습니다.

모델 크기

기준 치수	정상	작은	정상 (종이)	작은 (종이)
총	24m	7.6m	21.8m	6.7m
언어 계산기	3.7m	1.4m	-	-
변형 알 게이터	11m	2.8m	-	-
FlowPostnet	9.3m	3.4m	-	-

QuickStart

데이터 세트는 다음 문서에서 LJSpeech 와 같은 데이터 세트의 이름을 나타냅니다.

의존성

파이썬 종속성을 설치할 수 있습니다

 pip3 install -r requirements.txt

또한 Dockerfile Docker 사용자에게 제공됩니다.

추론

사전 치료 된 모델을 다운로드하여 output/ckpt/DATASET/ 에 넣어야합니다.

단일 스피커 TTS 의 경우 실행하십시오

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step RESTORE_STEP --mode single --dataset DATASET

생성 된 발화는 output/result/ 에 넣습니다.

배치 추론

배치 추론도 지원됩니다

 python3 synthesize.py --source preprocessed_data/DATASET/val.txt --restore_step RESTORE_STEP --mode batch --dataset DATASET

preprocessed_data/DATASET/val.txt 의 모든 발화를 종합합니다.

제어 가능성

합성 된 발화의 말하기 속도는 원하는 지속 시간 비율을 지정하여 제어 할 수 있습니다. 예를 들어, 말하기 속도를 20으로 증가시킬 수 있습니다.

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step RESTORE_STEP --mode single --dataset DATASET --duration_control 0.8

제어 가능성은 FastSpeech2에서 유래되며 portaspeech의 중요한 관심사는 아닙니다.

훈련

데이터 세트

지원되는 데이터 세트는입니다

LJSPEECH : 단일 스피커 영어 데이터 세트는 총 7 개의 논픽션 책에서 여성 스피커 독서 구절의 13100 개의 짧은 오디오 클립으로 구성되어 있으며 총 약 24 시간입니다.

전처리

달리다

 python3 prepare_align.py --dataset DATASET

일부 준비.

강제 정렬의 경우, 몬트리올 강제 정렬 (MFA)은 발화와 음소 시퀀스 사이의 정렬을 얻는 데 사용됩니다. 데이터 세트에 대한 사전 추출 된 정렬이 여기에 제공됩니다. preprocessed_data/DATASET/TextGrid/ 에서 파일을 압축해야합니다. 또는 혼자서 Aligner를 실행할 수 있습니다.

그 후, 전처리 스크립트를 실행하십시오

 python3 preprocess.py --dataset DATASET

훈련

모델을 훈련하십시오

 python3 train.py --dataset DATASET

유용한 옵션 :

자동 혼합 정밀도를 사용하려면 위의 명령에 --use_amp 인수를 추가하십시오.
트레이너는 단일 노드 멀티 GPU 교육을 가정합니다. 특정 gpus를 사용하려면 위의 명령의 시작 부분에서 CUDA_VISIBLE_DEVICES=<GPU_IDs> 지정하십시오.

텐서 보드

사용

 tensorboard --logdir output/log

지역 호스트에서 텐서 보드를 제공합니다. 손실 곡선, 합성 된 멜 스피어 그램 및 오디오가 표시됩니다.

일반 모델

작은 모델 손실

메모

보코더의 경우 Hifi-Gan 과 Melgan이 지원됩니다.
으깬 출력을 피하기 위해 변형 성 전진기 에서 릴루 활성화 및 Layernorm이 없습니다.
긴 단어를 서브 워드로 나누고 Mel-Spectrogram 프레임 길이로 데이터 세트를 정렬하여 LinguisticAncoder 에서 Word-to-Phoneme 정렬의 수렴 속도를 높이십시오.
"CTC"와 "DGA"라는 단어 간 정렬을 개선하기위한 두 가지 종류의 도우미 손실이 있습니다. 다음과 같이 전환 할 수 있습니다.
```
 # In the train.yaml
aligner :
    helper_type : " dga " # ["dga", "ctc", "none"]
```
- "DGA": DGA (Diagonal Guide Attention) 손실
- "CTC": CTC (Connectionist Temporal Classification) 전방 섬 알고리즘을 통한 CTC (Connectionist Temporal Classification) 손실
- "없음"을 설정하면 훈련 중에 도우미 손실이 적용되지 않습니다.
- 세 가지 방법의 정렬 비교 ( "DGA", "CTC"및 "None"은 위에서 아래로) :
- 기본 설정은 "DGA"입니다. "CTC"는 가장 강력한 정렬을 만들지 만 출력 품질과 정확도는 "DGA"보다 나쁩니다.
- 그러나 여전히 출력 품질 개선의 여지가 있습니다. 오디오 품질과 Alingment (정확도)는 트레이드 오프 인 것 같습니다.
멀티 스피커 TTS 로 확장됩니다.