WG WaveNet
1.0.0
최근 논문에서 우리는 빠르고 가벼우 며 고품질 파형 생성 모델 인 WG-Wavenet을 제안합니다. WG-Wavenet은 소형 흐름 기반 모델과 포스트 필터로 구성됩니다. 두 구성 요소는 훈련 데이터의 가능성을 최대화하고 주파수 도메인에서 손실 함수를 최적화하여 공동으로 훈련됩니다. 압축 된 흐름 기반 모델을 설계 할 때 제안 된 모델은 훈련 및 추론 시간 동안 다른 파형 생성 모델에 비해 훨씬 덜 계산 자원이 필요합니다. 모델이 압축되어 있지만 포스트 필터는 생성 된 파형의 품질을 유지합니다. 우리의 Pytorch 구현은 8GB GPU 메모리 미만을 사용하여 교육을받을 수 있으며 NVIDIA 1080TI GPU에서 5000 kHz 이상의 속도로 오디오 샘플을 생성 할 수 있습니다. 또한 CPU에서 합성하더라도 제안 된 방법이 실시간보다 44.1 kHz 음성 파형을 1.2 배 빠르게 생성 할 수 있음을 보여줍니다. 실험에 따르면 생성 된 오디오의 품질은 다른 방법의 품질과 비교할 수 있습니다.
오디오 샘플은 탈모판을 방문하십시오.
LJ Speech를 다운로드하십시오. 이 예에서는 data/
훈련을 위해 다음 명령을 실행하십시오.
python3 train.py --data_dir= < dir/to/dataset > --ckpt_dir= < dir/to/models >python3 train.py --data_dir= < dir/to/dataset > --ckpt_dir= < dir/to/models > --ckpt_pth= < pth/to/pretrained/model >python3 train.py --data_dir= < dir/to/dataset > --ckpt_dir= < dir/to/models > --log_dir= < dir/to/logs > python3 inference.py --ckpt_pth= < pth/to/model > --src_pth= < pth/to/src/wavs > --res_pth= < pth/to/save/wavs > 진행중인 작업.
우리는이 보코더를 Tacotron2와 결합합니다. 자세한 정보와 Colab 데모는 여기에서 출시됩니다.