이전의 작품은 GANS와 일관된 원시 오디오 파형을 생성하는 것이 어렵다는 것을 발견했습니다. 이 논문에서 우리는 건축 변화와 간단한 훈련 기술을 도입하여 고품질 일관된 파형을 생성하도록 Gans를 확실하게 훈련시킬 수 있음을 보여줍니다. 주관적 평가 메트릭 (평균 의견 점수 또는 MOS)은 고품질 Mel-Spectrogram 역전에 대한 제안 된 접근법의 효과를 보여줍니다. 제안 된 기술의 일반성을 확립하기 위해, 우리는 음성 합성, 음악 도메인 번역 및 무조건 음악 합성에서 모델의 질적 결과를 보여줍니다. 우리는 절제 연구를 통해 모델의 다양한 구성 요소를 평가하고 조건부 시퀀스 합성 작업을위한 범용 판별 자 및 발전기를 설계하기위한 일련의 지침을 제안합니다. 우리의 모델은 경쟁 모델보다 매개 변수가 상당히 적고 멜 스피어 그램 반전을 위해 보이지 않는 스피커로 일반화하는 비 유포적이고 완전 컨볼 루션입니다. 당사의 Pytorch 구현은 GTX 1080TI GPU의 실시간보다 100 배 이상 빠르며 하드웨어 별 최적화 트릭없이 CPU의 실시간보다 2 배 이상 빠릅니다. 샘플이 포함 된 블로그 게시물과 동반 코드가 곧 출시됩니다.
샘플은 웹 사이트를 방문하십시오. Melgan을 사용한 엔드 투 엔드 스피치 합성 파이프 라인을 기반으로 작성된 음성 수정 응용 프로그램을 사용해 볼 수 있습니다.
Poster를 확인하려면 Neurips 2019 컨퍼런스에 참석하지 않으면 슬라이드를 확인하십시오.
├── README.md <- Top-level README.
├── set_env.sh <- Set PYTHONPATH and CUDA_VISIBLE_DEVICES.
│
├── mel2wav
│ ├── dataset.py <- data loader scripts
│ ├── modules.py <- Model, layers and losses
│ ├── utils.py <- Utilities to monitor, save, log, schedule etc.
│
├── scripts
│ ├── train.py <- training / validation / etc scripts
│ ├── generate_from_folder.py
wavs/ Subfolder에 저장된 모든 샘플이있는 원시 폴더를 만듭니다. 이 명령을 실행하십시오.
ls wavs/ * .wav | tail -n+10 > train_files.txt
ls wavs/ * .wav | head -n10 > test_files.txt . source set_env.sh 0
# Set PYTHONPATH and use first GPU
python scripts/train.py --save_path logs/baseline --path <root_data_folder>
import torch
vocoder = torch.hub.load('descriptinc/melgan-neurips', 'load_melgan')
vocoder.inverse(audio) # audio (torch.tensor) -> (batch_size, 80, timesteps)