WaveGrad 다운로드 - WaveGrad 소스 코드 다운로드

WaveGrad

AI 소스 코드

1.0.0

다운로드

alt-text-1

웨이브 그레이드

Google Brain의 고 충실도 Wavegrad Vocoder (Paper)의 구현 (Pytorch). 6 번의 고품질 세대가있는 Github에 대한 첫 번째 구현.

상태

실시간 요인 (RTF)

매개 변수 수 : 15.810.401

모델	안정적인	RTX 2080 TI	테슬라 K80	인텔 Xeon 2.3GHz*
1000 반복	+	9.59	-	-
100 회복	+	0.94	5.85	-
50 반복	+	0.45	2.92	-
25 반복	+	0.22	1.45	-
12 반복	+	0.10	0.69	4.55
6 반복	+	0.04	0.33	2.09

* 참고 : Intel Xeon CPU의 이전 버전을 사용했습니다.

에 대한

Wavegrad는 Wavenet-similar 샘플링 품질로 데이터 밀도의 기울기를 추정하여 파형 생성을위한 조건부 모델입니다. 이 보코더는 Gan, 정상화 흐름, 고전적인자가 회귀 모델이 아닙니다 . 보코더의 주요 개념은 Langevin 역학을 활용하고 일치하는 프레임 워크를 사용하는 DDPM ( Denoing Diffusion Probilistic Models )을 기반으로합니다. 고전적인 DDPM과 비교할 때 Wavegrad는 초고속 수렴 (6 개 반복 및 아마도 더 낮은) WRT Langevin Dynamics 반복 샘플링 체계를 달성합니다.

설치

이 저장소를 복제하십시오.

git clone https://github.com/ivanvovk/WaveGrad.git
cd WaveGrad

요구 사항 설치 :

pip install -r requirements.txt

훈련

1 데이터 준비

filelists 폴더에 포함 된 것과 같은 오디오 데이터의 기차 및 테스트 필수리스트를 만들 수 있습니다.
configs 폴더에서 구성 파일*을 만듭니다.

* 참고 : STFT의 hop_length 변경하려면 구성에서 업 샘플링 factors 의 제품이 새로운 hop_length 와 동일해야합니다.

2 단일 및 분산 GPU 교육

Open runs/train.sh 스크립트 및 가시 GPU 장치 및 구성 파일로의 경로를 지정하십시오. 둘 이상의 GPU를 지정하면 교육이 분산 모드로 실행됩니다.
sh runs/train.sh 실행합니다

3 텐서 보드 및 로깅

tensorboard --logdir=logs/YOUR_LOGDIR_FOLDER . 모든 로깅 정보 및 체크 포인트는 logs/YOUR_LOGDIR_FOLDER 에 저장됩니다. logdir 구성 파일에 지정됩니다.

4 소음 일정 그리드 검색

모델이 훈련되면 그리드는 notebooks/inference.ipynb 에서 필요한 수의 반복에 대한 최상의 일정*을 검색하십시오. 이 코드는 병렬 처리를 지원하므로 검색을 가속화하기 위해 둘 이상의 작업을 지정할 수 있습니다.

* 참고 : 그리드 검색은 소수의 반복 (6 또는 7)에만 필요합니다. 더 많은 숫자의 경우 Fibonacci 시퀀스 benchmark.fibonacci(...) 초기화 : 25 개 반복에 사용하여 잘 작동합니다. 예를 들어, 좋은 25 개회 일정에서 요소를 복사하여 고차 일정을 구축 할 수 있습니다.

사전 예방 모델의 소음 일정

그리드 검색을 사용하여 6- 정화 일정을 얻었습니다. 획득 된 체계를 기반으로 손으로, 나는 약간 더 나은 근사치를 발견했습니다.
7 개정 일정은 같은 방식으로 얻어졌다.
12- 격리 일정은 같은 방식으로 얻어졌다.
Fibonacci 서열 benchmark.fibonacci(...) 사용하여 25- 격리 일정을 얻었다.
25- 고정 체계로부터 요소를 반복하여 50- 고정 스케줄을 얻었다.
같은 방식으로 100 개의 정화 일정이 얻어졌습니다.
같은 방식으로 1000 개의 정화 일정이 얻어졌습니다.

추론

클리

Mel-Spectrogram을 일부 폴더에 넣으십시오. FilleList를 만드십시오. 그런 다음이 명령을 자신의 주장으로 실행하십시오.

sh runs/inference.sh -c < your-config > -ch < your-checkpoint > -ns < your-noise-schedule > -m < your-mel-filelist > -v " yes "

Jupyter 노트북

더 많은 추론 세부 사항은 notebooks/inference.ipynb 에 제공됩니다. 또한 모델의 노이즈 일정을 설정하고 가장 좋은 구성표를 검색하는 방법을 찾을 수 있습니다.

다른

생성 된 오디오

생성 된 오디오의 예는 generated_samples 폴더에 제공됩니다. 후자의 최상의 일정을 발견하면 1000 개별과 6 개의 정화 추론 사이의 품질 저하가 눈에 띄지 않습니다.

사전 체크 포인트

이 Google 드라이브 링크를 통해 ljspeech (22khz)에서 사전 간 체크 포인트 파일*을 찾을 수 있습니다.

* 참고 : 업로드 된 Checkpoint는 단일 키 'model' 이 포함 된 dict 입니다.

중요한 세부 사항, 문제 및 의견

훈련하는 동안 Wavegrad는 1000 개의 반복과 범위 (1E-6, 0.01)의 선형 스케일 베타의 기본 노이즈 일정을 사용합니다. 추론을 위해 반복이 적은 다른 일정을 설정할 수 있습니다. 베타를주의 깊게 조정하면 출력 품질이 실제로 크게 달라집니다.
기본적으로 모델은 혼합 정밀한 방식으로 실행됩니다. 저자가 TPU에서 모델을 훈련시킨 이후 배치 크기는 용지 (256-> 96)에 비해 수정됩니다.
단일 GPU에서 ~ 10k 훈련 반복 (1-2 시간) 후 모델은 50 가지 고정 추론에 대한 좋은 생성을 수행합니다. 총 훈련 시간은 약 1-2 일입니다 (절대 수렴의 경우).
어느 시점에서 훈련은 이상하고 미친 (손실 폭발)로 행동하기 시작할 수 있으므로 학습 속도 (LR) 스케줄링 및 그라디언트 클리핑을 도입했습니다. 데이터에 대한 손실이 폭발하면 LR 스케줄러 감마를 약간 줄이십시오. 도움이 될 것입니다.
기본적으로 STFT의 홉 길이는 300입니다 (따라서 총 상향 샘플링 계수). 다른 경우는 테스트되지 않았지만 시도 할 수 있습니다. 총 업 샘플링 계수는 여전히 새 홉 길이와 동일해야합니다.

업데이트의 역사

( 새로운 : 10/24/2020) 거대한 업데이트. 분산 교육 및 혼합 정제 지원. 보다 올바른 위치 인코딩. 추론에 대한 CLI 지원. 병렬 그리드 검색. 모델 크기가 크게 감소했습니다.
NVIDIA TESLA K80 GPU 카드 (Google Colab Service에서 인기) 및 CPU Intel Xeon 2.3GHz에 대한 새로운 RTF 정보.
거대한 업데이트. 새로운 6- 강화 잘 생성 된 샘플 예제. 새로운 소음 일정 설정 API. 최고의 스케줄 그리드 검색 코드를 추가했습니다.
더 똑똑한 학습 속도 스케줄러를 도입하여 교육 향상. 고 충실도 합성.
안정적인 훈련 및 다중 문화 추론. 6 통화 노이즈 스케줄링이 지원됩니다.
상당한 배경 정적 노이즈가 남은 안정적인 훈련 및 고정식 추론. 모든 위치 인코딩 문제가 해결됩니다.
25-, 50 및 1000 고정 모델의 안정적인 훈련. 위치 인코딩 (버그)의 선형 스케일링 (종이에서 C = 5000)을 찾지 못했습니다.
25-, 50 및 1000 고정 모델의 안정적인 훈련. 고정 위치 인코딩 다운 스케일링. 병렬 세그먼트 샘플링은 풀 멜 샘플링으로 대체됩니다.
( Github에서 처음 출시 ). 병렬 세그먼트 샘플링 및 파손 위치 인코딩 다운 스케일링. 병렬 세그먼트 생성의 연결로부터 클릭으로 나쁜 품질.