MB iSTFT VITS with AutoVocoder MB iSTFT VITS with AutoVocoder

다운로드

autovocoder를 사용한 MB-ISTFT-VITS

VITS에서 시작하여 MB-ISTFT-VITS는 아래 기술을 사용하여 합성 속도를 향상시킵니다.

이 잘 디자인 된 프레임 워크를 기반으로,이 저장소는 자동 코코더의 음질과 추론 속도를 더욱 향상시키는 것을 목표로합니다.
이 repo는 MB-ISTFT-VITS를 기반으로하며 예상 수정 및 향상은 다음과 같습니다.

1. ISTFTNET 기반 디코더를 자동 조정기 기반 디코더로 교체하십시오.
2. ISTFT 작동에서는 위상/크기 구성 요소 대신 실제/가상을 사용하여 복잡한 스펙트로 그램을 구성하십시오. 시간 도메인 재건 손실을 추가하십시오.
3. 선형 스펙트로 그램 대신 4 개의 복잡한 구성 요소를 허용하도록 후방 인코더를 수정하십시오.

강력한 잠복을 모델링하는 VIT의 특성으로 인해 Autovocoder는 Autoencoder 아키텍처로 인해 적절한 적용이 될 수 있습니다. 또한 upsmpling 모듈없이 (1024, 256, 1024) FFT/HOP/WIN 크기로 파형을 직접 생성하여 빠른 추론 속도를 가지고 있습니다. (멀티 밴드 스타트 웨시가 유지 될 것입니다)
VIT, 모델링 단계 정보를 포함한 기존의 TTS 모델은 전적으로 디코더 (보코더)의 역할이었습니다. Mod 3. 에서, 잠복에 위상 정보를 제공함으로써, 우리는 이전이 이러한 잠복을 안정적으로 근사 할 수 있는지 여부를 테스트합니다.

Disclaimer : This repo is built for testing purpose. Performance is not guaranteed. Welcome your contributions.

쉬운 비교를 위해, 우리는 후방 인코더의 전체 아키텍처를 변경하지 않았습니다. 대신, 우리는 전면에서 그룹 컨볼 루션 만 사용하여 수정 된 입력 (4 개의 복잡한 구성 요소)을 처리했습니다.
현재로서는이 리포지토리가 MB-ISTFT-VITS 기반 모델을 구현하려고합니다. MINI, MS, W/O MB에 적용하는 것이 향후 작업 일 수 있습니다.

파이썬> = 3.6
이 저장소를 복제하십시오
파이썬 요구 사항을 설치하십시오. 요구 사항 .txt를 참조하십시오
1. espeak를 먼저 apt-get install espeak 해야 할 수도 있습니다.
데이터 세트를 다운로드하십시오
1. LJ 음성 데이터 세트를 다운로드하여 추출한 다음 데이터 세트 폴더로 이름을 바꾸거나 만듭니다 : ln -s /path/to/LJSpeech-1.1/wavs DUMMY1
자체 데이터 세트를 사용하는 경우 단조로운 정렬 검색을 구축하고 전처리를 실행하십시오.

 # Cython-version Monotonoic Alignment Search
cd monotonic_align
mkdir monotonic_align
python setup.py build_ext --inplace

MB-ISTFT-VITS 교육의 경우 다음 스크립트를 실행하십시오.

python train_latest.py -c configs/ljs_mb_istft_vits.json -m ljs_mb_istft_vits

교육 후 inference.ipynb를 사용하여 추론 오디오를 확인할 수 있습니다.

확장하다

추가 정보