MB iSTFT VITS with AutoVocoder
1.0.0
VITS에서 시작하여 MB-ISTFT-VITS는 아래 기술을 사용하여 합성 속도를 향상시킵니다.
이 잘 디자인 된 프레임 워크를 기반으로,이 저장소는 자동 코코더의 음질과 추론 속도를 더욱 향상시키는 것을 목표로합니다.
이 repo는 MB-ISTFT-VITS를 기반으로하며 예상 수정 및 향상은 다음과 같습니다.
1. ISTFTNET 기반 디코더를 자동 조정기 기반 디코더로 교체하십시오.
2. ISTFT 작동에서는 위상/크기 구성 요소 대신 실제/가상을 사용하여 복잡한 스펙트로 그램을 구성하십시오. 시간 도메인 재건 손실을 추가하십시오.
3. 선형 스펙트로 그램 대신 4 개의 복잡한 구성 요소를 허용하도록 후방 인코더를 수정하십시오.
(1024, 256, 1024) FFT/HOP/WIN 크기로 파형을 직접 생성하여 빠른 추론 속도를 가지고 있습니다. (멀티 밴드 스타트 웨시가 유지 될 것입니다)Mod 3. 에서, 잠복에 위상 정보를 제공함으로써, 우리는 이전이 이러한 잠복을 안정적으로 근사 할 수 있는지 여부를 테스트합니다. Disclaimer : This repo is built for testing purpose. Performance is not guaranteed. Welcome your contributions.

apt-get install espeak 해야 할 수도 있습니다.ln -s /path/to/LJSpeech-1.1/wavs DUMMY1 # Cython-version Monotonoic Alignment Search
cd monotonic_align
mkdir monotonic_align
python setup.py build_ext --inplaceMB-ISTFT-VITS 교육의 경우 다음 스크립트를 실행하십시오.
python train_latest.py -c configs/ljs_mb_istft_vits.json -m ljs_mb_istft_vits
교육 후 inference.ipynb를 사용하여 추론 오디오를 확인할 수 있습니다.