VITS를 사용한 다국어 음성 합성 시스템
16GB RAM의 Windows/Linux 시스템.12GB 이상의 VRAM을 가진 GPU.Pytorch 설치 명령 :
pip install torch==1.13.1+cu117 torchvision==0.14.1+cu117 torchaudio==0.13.1 --extra-index-url https://download.pytorch.org/whl/cu117 CUDA 11.7 설치 : https://developer.nvidia.com/cuda-11-7-0-download-archive
Zlib DLL 설치 : https://docs.nvidia.com/deeplearning/cudnn/install-guide/index.html#install-zlib-windows
pyopenjtalk를 수동으로 설치하십시오 : pip install -U pyopenjtalk --no-build-isolation
이 명령이 설치되지 않은 경우 진행하기 전에 다음 라이브러리를 설치하십시오. cmake Cython
conda create -n polylangvits python=3.8conda activate polylangvitsgit clone https://github.com/ORI-Muchim/PolyLangVITS.git cd PolyLangVITSpip install -r requirements.txt오디오 파일을 다음과 같이 배치하십시오.
.mp3 또는 .wav 파일은 괜찮습니다.
스피커 폴더 뒷면에 '[언어 코드]를 작성해야합니다.
PolyLangVITS
├────datasets
│ ├───speaker0[KO]
│ │ ├────1.mp3
│ │ └────1.wav
│ └───speaker1[JA]
│ │ ├───1.mp3
│ │ └───1.wav
│ ├───speaker2[EN]
│ │ ├────1.mp3
│ │ └────1.wav
│ ├───speaker3[ZH]
│ │ ├────1.mp3
│ │ └────1.wav
│ ├integral.py
│ └integral_low.py
│
├────vits
├────get_pretrained_model.py
├────inference.py
├────main_low.py
├────main_resume.py
├────main.py
├────Readme.md
└────requirements.txt
이것은 단지 예일 뿐이며 더 많은 스피커를 추가해도 괜찮습니다.
이 도구를 시작하려면 다음 명령을 사용하여 {language}, {model_name} 및 {sample_rate}를 각각의 값으로 바꾸십시오.
python main.py {language} {model_name} {sample_rate}사양이 낮은 (VRAM <12GB)가있는 사람들의 경우이 코드를 사용하십시오.
python main_low.py {language} {model_name} {sample_rate}데이터 구성이 완료되고 교육을 재개하려면이 코드를 입력하십시오.
python main_resume.py {model_name}모델이 교육을받은 후 다음 명령을 사용하여 {model_name} 및 {model_step}을 각각의 값으로 대체하여 예측을 생성 할 수 있습니다.
python inference.py {model_name} {model_step}텍스트 대 음성 추론의 경우 다음을 사용하십시오.
python inference-stt.py {model_name} {model_step}또한 코드를 편집하지 않고 수동으로 텍스트를 전달할 수 있습니다.
python inference-stt.py {model_name} {model_step} {text}자세한 내용은 다음 저장소를 참조하십시오.