Mehrsprachiger Sprachsynthesesystem mit Vits
16GB RAM.12GB VRAM.Befehl pytorch installieren:
pip install torch==1.13.1+cu117 torchvision==0.14.1+cu117 torchaudio==0.13.1 --extra-index-url https://download.pytorch.org/whl/cu117 CUDA 11.7 Install: https://developer.nvidia.com/cuda-11-7-0-download-archive
ZLIB DLL Installation: https://docs.nvidia.com/deeplearning/cudnn/install-guide/index.html#install-zlib-windows
Manuell installieren Sie Pyopenjtalk: pip install -U pyopenjtalk --no-build-isolation
Wenn dieser Befehl nicht installiert wird, installieren Sie bitte die folgende Bibliothek, bevor Sie fortfahren: cmake Cython
conda create -n polylangvits python=3.8conda activate polylangvitsgit clone https://github.com/ORI-Muchim/PolyLangVITS.git cd PolyLangVITSpip install -r requirements.txtPlatzieren Sie die Audiodateien wie folgt.
.mp3 oder .wav -Dateien sind in Ordnung.
Sie müssen '[Sprachcode]' auf der Rückseite des Sprecherordners schreiben.
PolyLangVITS
├────datasets
│ ├───speaker0[KO]
│ │ ├────1.mp3
│ │ └────1.wav
│ └───speaker1[JA]
│ │ ├───1.mp3
│ │ └───1.wav
│ ├───speaker2[EN]
│ │ ├────1.mp3
│ │ └────1.wav
│ ├───speaker3[ZH]
│ │ ├────1.mp3
│ │ └────1.wav
│ ├integral.py
│ └integral_low.py
│
├────vits
├────get_pretrained_model.py
├────inference.py
├────main_low.py
├────main_resume.py
├────main.py
├────Readme.md
└────requirements.txt
Dies ist nur ein Beispiel und es ist in Ordnung, weitere Lautsprecher hinzuzufügen.
Verwenden Sie den folgenden Befehl, um dieses Tool zu starten, und ersetzen Sie {Sprache}, {model_name} und {sample_rate} durch Ihre jeweiligen Werte:
python main.py {language} {model_name} {sample_rate}Für diejenigen mit niedrigen Spezifikationen (VRAM <12 GB) verwenden Sie diesen Code bitte:
python main_low.py {language} {model_name} {sample_rate}Wenn die Datenkonfiguration abgeschlossen ist und Sie das Training fortsetzen möchten, geben Sie diesen Code ein:
python main_resume.py {model_name}Nachdem das Modell trainiert wurde, können Sie Vorhersagen mithilfe des folgenden Befehls generieren und {model_name} und {model_step} durch Ihre jeweiligen Werte ersetzen:
python inference.py {model_name} {model_step}Verwenden Sie Folgendes für Text zu Sprachinferenz:
python inference-stt.py {model_name} {model_step}Außerdem können Sie den Text manuell übergeben, ohne den Code zu bearbeiten, nach:
python inference-stt.py {model_name} {model_step} {text}Weitere Informationen finden Sie unter folgenden Repositories: