Многоязычная система синтеза речи с использованием VIT
16GB оперативной памяти.12GB VRAM.Команда установки Pytorch:
pip install torch==1.13.1+cu117 torchvision==0.14.1+cu117 torchaudio==0.13.1 --extra-index-url https://download.pytorch.org/whl/cu117 CUDA 11.7 Установка: https://developer.nvidia.com/cuda-11-7-0-download-archive
Zlib DLL Установка: https://docs.nvidia.com/deeplearning/cudnn/install-guide/index.html#install-zlib-windows
Установите Pyopenjtalk вручную: pip install -U pyopenjtalk --no-build-isolation
Если эта команда не установлена, установите следующую библиотеку перед продолжением: cmake Cython
conda create -n polylangvits python=3.8conda activate polylangvitsgit clone https://github.com/ORI-Muchim/PolyLangVITS.git cd PolyLangVITSpip install -r requirements.txtПоместите аудиофайлы следующим образом.
.mp3 или .wav файлы в порядке.
Вы должны написать «[языковой код]» на задней части папки динамика.
PolyLangVITS
├────datasets
│ ├───speaker0[KO]
│ │ ├────1.mp3
│ │ └────1.wav
│ └───speaker1[JA]
│ │ ├───1.mp3
│ │ └───1.wav
│ ├───speaker2[EN]
│ │ ├────1.mp3
│ │ └────1.wav
│ ├───speaker3[ZH]
│ │ ├────1.mp3
│ │ └────1.wav
│ ├integral.py
│ └integral_low.py
│
├────vits
├────get_pretrained_model.py
├────inference.py
├────main_low.py
├────main_resume.py
├────main.py
├────Readme.md
└────requirements.txt
Это всего лишь пример, и можно добавить больше динамиков.
Чтобы запустить этот инструмент, используйте следующую команду, заменив {language}, {model_name} и {sample_rate} на ваши соответствующие значения:
python main.py {language} {model_name} {sample_rate}Для тех, у кого низкие спецификации (VRAM <12GB), используйте этот код:
python main_low.py {language} {model_name} {sample_rate}Если конфигурация данных завершена, и вы хотите возобновить обучение, введите этот код:
python main_resume.py {model_name}После обучения модели вы можете генерировать прогнозы, используя следующую команду, заменив {model_name} и {model_step} с вашими соответствующими значениями:
python inference.py {model_name} {model_step}Для текста в речевой вывод, используйте следующее:
python inference-stt.py {model_name} {model_step}Кроме того, вы можете вручную передать текст, не редактируя код с помощью:
python inference-stt.py {model_name} {model_step} {text}Для получения дополнительной информации, пожалуйста, обратитесь к следующим репозиториям: