Загрузка PolyLangVITS - загрузка исходного кода PolyLangVITS

PolyLangVITS

AI Исходный код

Pretrained_Models

Скачать

Polylangvits

Многоязычная система синтеза речи с использованием VIT

Предварительные условия

Система Windows/Linux с минимум 16GB оперативной памяти.
Графический процессор с не менее 12GB VRAM.
Python == 3.8
Анаконда установлена.
Pytorch установлен.
Cuda 11.x установлен.
Zlib DLL установлен.

Команда установки Pytorch:

pip install torch==1.13.1+cu117 torchvision==0.14.1+cu117 torchaudio==0.13.1 --extra-index-url https://download.pytorch.org/whl/cu117

CUDA 11.7 Установка: https://developer.nvidia.com/cuda-11-7-0-download-archive

Zlib DLL Установка: https://docs.nvidia.com/deeplearning/cudnn/install-guide/index.html#install-zlib-windows

Установите Pyopenjtalk вручную: pip install -U pyopenjtalk --no-build-isolation

Если эта команда не установлена, установите следующую библиотеку перед продолжением: cmake Cython

Установка

Создайте среду Anaconda:

conda create -n polylangvits python=3.8

Активируйте окружающую среду:

conda activate polylangvits

Клонировать это хранилище в местной машине:

git clone https://github.com/ORI-Muchim/PolyLangVITS.git

Перейдите к клонированному каталогу:

 cd PolyLangVITS

Установите необходимые зависимости:

pip install -r requirements.txt

Prepare_datasets

Поместите аудиофайлы следующим образом.

.mp3 или .wav файлы в порядке.

Вы должны написать «[языковой код]» на задней части папки динамика.

 PolyLangVITS
├────datasets
│       ├───speaker0[KO]
│       │   ├────1.mp3
│       │   └────1.wav
│       └───speaker1[JA]
│       │    ├───1.mp3
│       │    └───1.wav
│       ├───speaker2[EN]
│       │   ├────1.mp3
│       │   └────1.wav
│       ├───speaker3[ZH]
│       │   ├────1.mp3
│       │   └────1.wav
│       ├integral.py
│       └integral_low.py
│
├────vits
├────get_pretrained_model.py
├────inference.py
├────main_low.py
├────main_resume.py
├────main.py
├────Readme.md
└────requirements.txt

Это всего лишь пример, и можно добавить больше динамиков.

Использование

Чтобы запустить этот инструмент, используйте следующую команду, заменив {language}, {model_name} и {sample_rate} на ваши соответствующие значения:

python main.py {language} {model_name} {sample_rate}

Для тех, у кого низкие спецификации (VRAM <12GB), используйте этот код:

python main_low.py {language} {model_name} {sample_rate}

Если конфигурация данных завершена, и вы хотите возобновить обучение, введите этот код:

python main_resume.py {model_name}

Вывод

После обучения модели вы можете генерировать прогнозы, используя следующую команду, заменив {model_name} и {model_step} с вашими соответствующими значениями:

python inference.py {model_name} {model_step}

Для текста в речевой вывод, используйте следующее:

python inference-stt.py {model_name} {model_step}

Кроме того, вы можете вручную передать текст, не редактируя код с помощью:

python inference-stt.py {model_name} {model_step} {text}

Ссылки

Для получения дополнительной информации, пожалуйста, обратитесь к следующим репозиториям:

jaywalnut310/vits
Cjangcjengh/vits
Kyubyong/G2PK
Tenebo/G2PK2
Генримасс/AudioScer

Расширять

Дополнительная информация

Версия Pretrained_Models
Тип AI Исходный код
Время обновления 2025-09-14
размер 31.98MB
От Github

Связанные приложения

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

PolyLangVITS

Polylangvits

Оглавление

Предварительные условия

Установка

Prepare_datasets

Использование

Вывод

Ссылки

ML stack

awesome free chatgpt

pywin_contextmenu

promptl

tick.chat

FastLoRAChat

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

pywin_contextmenu

Google Dorks

shepherd

mongo express