ดาวน์โหลด PolyLangVITS - PolyLangVITS ซอร์สโค้ดดาวน์โหลด

PolyLangVITS

โค้ดแหล่งที่มา AI

Pretrained_Models

ดาวน์โหลด

polylangvits

ระบบการสังเคราะห์คำพูดหลายภาษาโดยใช้ VITS

สารบัญ

ข้อกำหนดเบื้องต้น
การติดตั้ง
prepay_datasets
การใช้งาน
การอนุมาน
การอ้างอิง

ข้อกำหนดเบื้องต้น

ระบบ Windows/Linux ที่มี RAM อย่างน้อย 16GB
GPU ที่มี VRAM อย่างน้อย 12GB
Python == 3.8
Anaconda ติดตั้ง
ติดตั้ง Pytorch
ติดตั้ง CUDA 11.x
ติดตั้ง zlib dll

คำสั่งการติดตั้ง Pytorch:

pip install torch==1.13.1+cu117 torchvision==0.14.1+cu117 torchaudio==0.13.1 --extra-index-url https://download.pytorch.org/whl/cu117

CUDA 11.7 ติดตั้ง: https://developer.nvidia.com/cuda-11-7-0-download-archive

zlib dll ติดตั้ง: https://docs.nvidia.com/deeplearning/cudnn/install-guide/index.html#install-zlib-windows

ติดตั้ง pyopenjtalk ด้วยตนเอง: pip install -U pyopenjtalk --no-build-isolation

หากคำสั่งนี้ไม่ได้ติดตั้งโปรดติดตั้งไลบรารีต่อไปนี้ก่อนดำเนินการต่อ: cmake Cython

การติดตั้ง

สร้างสภาพแวดล้อม Anaconda:

conda create -n polylangvits python=3.8

เปิดใช้งานสภาพแวดล้อม:

conda activate polylangvits

โคลนที่เก็บนี้ไปยังเครื่องในพื้นที่ของคุณ:

git clone https://github.com/ORI-Muchim/PolyLangVITS.git

นำทางไปยังไดเรกทอรีที่ถูกโคลน:

 cd PolyLangVITS

ติดตั้งการพึ่งพาที่จำเป็น:

pip install -r requirements.txt

prepay_datasets

วางไฟล์เสียงดังนี้

.mp3 หรือ. wav ไฟล์ก็โอเค

คุณต้องเขียน '[รหัสภาษา]' ที่ด้านหลังของโฟลเดอร์ลำโพง

 PolyLangVITS
├────datasets
│       ├───speaker0[KO]
│       │   ├────1.mp3
│       │   └────1.wav
│       └───speaker1[JA]
│       │    ├───1.mp3
│       │    └───1.wav
│       ├───speaker2[EN]
│       │   ├────1.mp3
│       │   └────1.wav
│       ├───speaker3[ZH]
│       │   ├────1.mp3
│       │   └────1.wav
│       ├integral.py
│       └integral_low.py
│
├────vits
├────get_pretrained_model.py
├────inference.py
├────main_low.py
├────main_resume.py
├────main.py
├────Readme.md
└────requirements.txt

นี่เป็นเพียงตัวอย่างและมันก็โอเคที่จะเพิ่มลำโพงมากขึ้น

การใช้งาน

ในการเริ่มต้นเครื่องมือนี้ให้ใช้คำสั่งต่อไปนี้แทนที่ {ภาษา}, {model_name} และ {sample_rate} ด้วยค่าที่เกี่ยวข้องของคุณ:

python main.py {language} {model_name} {sample_rate}

สำหรับผู้ที่มีข้อกำหนดต่ำ (VRAM <12GB) โปรดใช้รหัสนี้:

python main_low.py {language} {model_name} {sample_rate}

หากการกำหนดค่าข้อมูลเสร็จสมบูรณ์และคุณต้องการฝึกอบรมต่อให้ป้อนรหัสนี้:

python main_resume.py {model_name}

การอนุมาน

หลังจากได้รับการฝึกอบรมแบบจำลองแล้วคุณสามารถสร้างการคาดการณ์ได้โดยใช้คำสั่งต่อไปนี้แทนที่ {model_name} และ {model_step} ด้วยค่าที่เกี่ยวข้องของคุณ:

python inference.py {model_name} {model_step}

สำหรับข้อความถึงการอนุมานการพูดให้ใช้สิ่งต่อไปนี้:

python inference-stt.py {model_name} {model_step}

นอกจากนี้คุณอาจส่งข้อความด้วยตนเองโดยไม่ต้องแก้ไขรหัสโดย:

python inference-stt.py {model_name} {model_step} {text}

การอ้างอิง

สำหรับข้อมูลเพิ่มเติมโปรดดูที่เก็บต่อไปนี้:

jaywalnut310/vits
cjangcjengh/vits
Kyubyong/G2PK
Tenebo/G2PK2
Henrymass/Audioslicer

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน Pretrained_Models
ประเภท โค้ดแหล่งที่มา AI
เวลาอัปเดต 2025-09-14
ขนาด 31.98MB
มาจาก Github

แอปที่เกี่ยวข้อง

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
ML stack

โค้ดแหล่งที่มา AI

1.0.0
awesome free chatgpt

โค้ดแหล่งที่มา AI

1.0.0
pywin_contextmenu

โค้ดแหล่งที่มา AI

Version update
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด