VITS Pytorch Download - VITS Pytorch Source Source Download

VITS Pytorch

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

ภาษาจีนง่ายๆ | ภาษาอังกฤษ

ระบบการสังเคราะห์ด้วยเสียงที่ใช้การใช้งาน Pytorch

คำนำ

โครงการนี้เป็นโครงการสังเคราะห์คำพูดที่ใช้ Pytorch โดยใช้ VITS VITS (การอนุมานการแปรปรวนกับการเรียนรู้ที่เป็นปฏิปักษ์สำหรับการพูดแบบ text-to-to-speech) เป็นวิธีการสังเคราะห์คำพูด โมเดลแบบ end-to-end นี้ใช้งานง่ายมากและไม่ต้องการกระบวนการที่ซับซ้อนเกินไปเช่นการจัดตำแหน่งข้อความ ได้รับการฝึกฝนโดยตรงและสร้างด้วยคลิกเดียวซึ่งจะช่วยลดเกณฑ์การเรียนรู้ได้อย่างมาก

ทุกคนยินดีที่จะสแกนรหัสเพื่อเข้าสู่ Planet หรือกลุ่ม QQ เพื่อหารือ ความรู้ Planet จัดเตรียมไฟล์โมเดลโครงการและโครงการอื่น ๆ ที่เกี่ยวข้องกับโครงการรวมถึงทรัพยากรอื่น ๆ

เตรียมการสำหรับใช้

Anaconda 3
Python 3.8
Pytorch 1.13.1
Windows 10 หรือ Ubuntu 18.04

ดาวน์โหลดรุ่น

ชุดข้อมูล	ภาษา (ภาษาถิ่น)	จำนวนลำโพง	ชื่อลำโพง	ดาวน์โหลดที่อยู่
bznsyp	ภาษาจีนกลาง	1	เสียงหญิงมาตรฐาน	คลิกเพื่อดาวน์โหลด
ชุดข้อมูลกวางตุ้ง	กวางตุ้ง	10	เสียงชาย 1 สาว ๆ 1 -	คลิกเพื่อดาวน์โหลด

สภาพแวดล้อมการติดตั้ง

สิ่งแรกที่ติดตั้งคือ Pytorch เวอร์ชัน GPU หากมีการติดตั้งโปรดข้ามไป

conda install pytorch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pytorch-cuda=11.6 -c pytorch -c nvidia

ติดตั้งไลบรารี MVITS

ใช้ PIP เพื่อติดตั้งคำสั่งดังนี้:

python -m pip install mvits -U -i https://pypi.tuna.tsinghua.edu.cn/simple

ขอแนะนำให้ติดตั้งซอร์สโค้ด ซึ่งสามารถมั่นใจได้ว่าการใช้รหัสล่าสุด

git clone https://github.com/yeyupiaoling/VITS-Pytorch.git
cd VITS-Pytorch/
pip install .

เตรียมข้อมูล

โครงการสนับสนุนการสร้างข้อมูลโดยตรงของ BZNSYP และ AISHELL3 การใช้ BZNSYP เป็นตัวอย่างดาวน์โหลด BZNSYP ไปยังไดเรกทอรี dataset และการคลายการบีบอัด จากนั้นเรียกใช้โปรแกรม create_list.py และสร้างตารางข้อมูลในรูปแบบต่อไปนี้รูปแบบคือ <音频路径>|<说话人名称>|<标注数据> โปรดทราบว่าข้อมูลการติดฉลากต้องใช้ภาษาการติดฉลาก ตัวอย่างเช่นในภาษาจีนกลางคุณต้องห่อข้อความใน [ZH] ภาษาอื่น ๆ สนับสนุนภาษาญี่ปุ่น: [JA] , ภาษาอังกฤษ: [en], 한국어: [ko] ชุดข้อมูลที่กำหนดเองสามารถสร้างได้ในรูปแบบนี้

โครงการมีวิธีการประมวลผลข้อความสองวิธีวิธีการประมวลผลข้อความที่แตกต่างกันและรองรับภาษาที่แตกต่างกันคือ cjke_cleaners2 และ chinese_dialect_cleaners การกำหนดค่านี้ได้รับการแก้ไขบน dataset_conf.text_cleaner cjke_cleaners2 สนับสนุนภาษา {"普通话": "[ZH]", "日本語": "[JA]", "English": "[EN]", "한국어": "[KO]"} {"普通话": "[ZH]", "日本語": "[JA]", "English": "[EN]", "粤语": "[GD]", "上海话": "[SH]", "苏州话": "[SZ]", "无锡话": "[WX]", "常州话": "[CZ]", "杭州话": "[HZ]", ·····} chinese_dialect_cleaners สนับสนุนภาษา {"แมนดาริน" {"普通话": "[ZH]", "日本語": "[JA]", "English": "[EN]", "粤语": "[GD]", "上海话": "[SH]", "苏州话": "[SZ]", "无锡话": "[WX]", "常州话": "[CZ]", "杭州话": "[HZ]", ·····}

 dataset/BZNSYP/Wave/000001.wav|标准女声|[ZH]卡尔普陪外孙玩滑梯。[ZH]
dataset/BZNSYP/Wave/000002.wav|标准女声|[ZH]假语村言别再拥抱我。[ZH]
dataset/BZNSYP/Wave/000003.wav|标准女声|[ZH]宝马配挂跛骡鞍，貂蝉怨枕董翁榻。[ZH]

หลังจากมีรายการข้อมูลคุณต้องสร้างรายการข้อมูล Phoneme เพียงดำเนินการ preprocess_data.py --train_data_list=dataset/bznsyp.txt เพื่อสร้างรายการข้อมูล Phoneme ณ จุดนี้ข้อมูลพร้อมทั้งหมด

 dataset/BZNSYP/Wave/000001.wav|0|kʰa↓↑əɹ`↓↑pʰu↓↑ pʰeɪ↑ waɪ↓swən→ wan↑ xwa↑tʰi→.
dataset/BZNSYP/Wave/000002.wav|0|tʃ⁼ja↓↑ɥ↓↑ tsʰwən→jɛn↑p⁼iɛ↑ ts⁼aɪ↓ jʊŋ→p⁼ɑʊ↓ wo↓↑.
dataset/BZNSYP/Wave/000003.wav|0|p⁼ɑʊ↓↑ma↓↑ pʰeɪ↓k⁼wa↓ p⁼wo↓↑ lwo↑an→, t⁼iɑʊ→ts`ʰan↑ ɥæn↓ ts`⁼ən↓↑ t⁼ʊŋ↓↑ʊŋ→ tʰa↓.

รถไฟ

ตอนนี้คุณสามารถเริ่มฝึกอบรมแบบจำลอง พารามิเตอร์ในไฟล์การกำหนดค่าโดยทั่วไปไม่จำเป็นต้องแก้ไข จำนวนลำโพงและชื่อของลำโพงจะถูกแก้ไขโดย preprocess_data.py สิ่งเดียวที่อาจต้องแก้ไขคือ train.batch_size หากหน่วยความจำวิดีโอไม่เพียงพอพารามิเตอร์นี้สามารถลดลงได้

 # 单卡训练
CUDA_VISIBLE_DEVICES=0 python train.py
# 多卡训练
CUDA_VISIBLE_DEVICES=0,1 torchrun --standalone --nnodes=1 --nproc_per_node=2 train.py

บันทึกเอาท์พุทการฝึกอบรม:

 [2023-08-28 21:04:42.274452 INFO   ] utils:print_arguments:123 - ----------- 额外配置参数 -----------
[2023-08-28 21:04:42.274540 INFO   ] utils:print_arguments:125 - config: configs/config.yml
[2023-08-28 21:04:42.274580 INFO   ] utils:print_arguments:125 - epochs: 10000
[2023-08-28 21:04:42.274658 INFO   ] utils:print_arguments:125 - model_dir: models
[2023-08-28 21:04:42.274702 INFO   ] utils:print_arguments:125 - pretrained_model: None
[2023-08-28 21:04:42.274746 INFO   ] utils:print_arguments:125 - resume_model: None
[2023-08-28 21:04:42.274788 INFO   ] utils:print_arguments:126 - ------------------------------------------------
[2023-08-28 21:04:42.727728 INFO   ] utils:print_arguments:128 - ----------- 配置文件参数 -----------
[2023-08-28 21:04:42.727836 INFO   ] utils:print_arguments:131 - dataset_conf:
[2023-08-28 21:04:42.727909 INFO   ] utils:print_arguments:138 -        add_blank: True
[2023-08-28 21:04:42.727975 INFO   ] utils:print_arguments:138 -        batch_size: 16
[2023-08-28 21:04:42.728037 INFO   ] utils:print_arguments:138 -        cleaned_text: True
[2023-08-28 21:04:42.728097 INFO   ] utils:print_arguments:138 -        eval_sum: 2
[2023-08-28 21:04:42.728157 INFO   ] utils:print_arguments:138 -        filter_length: 1024
[2023-08-28 21:04:42.728204 INFO   ] utils:print_arguments:138 -        hop_length: 256
[2023-08-28 21:04:42.728235 INFO   ] utils:print_arguments:138 -        max_wav_value: 32768.0
[2023-08-28 21:04:42.728266 INFO   ] utils:print_arguments:138 -        mel_fmax: None
[2023-08-28 21:04:42.728298 INFO   ] utils:print_arguments:138 -        mel_fmin: 0.0
[2023-08-28 21:04:42.728328 INFO   ] utils:print_arguments:138 -        n_mel_channels: 80
[2023-08-28 21:04:42.728359 INFO   ] utils:print_arguments:138 -        num_workers: 4
[2023-08-28 21:04:42.728388 INFO   ] utils:print_arguments:138 -        sampling_rate: 22050
[2023-08-28 21:04:42.728418 INFO   ] utils:print_arguments:138 -        speakers_file: dataset/speakers.json
[2023-08-28 21:04:42.728448 INFO   ] utils:print_arguments:138 -        text_cleaner: cjke_cleaners2
[2023-08-28 21:04:42.728483 INFO   ] utils:print_arguments:138 -        training_file: dataset/train.txt
[2023-08-28 21:04:42.728539 INFO   ] utils:print_arguments:138 -        validation_file: dataset/val.txt
[2023-08-28 21:04:42.728585 INFO   ] utils:print_arguments:138 -        win_length: 1024
[2023-08-28 21:04:42.728615 INFO   ] utils:print_arguments:131 - model:
[2023-08-28 21:04:42.728648 INFO   ] utils:print_arguments:138 -        filter_channels: 768
[2023-08-28 21:04:42.728685 INFO   ] utils:print_arguments:138 -        gin_channels: 256
[2023-08-28 21:04:42.728717 INFO   ] utils:print_arguments:138 -        hidden_channels: 192
[2023-08-28 21:04:42.728747 INFO   ] utils:print_arguments:138 -        inter_channels: 192
[2023-08-28 21:04:42.728777 INFO   ] utils:print_arguments:138 -        kernel_size: 3
[2023-08-28 21:04:42.728808 INFO   ] utils:print_arguments:138 -        n_heads: 2
[2023-08-28 21:04:42.728839 INFO   ] utils:print_arguments:138 -        n_layers: 6
[2023-08-28 21:04:42.728870 INFO   ] utils:print_arguments:138 -        n_layers_q: 3
[2023-08-28 21:04:42.728902 INFO   ] utils:print_arguments:138 -        p_dropout: 0.1
[2023-08-28 21:04:42.728933 INFO   ] utils:print_arguments:138 -        resblock: 1
[2023-08-28 21:04:42.728965 INFO   ] utils:print_arguments:138 -        resblock_dilation_sizes: [[1, 3, 5], [1, 3, 5], [1, 3, 5]]
[2023-08-28 21:04:42.728997 INFO   ] utils:print_arguments:138 -        resblock_kernel_sizes: [3, 7, 11]
[2023-08-28 21:04:42.729027 INFO   ] utils:print_arguments:138 -        upsample_initial_channel: 512
[2023-08-28 21:04:42.729058 INFO   ] utils:print_arguments:138 -        upsample_kernel_sizes: [16, 16, 4, 4]
[2023-08-28 21:04:42.729089 INFO   ] utils:print_arguments:138 -        upsample_rates: [8, 8, 2, 2]
[2023-08-28 21:04:42.729119 INFO   ] utils:print_arguments:138 -        use_spectral_norm: False
[2023-08-28 21:04:42.729150 INFO   ] utils:print_arguments:131 - optimizer_conf:
[2023-08-28 21:04:42.729184 INFO   ] utils:print_arguments:138 -        betas: [0.8, 0.99]
[2023-08-28 21:04:42.729217 INFO   ] utils:print_arguments:138 -        eps: 1e-09
[2023-08-28 21:04:42.729249 INFO   ] utils:print_arguments:138 -        learning_rate: 0.0002
[2023-08-28 21:04:42.729280 INFO   ] utils:print_arguments:138 -        optimizer: AdamW
[2023-08-28 21:04:42.729311 INFO   ] utils:print_arguments:138 -        scheduler: ExponentialLR
[2023-08-28 21:04:42.729341 INFO   ] utils:print_arguments:134 -        scheduler_args:
[2023-08-28 21:04:42.729373 INFO   ] utils:print_arguments:136 -                gamma: 0.999875
[2023-08-28 21:04:42.729404 INFO   ] utils:print_arguments:131 - train_conf:
[2023-08-28 21:04:42.729437 INFO   ] utils:print_arguments:138 -        c_kl: 1.0
[2023-08-28 21:04:42.729467 INFO   ] utils:print_arguments:138 -        c_mel: 45
[2023-08-28 21:04:42.729498 INFO   ] utils:print_arguments:138 -        enable_amp: True
[2023-08-28 21:04:42.729530 INFO   ] utils:print_arguments:138 -        log_interval: 200
[2023-08-28 21:04:42.729561 INFO   ] utils:print_arguments:138 -        seed: 1234
[2023-08-28 21:04:42.729592 INFO   ] utils:print_arguments:138 -        segment_size: 8192
[2023-08-28 21:04:42.729622 INFO   ] utils:print_arguments:141 - ------------------------------------------------
[2023-08-28 21:04:42.729971 INFO   ] trainer:__init__:53 - [cjke_cleaners2]支持语言：['日本語', '普通话', 'English', '한국어', "Mix": ""]
[2023-08-28 21:04:42.795955 INFO   ] trainer:__setup_dataloader:119 - 训练数据：9984
epoch [1/10000]: 100%|██████████| 619/619 [05:30<00:00,  1.88it/s]]
[2023-08-25 16:44:25.205557 INFO   ] trainer:train:168 - ======================================================================
epoch [2/10000]: 100%|██████████| 619/619 [05:20<00:00,  1.93it/s]s]
[2023-08-25 16:49:54.372718 INFO   ] trainer:train:168 - ======================================================================
epoch [3/10000]: 100%|██████████| 619/619 [05:19<00:00,  1.94it/s]
[2023-08-25 16:55:21.277194 INFO   ] trainer:train:168 - ======================================================================
epoch [4/10000]: 100%|██████████| 619/619 [05:18<00:00,  1.94it/s]

บันทึกการฝึกอบรมจะถูกบันทึกโดยใช้ VisualDl คุณสามารถใช้เครื่องมือนี้เพื่อดูการเปลี่ยนแปลงการสูญเสียและผลการสังเคราะห์แบบเรียลไทม์ เพียงดำเนินการ visualdl --logdir=log/ --host=0.0.0.0 ในไดเรกทอรีรูทของโครงการและเยี่ยมชม http://<IP地址>:8040 เพื่อเปิดหน้า เอฟเฟกต์มีดังนี้

การสังเคราะห์สัทศาสตร์

หลังจากการฝึกอบรมในระดับหนึ่งคุณสามารถเริ่มใช้แบบจำลองสำหรับการออกเสียง คำสั่งมีดังนี้ มีสามพารามิเตอร์หลักคือ --text ระบุข้อความที่ต้องสังเคราะห์ --language ระบุภาษาของข้อความคอมโพสิต หากภาษาถูกระบุเป็น Mix มันจะอยู่ในโหมดผสม ผู้ใช้จำเป็นต้องห่อข้อความรายได้ด้วยแท็กภาษาด้วยตนเอง ในที่สุดระบุพารามิเตอร์ของลำโพง --spk ไปลองอย่างรวดเร็ว

python infer.py --text= "你好，我是智能语音助手。 " --language=普通话 --spk=标准女声

ให้รางวัลแก่ผู้เขียน

ให้รางวัลหนึ่งดอลลาร์เพื่อสนับสนุนผู้เขียน

การอ้างอิง

https://github.com/jaywalnut310/vits
https://github.com/paddlepaddle/paddlespeech
https://github.com/yeyupiaoling/masr
https://github.com/artrajz/vits-simple-api

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท โค้ดแหล่งที่มา AI
เวลาอัปเดต 2025-09-14
ขนาด 4.05MB
มาจาก Github

แอปที่เกี่ยวข้อง

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
pytorch image models

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
ตลก

2024-02-26

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
ML stack

โค้ดแหล่งที่มา AI

1.0.0
awesome free chatgpt

โค้ดแหล่งที่มา AI

1.0.0
pywin_contextmenu

โค้ดแหล่งที่มา AI

Version update
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด