ดาวน์โหลด hifi gan - ดาวน์โหลดซอร์สโค้ด hifi gan

hifi gan

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

HIFI-GAN: เครือข่ายฝ่ายตรงข้ามที่เกิดขึ้นสำหรับการสังเคราะห์การพูดที่มีประสิทธิภาพและมีความซื่อสัตย์สูง

Jungil Kong, Jaehyeon Kim, Jaekyoung Bae

ในบทความของเราเราเสนอ Hifi-Gan: โมเดลที่ใช้ GAN สามารถสร้างคำพูดที่มีความเที่ยงตรงสูงได้อย่างมีประสิทธิภาพ
เราให้บริการการใช้งานและแบบจำลองที่ผ่านการฝึกอบรมของเราเป็นโอเพ่นซอร์สในที่เก็บนี้

บทคัดย่อ: งานล่าสุดเกี่ยวกับการสังเคราะห์คำพูดได้ใช้เครือข่ายฝ่ายตรงข้าม (GANS) เพื่อผลิตรูปคลื่นดิบ แม้ว่าวิธีการดังกล่าวจะช่วยปรับปรุงประสิทธิภาพการสุ่มตัวอย่างและการใช้หน่วยความจำ แต่คุณภาพตัวอย่างของพวกเขายังไม่ถึงแบบจำลองการกำเนิดแบบอัตโนมัติและการไหล ในงานนี้เราเสนอ HIFI-GAN ซึ่งบรรลุทั้งการสังเคราะห์เสียงพูดที่มีประสิทธิภาพและมีความเที่ยงตรงสูง เนื่องจากเสียงพูดประกอบด้วยสัญญาณไซน์ที่มีช่วงเวลาต่าง ๆ เราแสดงให้เห็นว่าการสร้างแบบจำลองรูปแบบเป็นระยะของเสียงเป็นสิ่งสำคัญสำหรับการเพิ่มคุณภาพตัวอย่าง การประเมินผลของมนุษย์แบบอัตนัย (คะแนนความคิดเห็นหมายถึง MOS) ของชุดข้อมูลลำโพงเดียวบ่งชี้ว่าวิธีการที่เราเสนอนั้นแสดงให้เห็นถึงความคล้ายคลึงกับคุณภาพของมนุษย์ในขณะที่สร้างเสียงสูง 22.05 kHz สูง 167.9 เท่าเร็วกว่าแบบเรียลไทม์บน V100 GPU เดียว เรายังแสดงให้เห็นถึงความหลากหลายของ Hifi-Gan ต่อการผกผันของ Mel-spectrogram ของลำโพงที่มองไม่เห็นและการสังเคราะห์คำพูดแบบ end-to-end ในที่สุด HIFI-GAN รุ่นเล็ก ๆ จะสร้างตัวอย่างเร็วกว่า CPU แบบเรียลไทม์ 13.4 เท่าที่มีคุณภาพเทียบเท่ากับคู่ค้าอัตโนมัติ

เยี่ยมชมเว็บไซต์ตัวอย่างของเราสำหรับตัวอย่างเสียง

สิ่งที่ต้องมีก่อน

Python> = 3.6
โคลนที่เก็บนี้
ติดตั้งข้อกำหนดของ Python โปรดดูข้อกำหนด. txt
ดาวน์โหลดและแยกชุดข้อมูลคำพูด LJ และย้ายไฟล์ WAV ทั้งหมดไปยัง LJSpeech-1.1/wavs

การฝึกอบรม

 python train.py --config config_v1.json

ในการฝึกอบรม V2 หรือ V3 Generator ให้แทนที่ config_v1.json ด้วย config_v2.json หรือ config_v3.json
จุดตรวจและสำเนาของไฟล์การกำหนดค่าจะถูกบันทึกไว้ในไดเรกทอรี cp_hifigan โดยค่าเริ่มต้น
คุณสามารถเปลี่ยนเส้นทางโดยการเพิ่ม --checkpoint_path

การสูญเสียการตรวจสอบความถูกต้องในระหว่างการฝึกอบรมกับเครื่องกำเนิด V1

แบบจำลอง

นอกจากนี้คุณยังสามารถใช้แบบจำลองที่ผ่านการฝึกอบรมที่เรามีให้
ดาวน์โหลดนางแบบ pretrained
รายละเอียดของแต่ละโฟลเดอร์มีดังนี้:

ชื่อโฟลเดอร์	เครื่องกำเนิดไฟฟ้า	ชุดข้อมูล	ปรับแต่ง
lj_v1	V1	ljspeech	เลขที่
lj_v2	V2	ljspeech	เลขที่
lj_v3	V3	ljspeech	เลขที่
lj_ft_t2_v1	V1	ljspeech	ใช่ (tacotron2)
lj_ft_t2_v2	V2	ljspeech	ใช่ (tacotron2)
lj_ft_t2_v3	V3	ljspeech	ใช่ (tacotron2)
vctk_v1	V1	VCTK	เลขที่
vctk_v2	V2	VCTK	เลขที่
vctk_v3	V3	VCTK	เลขที่
Universal_v1	V1	สากล	เลขที่

เราจัดทำแบบจำลองสากลด้วยน้ำหนัก discriminator ที่สามารถใช้เป็นฐานสำหรับการถ่ายโอนการเรียนรู้ไปยังชุดข้อมูลอื่น ๆ

การปรับแต่ง

สร้าง mel-spectrograms ในรูปแบบ numpy โดยใช้ tacotron2 ด้วยการบังคับครู
ชื่อไฟล์ของ mel-spectrogram ที่สร้างขึ้นควรตรงกับไฟล์เสียงและส่วนขยายควรเป็น .npy
ตัวอย่าง:
```
 Audio File : LJ001-0001.wav
Mel-Spectrogram File : LJ001-0001.npy
```
สร้างโฟลเดอร์ ft_dataset และคัดลอกไฟล์ mel-spectrogram ที่สร้างขึ้นลง
เรียกใช้คำสั่งต่อไปนี้
```
 python train.py --fine_tuning True --config config_v1.json
```
สำหรับตัวเลือกบรรทัดคำสั่งอื่น ๆ โปรดดูส่วนการฝึกอบรม

การอนุมานจากไฟล์ WAV

ทำไดเรกทอรี test_files และคัดลอกไฟล์ WAV ลงในไดเรกทอรี

เรียกใช้คำสั่งต่อไปนี้

 python inference.py --checkpoint_file [generator checkpoint file path]

ไฟล์ WAV ที่สร้างขึ้นจะถูกบันทึกไว้ใน generated_files โดยค่าเริ่มต้น
คุณสามารถเปลี่ยนพา ธ ได้โดยเพิ่มตัวเลือก --output_dir

การอนุมานสำหรับการสังเคราะห์การพูดแบบ end-to-end

ทำไดเรกทอรี test_mel_files และคัดลอกไฟล์ mel-spectrogram ที่สร้างขึ้นลงในไดเรกทอรี
คุณสามารถสร้าง mel-spectrograms โดยใช้ Tacotron2, Glow-TTS และอื่น ๆ

เรียกใช้คำสั่งต่อไปนี้

 python inference_e2e.py --checkpoint_file [generator checkpoint file path]

ไฟล์ WAV ที่สร้างขึ้นจะถูกบันทึกไว้ใน generated_files_from_mel โดยค่าเริ่มต้น
คุณสามารถเปลี่ยนพา ธ ได้โดยเพิ่มตัวเลือก --output_dir

กิตติกรรมประกาศ

เราอ้างถึง Waveglow, Melgan และ Tacotron2 เพื่อใช้สิ่งนี้

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท โค้ดแหล่งที่มา AI
เวลาอัปเดต 2025-08-21
ขนาด 606.93KB
มาจาก Github

แอปที่เกี่ยวข้อง

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
ไวเปอร์ไฮไฟเวอร์ชัน Android

2024-04-07
แอพ VIPER ไฮไฟ

2023-06-04
ดาวน์โหลดเกม Mini HiFi City

2023-03-16

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
ML stack

โค้ดแหล่งที่มา AI

1.0.0
awesome free chatgpt

โค้ดแหล่งที่มา AI

1.0.0
pywin_contextmenu

โค้ดแหล่งที่มา AI

Version update
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด