FastSpeech2 Pytorch Korean Multi Speaker Download - FastSpeech2 Pytorch Korean Multi Speaker Source Source Download

ภาษาไทย

中文(简体) 中文(繁体) 한국어 日本語 English Português Español Русский العربية Indonesia Deutsch Français ภาษาไทย

หน้าแรก>การเขียนโปรแกรมที่เกี่ยวข้อง>โค้ดแหล่งที่มา AI

FastSpeech2 Pytorch Korean Multi Speaker

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

FastSpeech2-Pytorch-Korean-Multi-speaker

โครงการนี้ดำเนินการใน TTS หลายลำโพงเกาหลีโดยการรวม Hifi-Gan Vocoder เข้ากับ FastSpeech2

การแนะนำ

โครงการนี้มีวัตถุประสงค์ เพื่อพัฒนา TTS ของโครงการ 'ลำโพง AI ที่เป็นส่วนตัวที่มองเห็นได้' มันถูกแทนที่ด้วยเสียงของผู้คนรอบตัวที่คุณต้องการมากกว่าเสียงของ 'Siri', 'Bixby' และ 'Ari' (เช่นคู่สมรสลูกชายลูกสาวพ่อแม่ ฯลฯ )
เพื่อที่จะรับมือกับการผลิตลำโพง AI ทันทีแทนที่จะเป็นประสิทธิภาพที่ยอดเยี่ยมของ Tacotron2 และ Waveglow, Hifi-Gan ที่ ไม่ได้ใช้งานจริง และไม่ได้รับการฝึกฝน
ขึ้นอยู่กับซอร์สโค้ด FastSpeech2 ที่สอดคล้องกับชุดข้อมูล KSS ของเกาหลีที่ใช้ใน DLLAB

วัตถุประสงค์โครงการ

การใช้ Acoustic-FastSpeech2, โมเดล Vocoder-Hifigan สำหรับความเร็วการสังเคราะห์อย่างรวดเร็วและประสิทธิภาพสูง
ถ่ายโอนการใช้การเรียนรู้เพื่อปรับแต่งด้วยข้อมูลจำนวนเล็กน้อย ( ~~+ การโคลนนิ่ง zero-shot~~ โครงการด้านข้าง )
การใช้งานการฝังผู้บรรยายเพื่อเรียนรู้หลายลำโพงสำหรับ Pre-Train
การกำหนดค่าไปป์ไลน์เพื่อให้กระบวนการเรียนรู้ดำเนินการในชุดข้อมูลเกาหลีไปยัง end-to-end

ชุดข้อมูล

สำหรับ Pre-Train เรียนรู้โดยใช้เสียงสนทนาฟรีของ AIHUB
- โดยเฉลี่ย 1 ชั่วโมงและ 30 นาทีเรียนรู้กับผู้ชาย 30 คนและข้อมูลหญิง 28 คนโดยคำนึงถึงคุณภาพ
- ผู้พูดแต่ละคนได้รับรหัสหมายเลขที่ไม่ซ้ำกันในกระบวนการปรับสภาพ
สำหรับการปรับแต่งให้อ้างอิงสคริปต์ KSS และบันทึกเสียงของผู้พูดใหม่ในประโยค 100 ประโยค -300-600 ประโยคเพื่อประเมินประสิทธิภาพ

ผลงาน (เพิ่มจากโครงการ Previus)

เนื้อหาที่เพิ่มเข้ามาในรหัสที่ใช้มีดังนี้

การใช้งาน Embedding Speaker (เกาหลีหลายลำโพง FastSpeech2)
- เพิ่มเลเยอร์ฝังลงในโมเดล
- การใช้งาน ENCODER และการใช้งานรหัส (EMBEDDING, ลำโพง integrator)
- get_speakers () การใช้งานฟังก์ชั่นที่นำเข้าและจัดเก็บข้อมูลการฝังข้อมูล
data_preprocessing.py-end-to-end การปรับสภาพการปรับสภาพข้อมูลที่มีรายการทั้งหมดด้านล่าง
การตอบสนองต่อการสังเคราะห์ประโยคยาวที่ไม่เสถียร
- ตั้งค่าให้ติดตั้งหลังจากสังเคราะห์ในหน่วยอักขระพิเศษ (หน่วยประโยค)
การนำเข้าซอร์สโค้ด G2PK และใช้ตัวเลขและภาษาอังกฤษเท่านั้น
- ปรับเปลี่ยนแพ็คเกจของ G2PK ที่มีอยู่เป็นภาษาเกาหลีเท่านั้นโดยไม่ต้องติดตั้ง PIP

ผลงานที่ผ่านมา

บันทึกไดเร็กทอรี WAV และ JSON หรือไฟล์การถอดเสียงในไดเรกทอรีชุดข้อมูล/ชื่อข้อมูลดังที่แสดง
เรียนรู้ Montral Forced Alinger ใน Kaldi เพื่อเรียนรู้ TextGrid โดยการเรียนรู้ข้อมูลเสียง
```
 # lab 생성, mfa 학습, lab 분리
python data_preprocessing.py 
```
บันทึกเครื่องกำเนิดไฟฟ้าที่เรียนรู้โดย Hifi-Gan สำหรับการประเมินผลระหว่างการเรียนรู้ในไดเรกทอรี Vocoder/Pretained_Models

เขียนข้อมูลโดยตรงตามรูปแบบหรือสร้างการถอดเสียงโดยอ้างถึงฟังก์ชั่นของ data_preprocessing.py
จัดเก็บการถอดเสียงที่สร้างขึ้นและไดเรกทอรีของข้อมูลในชุดข้อมูลและเรียกใช้ data_proprocessing.py
งาน MFA เสร็จสมบูรณ์และไฟล์ textgrid.zip ถูกสร้างขึ้นในไดเรกทอรีด้านบน
preprocess.py ดำเนินการและตรวจสอบโฟลเดอร์ pretrocessed

รถไฟ

ตั้งค่าเส้นทางของขนาดแบทช์ของ hparam.py เครื่องกำเนิดไฟฟ้า hifi-gan และเริ่มเรียนรู้
```
 python train.py
```
หากคุณกำลังศึกษาอยู่คุณสามารถเรียนรู้ได้โดยการเพิ่ม Restore_step
```
 python train.py --restore_step [step]
```

ถ่ายโอนการเรียนรู้

หากคุณดำเนินการก่อนรถไฟสำหรับหลายลำโพง Storage Speaker_info.json ที่สร้างขึ้นโดยอัตโนมัติในระหว่างการเรียนรู้ก่อนรถไฟ
ใส่ Speaker_info.json ที่ด้านบนของไดเรกทอรี
Run Python ในลักษณะเดียวกับการศึกษาในรถไฟ
```
 python train.py --restore_step [pre-train의 step]
```

สังเคราะห์

สังเคราะห์ด้วยไฟล์ snythesize.py
```
 python synthesize.py --step [step수]
```
- สังเคราะห์ 1, 2, 3 การเลือกเป็นสคริปต์ที่นำเสนอแบบสุ่ม
- 4 เลือก 4

ไปป์ไลน์โมเดล

ไปป์ไลน์นี้เป็นไปป์ไลน์โฟลว์สำหรับการเรียนรู้และการสร้าง TTS ที่สอดคล้องกับบริการ

transfer_learning_pipeline

ภาชนะบรรจุส่วนใหญ่จัดเป็นสี่
1. คอนเทนเนอร์ฐานข้อมูลที่มีพา ธ และข้อมูลผู้ใช้ของข้อมูล
2. การสร้างทรานสคริปต์, การทำให้ง่ายขึ้นชื่อไฟล์, การสกัด textGrid ด้วย MFA, คอนเทนเนอร์ประมวลผลข้อมูลล่วงหน้าสำหรับรุ่น
3. การเรียนรู้คอนเทนเนอร์สำหรับการฝึกอบรมล่วงหน้า
4. การเรียนรู้คอนเทนเนอร์สำหรับการปรับแต่งข้อมูลใหม่
ในสถานการณ์การให้บริการจริงมีเพียงสามคอนเทนเนอร์เท่านั้นที่จะทำงานได้

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท โค้ดแหล่งที่มา AI
เวลาอัปเดต 2025-08-25
ขนาด 5.41MB
มาจาก Github

แอปที่เกี่ยวข้อง

multi roblox macos

2024-11-14
TikTok Multi Downloader

2024-11-10
pytorch image models

2024-11-03
เพิ่มเสียงลำโพง

2024-10-12
Dragon Ball Project เวอร์ชั่นภาษาจีนหลายภาษา

2024-08-23
Family Guy: กลับสู่ Multi

2022-08-29

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
ML stack

โค้ดแหล่งที่มา AI

1.0.0
awesome free chatgpt

โค้ดแหล่งที่มา AI

1.0.0
pywin_contextmenu

โค้ดแหล่งที่มา AI

Version update
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด