ดาวน์โหลด DiffSinger - ดาวน์โหลดซอร์สโค้ด DiffSinger

DiffSinger

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

Diffsinger - การใช้งาน Pytorch

การใช้ Pytorch ของ Diffsinger: การร้องเพลงสังเคราะห์ด้วยกลไกการแพร่กระจายแบบตื้น (มุ่งเน้นไปที่ diffSpeech)

สถานะที่เก็บ

DiffSpeech รุ่นไร้เดียงสา (ไม่ใช่ diffsinger)
ตัวถอดรหัสเสริม (จาก FastSpeech2)
เคล็ดลับง่ายขึ้นสำหรับการทำนายขอบเขตของ K
DiffSpeech เวอร์ชันตื้น (กลไกการแพร่กระจายตื้น): ใช้ประโยชน์จากการฝึกอบรมเสริมตัวถอดรหัส + การฝึกอบรม denoiser โดยใช้ K เป็นขั้นตอนเวลาสูงสุด
การฝึกหลายลำโพง

เร็ว

ชุดข้อมูล หมายถึงชื่อของชุดข้อมูลเช่น LJSpeech ในเอกสารต่อไปนี้

โมเดล หมายถึงประเภทของโมเดล (เลือกจาก ' ไร้เดียงสา ', ' aux ', ' ตื้น ')

การพึ่งพาอาศัยกัน

คุณสามารถติดตั้งการพึ่งพา Python ด้วย

 pip3 install -r requirements.txt

การอนุมาน

คุณต้องดาวน์โหลดโมเดลที่ผ่านการฝึกอบรมและใส่ไว้ใน

output/ckpt/LJSpeech_naive/ สำหรับโมเดล ' ไร้เดียงสา '
output/ckpt/LJSpeech_shallow/ สำหรับโมเดล ' ตื้น ' โปรดทราบว่าจุดตรวจของโมเดล ' ตื้น ' มีทั้งแบบจำลอง ' ตื้น ' และ ' AUX ' ทั้งสองรุ่นนี้จะแบ่งปันไดเรกทอรีทั้งหมดยกเว้นผลลัพธ์ตลอดกระบวนการทั้งหมด

สำหรับ TTS ลำโพงเดี่ยวภาษาอังกฤษ Run

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --model MODEL --restore_step RESTORE_STEP --mode single --dataset DATASET

คำพูดที่สร้างขึ้นจะถูกนำไปใช้ใน output/result/

การอนุมานแบทช์

รองรับการอนุมานแบบแบทช์ด้วยลอง

 python3 synthesize.py --source preprocessed_data/LJSpeech/val.txt --model MODEL --restore_step RESTORE_STEP --mode batch --dataset DATASET

เพื่อสังเคราะห์คำพูดทั้งหมดใน preprocessed_data/LJSpeech/val.txt

ความสามารถในการควบคุมได้

ระดับเสียง/ปริมาตร/การพูดของคำพูดสังเคราะห์สามารถควบคุมได้โดยการระบุอัตราส่วนระดับเสียง/พลังงาน/ระยะเวลาที่ต้องการ ตัวอย่างเช่นหนึ่งสามารถเพิ่มอัตราการพูดได้ 20 % และลดปริมาณลง 20 % โดย

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --model MODEL --restore_step RESTORE_STEP --mode single --dataset DATASET --duration_control 0.8 --energy_control 0.8

โปรดทราบว่าความสามารถในการควบคุมได้มาจาก FastSpeech2 และไม่ใช่ความสนใจที่สำคัญของ DiffSpeech

การฝึกอบรม

ชุดข้อมูล

ชุดข้อมูลที่รองรับคือ

LJSpeech: ชุดข้อมูลภาษาอังกฤษลำโพงเดียวประกอบด้วยคลิปเสียงสั้น 13100 คลิปของข้อความอ่านข้อความหญิงจากหนังสือสารคดี 7 เล่มรวมประมาณ 24 ชั่วโมง

การประมวลผลล่วงหน้า

ก่อนอื่นวิ่ง

 python3 prepare_align.py --dataset DATASET

สำหรับการเตรียมการบางอย่าง

สำหรับการจัดตำแหน่งที่ถูกบังคับมอนทรีออลบังคับให้ผู้จัดตำแหน่ง (MFA) ใช้เพื่อให้ได้การจัดตำแหน่งระหว่างคำพูดและลำดับฟอนิม การจัดตำแหน่งที่สกัดไว้ล่วงหน้าสำหรับชุดข้อมูลมีให้ที่นี่ คุณต้องคลายซิปไฟล์ใน preprocessed_data/DATASET/TextGrid/ อีกวิธีหนึ่งคุณสามารถเรียกใช้การจัดตำแหน่งด้วยตัวเอง

หลังจากนั้นเรียกใช้สคริปต์การประมวลผลล่วงหน้าโดย

 python3 preprocess.py --dataset DATASET

การฝึกอบรม

คุณสามารถฝึกอบรมแบบจำลองสามประเภท: ' ไร้เดียงสา ', ' aux ' และ ' ตื้น '

การฝึกอบรมเวอร์ชันไร้เดียงสา (' ไร้เดียงสา '):
ฝึกอบรมเวอร์ชั่นที่ไร้เดียงสาด้วย
```
 python3 train.py --model naive --dataset DATASET
```
การฝึกอบรมตัวถอดรหัสสำหรับรุ่นตื้น (' aux '):
ในการฝึกอบรมรุ่นตื้นเราจำเป็นต้องได้รับการฝึกอบรมล่วงหน้า 2 คำสั่งด้านล่างจะช่วยให้คุณฝึกอบรมโมดูล FastSpeech2 รวมถึงตัวถอดรหัสเสริม
```
 python3 train.py --model aux --dataset DATASET
```
เคล็ดลับง่ายขึ้นสำหรับการทำนายขอบเขต:
ในการรับขอบเขต K จากชุดข้อมูลการตรวจสอบของเราคุณสามารถเรียกใช้ตัวทำนายขอบเขตโดยใช้ FastSpeech2 เสริมที่ได้รับการฝึกอบรมล่วงหน้า 2 โดยคำสั่งต่อไปนี้
```
 python3 boundary_predictor.py --restore_step RESTORE_STEP --dataset DATASET
```
มันจะพิมพ์ค่าที่คาดการณ์ไว้ (พูด K_STEP ) ในบันทึกคำสั่ง
จากนั้นตั้งค่าการกำหนดค่าด้วยค่าที่คาดการณ์ไว้ดังนี้
```
 # In the model.yaml
denoiser :
    K_step : K_STEP
```
โปรดทราบว่าสิ่งนี้ขึ้นอยู่กับเคล็ดลับที่แนะนำในภาคผนวก B.
การฝึกอบรมเวอร์ชันตื้น (' ตื้น '):
ในการใช้ประโยชน์จาก FastSpeech2 ที่ผ่านการฝึกอบรมมาแล้วรวมถึงตัวถอดรหัสเสริมคุณต้องตั้งค่า restore_step ด้วยขั้นตอนสุดท้ายของการฝึกอบรมเสริม FastSpeech2 เป็นคำสั่งต่อไปนี้
```
 python3 train.py --model shallow --restore_step RESTORE_STEP --dataset DATASET
```
ตัวอย่างเช่นหากจุดตรวจสอบล่าสุดถูกบันทึกไว้ที่ 160000 ขั้นตอนในระหว่างการฝึกอบรมเสริมคุณต้องตั้งค่า restore_step ด้วย 160000 จากนั้นมันจะโหลดโมเดล AUX จากนั้นทำการฝึกอบรมต่อภายใต้กลไกการฝึกอบรมตื้น

บอร์ดบอร์ด

ใช้

 tensorboard --logdir output/log/LJSpeech

เพื่อให้บริการ Tensorboard บนบ้านของคุณ เส้นโค้งการสูญเสีย mel-spectrograms สังเคราะห์และเสียงจะแสดง

การแพร่กระจายที่ไร้เดียงสา

การแพร่กระจายแบบตื้น

การเปรียบเทียบการสูญเสีย

หมายเหตุ

(DiffSpeech รุ่นไร้เดียงสา) จำนวนพารามิเตอร์ที่เรียนรู้ได้คือ 27.767M ซึ่งคล้ายกับกระดาษต้นฉบับ ( 27.722M )
น่าเสียดายที่ขอบเขตที่คาดการณ์ไว้ (ของ LJSpeech) สำหรับการแพร่กระจายแบบตื้นในการดำเนินการในปัจจุบันคือ 100 ซึ่งเป็นช่วงเวลาที่เต็มไปด้วยการแพร่กระจายที่ไร้เดียงสาเพื่อให้ไม่มีข้อได้เปรียบในขั้นตอนการแพร่กระจาย
ใช้ hifi-gan แทน wavegan คู่ขนาน (PWG) สำหรับการร้อง

การอ้างอิง

 @misc{lee2021diffsinger,
  author = {Lee, Keon},
  title = {DiffSinger},
  year = {2021},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/keonlee9420/DiffSinger}}
}