ดาวน์โหลด Parallel Tacotron2 - ดาวน์โหลดซอร์สโค้ด Parallel Tacotron2

Parallel Tacotron2

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

Tacotron2 คู่ขนาน

การใช้งาน Pytorch ของ Tacotron 2 คู่ขนานของ Google: โมเดล TTS ที่ไม่ใช่ระบบประสาทแบบอัตโนมัติที่มีการสร้างแบบจำลองระยะเวลาที่แตกต่างกัน

การอัปเดต

2021.05.25: Only the soft-DTW remains the last hurdle! ตามคำแนะนำของผู้เขียนเกี่ยวกับการดำเนินการฉันได้ทำการทดสอบหลายครั้งในแต่ละโมดูลทีละโมเลกุลภายใต้สัญญาณระยะเวลาภายใต้การดูแลด้วยการสูญเสีย L1 (FastSpeech2) จนถึงตอนนี้ฉันสามารถยืนยันได้ว่าโมดูลทั้งหมดยกเว้น Soft-DTW ทำงานได้ดีดังนี้ (synthesized spectrogram, GT spectrogram, การจัดตำแหน่งที่เหลือและ W จากการเรียนรู้ที่เรียนรู้จากบนลงล่าง)
สำหรับรายละเอียดโปรดตรวจสอบบันทึกการกระทำล่าสุดและส่วนปัญหาการใช้งานที่อัปเดต นอกจากนี้คุณสามารถค้นหาการทดลองอย่างต่อเนื่องได้ที่ https://github.com/keonlee9420/fastspeech2/commits/ptaco2
2021.05.15: การดำเนินการเสร็จสิ้น ตรวจสอบสติในการฝึกอบรมและการอนุมาน แต่ก็ยังไม่สามารถมาบรรจบกันได้
I'm waiting for your contribution! โปรดแจ้งให้ฉันทราบหากคุณพบข้อผิดพลาดใด ๆ ในการดำเนินการของฉันหรือคำแนะนำที่มีค่าใด ๆ ในการฝึกอบรมแบบจำลองให้สำเร็จ ดูส่วนปัญหาการใช้งาน

การฝึกอบรม

ความต้องการ

คุณสามารถติดตั้งการพึ่งพา Python ด้วย
```
pip3 install -r requirements.txt
```
ติดตั้ง Fairseq (เอกสารอย่างเป็นทางการ, GitHub) เพื่อใช้ประโยชน์ LConvBlock โปรดตรวจสอบ #5 เพื่อแก้ไขปัญหาใด ๆ เกี่ยวกับการติดตั้ง

ชุดข้อมูล

ชุดข้อมูลที่รองรับ:

LJSpeech: ชุดข้อมูลภาษาอังกฤษลำโพงเดียวประกอบด้วยคลิปเสียงสั้น 13100 คลิปของข้อความอ่านข้อความหญิงจากหนังสือสารคดี 7 เล่มรวมประมาณ 24 ชั่วโมง
(จะเพิ่มมากขึ้น)

การประมวลผลล่วงหน้า

หลังจากดาวน์โหลดชุดข้อมูลให้ตั้งค่า corpus_path ใน preprocess.yaml และเรียกใช้สคริปต์การเตรียมการ:

 python3 prepare_data.py config/LJSpeech/preprocess.yaml

จากนั้นเรียกใช้สคริปต์การประมวลผลล่วงหน้า:

 python3 preprocess.py config/LJSpeech/preprocess.yaml

การฝึกอบรม

ฝึกอบรมแบบจำลองของคุณด้วย

 python3 train.py -p config/LJSpeech/preprocess.yaml -m config/LJSpeech/model.yaml -t config/LJSpeech/train.yaml

แบบจำลองยังไม่สามารถมาบรรจบกันได้ ฉันกำลังดีบัก แต่มันจะเพิ่มขึ้นหากการบริจาคที่ยอดเยี่ยมของคุณพร้อม!

การอนุมาน

สำหรับการอนุมานครั้งเดียววิ่ง

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step 900000 --mode single -p config/LJSpeech/preprocess.yaml -m config/LJSpeech/model.yaml -t config/LJSpeech/train.yaml

คำพูดที่สร้างขึ้นจะถูกบันทึกไว้ใน output/result/

การอนุมานแบทช์

รองรับการอนุมานแบบแบทช์ด้วยลอง

 python3 synthesize.py --source preprocessed_data/LJSpeech/val.txt --restore_step 900000 --mode batch -p config/LJSpeech/preprocess.yaml -m config/LJSpeech/model.yaml -t config/LJSpeech/train.yaml

เพื่อสังเคราะห์คำพูดทั้งหมดใน preprocessed_data/LJSpeech/val.txt

บอร์ดบอร์ด

ใช้

 tensorboard --logdir output/log/LJSpeech

เพื่อให้บริการ Tensorboard บนบ้านของคุณ

ปัญหาการดำเนินการ

โดยรวมแล้วการทำให้เป็นมาตรฐานหรือการเปิดใช้งานซึ่งไม่ได้แนะนำในกระดาษต้นฉบับมีการจัดเรียงอย่างเพียงพอเพื่อป้องกันค่า NAN (การไล่ระดับสี) ในการคำนวณไปข้างหน้าและย้อนกลับ (น่านระบุว่ามีบางอย่างผิดปกติในเครือข่าย)

ตัวเข้ารหัสข้อความ

ใช้ FFTBlock ของ fastspeech2 สำหรับบล็อกหม้อแปลงของตัวเข้ารหัสข้อความ
ใช้ DROPOUT 0.2 สำหรับตัว ConvBlock ข้อความ
เพื่อเรียกคืน "เอ็นจิ้นการทำให้เป็นกรรมสิทธิ์"
- ใช้การทำให้เป็นมาตรฐานข้อความเดียวกันกับใน FastSpeech2
- ใช้ฟังก์ชัน grapheme_to_phoneme (ดู ./text / init )

ตัวเข้ารหัสที่เหลือ

ใช้ 80 channels mel-spectrogrom แทน 128-bin
การฝังตำแหน่งไซน์แบบปกติปกติใช้ในระดับเฟรมแทนที่จะเป็นชุดของการฝังตำแหน่งสามตำแหน่งในทาโคทตรอนแบบขนาน เนื่องจากแบบจำลองขึ้นอยู่กับการเรียนรู้ที่ไม่ได้รับการดูแลอย่างสมบูรณ์สำหรับตำแหน่งตัวเลือกนี้อาจเป็นเหตุผลสำหรับความล้มเหลวในการบรรจบกันของแบบจำลอง

ตัวทำนายระยะเวลาและเรียนรู้การสุ่มตัวอย่าง

ใช้ nn.SiLU() สำหรับการเปิดใช้งาน Swish
เมื่อได้รับ W และ C การดำเนินการต่อการต่อเนื่องจะถูกนำไปใช้ระหว่าง S , E และ V หลังจากการแพร่กระจายเฟรมโดเมน (T โดเมน) ของ V

ตัวถอดรหัส

ใช้ LConvBlock และการฝังตำแหน่งไซน์ปกติปกติ
การทำซ้ำสเปคโตรรัมซ้ำจะถูกฉายด้วยชั้นเชิงเส้น
ใช้ nn.Tanh() กับแต่ละเอาต์พุต LConvBLock (ตามรูปแบบการเปิดใช้งานของชิ้นส่วนถอดรหัสใน FastSpeech2)

การสูญเสีย

ใช้การเพิ่มประสิทธิภาพและกำหนดตารางเวลาของ FastSpeech2 (ซึ่งมาจากความสนใจเป็นสิ่งที่คุณต้องการตามที่อธิบายไว้ในกระดาษต้นฉบับ)
ฐานบน pytorch-softdtw-cuda (โพสต์) สำหรับ soft-dtw
1. ใช้ Soft-DTW ที่กำหนดเองใน model/soft_dtw_cuda.py ซึ่งสะท้อนให้เห็นถึงการเรียกซ้ำที่แนะนำในกระดาษต้นฉบับ
2. ใน Soft-DTW ดั้งเดิมการสูญเสียครั้งสุดท้ายจะไม่ถูกสันนิษฐานและดังนั้นจึงมีการคำนวณเพียง E เท่านั้น แต่ใช้เป็นฟังก์ชั่นการสูญเสียผลิตภัณฑ์ Jacobian จะถูกเพิ่มเข้ามาเพื่อส่งคืนเป้าหมายการเข้าร่วมของ R WRT Input X
3. ปัจจุบันขนาดแบทช์สูงสุดคือ 8 ใน 24GIB GPU (TITAN RTX) เนื่องจากปัญหาความซับซ้อนของพื้นที่ในการสูญเสีย Soft-DTW
  - ในบทความต้นฉบับการดำเนินการแถบเส้นทแยงมุมที่แตกต่างกันแบบกำหนดเองได้ถูกนำไปใช้และใช้เพื่อแก้ปัญหาความซับซ้อนของ O (t^2) แต่ส่วนนี้ยังไม่ได้รับการสำรวจในการใช้งานปัจจุบัน

การอ้างอิง

 @misc{lee2021parallel_tacotron2,
  author = {Lee, Keon},
  title = {Parallel-Tacotron2},
  year = {2021},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/keonlee9420/Parallel-Tacotron2}}
}

การอ้างอิง

FastSpeech2 ของ Ming024 (ช้ากว่า 2021.02.26 Ver.)
Tacotron แบบขนาน: TTS ที่ไม่ใช่ตัวเอกและควบคุมได้
TACOTRON 2 แบบขนาน: โมเดล TTS ที่ไม่ใช่ระบบประสาทแบบ Autoregressive พร้อมการสร้างแบบจำลองระยะเวลาที่แตกต่างกัน

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท โค้ดแหล่งที่มา AI
เวลาอัปเดต 2025-08-20
ขนาด 101.63MB
มาจาก Github

แอปที่เกี่ยวข้อง

golang parallel download with accept ranges

2024-11-09
GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
ML stack

โค้ดแหล่งที่มา AI

1.0.0
awesome free chatgpt

โค้ดแหล่งที่มา AI

1.0.0
pywin_contextmenu

โค้ดแหล่งที่มา AI

Version update
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด