ดาวน์โหลด Cross Speaker Emotion Transfer - Cross Speaker Emotion Transfer ซอร์สโค้ดดาวน์โหลดซอร์สโค้ด

Cross Speaker Emotion Transfer

โค้ดแหล่งที่มา AI

v0.2.0

ดาวน์โหลด

Cross-Speaker-Emotion-Transfer-การใช้งาน Pytorch

การใช้งาน Pytorch ของการถ่ายโอนอารมณ์ข้ามลำโพงของ Bytedance ขึ้นอยู่กับการทำให้เป็นมาตรฐานของเลเยอร์สภาพลำโพงและการฝึกอบรมกึ่งผู้ดูแลในการพูดแบบข้อความเป็นคำพูด

ตัวอย่างเสียง

ตัวอย่างเสียงมีให้ที่ /สาธิต

เร็ว

ชุดข้อมูล หมายถึงชื่อของชุดข้อมูลเช่น RAVDESS ในเอกสารต่อไปนี้

การพึ่งพาอาศัยกัน

คุณสามารถติดตั้งการพึ่งพา Python ด้วย

 pip3 install -r requirements.txt

นอกจากนี้ยังติดตั้ง Fairseq (เอกสารอย่างเป็นทางการ GitHub) เพื่อใช้ LConvBlock โปรดตรวจสอบที่นี่เพื่อแก้ไขปัญหาใด ๆ เกี่ยวกับการติดตั้ง โปรดทราบว่า Dockerfile มีไว้สำหรับผู้ใช้ Docker แต่คุณต้องติดตั้ง Fairseq ด้วยตนเอง

การอนุมาน

คุณต้องดาวน์โหลดโมเดลที่ผ่านการฝึกอบรมและวางไว้ใน output/ckpt/DATASET/

เพื่อแยกโทเค็นอารมณ์อ่อน ๆ ออกจากเสียงอ้างอิงให้เรียกใช้

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --speaker_id SPEAKER_ID --ref_audio REF_AUDIO_PATH --restore_step RESTORE_STEP --mode single --dataset DATASET

หรือเพื่อใช้โทเค็นอารมณ์ที่แข็งจากรหัสอารมณ์

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --speaker_id SPEAKER_ID --emotion_id EMOTION_ID --restore_step RESTORE_STEP --mode single --dataset DATASET

พจนานุกรมของลำโพงที่เรียนรู้สามารถพบได้ที่ preprocessed_data/DATASET/speakers.json และคำพูดที่สร้างขึ้นจะถูกนำไปใช้ใน output/result/

การอนุมานแบทช์

รองรับการอนุมานแบบแบทช์ด้วยลอง

 python3 synthesize.py --source preprocessed_data/DATASET/val.txt --restore_step RESTORE_STEP --mode batch --dataset DATASET

เพื่อสังเคราะห์คำพูดทั้งหมดใน preprocessed_data/DATASET/val.txt โปรดทราบว่ามีเพียงโทเค็นอารมณ์ที่แข็งจากรหัสอารมณ์ที่กำหนดในโหมดนี้

การฝึกอบรม

ชุดข้อมูล

ชุดข้อมูลที่รองรับคือ

Ravdess: ส่วนนี้ของ Ravdess มีไฟล์ 1440: 60 การทดลองต่อนักแสดง x 24 นักแสดง = 1440 Ravdess มีนักแสดงมืออาชีพ 24 คน (หญิง 12 คน, ชาย 12 คน), การเปล่งออกมาสองข้อความ อารมณ์การพูดรวมถึงความสงบความสุขเศร้าโกรธกลัวความประหลาดใจและการแสดงออกที่น่ารังเกียจ การแสดงออกแต่ละครั้งจะเกิดขึ้นที่ความเข้มทางอารมณ์สองระดับ (ปกติ, แข็งแรง) โดยมีการแสดงออกที่เป็นกลางเพิ่มเติม

ภาษาและชุดข้อมูลของคุณเอง สามารถปรับได้ตามที่นี่

การประมวลผลล่วงหน้า

สำหรับ TTS หลายลำโพงที่ มีลำโพง Embedder ดาวน์โหลด Rescnn Softmax+Triplet Pretrained Model ของ Deepspeaker ของ Philipperemy สำหรับการฝังลำโพงและค้นหาใน ./deepspeaker/pretrained_models/ deepspeaker/pretrained_models/
วิ่ง
```
 python3 prepare_align.py --dataset DATASET
```
สำหรับการเตรียมการบางอย่าง
สำหรับการจัดตำแหน่งที่ถูกบังคับมอนทรีออลบังคับให้ผู้จัดตำแหน่ง (MFA) ใช้เพื่อให้ได้การจัดตำแหน่งระหว่างคำพูดและลำดับฟอนิม การจัดตำแหน่งที่สกัดไว้ล่วงหน้าสำหรับชุดข้อมูลมีให้ที่นี่ คุณต้องคลายซิปไฟล์ใน preprocessed_data/DATASET/TextGrid/ อีกวิธีหนึ่งคุณสามารถเรียกใช้การจัดตำแหน่งด้วยตัวเอง
หลังจากนั้นเรียกใช้สคริปต์การประมวลผลล่วงหน้าโดย
```
 python3 preprocess.py --dataset DATASET
```

การฝึกอบรม

ฝึกอบรมแบบจำลองของคุณด้วย

 python3 train.py --dataset DATASET

ตัวเลือกที่มีประโยชน์:

หากต้องการใช้ความแม่นยำแบบผสมอัตโนมัติต่อภาคผนวก --use_amp อาร์กิวเมนต์ไปยังคำสั่งด้านบน
ผู้ฝึกสอนถือว่าการฝึกอบรมหลายโหนดเดียว หากต้องการใช้ GPU ที่เฉพาะเจาะจงให้ระบุ CUDA_VISIBLE_DEVICES=<GPU_IDs> ที่จุดเริ่มต้นของคำสั่งด้านบน

บอร์ดบอร์ด

ใช้

 tensorboard --logdir output/log

เพื่อให้บริการ Tensorboard บนบ้านของคุณ เส้นโค้งการสูญเสีย mel-spectrograms สังเคราะห์และเสียงจะแสดง

หมายเหตุ

การใช้งานปัจจุบันไม่ได้รับการฝึกฝนในแบบกึ่งผู้ดูแลเนื่องจากขนาดชุดข้อมูลขนาดเล็ก แต่มันสามารถเปิดใช้งานได้ง่ายโดยการระบุลำโพงเป้าหมายและไม่มี ID อารมณ์โดยไม่มีการสูญเสียตัวแยกประเภทอารมณ์
ใน ตัวถอดรหัส มีการใช้บล็อก LCONV 15 x 1 แทน 17 x 1 เนื่องจากปัญหาหน่วยความจำ
สองตัวเลือกสำหรับการฝังสำหรับการตั้งค่า TTS หลายลำโพง : การฝึกอบรมลำโพงฝังตัวจากศูนย์หรือใช้โมเดล Deepspeaker ของ Philipperemy ที่ผ่านการฝึกอบรมมาก่อน (ตามที่ Styler ทำ) คุณสามารถสลับมันได้โดยการตั้งค่าการกำหนดค่า (ระหว่าง 'none' และ 'DeepSpeaker' )
Deepspeaker บนชุดข้อมูล Ravdess แสดงการระบุตัวตนที่ชัดเจนระหว่างผู้พูด รูปต่อไปนี้แสดงพล็อต T-SNE ของการฝังลำโพงสกัด