DailyTalk Download - ดาวน์โหลดซอร์สโค้ด DailyTalk

DailyTalk

โค้ดแหล่งที่มา AI

v0.1.0

ดาวน์โหลด

DailyTalk: ชุดข้อมูลการพูดคุยสำหรับการสนทนาแบบข้อความเป็นคำพูด

Keon Lee ^* , Kyumin Park ^* , Daeyoung Kim

ในบทความของเราเราแนะนำ DailyTalk ซึ่งเป็นชุดข้อมูลการสนทนาที่มีคุณภาพสูงที่ออกแบบมาสำหรับข้อความเป็นคำพูด

บทคัดย่อ: ชุดข้อมูลส่วนใหญ่ของข้อความเป็นคำพูด (TTS) ซึ่งเป็นคอลเลกชันของคำพูดของแต่ละบุคคลมีแง่มุมการสนทนาน้อย ในบทความนี้เราแนะนำ DailyTalk ซึ่งเป็นชุดข้อมูลการสนทนาที่มีคุณภาพสูงที่ออกแบบมาสำหรับ TTS การสนทนา เราสุ่มตัวอย่างแก้ไขและบันทึกบทสนทนา 2,541 จากชุดข้อมูลการสนทนาแบบเปิดโดเมน DailyDialog ที่สืบทอดแอตทริบิวต์คำอธิบายประกอบ ด้านบนของชุดข้อมูลของเราเราขยายงานก่อนหน้านี้เป็นพื้นฐานของเราซึ่ง TTS ที่ไม่ได้อยู่ในระบบจะถูกปรับอากาศในข้อมูลประวัติศาสตร์ในบทสนทนา จากการทดลองพื้นฐานที่มีทั้งตัวชี้วัดทั่วไปและตัวชี้วัดนวนิยายของเราเราแสดงให้เห็นว่า DailyTalk สามารถใช้เป็นชุดข้อมูล TTS ทั่วไปและยิ่งกว่านั้นพื้นฐานของเราสามารถเป็นตัวแทนของข้อมูลบริบทจาก DailyTalk ชุดข้อมูล DailyTalk และรหัสพื้นฐานมีให้บริการอย่างอิสระสำหรับการใช้งานทางวิชาการด้วยใบอนุญาต CC-by-SA 4.0

ชุดข้อมูล

คุณสามารถดาวน์โหลดชุดข้อมูลของเรา โปรดดูรายละเอียดสถิติสำหรับรายละเอียด

นางแบบที่ได้รับการฝึกฝน

คุณสามารถดาวน์โหลดโมเดลที่ผ่านการฝึกอบรมของเราได้ มีสองไดเรกทอรีที่แตกต่างกัน: 'history_none' และ 'history_guo' อดีตไม่มีการเข้ารหัสประวัติศาสตร์เพื่อไม่ให้โมเดลการสนทนารู้บริบท หลังมีการเข้ารหัสในอดีตหลังจาก TTS แบบ end-to-end สนทนาสำหรับตัวแทนเสียง (Guo et al., 2020)

สลับประเภทของการเข้ารหัสประวัติศาสตร์โดย

 # In the model.yaml
history_encoder :
  type : " Guo " # ["none", "Guo"]

เร็ว

การพึ่งพาอาศัยกัน

คุณสามารถติดตั้งการพึ่งพา Python ด้วย

 pip3 install -r requirements.txt

นอกจากนี้ Dockerfile ยังมีไว้สำหรับผู้ใช้ Docker

การอนุมาน

คุณต้องดาวน์โหลดทั้งชุดข้อมูลของเรา ดาวน์โหลดโมเดลที่ผ่านการฝึกอบรมและวางไว้ใน output/ckpt/DailyTalk/ ยังคลายซิป generator_LJSpeech.pth.tar หรือ generator_universal.pth.tar ในโฟลเดอร์ Hifigan แบบจำลองได้รับการฝึกฝนด้วยการสร้างแบบจำลองระยะเวลาที่ไม่ได้รับการดูแลภายใต้การสร้างหม้อแปลงและประเภทการเข้ารหัสประวัติ

มีเพียงการอนุมานแบทช์เท่านั้นที่ได้รับการสนับสนุนเนื่องจากการสร้างเทิร์นอาจต้องใช้ประวัติบริบทของการสนทนา พยายาม

 python3 synthesize.py --source preprocessed_data/DailyTalk/val_*.txt --restore_step RESTORE_STEP --mode batch --dataset DailyTalk

เพื่อสังเคราะห์คำพูดทั้งหมดใน preprocessed_data/DailyTalk/val_*.txt

การฝึกอบรม

การประมวลผลล่วงหน้า

สำหรับ TTS หลายลำโพงที่ มีลำโพง Embedder ดาวน์โหลด Rescnn Softmax+Triplet Pretrained Model ของ Deepspeaker ของ Philipperemy สำหรับการฝังลำโพงและค้นหาใน ./deepspeaker/pretrained_models/ deepspeaker/pretrained_models/ โปรดทราบว่าโมเดลที่ผ่านการฝึกอบรมของเราไม่ได้รับการฝึกฝนเรื่องนี้ (พวกเขาได้รับการฝึกฝนด้วย speaker_embedder: "none" )
วิ่ง
```
 python3 prepare_align.py --dataset DailyTalk
```
สำหรับการเตรียมการบางอย่าง
สำหรับการจัดตำแหน่งที่ถูกบังคับมอนทรีออลบังคับให้ผู้จัดตำแหน่ง (MFA) ใช้เพื่อให้ได้การจัดตำแหน่งระหว่างคำพูดและลำดับฟอนิม การจัดตำแหน่งที่สกัดไว้ล่วงหน้าสำหรับชุดข้อมูลมีให้ที่นี่ คุณต้องคลายซิปไฟล์ใน preprocessed_data/DailyTalk/TextGrid/ อีกวิธีหนึ่งคุณสามารถเรียกใช้การจัดตำแหน่งด้วยตัวเอง โปรดทราบว่าแบบจำลองที่ผ่านการฝึกอบรมของเราไม่ได้รับการฝึกฝนด้วยการสร้างแบบจำลองระยะเวลาภายใต้การดูแล (พวกเขาได้รับการฝึกฝนด้วย learn_alignment: True )
หลังจากนั้นเรียกใช้สคริปต์การประมวลผลล่วงหน้าโดย
```
 python3 preprocess.py --dataset DailyTalk
```

การฝึกอบรม

ฝึกอบรมแบบจำลองของคุณด้วย

 python3 train.py --dataset DailyTalk

ตัวเลือกที่มีประโยชน์:

หากต้องการใช้ความแม่นยำแบบผสมอัตโนมัติต่อท้าย -อาร์กิวเมนต์ --use_amp กับคำสั่งด้านบน
ผู้ฝึกสอนถือว่าการฝึกอบรมหลายโหนดเดียว หากต้องการใช้ GPU ที่เฉพาะเจาะจงให้ระบุ CUDA_VISIBLE_DEVICES=<GPU_IDs> ที่จุดเริ่มต้นของคำสั่งด้านบน

บอร์ดบอร์ด

ใช้

 tensorboard --logdir output/log

เพื่อให้บริการ Tensorboard บนบ้านของคุณ เส้นโค้งการสูญเสีย mel-spectrograms สังเคราะห์และเสียงจะแสดง

หมายเหตุ

การฝังตัวของ Convolutional ใช้เป็นรูปแบบการใช้งานสำหรับความแปรปรวนระดับเสียงในการสร้างแบบจำลองระยะเวลาที่ไม่ได้รับการดูแล มิฉะนั้นการฝังที่ใช้ถังจะใช้เป็น fastspeech2
การสร้างแบบจำลองระยะเวลาที่ไม่ได้รับการดูแลในระดับเสียงจะใช้เวลานานกว่าระดับเฟรมเนื่องจากการคำนวณความแปรปรวนระดับเสียงเพิ่มเติมจะเปิดใช้งานเมื่อรันไทม์
สองตัวเลือกสำหรับการฝังสำหรับการตั้งค่า TTS หลายลำโพง : การฝึกอบรมลำโพงฝังตัวจากศูนย์หรือใช้โมเดล Deepspeaker ของ Philipperemy ที่ผ่านการฝึกอบรมมาก่อน (ตามที่ Styler ทำ) คุณสามารถสลับมันได้โดยการตั้งค่าการกำหนดค่า (ระหว่าง 'none' และ 'DeepSpeaker' )
สำหรับ Vocoder นั้นใช้ Hifi-Gan สำหรับการทดลองทั้งหมดในบทความของเรา

การอ้างอิง

หากคุณต้องการใช้ชุดข้อมูลและรหัสของเราหรือดูเอกสารของเราโปรดอ้างอิงดังนี้

@misc{lee2022dailytalk,
    title={DailyTalk: Spoken Dialogue Dataset for Conversational Text-to-Speech},
    author={Keon Lee and Kyumin Park and Daeyoung Kim},
    year={2022},
    eprint={2207.01063},
    archivePrefix={arXiv},
    primaryClass={eess.AS}
}