ดาวน์โหลด YourTTS - ดาวน์โหลดซอร์สโค้ด YourTTS

YourTTS

โค้ดแหล่งที่มา AI

MOS Samples

ดาวน์โหลด

Yourtts: ไปสู่ TTS หลายลำโพงที่ไม่มีการยิงและการแปลงเสียงแบบไม่มีการยิงสำหรับทุกคน

ในบทความล่าสุดของเราเราเสนอโมเดล Yourtts Yourtts นำพลังของวิธีการพูดได้หลายภาษามาสู่งาน TTS แบบหลายลำโพงที่ไม่มีการยิง วิธีการของเราสร้างขึ้นตามรูปแบบ VITS และเพิ่มการปรับเปลี่ยนใหม่ ๆ สำหรับการฝึกหลายลำโพงและการฝึกอบรมหลายภาษา เราประสบความสำเร็จอย่างล้ำสมัย (SOTA) ส่งผลให้ TTs หลายลำโพงแบบไม่ยิงเข้ากันเป็นศูนย์และผลลัพธ์ที่เทียบเท่ากับ SOTA ในการแปลงเสียงแบบศูนย์-ช็อตบนชุดข้อมูล VCTK นอกจากนี้วิธีการของเรายังได้รับผลลัพธ์ที่มีแนวโน้มในภาษาเป้าหมายด้วยชุดข้อมูลลำโพงเดี่ยวเปิดโอกาสสำหรับ TTS หลายลำโพงที่ไม่มีการยิงและระบบการแปลงเสียงแบบศูนย์-ช็อตในภาษาที่มีทรัพยากรต่ำ ในที่สุดก็เป็นไปได้ที่จะปรับแต่งโมเดล Yourtts ด้วยการพูดน้อยกว่า 1 นาทีและบรรลุผลลัพธ์ที่ทันสมัยในความคล้ายคลึงกันของเสียงและมีคุณภาพที่สมเหตุสมผล นี่เป็นสิ่งสำคัญที่จะอนุญาตให้มีการสังเคราะห์ผู้พูดที่มีลักษณะเสียงหรือการบันทึกที่แตกต่างกันมากจากที่เห็นในระหว่างการฝึกอบรม

erratum

ในส่วนที่ 2 ของกระดาษ Yourtts เราได้กำหนดฟังก์ชั่นการสูญเสียความสอดคล้องของลำโพง (SCL) นอกจากนี้เราได้ใช้ฟังก์ชั่นการสูญเสียนี้ในการทดลองปรับแต่ง 4 ครั้งในส่วนที่ 3 และ 4 (Exp. 1 + SCL, Exp. 2 + SCL, Exp. 3 + SCL และ Exp. 4 + SCL) อย่างไรก็ตามเนื่องจากความผิดพลาดในการนำไปใช้การไล่ระดับสีของฟังก์ชั่นการสูญเสียนี้ไม่ได้เผยแพร่สำหรับแบบจำลองในระหว่างการฝึกอบรม หมายความว่าการทดลองปรับแต่งที่ใช้การสูญเสียนี้เทียบเท่ากับการฝึกอบรมแบบจำลองสำหรับขั้นตอนเพิ่มเติมโดยไม่ต้องสูญเสียความสอดคล้องของลำโพง ข้อผิดพลาดนี้ถูกค้นพบโดยTomáš Nekvinda และรายงานเกี่ยวกับหมายเลขฉบับที่ 2348 ของที่เก็บ Coqui TTS ข้อผิดพลาดนี้ได้รับการแก้ไขในหมายเลขคำขอดึง 2364 บนที่เก็บ Coqui TTS ปัจจุบันได้รับการแก้ไขสำหรับ Coqui TTS เวอร์ชัน v0.12.0 หรือสูงกว่า เราขอขอบคุณTomáš Nekvinda สำหรับการค้นหาข้อผิดพลาดและรายงาน

เวอร์ชันการผลิต

มาลองใช้ภาษาอังกฤษแบบเต็มรุ่นล่าสุดและยิ่งใหญ่ที่สุดของเราเท่านั้น https://coqui.ai/

ตัวอย่างเสียง

เยี่ยมชมเว็บไซต์ของเราสำหรับตัวอย่างเสียง

การดำเนินการ

การทดลองทั้งหมดของเราถูกนำไปใช้กับ repo coqui tts

การสาธิต colab

การสาธิต	url
zero-shot tts	การเชื่อมโยง
Zero-shot VC	การเชื่อมโยง
Zero -shot VC - การทดลอง 1 (ฝึกอบรมด้วย VCTK เพียงแค่)	การเชื่อมโยง

จุดตรวจ

จุดตรวจสอบที่ปล่อยออกมาทั้งหมดได้รับอนุญาตภายใต้ CC BY-NC-ND 4.0

แบบอย่าง	url
ตัวเข้ารหัสลำโพง	การเชื่อมโยง
EXP 1. Yourtts-en (VCTK)	ไม่สามารถใช้ได้
exp 1. yourtts-en (vctk) + scl	การเชื่อมโยง
exp 2. Yourtts-en (VCTK) -pt	ไม่สามารถใช้ได้
exp 2. yourtts-en (vctk) -pt + scl	ไม่สามารถใช้ได้
exp 3. yourtts-en (vctk) -pt-fr	ไม่สามารถใช้ได้
exp 3. yourtts-en (vctk) -pt-fr scl	ไม่สามารถใช้ได้
exp 4. Yourtts-en (VCTK+Libritts) -pt-fr scl	ไม่สามารถใช้ได้

Coqui TTS รุ่นที่ปล่อยออกมา

TTS

เพื่อใช้? TTS เวอร์ชัน v0.7.0 เปิดตัวโมเดล YORTTS สำหรับข้อความต่อการพูดใช้คำสั่งต่อไปนี้:

 tts  --text "This is an example!" --model_name tts_models/multilingual/multi-dataset/your_tts  --speaker_wav target_speaker_wav.wav --language_idx "en"

พิจารณา "target_speaker_wav.wav" ตัวอย่างเสียงจากลำโพงเป้าหมาย

การแปลงเสียง

เพื่อใช้? TTS เปิดตัวโมเดล Yourtts สำหรับการแปลงด้วยเสียงใช้คำสั่งต่อไปนี้:

 tts --model_name tts_models/multilingual/multi-dataset/your_tts  --speaker_wav target_speaker_wav.wav --reference_wav  target_content_wav.wav --language_idx "en"

พิจารณา "target_content_wav.wav" เป็นไฟล์คลื่นอ้างอิงเพื่อแปลงเป็นเสียงของลำโพง "target_speaker_wav.wav"

ผลลัพธ์การจำลองแบบ

เพื่อประกันความสามารถในการทำซ้ำเราทำให้เสียงที่ใช้ในการสร้าง MOS ที่มีอยู่ที่นี่ นอกจากนี้เรายังให้ MOS สำหรับแต่ละเสียงที่นี่

หากต้องการสร้างผลลัพธ์ MOS ของเราอีกครั้งให้ทำตามคำแนะนำที่นี่ ในการทำนายประโยคทดสอบและสร้าง SECs โปรดใช้สมุดบันทึก Jupyter ที่มีอยู่ที่นี่

ลำโพงทดสอบ:

Libritts (ทดสอบสะอาด): 1188, 1995, 260, 1284, 2300, 237, 908, 1580, 121 และ 1089

VCTK: P261, P225, P294, P347, P238, P234, P248, P335, P245, P326 และ P302

MLS Portuguese: 12710, 5677, 12249, 12287, 9351, 11995, 7925, 3050, 4367 และ 1306

การทำซ้ำได้

เพื่อทำซ้ำการทดลองที่ 1 อย่างเต็มที่เรามีสูตรเกี่ยวกับ coqui tts การดาวน์โหลดสูตรนี้มีการสุ่มตัวอย่าง, แยกลำโพงฝังและฝึกอบรมโมเดลโดยไม่จำเป็นต้องมีการเปลี่ยนแปลงใด ๆ ในรหัส

บทความนี้ทำโดยใช้ Coqui TTS Fork ของฉันบนสาขาหลายภาษา Torchaudio-SE

หากคุณต้องการใช้ Coqui TTS เวอร์ชันล่าสุดคุณจะได้รับ config.json จากรุ่น Coqui ที่ปล่อยออกมา

ด้วย config.json ในมือคุณต้องเปลี่ยนการกำหนดค่า "ชุดข้อมูล" เป็นชุดข้อมูลของคุณก่อน การใช้ config.json ด้วยการปรับการกำหนดค่า "ชุดข้อมูล" คุณจำเป็นต้องแยกการฝังตัวของลำโพงโดยใช้ตัวเข้ารหัสลำโพงที่ปล่อยออกมาของเราโดยใช้คำสั่งต่อไปนี้: python3 TTS/bin/compute_embeddings.py --model_path model_se.pth.tar --config_path config_se.json --config_dataset_path config.json --output_path d_vector_file.json

"model_se.pth.tar" และ "config_se.json" สามารถพบได้ในโมเดลที่เปิดตัว coqui ในขณะที่ config.json คือการกำหนดค่าที่คุณตั้งค่าพา ธ สำหรับ

พารามิเตอร์อื่น ๆ ที่คุณควรเปลี่ยนอยู่ใน "config.json":

"D_VECTOR_FILE": ตอนนี้คุณมีไฟล์ฝังลำโพง (D_VECTOR_FILE.JSON) ปรับพารามิเตอร์ "D_VECTOR_FILE" ในการตั้งค่าการกำหนดค่าไปยังเส้นทางของไฟล์ฝังลำโพง
"output_path": เส้นทางสำหรับการบันทึกจุดตรวจและบันทึกการฝึกอบรม
"Speaker_encoder_config_path": ตัวเข้ารหัสลำโพง config เพื่อใช้ในการคำนวณการสูญเสียการสูญเสียความคล้ายคลึงกันของลำโพงโคไซน์ความคล้ายคลึงกัน (ตั้งค่าเป็นเส้นทาง config_se.json)
"Speaker_encoder_model_path": จุดตรวจสอบตัวเข้ารหัสลำโพงที่ใช้ในการคำนวณการสูญเสียการสูญเสียความคล้ายคลึงกันของลำโพงโคไซน์ความคล้ายคลึงกัน (ตั้งค่าเป็นเส้นทาง "config_se.json")

ตอนนี้คุณมี config.json ที่กำหนดค่าให้ทำซ้ำการฝึกอบรมคุณสามารถใช้คำสั่งต่อไปนี้ (ถ้าคุณชอบคุณสามารถใช้ -restore_path {checkpoint_path} เพื่อถ่ายโอนการเรียนรู้จากจุดตรวจและเร่งการฝึกอบรม: python3 TTS/bin/train_tts.py --config_path config.json

การอ้างอิง

พิมพ์ล่วงหน้า


@ARTICLE{2021arXiv211202418C,
  author = {{Casanova}, Edresson and {Weber}, Julian and {Shulby}, Christopher and {Junior}, Arnaldo Candido and {G{"o}lge}, Eren and {Antonelli Ponti}, Moacir},
  title = "{YourTTS: Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone}",
  journal = {arXiv e-prints},
  keywords = {Computer Science - Sound, Computer Science - Computation and Language, Electrical Engineering and Systems Science - Audio and Speech Processing},
  year = 2021,
  month = dec,
  eid = {arXiv:2112.02418},
  pages = {arXiv:2112.02418},
  archivePrefix = {arXiv},
  eprint = {2112.02418},
  primaryClass = {cs.SD},
  adsurl = {https://ui.adsabs.harvard.edu/abs/2021arXiv211202418C},
  adsnote = {Provided by the SAO/NASA Astrophysics Data System}
}

กระดาษที่เผยแพร่ที่ ICML

 @inproceedings{casanova2022yourtts,
  title={Yourtts: Towards zero-shot multi-speaker tts and zero-shot voice conversion for everyone},
  author={Casanova, Edresson and Weber, Julian and Shulby, Christopher D and Junior, Arnaldo Candido and G{"o}lge, Eren and Ponti, Moacir A},
  booktitle={International Conference on Machine Learning},
  pages={2709--2720},
  year={2022},
  organization={PMLR}
}

ขยาย

ข้อมูลเพิ่มเติม