ในบทความล่าสุดของเราเราเสนอโมเดล Yourtts Yourtts นำพลังของวิธีการพูดได้หลายภาษามาสู่งาน TTS แบบหลายลำโพงที่ไม่มีการยิง วิธีการของเราสร้างขึ้นตามรูปแบบ VITS และเพิ่มการปรับเปลี่ยนใหม่ ๆ สำหรับการฝึกหลายลำโพงและการฝึกอบรมหลายภาษา เราประสบความสำเร็จอย่างล้ำสมัย (SOTA) ส่งผลให้ TTs หลายลำโพงแบบไม่ยิงเข้ากันเป็นศูนย์และผลลัพธ์ที่เทียบเท่ากับ SOTA ในการแปลงเสียงแบบศูนย์-ช็อตบนชุดข้อมูล VCTK นอกจากนี้วิธีการของเรายังได้รับผลลัพธ์ที่มีแนวโน้มในภาษาเป้าหมายด้วยชุดข้อมูลลำโพงเดี่ยวเปิดโอกาสสำหรับ TTS หลายลำโพงที่ไม่มีการยิงและระบบการแปลงเสียงแบบศูนย์-ช็อตในภาษาที่มีทรัพยากรต่ำ ในที่สุดก็เป็นไปได้ที่จะปรับแต่งโมเดล Yourtts ด้วยการพูดน้อยกว่า 1 นาทีและบรรลุผลลัพธ์ที่ทันสมัยในความคล้ายคลึงกันของเสียงและมีคุณภาพที่สมเหตุสมผล นี่เป็นสิ่งสำคัญที่จะอนุญาตให้มีการสังเคราะห์ผู้พูดที่มีลักษณะเสียงหรือการบันทึกที่แตกต่างกันมากจากที่เห็นในระหว่างการฝึกอบรม
ในส่วนที่ 2 ของกระดาษ Yourtts เราได้กำหนดฟังก์ชั่นการสูญเสียความสอดคล้องของลำโพง (SCL) นอกจากนี้เราได้ใช้ฟังก์ชั่นการสูญเสียนี้ในการทดลองปรับแต่ง 4 ครั้งในส่วนที่ 3 และ 4 (Exp. 1 + SCL, Exp. 2 + SCL, Exp. 3 + SCL และ Exp. 4 + SCL) อย่างไรก็ตามเนื่องจากความผิดพลาดในการนำไปใช้การไล่ระดับสีของฟังก์ชั่นการสูญเสียนี้ไม่ได้เผยแพร่สำหรับแบบจำลองในระหว่างการฝึกอบรม หมายความว่าการทดลองปรับแต่งที่ใช้การสูญเสียนี้เทียบเท่ากับการฝึกอบรมแบบจำลองสำหรับขั้นตอนเพิ่มเติมโดยไม่ต้องสูญเสียความสอดคล้องของลำโพง ข้อผิดพลาดนี้ถูกค้นพบโดยTomáš Nekvinda และรายงานเกี่ยวกับหมายเลขฉบับที่ 2348 ของที่เก็บ Coqui TTS ข้อผิดพลาดนี้ได้รับการแก้ไขในหมายเลขคำขอดึง 2364 บนที่เก็บ Coqui TTS ปัจจุบันได้รับการแก้ไขสำหรับ Coqui TTS เวอร์ชัน v0.12.0 หรือสูงกว่า เราขอขอบคุณTomáš Nekvinda สำหรับการค้นหาข้อผิดพลาดและรายงาน
มาลองใช้ภาษาอังกฤษแบบเต็มรุ่นล่าสุดและยิ่งใหญ่ที่สุดของเราเท่านั้น https://coqui.ai/
เยี่ยมชมเว็บไซต์ของเราสำหรับตัวอย่างเสียง
การทดลองทั้งหมดของเราถูกนำไปใช้กับ repo coqui tts
| การสาธิต | url |
|---|---|
| zero-shot tts | การเชื่อมโยง |
| Zero-shot VC | การเชื่อมโยง |
| Zero -shot VC - การทดลอง 1 (ฝึกอบรมด้วย VCTK เพียงแค่) | การเชื่อมโยง |
จุดตรวจสอบที่ปล่อยออกมาทั้งหมดได้รับอนุญาตภายใต้ CC BY-NC-ND 4.0
| แบบอย่าง | url |
|---|---|
| ตัวเข้ารหัสลำโพง | การเชื่อมโยง |
| EXP 1. Yourtts-en (VCTK) | ไม่สามารถใช้ได้ |
| exp 1. yourtts-en (vctk) + scl | การเชื่อมโยง |
| exp 2. Yourtts-en (VCTK) -pt | ไม่สามารถใช้ได้ |
| exp 2. yourtts-en (vctk) -pt + scl | ไม่สามารถใช้ได้ |
| exp 3. yourtts-en (vctk) -pt-fr | ไม่สามารถใช้ได้ |
| exp 3. yourtts-en (vctk) -pt-fr scl | ไม่สามารถใช้ได้ |
| exp 4. Yourtts-en (VCTK+Libritts) -pt-fr scl | ไม่สามารถใช้ได้ |
เพื่อใช้? TTS เวอร์ชัน v0.7.0 เปิดตัวโมเดล YORTTS สำหรับข้อความต่อการพูดใช้คำสั่งต่อไปนี้:
tts --text "This is an example!" --model_name tts_models/multilingual/multi-dataset/your_tts --speaker_wav target_speaker_wav.wav --language_idx "en"
พิจารณา "target_speaker_wav.wav" ตัวอย่างเสียงจากลำโพงเป้าหมาย
เพื่อใช้? TTS เปิดตัวโมเดล Yourtts สำหรับการแปลงด้วยเสียงใช้คำสั่งต่อไปนี้:
tts --model_name tts_models/multilingual/multi-dataset/your_tts --speaker_wav target_speaker_wav.wav --reference_wav target_content_wav.wav --language_idx "en"
พิจารณา "target_content_wav.wav" เป็นไฟล์คลื่นอ้างอิงเพื่อแปลงเป็นเสียงของลำโพง "target_speaker_wav.wav"
เพื่อประกันความสามารถในการทำซ้ำเราทำให้เสียงที่ใช้ในการสร้าง MOS ที่มีอยู่ที่นี่ นอกจากนี้เรายังให้ MOS สำหรับแต่ละเสียงที่นี่
หากต้องการสร้างผลลัพธ์ MOS ของเราอีกครั้งให้ทำตามคำแนะนำที่นี่ ในการทำนายประโยคทดสอบและสร้าง SECs โปรดใช้สมุดบันทึก Jupyter ที่มีอยู่ที่นี่
Libritts (ทดสอบสะอาด): 1188, 1995, 260, 1284, 2300, 237, 908, 1580, 121 และ 1089
VCTK: P261, P225, P294, P347, P238, P234, P248, P335, P245, P326 และ P302
MLS Portuguese: 12710, 5677, 12249, 12287, 9351, 11995, 7925, 3050, 4367 และ 1306
เพื่อทำซ้ำการทดลองที่ 1 อย่างเต็มที่เรามีสูตรเกี่ยวกับ coqui tts การดาวน์โหลดสูตรนี้มีการสุ่มตัวอย่าง, แยกลำโพงฝังและฝึกอบรมโมเดลโดยไม่จำเป็นต้องมีการเปลี่ยนแปลงใด ๆ ในรหัส
บทความนี้ทำโดยใช้ Coqui TTS Fork ของฉันบนสาขาหลายภาษา Torchaudio-SE
หากคุณต้องการใช้ Coqui TTS เวอร์ชันล่าสุดคุณจะได้รับ config.json จากรุ่น Coqui ที่ปล่อยออกมา
ด้วย config.json ในมือคุณต้องเปลี่ยนการกำหนดค่า "ชุดข้อมูล" เป็นชุดข้อมูลของคุณก่อน การใช้ config.json ด้วยการปรับการกำหนดค่า "ชุดข้อมูล" คุณจำเป็นต้องแยกการฝังตัวของลำโพงโดยใช้ตัวเข้ารหัสลำโพงที่ปล่อยออกมาของเราโดยใช้คำสั่งต่อไปนี้: python3 TTS/bin/compute_embeddings.py --model_path model_se.pth.tar --config_path config_se.json --config_dataset_path config.json --output_path d_vector_file.json
"model_se.pth.tar" และ "config_se.json" สามารถพบได้ในโมเดลที่เปิดตัว coqui ในขณะที่ config.json คือการกำหนดค่าที่คุณตั้งค่าพา ธ สำหรับ
พารามิเตอร์อื่น ๆ ที่คุณควรเปลี่ยนอยู่ใน "config.json":
ตอนนี้คุณมี config.json ที่กำหนดค่าให้ทำซ้ำการฝึกอบรมคุณสามารถใช้คำสั่งต่อไปนี้ (ถ้าคุณชอบคุณสามารถใช้ -restore_path {checkpoint_path} เพื่อถ่ายโอนการเรียนรู้จากจุดตรวจและเร่งการฝึกอบรม: python3 TTS/bin/train_tts.py --config_path config.json
@ARTICLE{2021arXiv211202418C,
author = {{Casanova}, Edresson and {Weber}, Julian and {Shulby}, Christopher and {Junior}, Arnaldo Candido and {G{"o}lge}, Eren and {Antonelli Ponti}, Moacir},
title = "{YourTTS: Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone}",
journal = {arXiv e-prints},
keywords = {Computer Science - Sound, Computer Science - Computation and Language, Electrical Engineering and Systems Science - Audio and Speech Processing},
year = 2021,
month = dec,
eid = {arXiv:2112.02418},
pages = {arXiv:2112.02418},
archivePrefix = {arXiv},
eprint = {2112.02418},
primaryClass = {cs.SD},
adsurl = {https://ui.adsabs.harvard.edu/abs/2021arXiv211202418C},
adsnote = {Provided by the SAO/NASA Astrophysics Data System}
}
@inproceedings{casanova2022yourtts,
title={Yourtts: Towards zero-shot multi-speaker tts and zero-shot voice conversion for everyone},
author={Casanova, Edresson and Weber, Julian and Shulby, Christopher D and Junior, Arnaldo Candido and G{"o}lge, Eren and Ponti, Moacir A},
booktitle={International Conference on Machine Learning},
pages={2709--2720},
year={2022},
organization={PMLR}
}