การใช้งานอย่างเป็นทางการของ EDITTS: การแก้ไขตามคะแนนสำหรับการพูดแบบข้อความที่ควบคุมได้ ตัวอย่างเสียงมีอยู่ในหน้าตัวอย่างของเรา
เรานำเสนอ Editts วิธีการแก้ไขคำพูดนอกชั้นวางบนพื้นฐานของการสร้างแบบจำลองการกำเนิดที่อิงคะแนนสำหรับการสังเคราะห์ข้อความเป็นคำพูด EDITTS อนุญาตให้มีการกำหนดเป้าหมายการแก้ไขเสียงอย่างละเอียดทั้งในแง่ของเนื้อหาและระดับเสียงโดยไม่จำเป็นต้องมีการฝึกอบรมเพิ่มเติมการเพิ่มประสิทธิภาพเฉพาะงานหรือการปรับเปลี่ยนสถาปัตยกรรมไปยังกระดูกสันหลังแบบจำลองคะแนน โดยเฉพาะอย่างยิ่งเราใช้การก่อกวนแบบหยาบและรอบคอบในพื้นที่ก่อนหน้าของเกาส์เพื่อกระตุ้นพฤติกรรมที่ต้องการจากรูปแบบการแพร่กระจายในขณะที่ใช้หน้ากากและเมล็ดที่อ่อนลงเพื่อให้แน่ใจว่าการแก้ไขซ้ำจะถูกนำไปใช้กับภูมิภาคเป้าหมายเท่านั้น การทดสอบการฟังแสดงให้เห็นว่า EDITTS มีความสามารถในการสร้างเสียงที่ทำให้เสียงธรรมชาติที่น่าเชื่อถือซึ่งเป็นไปตามข้อกำหนดที่ผู้ใช้กำหนด
โปรดอ้างอิงงานนี้ดังนี้
@inproceedings { tae22_interspeech ,
author = { Jaesung Tae and Hyeongju Kim and Taesu Kim } ,
title = { {EdiTTS: Score-based Editing for Controllable Text-to-Speech} } ,
year = 2022 ,
booktitle = { Proc. Interspeech 2022 } ,
pages = { 421--425 } ,
doi = { 10.21437/Interspeech.2022-6 }
} สร้างสภาพแวดล้อมเสมือนจริงของ Python ( venv หรือ conda ) และติดตั้งข้อกำหนดของแพ็คเกจตามที่ระบุไว้ใน requirements.txt . txt
python -m venv venv
source venv/bin/activate
pip install -U pip
pip install -r requirements.txtสร้างโมดูลการจัดตำแหน่งแบบโมโนโทนิก
cd model/monotonic_align
python setup.py build_ext --inplaceสำหรับข้อมูลเพิ่มเติมโปรดดูที่ที่เก็บอย่างเป็นทางการของ Grad-TTS
จุดตรวจสอบต่อไปนี้ได้รวมอยู่แล้วเป็นส่วนหนึ่งของที่เก็บนี้ภายใต้ checkpts
เตรียมไฟล์อินพุตที่มีตัวอย่างสำหรับการสร้างคำพูด ทำเครื่องหมายส่วนที่จะแก้ไขผ่านตัวคั่นแถบแนวตั้ง, | - ตัวอย่างเช่นตัวอย่างเดียวอาจมีลักษณะ
ใน | ใบหน้าของอุปสรรคสารภาพท้อใจ
เราจัดเตรียมไฟล์อินพุตตัวอย่างใน resources/filelists/edit_pitch_example.txt
ในการเรียกใช้การอนุมานพิมพ์
CUDA_VISIBLE_DEVICES=0 python edit_pitch.py
-f resources/filelists/edit_pitch_example.txt
-c checkpts/grad-tts-old.pt -t 1000
-s out/pitch/wavs ปรับ CUDA_VISIBLE_DEVICES ตามความเหมาะสม
เตรียมไฟล์อินพุตที่มีคู่ของประโยค เชื่อมต่อแต่ละคู่ด้วย # และทำเครื่องหมายชิ้นส่วนที่จะถูกแทนที่ด้วยตัวคั่นแถบแนวตั้ง ตัวอย่างเช่นคู่เดียวอาจมีลักษณะ
อีกสามคนต่อมา | ระบุ | Oswald จากรูปถ่าย #สามคนอื่น ๆ ในภายหลัง | ได้รับการยอมรับ | Oswald จากรูปถ่าย
เราจัดเตรียมไฟล์อินพุตตัวอย่างใน resources/filelists/edit_content_example.txt
ในการเรียกใช้การอนุมานพิมพ์
CUDA_VISIBLE_DEVICES=0 python edit_content.py
-f resources/filelists/edit_content_example.txt
-c checkpts/grad-tts-old.pt -t 1000
-s out/content/wavsเปิดตัวภายใต้ใบอนุญาตสาธารณะ GNU ทั่วไปที่ได้รับการแก้ไข