ดาวน์โหลด editts - ดาวน์โหลดซอร์สโค้ด editts

editts

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

EDITTS: การแก้ไขตามคะแนนสำหรับการพูดแบบข้อความที่ควบคุมได้

การใช้งานอย่างเป็นทางการของ EDITTS: การแก้ไขตามคะแนนสำหรับการพูดแบบข้อความที่ควบคุมได้ ตัวอย่างเสียงมีอยู่ในหน้าตัวอย่างของเรา

เชิงนามธรรม

เรานำเสนอ Editts วิธีการแก้ไขคำพูดนอกชั้นวางบนพื้นฐานของการสร้างแบบจำลองการกำเนิดที่อิงคะแนนสำหรับการสังเคราะห์ข้อความเป็นคำพูด EDITTS อนุญาตให้มีการกำหนดเป้าหมายการแก้ไขเสียงอย่างละเอียดทั้งในแง่ของเนื้อหาและระดับเสียงโดยไม่จำเป็นต้องมีการฝึกอบรมเพิ่มเติมการเพิ่มประสิทธิภาพเฉพาะงานหรือการปรับเปลี่ยนสถาปัตยกรรมไปยังกระดูกสันหลังแบบจำลองคะแนน โดยเฉพาะอย่างยิ่งเราใช้การก่อกวนแบบหยาบและรอบคอบในพื้นที่ก่อนหน้าของเกาส์เพื่อกระตุ้นพฤติกรรมที่ต้องการจากรูปแบบการแพร่กระจายในขณะที่ใช้หน้ากากและเมล็ดที่อ่อนลงเพื่อให้แน่ใจว่าการแก้ไขซ้ำจะถูกนำไปใช้กับภูมิภาคเป้าหมายเท่านั้น การทดสอบการฟังแสดงให้เห็นว่า EDITTS มีความสามารถในการสร้างเสียงที่ทำให้เสียงธรรมชาติที่น่าเชื่อถือซึ่งเป็นไปตามข้อกำหนดที่ผู้ใช้กำหนด

การอ้างอิง

โปรดอ้างอิงงานนี้ดังนี้

 @inproceedings { tae22_interspeech ,
  author = { Jaesung Tae and Hyeongju Kim and Taesu Kim } ,
  title = { {EdiTTS: Score-based Editing for Controllable Text-to-Speech} } ,
  year = 2022 ,
  booktitle = { Proc. Interspeech 2022 } ,
  pages = { 421--425 } ,
  doi = { 10.21437/Interspeech.2022-6 }
}

การตั้งค่า

สร้างสภาพแวดล้อมเสมือนจริงของ Python ( venv หรือ conda ) และติดตั้งข้อกำหนดของแพ็คเกจตามที่ระบุไว้ใน requirements.txt . txt
```
python -m venv venv
source venv/bin/activate
pip install -U pip
pip install -r requirements.txt
```
สร้างโมดูลการจัดตำแหน่งแบบโมโนโทนิก
```
 cd model/monotonic_align
python setup.py build_ext --inplace
```

สำหรับข้อมูลเพิ่มเติมโปรดดูที่ที่เก็บอย่างเป็นทางการของ Grad-TTS

จุดตรวจ

จุดตรวจสอบต่อไปนี้ได้รวมอยู่แล้วเป็นส่วนหนึ่งของที่เก็บนี้ภายใต้ checkpts

Grad-tts (ver ver.)
hifi-gan (lj_ft_t2_v1 ver.)

การขยับ

เตรียมไฟล์อินพุตที่มีตัวอย่างสำหรับการสร้างคำพูด ทำเครื่องหมายส่วนที่จะแก้ไขผ่านตัวคั่นแถบแนวตั้ง, | - ตัวอย่างเช่นตัวอย่างเดียวอาจมีลักษณะ
ใน | ใบหน้าของอุปสรรคสารภาพท้อใจ
เราจัดเตรียมไฟล์อินพุตตัวอย่างใน resources/filelists/edit_pitch_example.txt

ในการเรียกใช้การอนุมานพิมพ์

CUDA_VISIBLE_DEVICES=0 python edit_pitch.py 
    -f resources/filelists/edit_pitch_example.txt 
    -c checkpts/grad-tts-old.pt -t 1000 
    -s out/pitch/wavs

ปรับ CUDA_VISIBLE_DEVICES ตามความเหมาะสม

การเปลี่ยนเนื้อหา

เตรียมไฟล์อินพุตที่มีคู่ของประโยค เชื่อมต่อแต่ละคู่ด้วย # และทำเครื่องหมายชิ้นส่วนที่จะถูกแทนที่ด้วยตัวคั่นแถบแนวตั้ง ตัวอย่างเช่นคู่เดียวอาจมีลักษณะ
อีกสามคนต่อมา | ระบุ | Oswald จากรูปถ่าย #สามคนอื่น ๆ ในภายหลัง | ได้รับการยอมรับ | Oswald จากรูปถ่าย
เราจัดเตรียมไฟล์อินพุตตัวอย่างใน resources/filelists/edit_content_example.txt

ในการเรียกใช้การอนุมานพิมพ์

CUDA_VISIBLE_DEVICES=0 python edit_content.py 
    -f resources/filelists/edit_content_example.txt 
    -c checkpts/grad-tts-old.pt -t 1000 
    -s out/content/wavs