ดาวน์โหลด gmvae_tacotron - ดาวน์โหลดซอร์สโค้ด gmvae

gmvae_tacotron

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

GMVAE TACOTRON-2:

Tensorflow การใช้งานแบบไม่เป็นทางการของการสร้างแบบจำลองการกำเนิดแบบลำดับชั้นสำหรับการสังเคราะห์คำพูดที่ควบคุมได้

โครงสร้างที่เก็บ:

 Tacotron-2
├── datasets
├── LJSpeech-1.1	(0)
│   └── wavs
├── logs-Tacotron	(2)
│   ├── mel-spectrograms
│   ├── plots
│   ├── pretrained
│   └── wavs
├── papers
├── tacotron
│   ├── models
│   └── utils
├── tacotron_output	(3)
│   ├── eval
│   ├── gta
│   ├── logs-eval
│   │   ├── plots
│   │   └── wavs
│   └── natural
└── training_data	(1)
    ├── audio
    └── mels

ต้นไม้ก่อนหน้านี้แสดงสถานะปัจจุบันของที่เก็บ

ขั้นตอน (0) : รับชุดข้อมูลของคุณที่นี่ฉันได้ตั้งค่าตัวอย่างของ ljspeech
ขั้นตอน (1) : ประมวลผลข้อมูลของคุณล่วงหน้า สิ่งนี้จะให้โฟลเดอร์ Training_Data แก่คุณ
ขั้นตอน (2) : ฝึก Tacotron รุ่นของคุณ ให้ผลผลิตโฟลเดอร์ Logs-Tacotron
ขั้นตอน (3) : สังเคราะห์/ประเมินโมเดล Tacotron ให้โฟลเดอร์ tacotron_output

ความต้องการ

ก่อนอื่นคุณต้องติดตั้ง Python 3.5 พร้อมกับ TensorFlow v1.6

ถัดไปคุณสามารถติดตั้งข้อกำหนด:

PIP Install -r rechent.txt

อื่น:

PIP3 Install -r required.txt

ชุดข้อมูล:

repo นี้ทดสอบในชุดข้อมูล LJSpeech ซึ่งมีการบันทึกเสียงนักแสดงหญิงเดี่ยวเกือบ 24 ชั่วโมง

การประมวลผลล่วงหน้า

ก่อนที่จะดำเนินการตามขั้นตอนต่อไปนี้โปรดตรวจสอบให้แน่ใจว่าคุณอยู่ใน โฟลเดอร์ Tacotron-2

CD TACOTRON-2

การประมวลผลล่วงหน้าสามารถเริ่มใช้:

Python preprocess.py

หรือ

python3 preprocess.py

ชุดข้อมูลสามารถเลือกได้โดยใช้อาร์กิวเมนต์ -ข้อมูล ค่าเริ่มต้นคือ ljspeech

การฝึกอบรม:

รูปแบบการทำนายคุณสมบัติสามารถ ฝึกอบรมได้ โดยใช้:

Python Train.py -model = 'tacotron'

หรือ

Python3 Train.py -model = 'tacotron'

สังเคราะห์

การสังเคราะห์ MEL spectrograms มี สามประเภท สำหรับเครือข่ายการทำนาย Spectrogram (Tacotron):

การประเมินผล (การสังเคราะห์ประโยคที่กำหนดเอง) นี่คือสิ่งที่เรามักจะใช้หลังจากมีแบบจำลองเต็มรูปแบบ

Python synthesize.py -model = 'tacotron' -mode = 'eval' -REFFERENT_AUDIO = 'REF_1.WAV'

หรือ

Python3 synthesize.py -model = 'tacotron' -mode = 'eval' -REFENCED_AUDIO = 'REF_1.WAV'

บันทึก:

การใช้งานนี้ไม่ได้ทดสอบอย่างสมบูรณ์สำหรับทุกสถานการณ์ แต่การฝึกอบรมและการสังเคราะห์ด้วยการทำงานด้านเสียงอ้างอิง
แม้ว่ามันจะทดสอบเฉพาะการสังเคราะห์โดยไม่มี GTA และกับโหมด eval
หลังจากการฝึกอบรมขั้นตอน 250K ด้วยขนาด 32 ชุดบน LJSpeech ข้อผิดพลาดของ KL ตั้งอยู่ใกล้กับศูนย์ (ประมาณ 0.001) ยังไม่ได้รับการถ่ายโอนและควบคุมสไตล์ที่ดีอาจเป็นเพราะรุ่นนี้ได้รับการฝึกฝนเกี่ยวกับ Blizzard 2013 voice dataset ซึ่งไม่ใช่ชุดข้อมูลที่มีความท้าทายในปี 2013
ในการทดสอบของฉันฉันไม่ได้ผลลัพธ์ที่ดีจนถึงด้านการถ่ายโอนสไตล์อาจจำเป็นต้องปรับแต่งมากขึ้นการใช้งานนี้รวมกับ wavenet และ WaveRNN ได้อย่างง่ายดาย
อย่าลังเลที่จะแนะนำการเปลี่ยนแปลงบางอย่างหรือเพิ่ม PR ให้ดียิ่งขึ้น