Tensorflow การใช้งานแบบไม่เป็นทางการของการสร้างแบบจำลองการกำเนิดแบบลำดับชั้นสำหรับการสังเคราะห์คำพูดที่ควบคุมได้
Tacotron-2
├── datasets
├── LJSpeech-1.1 (0)
│ └── wavs
├── logs-Tacotron (2)
│ ├── mel-spectrograms
│ ├── plots
│ ├── pretrained
│ └── wavs
├── papers
├── tacotron
│ ├── models
│ └── utils
├── tacotron_output (3)
│ ├── eval
│ ├── gta
│ ├── logs-eval
│ │ ├── plots
│ │ └── wavs
│ └── natural
└── training_data (1)
├── audio
└── mels
ต้นไม้ก่อนหน้านี้แสดงสถานะปัจจุบันของที่เก็บ
ก่อนอื่นคุณต้องติดตั้ง Python 3.5 พร้อมกับ TensorFlow v1.6
ถัดไปคุณสามารถติดตั้งข้อกำหนด:
PIP Install -r rechent.txt
อื่น:
PIP3 Install -r required.txt
repo นี้ทดสอบในชุดข้อมูล LJSpeech ซึ่งมีการบันทึกเสียงนักแสดงหญิงเดี่ยวเกือบ 24 ชั่วโมง
ก่อนที่จะดำเนินการตามขั้นตอนต่อไปนี้โปรดตรวจสอบให้แน่ใจว่าคุณอยู่ใน โฟลเดอร์ Tacotron-2
CD TACOTRON-2
การประมวลผลล่วงหน้าสามารถเริ่มใช้:
Python preprocess.py
หรือ
python3 preprocess.py
ชุดข้อมูลสามารถเลือกได้โดยใช้อาร์กิวเมนต์ -ข้อมูล ค่าเริ่มต้นคือ ljspeech
รูปแบบการทำนายคุณสมบัติสามารถ ฝึกอบรมได้ โดยใช้:
Python Train.py -model = 'tacotron'
หรือ
Python3 Train.py -model = 'tacotron'
การสังเคราะห์ MEL spectrograms มี สามประเภท สำหรับเครือข่ายการทำนาย Spectrogram (Tacotron):
Python synthesize.py -model = 'tacotron' -mode = 'eval' -REFFERENT_AUDIO = 'REF_1.WAV'
หรือ
Python3 synthesize.py -model = 'tacotron' -mode = 'eval' -REFENCED_AUDIO = 'REF_1.WAV'
บันทึก:
evalBlizzard 2013 voice dataset ซึ่งไม่ใช่ชุดข้อมูลที่มีความท้าทายในปี 2013wavenet และ WaveRNN ได้อย่างง่ายดายสิ่งที่ต้องทำ
ทำงานระหว่างดำเนินการ