repo นี้สรุปขั้นตอนและสคริปต์ที่จำเป็นในการสร้างชุดข้อมูลข้อความเป็นคำพูดของคุณเองสำหรับการฝึกอบรมแบบจำลองเสียง ผลลัพธ์สุดท้ายอยู่ในรูปแบบ ljspeech

สร้างการบันทึกเสียงของคุณเอง100|this is an example sentenceเรียกใช้สคริปต์/wavdurations2csv.sh เพื่อทำแผนภูมิความยาวประโยคและตรวจสอบว่าคุณมีการกระจายความยาวไฟล์ WAV ที่ดี
สร้างชุดข้อมูลเสียงสังเคราะห์Cloud API access scopes SELECT Allow full access to all Cloud APIsสร้างสภาพแวดล้อม Conda บนอินสแตนซ์ GCP
conda create -n tts python=3.7
conda activate tts
pip install google-cloud-texttospeech==2.1.0 tqdm pandas100|this is an example sentencepython text_to_wav.py tts_generateเรียกใช้สคริปต์/wavdurations2csv.sh เพื่อทำแผนภูมิความยาวประโยคและตรวจสอบว่าคุณมีการกระจายความยาวไฟล์ WAV ที่ดี
สร้างการถอดความสำหรับการบันทึกเสียงที่มีอยู่Cloud API access scopes SELECT Allow full access to all Cloud APIsสร้างสภาพแวดล้อม Conda บนอินสแตนซ์ GCP
conda create -n stt python=3.7
conda activate stt
pip install google-cloud-speech tqdm pandasใน การออดิชั่น Adobe , เปิดไฟล์เสียง:
Diagnostics -> Mark AudioMark the Speech ที่ตั้งไว้ล่วงหน้าScanFind LevelsScan อีกครั้งMark Allหรือใน ความกล้า เปิดไฟล์เสียง:
Analyze -> Sound Finderในการ ออดิชั่น :
Markersในการ ออดิชั่น :
ในการ ออดิชั่น :
Export Selected Markers to CSV และบันทึกเป็น markers.csvPreferences -> Media & Disk Cache และ UNTICK Save Peak FilesExport Audio of Selected Range Markers ด้วยตัวเลือกต่อไปนี้:Use marker names in filenamesWAV PCM22050 Hz Mono, 16-bitwavs_exportหรือใน ความกล้า :
Export multiple...wavs_exportExport labels เพื่อ Label Track.txt สำหรับ การออดิชั่น โดยใช้ Markers.csv และ WAVS Folder Run:
cd scripts
python wav_to_text.py audition สคริปต์สร้างไฟล์ใหม่ Markers_STT.csv
สำหรับ ความกล้า ใช้ Label Track.txt และ WAVS RUN: RUN:
cd scripts
python wav_to_text.py audacity สคริปต์สร้างไฟล์ใหม่ Label Track STT.csv
สำหรับ การออดิชั่น :
Import Markers from File และเลือกไฟล์ด้วยการถอดรหัส STT: markers_stt.csvสำหรับ ความกล้า :
Label Track STT.txt ในตัวแก้ไขข้อความสำหรับ การออดิชั่น :
Export Selected Markers to CSV และบันทึกเป็น markers.csvExport Audio of Selected Range Markers ด้วยตัวเลือกต่อไปนี้:Use marker names in filenamesWAV PCM22050 Hz Mono, 16-bitwavs_exportสำหรับ ความกล้า :
Export multiple...wavs_export การใช้ Markers.csv ส่งออก csv (ออดิชั่น) หรือ Label Track STT.txt (Audacity) และ wavs ใน wavs_export, สคริปต์/markersfile_to_metadata.py จะสร้าง metadata.csv และโฟลเดอร์ของ Wavs เพื่อฝึกอบรมรุ่น TTS ของคุณ:
สำหรับ การออดิชั่น :
python markersfile_to_metadata.py auditionสำหรับ ความกล้า :
python markersfile_to_metadata.py audacityเรียกใช้สคริปต์/wavdurations2csv.sh เพื่อทำแผนภูมิความยาวประโยคและตรวจสอบว่าคุณมีการกระจายความยาวไฟล์ WAV ที่ดี
ffmpeg:
resampy:
เราทดสอบสามวิธีในการเลือกไฟล์ WAV จาก 16,000 ถึง 22,050 Hz หลังจากตรวจสอบสเปกโตรแกรมเราเลือก FFMPEG สำหรับการสุ่มตัวอย่างเนื่องจากมีข้อมูลระดับไฮเอนด์อีก 2 kHz เมื่อเปรียบเทียบกับ resampy สคริปต์/resamplewav.sh
scripts/resamplewav.sh