ดาวน์โหลด voice dataset creation - การสร้างซอร์สโค้ด voice dataset creation

voice dataset creation

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

การสร้างชุดข้อมูลเสียง

repo นี้สรุปขั้นตอนและสคริปต์ที่จำเป็นในการสร้างชุดข้อมูลข้อความเป็นคำพูดของคุณเองสำหรับการฝึกอบรมแบบจำลองเสียง ผลลัพธ์สุดท้ายอยู่ในรูปแบบ ljspeech

แผนภูมิการไหล

สารบัญ

สร้างการบันทึกเสียงของคุณเอง
สร้างชุดข้อมูลเสียงสังเคราะห์
สร้างการถอดความสำหรับการบันทึกเสียงที่มีอยู่
สาธารณูปโภคอื่น ๆ

สร้างการบันทึกเสียงของคุณเอง

ความต้องการ

ซอฟต์แวร์บันทึกเสียง
ไมโครโฟนหัวทุกทิศทาง
การ์ดเสียงคุณภาพดี

สร้างคลังข้อความของประโยค

สร้างประโยคที่จะใช้เวลาประมาณ 3-10 วินาทีเมื่อพูด
ใช้รูปแบบ ljspeech
- - ค่าคั่น
- 100|this is an example sentence

พูดและบันทึกประโยค

พูดแต่ละประโยคตามที่เขียนไว้
อัตราตัวอย่างควรเป็น 22050 หรือมากกว่า

ความยาวประโยค

เรียกใช้สคริปต์/wavdurations2csv.sh เพื่อทำแผนภูมิความยาวประโยคและตรวจสอบว่าคุณมีการกระจายความยาวไฟล์ WAV ที่ดี

สร้างชุดข้อมูลเสียงสังเคราะห์

ความต้องการ

อินสแตนซ์การคำนวณแพลตฟอร์มของแพลตฟอร์ม Google Cloud
- Cloud API access scopes SELECT Allow full access to all Cloud APIs
คอนดา

การติดตั้ง

สร้างสภาพแวดล้อม Conda บนอินสแตนซ์ GCP

conda create -n tts python=3.7
conda activate tts
pip install google-cloud-texttospeech==2.1.0 tqdm pandas

สร้างคลังข้อความของประโยค

สร้างประโยคที่จะใช้เวลาประมาณ 3-10 วินาทีเมื่อพูด
ใช้รูปแบบ ljspeech
- - ค่าคั่น
- 100|this is an example sentence

สร้างชุดข้อมูลเสียงสังเคราะห์

python text_to_wav.py tts_generate

ความยาวประโยค

เรียกใช้สคริปต์/wavdurations2csv.sh เพื่อทำแผนภูมิความยาวประโยคและตรวจสอบว่าคุณมีการกระจายความยาวไฟล์ WAV ที่ดี

สร้างการถอดความสำหรับการบันทึกเสียงที่มีอยู่

ความต้องการ

Adobe Audition หรือ Audacity
อินสแตนซ์การคำนวณแพลตฟอร์มของแพลตฟอร์ม Google Cloud
- Cloud API access scopes SELECT Allow full access to all Cloud APIs
คอนดา

การติดตั้ง

สร้างสภาพแวดล้อม Conda บนอินสแตนซ์ GCP

conda create -n stt python=3.7
conda activate stt
pip install google-cloud-speech tqdm pandas

กรอกข้อมูลสำหรับชุดข้อมูลเสียง

ตรวจสอบแผ่นข้อมูลสำหรับชุดข้อมูลโดย Gebru และคณะ: https://arxiv.org/pdf/1803.09010.pdf
markdown datasheet: https://github.com/jrmeyer/markdown-datasheet-for-datasets/blob/master/datasheet.md

ทำเครื่องหมายคำพูด

ใน การออดิชั่น Adobe , เปิดไฟล์เสียง:

เลือก Diagnostics -> Mark Audio
เลือก Mark the Speech ที่ตั้งไว้ล่วงหน้า
คลิก Scan
คลิก Find Levels
คลิก Scan อีกครั้ง
คลิก Mark All
ปรับเสียงและความยาวสัญญาณเสียงและความยาวจนคลิปอยู่ระหว่าง 3-10 วินาที

หรือใน ความกล้า เปิดไฟล์เสียง:

เลือก Analyze -> Sound Finder
ปรับเสียงและความยาวสัญญาณเสียงและความยาวจนคลิปอยู่ระหว่าง 3-10 วินาที

ปรับเครื่องหมายหรือขอบเขตฉลาก

ในการ ออดิชั่น :

แท็บเปิด Markers
ปรับเครื่องหมายลบความเงียบและเสียงรบกวนเพื่อให้ความยาวคลิปยาวระหว่าง 3 ถึง 10 วินาที

ในการ ออดิชั่น :

ปรับขอบเขตฉลากลบความเงียบและเสียงรบกวนเพื่อให้ความยาวคลิปยาวระหว่าง 3 ถึง 10 วินาที

เครื่องหมายส่งออก/ฉลากและ wavs

ในการ ออดิชั่น :

เลือกเครื่องหมายทั้งหมดในรายการ
เลือก Export Selected Markers to CSV และบันทึกเป็น markers.csv
เลือก Preferences -> Media & Disk Cache และ UNTICK Save Peak Files
เลือก Export Audio of Selected Range Markers ด้วยตัวเลือกต่อไปนี้:
- ตรวจสอบ Use marker names in filenames
- อัปเดตรูปแบบเป็น WAV PCM
- อัปเดตประเภทตัวอย่าง 22050 Hz Mono, 16-bit
- ใช้โฟลเดอร์ wavs_export

หรือใน ความกล้า :

เลือก Export multiple...
- รูปแบบ: WAV
- ตัวเลือก: PCM ที่ลงนาม 16 บิต
- แยกไฟล์ตามป้ายกำกับ
- ไฟล์ชื่อโดยใช้ชื่อฉลาก/แทร็ก
- ใช้โฟลเดอร์ wavs_export
เลือก Export labels เพื่อ Label Track.txt

วิเคราะห์ WAVS ด้วยอัตราส่วนสัญญาณต่อเสียงรบกวน

เรียกใช้ colabs/voice_dataset_snr.ipynb
ทำความสะอาดหรือลบไฟล์ที่มีเสียงดัง

สร้างการถอดความเริ่มต้นด้วย STT

สำหรับ การออดิชั่น โดยใช้ Markers.csv และ WAVS Folder Run:

 cd scripts
python wav_to_text.py audition

สคริปต์สร้างไฟล์ใหม่ Markers_STT.csv

สำหรับ ความกล้า ใช้ Label Track.txt และ WAVS RUN: RUN:

 cd scripts
python wav_to_text.py audacity

สคริปต์สร้างไฟล์ใหม่ Label Track STT.csv

การถอดรหัสแบบปรับแต่ง

สำหรับ การออดิชั่น :

ลบเครื่องหมายทั้งหมด
เลือก Import Markers from File และเลือกไฟล์ด้วยการถอดรหัส STT: markers_stt.csv
ปรับแต่งฟิลด์คำอธิบายในเครื่องหมายเพื่อให้ตรงกับคำที่พูด

สำหรับ ความกล้า :

เปิด Label Track STT.txt ในตัวแก้ไขข้อความ
ปรับแต่งฟิลด์ป้ายกำกับในไฟล์ข้อความเพื่อให้ตรงกับคำที่พูด

เครื่องหมายส่งออก (ออดิชั่นเท่านั้น) และ WAVS

สำหรับ การออดิชั่น :

เลือกเครื่องหมายทั้งหมดในรายการ
เลือก Export Selected Markers to CSV และบันทึกเป็น markers.csv
เลือก Export Audio of Selected Range Markers ด้วยตัวเลือกต่อไปนี้:
- ตรวจสอบ Use marker names in filenames
- อัปเดตรูปแบบเป็น WAV PCM
- อัปเดตประเภทตัวอย่าง 22050 Hz Mono, 16-bit
- ใช้โฟลเดอร์ wavs_export

สำหรับ ความกล้า :

เลือก Export multiple...
- รูปแบบ: WAV
- ตัวเลือก: PCM ที่ลงนาม 16 บิต
- แยกไฟล์ตามป้ายกำกับ
- ไฟล์ชื่อโดยใช้ชื่อฉลาก/แทร็ก
- ใช้โฟลเดอร์ wavs_export

แปลงเครื่องหมาย (ออดิชั่น) หรือฉลาก (ความกล้า) เป็นรูปแบบ ljspeech

การใช้ Markers.csv ส่งออก csv (ออดิชั่น) หรือ Label Track STT.txt (Audacity) และ wavs ใน wavs_export, สคริปต์/markersfile_to_metadata.py จะสร้าง metadata.csv และโฟลเดอร์ของ Wavs เพื่อฝึกอบรมรุ่น TTS ของคุณ:

สำหรับ การออดิชั่น :

python markersfile_to_metadata.py audition

สำหรับ ความกล้า :

python markersfile_to_metadata.py audacity

ความยาวประโยค

เรียกใช้สคริปต์/wavdurations2csv.sh เพื่อทำแผนภูมิความยาวประโยคและตรวจสอบว่าคุณมีการกระจายความยาวไฟล์ WAV ที่ดี

สาธารณูปโภคอื่น ๆ

ไฟล์ WAV Upsample

ffmpeg: FFMPEG resampy: ส่งต่อ เราทดสอบสามวิธีในการเลือกไฟล์ WAV จาก 16,000 ถึง 22,050 Hz หลังจากตรวจสอบสเปกโตรแกรมเราเลือก FFMPEG สำหรับการสุ่มตัวอย่างเนื่องจากมีข้อมูลระดับไฮเอนด์อีก 2 kHz เมื่อเปรียบเทียบกับ resampy สคริปต์/resamplewav.sh

 scripts/resamplewav.sh

การอ้างอิง

Mozilla TTS: https://github.com/mozilla/tts
การจัดตำแหน่งอัตโนมัติรวมถึงส่วนเสียงในความเงียบ, Google Speech API, และการจัดตำแหน่งการรับรู้: https://github.com/carpedm20/multi-speaker-tacotron-tensorflow#2-2-Generate-korean-datasets
การเตรียมการในคลังข้อมูลสังเคราะห์ขนาดใหญ่และการปรับแต่งอย่างละเอียดเกี่ยวกับคลังแสงเฉพาะ https://twitter.com/garygarywang
ข้อมูลสำหรับชุดข้อมูล https://arxiv.org/abs/1803.09010

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท โค้ดแหล่งที่มา AI
เวลาอัปเดต 2025-08-23
ขนาด 6.27MB
มาจาก Github

แอปที่เกี่ยวข้อง

glaucoma dataset metadata

2024-11-09
ffhq wrinkle dataset

2024-11-07
GLM 4 Voice

2024-11-02
Retrieval based Voice Conversion WebUI

2024-11-01
ลูกโลกแห่งการสร้างสรรค์

2022-07-26
GOOGLE VOICE อินเทอร์เฟซ SMS ไม่จำกัด

2009-11-07

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
ML stack

โค้ดแหล่งที่มา AI

1.0.0
awesome free chatgpt

โค้ดแหล่งที่มา AI

1.0.0
pywin_contextmenu

โค้ดแหล่งที่มา AI

Version update
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด