สคริปต์ Helper Python เหล่านี้ช่วยให้คุณได้รับไฟล์เสียงที่มีคำอธิบายประกอบขนาดเล็กลงจากไฟล์เสียงขนาดใหญ่ที่มีไฟล์เพื่อฝึกอบรมรุ่น STT หรือ TTS โดย: 1 แยกไฟล์ขนาดใหญ่ในไฟล์ WAV ขนาดเล็กหลายไฟล์คั่นด้วยความเงียบ หากมีลำโพงหลายตัวในเสียงของคุณคุณสามารถลบชิ้นส่วนที่พูดโดยลำโพงอื่น ๆ 2. (ไม่บังคับ) รับการถอดความสำหรับไฟล์เสียงขนาดเล็กเหล่านี้จากบริการ Google Cloud STT ซึ่งต้องใช้บัญชี GCP 3. คำอธิบายประกอบด้วยตนเอง (หรือแก้ไขคำอธิบายประกอบ GCP) ไฟล์เสียงที่เล็กลง
ขั้นตอนที่ 1 ต้องมีการติดตั้ง FFMPEG ในระบบของคุณ
สคริปต์ทั้งหมดเขียนใน Python 3.6+ แพ็คเกจที่จำเป็นสามารถติดตั้งได้ด้วย:
pip install -r requirement.txt
คุณจะต้องใช้ Pyaudio สำหรับขั้นตอนที่ 3
นอกจากนี้หากคุณต้องการใช้ STT ของ GCP คุณควรติดตั้งไคลเอนต์ Python ด้วย
pip install --upgrade google-cloud-speech
และกำหนดค่าโครงการตามที่แสดงไว้ที่นี่
เวอร์ชันปัจจุบันของสคริปต์นี้เข้ากันได้กับ Google-Cloud-Speech 2.x หากคุณต้องการใช้เวอร์ชัน 1.x คุณสามารถดู repo รุ่นก่อนหน้านี้ซึ่งใช้เวอร์ชันนั้นได้เช่นกัน
python split.py --input big_file.wav --audio_folder audio --out_csv sentences.csv
ไฟล์ sentences.csv จะถูกสร้างเป็น "ไฟล์; ประโยค"
หากต้องการเก็บเฉพาะไฟล์ที่พูดโดยลำโพงเฉพาะให้ใช้อาร์กิวเมนต์ "-REMOVE_BAD_SEGMENTS" และ "-SPEAKER_SEGMENT"
python get_gcp_transcription.py --audio_folder audio --csv sentences.csv --language_code en-US
python annotate.py --audio_folder audio --csv sentences.csv
สำหรับสคริปต์ทั้งสามคุณสามารถดูอาร์กิวเมนต์เพิ่มเติมได้
python FILE_NAME.py -h