TTS dataset tools Download - TTS dataset tools Source Download Download

TTS dataset tools

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

TTS-dataset-tools

ถอดเสียงผ่าน Google Speech ไปยัง Text API ด้วยการแยกลำโพง (diarization) สร้างชุดข้อมูล TTS โดยอัตโนมัติโดยใช้ข้อความเสียงและข้อความที่เกี่ยวข้อง ใช้ Google API เพื่อคัดลอกการตัดที่ถูกแยกออกจากการแบ่งความเงียบสูงสุด (แนะนำ) หรือใช้ aeneas เพื่อบังคับให้จัดเรียงข้อความเป็นเสียง พิสูจน์อักษรอย่างรวดเร็วและแก้ไขการตัด

สำหรับ Google Speech to Text API คุณจะต้องมีบัญชี Google Cloud Platform ตัวแปร $ google_application_credentials env ของคุณจะต้องชี้ไปที่เส้นทางไฟล์ JSON ของคุณ Google เสนอบริการมูลค่า $ 300 และฟรี 3 เดือนในบัญชีใหม่

Run Tools.py สำหรับเครื่องมือ GUI

ข้อ จำกัด ในปัจจุบันคือคุณจะต้องปรับความกว้างของคอลัมน์ของส่วนการพิสูจน์อักษรและเมื่อนำทางรายการคุณจะต้องโฟกัสออกจากกล่องข้อความอินพุตปัจจุบันและถัดไปหรือกล่องข้อความจะไม่อัปเดต Dearpy GUI เวอร์ชันต่อไปจะแก้ปัญหาเหล่านี้

การใช้ VPN จะรบกวนการร้องขอคำพูดของ Google ไปยังข้อความ API ที่ยาวนาน

ชุดข้อมูล GUI

การใช้ Dearpygui รุ่นเก่าที่ Momement ฉันจะโยกย้ายในที่สุด

การตั้งค่า Windows

PIP ติดตั้ง numpy -ผู้ใช้

PIP ติดตั้ง pydub -ผู้ใช้

PIP ติดตั้ง dearpygui == 0.6.415 -ผู้ใช้

PIP ติดตั้ง google-cloud-speech-ผู้ใช้

PIP ติดตั้ง Google Cloud-Storage-ผู้ใช้

PIP ติดตั้ง SimpleAudio -ผู้ใช้

*หากคุณไม่สามารถสร้าง SimpleAudio ให้แน่ใจว่าคุณติดตั้ง GCC: การอัปเดต sudo apt-get, sudo apt-get ติดตั้ง build-essentials

PIP Install Sox -ผู้ใช้

การตั้งค่า Linux

สภาพแวดล้อม Linux แนะนำสำหรับตัวเลือก Aeneas ใน Windows Aeneas จะไม่สามารถตัดได้นานขึ้นเนื่องจากปัญหาหน่วยความจำ

wget https://raw.githubusercontent.com/readbeyond/aeneas/master/install_dependencies.sh

bash install_dependencies.sh

PIP ติดตั้ง numpy -ผู้ใช้

PIP ติดตั้ง aeneas -ผู้ใช้

การติดตั้งทดสอบ: Python -m aeneas.diagnostics

PIP ติดตั้ง pydub -ผู้ใช้

PIP ติดตั้ง dearpygui == 0.6.415 -ผู้ใช้

PIP ติดตั้ง google-cloud-speech-ผู้ใช้

PIP ติดตั้ง Google Cloud-Storage-ผู้ใช้

PIP ติดตั้ง SimpleAudio -ผู้ใช้

PIP Install Sox -ผู้ใช้

หากคุณได้รับข้อผิดพลาด libpython:

sudo apt ติดตั้ง libasound2-dev

แก้ไขไฟล์ bashrc ของคุณโดยพิมพ์: sudo nano ~/.bashrc

จากนั้นเพิ่มบรรทัดในตอนท้ายด้วยข้อมูลของคุณขึ้นอยู่กับที่ติดตั้งแพ็คเกจของคุณ:

ส่งออก ld_library_path = "/[yourhomepath]/anaconda3/envs/[yourenv]/lib/"

หรือ

ส่งออก ld_library_path = "/[yourhomepath]/. conda/envs/[yourenv]/lib/"

หรือถ้าสภาพแวดล้อมพื้นฐาน

ส่งออก ld_library_path = "/[yourhomepath]/anaconda3/lib/"

กด Ctrl+O เพื่อส่งออกไฟล์ที่อัปเดต จากนั้น ctrl+x เพื่อออก

พิมพ์แหล่งที่มา ~/.BASHRC เพื่อเปิดใช้งานเส้นทางใหม่

การใช้งาน

การสอนวิดีโอ: https://www.youtube.com/watch?v=TE7PUI2XEJE

คำแนะนำ

หลายสิ่งหลายอย่างจะปรับปรุงคุณภาพการตัดของคุณแม้ว่าคุณควรพิสูจน์อักษรก่อนการฝึกอบรมเสมอ สำหรับภาษาอื่นที่ไม่ใช่ภาษาอังกฤษคุณสามารถแก้ไขบรรทัดคำสั่งของ Aeneas และการเปลี่ยนอักขระให้เป็นความต้องการของคุณได้อย่างง่ายดายและแทนที่รหัสภาษา Google En-US ด้วยรหัสภาษาของคุณ (https://cloud.google.com/speech-to-text/docs/languages) ตรวจสอบว่ามีสิ่งต่าง ๆ เช่นชื่อบท ลำโพงที่มีคำพูดที่ช้าและแม้กระทั่งการพูดจะทำให้การตัดที่สะอาดที่สุดในขณะที่ลำโพงที่เดินเร็วมักจะใช้คำด้วยกันและอาจทำให้เกิดคำบางคำของคำพูดที่จะเปลี่ยนไปสู่การตัดครั้งต่อไปซึ่งจะต้องแก้ไข ลบเพลงทั้งหมดถ้าสามารถ

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท โค้ดแหล่งที่มา AI
เวลาอัปเดต 2025-09-15
ขนาด 430.01KB
มาจาก Github

แอปที่เกี่ยวข้อง

language tools

2024-11-11
glaucoma dataset metadata

2024-11-09
ffhq wrinkle dataset

2024-11-07
biliLive tools

2024-11-03
F5 TTS ComfyUI

2024-11-02
sra tools

2024-11-01

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
ML stack

โค้ดแหล่งที่มา AI

1.0.0
awesome free chatgpt

โค้ดแหล่งที่มา AI

1.0.0
pywin_contextmenu

โค้ดแหล่งที่มา AI

Version update
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด