อินเทอร์เฟซเบราว์เซอร์ที่ใช้ Gradio สำหรับ Whisper คุณสามารถใช้เป็นเครื่องกำเนิดคำบรรยายที่ง่าย!

หากคุณต้องการลองใช้สิ่งนี้บน colab คุณสามารถทำได้ที่นี่!
แอพสามารถทำงานกับ Pinokio ได้
http://localhost:7860 ติดตั้งและเรียกใช้ Docker-Desktop
git โคลนที่เก็บ
git clone https://github.com/jhj0517/Whisper-WebUI.gitdocker compose build docker compose uphttp://localhost:7860 หากจำเป็นให้อัปเดต docker-compose.yaml เพื่อให้ตรงกับสภาพแวดล้อมของคุณ
ในการเรียกใช้ webui นี้คุณจะต้องมี git , 3.10 <= python <= 3.12 , FFmpeg
และหากคุณไม่ได้ใช้ NVIDA GPU หรือใช้ CUDA รุ่นอื่นที่แตกต่างจาก 12.4 ให้แก้ไข requirements.txt เพื่อให้ตรงกับสภาพแวดล้อมของคุณ
โปรดไปที่ลิงค์ด้านล่างเพื่อติดตั้งซอฟต์แวร์ที่จำเป็น:
3.10 ~ 3.12 แนะนำ หลังจากติดตั้ง FFMPEG ตรวจ สอบให้แน่ใจว่าได้เพิ่มโฟลเดอร์ FFmpeg/bin ไปยังเส้นทางระบบของคุณ!
git clone https://github.com/jhj0517/Whisper-WebUI.gitinstall.bat หรือ install.sh เพื่อติดตั้งการพึ่งพา (มันจะสร้างไดเรกทอรี venv และติดตั้งการพึ่งพาที่นั่น)start-webui.bat หรือ start-webui.sh (มันจะเรียกใช้ python app.py หลังจากเปิดใช้งาน venv)และคุณยังสามารถเรียกใช้โครงการด้วยอาร์กิวเมนต์บรรทัดคำสั่งหากคุณต้องการดูวิกิสำหรับคำแนะนำในการโต้แย้ง
โครงการนี้ถูกรวมเข้ากับเร็วขึ้นโดยค่าเริ่มต้นสำหรับการใช้ VRAM ที่ดีขึ้นและความเร็วในการถอดความ
ตามที่เร็วขึ้น-เสียงดังประสิทธิภาพของโมเดล Whisper ที่ได้รับการปรับปรุงให้ดีขึ้นมีดังนี้:
| การดำเนินการ | ความแม่นยำ | ขนาดลำแสง | เวลา | สูงสุด หน่วยความจำ GPU | สูงสุด หน่วยความจำ CPU |
|---|---|---|---|---|---|
| Openai/Whisper | FP16 | 5 | 4m30s | 11325MB | 9439MB |
| คร่ำครวญ | FP16 | 5 | 54s | 4755MB | 3244MB |
หากคุณต้องการใช้การใช้งานอื่นนอกเหนือจากที่เร็วขึ้น-Whisper ให้ใช้ --whisper_type arg และชื่อที่เก็บ
อ่าน Wiki สำหรับข้อมูลเพิ่มเติมเกี่ยวกับ CLI ARGS
นี่คือตารางการใช้งาน VRAM ดั้งเดิมของ Whisper สำหรับรุ่น
| ขนาด | พารามิเตอร์ | รุ่นภาษาอังกฤษเท่านั้น | แบบหลายภาษา | VRAM ที่ต้องการ | ความเร็วสัมพัทธ์ |
|---|---|---|---|---|---|
| ขนาดเล็ก | 39 ม. | tiny.en | tiny | ~ 1 GB | ~ 32X |
| ฐาน | 74 ม. | base.en | base | ~ 1 GB | ~ 16X |
| เล็ก | 244 ม. | small.en | small | ~ 2 GB | ~ 6x |
| ปานกลาง | 769 ม. | medium.en | medium | ~ 5 GB | ~ 2x |
| ใหญ่ | 1550 ม. | N/A | large | ~ 10 GB | 1x |
.en รุ่นสำหรับภาษาอังกฤษเท่านั้นและสิ่งที่ยอดเยี่ยมคือคุณสามารถใช้ตัวเลือก Translate to English จากรุ่น "ใหญ่"!
PRS ใด ๆ ที่แปลภาษาเป็นคำแปล YAML จะได้รับการชื่นชมอย่างมาก!