Whisper WebUI
1.0.0
低語的基於Gradio的瀏覽器界面。您可以將其用作簡單的字幕生成器!

如果您想在Colab上嘗試此操作,可以在這裡進行!
該應用程序可以使用Pinokio運行。
http://localhost:7860 。 安裝和啟動Docker-Desktop。
git克隆存儲庫
git clone https://github.com/jhj0517/Whisper-WebUI.gitdocker compose build docker compose uphttp://localhost:7860連接到WebUI如果需要,請更新docker-compose.yaml以匹配您的環境。
要運行此WebUI,您需要擁有git , 3.10 <= python <= 3.12 , FFmpeg 。
而且,如果您不使用NVIDA GPU,或者使用與12.4的CUDA版本不同,請編輯requirements.txt以匹配您的環境。
請按照以下鏈接安裝必要的軟件:
3.10 ~ 3.12 。安裝FFMPEG後,請確保將FFmpeg/bin文件夾添加到您的系統路徑!
git clone https://github.com/jhj0517/Whisper-WebUI.gitinstall.bat或install.sh以安裝依賴項。 (它將創建一個venv目錄並在那里安裝依賴項。)start-webui.bat或start-webui.sh啟動webui(激活VENV後將運行python app.py )而且,如果您願意,您還可以使用命令行參數運行該項目,請參閱Wiki以獲取參數指南。
默認情況下,該項目與更快的呼聲集成在一起,以更好地使用VRAM和轉錄速度。
根據更快的呼聲,優化的耳語模型的效率如下:
| 執行 | 精確 | 梁尺寸 | 時間 | 最大限度。 GPU內存 | 最大限度。 CPU內存 |
|---|---|---|---|---|---|
| Openai/竊竊私語 | FP16 | 5 | 4M30S | 11325MB | 9439MB |
| 更快的呼聲 | FP16 | 5 | 54 | 4755MB | 3244MB |
如果要使用更快的旋轉速度以外的實現,請使用--whisper_type arg和存儲庫名稱。
閱讀Wiki以獲取有關CLI ARGS的更多信息。
這是Whisper的原始VRAM使用表用於模型。
| 尺寸 | 參數 | 僅英語模型 | 多語言模型 | 需要VRAM | 相對速度 |
|---|---|---|---|---|---|
| 微小的 | 39 m | tiny.en | tiny | 〜1 GB | 〜32X |
| 根據 | 74 m | base.en | base | 〜1 GB | 〜16x |
| 小的 | 244 m | small.en | small | 〜2 GB | 〜6x |
| 中等的 | 769 m | medium.en | medium | 〜5 GB | 〜2x |
| 大的 | 1550 m | N/A。 | large | 〜10 GB | 1倍 |
.en
任何將語言翻譯成翻譯的PR。YAML將不勝感激!