Whisper WebUI下載 - Whisper WebUI源代碼下載

下載

竊竊私語

低語的基於Gradio的瀏覽器界面。您可以將其用作簡單的字幕生成器！

耳語webui

如果您想在Colab上嘗試此操作，可以在這裡進行！

選擇您要使用的耳語實現：
- Openai/竊竊私語
- systran/更快的旋風（默認使用）
- vaibhavs10/瘋狂狂歡
來自各種來源的字幕，包括：
- 文件
- Youtube
- 麥克風
目前支持的字幕格式：
- SRT
- Webvtt
- txt（只有不含時間表的文本文件）
對文字翻譯的講話
- 從其他語言到英語。（這是Whisper的端到端語音到文本翻譯功能）
文字轉換翻譯
- 使用Facebook NLLB模型翻譯字幕文件
- 使用DEEPL API翻譯字幕文件
用Silero VAD預處理音頻輸入。
預處理音頻輸入以使用UVR分開BGM。
使用Pyannote模型進行後處理，並使用揚聲器診斷。
- 要下載Pyannote模型，您需要在下面的頁面中擁有一個擁抱面代幣，並手動接受其條款。
  1. https://huggingface.co/pyannote/speaker-diarization-3.1
  2. https://huggingface.co/pyannote/sementation-3.0

該應用程序可以使用Pinokio運行。

git clone https://github.com/jhj0517/Whisper-WebUI.git

docker compose build

docker compose up

如果需要，請更新docker-compose.yaml以匹配您的環境。

要運行此WebUI，您需要擁有git ， 3.10 <= python <= 3.12 ， FFmpeg 。
而且，如果您不使用NVIDA GPU，或者使用與12.4的CUDA版本不同，請編輯requirements.txt以匹配您的環境。

請按照以下鏈接安裝必要的軟件：

安裝FFMPEG後，請確保將FFmpeg/bin文件夾添加到您的系統路徑！

git clone https://github.com/jhj0517/Whisper-WebUI.git

而且，如果您願意，您還可以使用命令行參數運行該項目，請參閱Wiki以獲取參數指南。

默認情況下，該項目與更快的呼聲集成在一起，以更好地使用VRAM和轉錄速度。

根據更快的呼聲，優化的耳語模型的效率如下：

執行	精確	梁尺寸	時間	最大限度。 GPU內存	最大限度。 CPU內存
Openai/竊竊私語	FP16	5	4M30S	11325MB	9439MB
更快的呼聲	FP16	5	54	4755MB	3244MB

如果要使用更快的旋轉速度以外的實現，請使用--whisper_type arg和存儲庫名稱。
閱讀Wiki以獲取有關CLI ARGS的更多信息。

這是Whisper的原始VRAM使用表用於模型。

尺寸	參數	僅英語模型	多語言模型	需要VRAM	相對速度
微小的	39 m	`tiny.en`	`tiny`	〜1 GB	〜32X
根據	74 m	`base.en`	`base`	〜1 GB	〜16x
小的	244 m	`small.en`	`small`	〜2 GB	〜6x
中等的	769 m	`medium.en`	`medium`	〜5 GB	〜2x
大的	1550 m	N/A。	`large`	〜10 GB	1倍