Whisper WebUIダウンロードWhisper WebUIソースコードのダウンロード

Whisper WebUI

その他のソースコード

1.0.0

ダウンロード

whisper-webui

ささやき用のグラデーションベースのブラウザインターフェイス。簡単な字幕ジェネレーターとして使用できます！

Webuiをささやきます

ノート

Colabでこれを試してみたい場合は、ここでそれをすることができます！

特徴

次の間で使用するささやきの実装を選択します。
- Openai/Whisper
- Systran/Faster-Whisper（デフォルトで使用）
- vaibhavs10/非常に速いウィスパー
以下を含むさまざまなソースから字幕を生成します。
- ファイル
- YouTube
- マイクロフォン
現在サポートされているサブタイトル形式：
- SRT
- webvtt
- TXT（タイムラインのないテキストファイルのみ）
テキスト翻訳へのスピーチ
- 他の言語から英語まで。（これはささやきのエンドツーエンドの音声からテキストへの翻訳機能です）
テキストからテキスト翻訳
- Facebook NLLBモデルを使用して字幕ファイルを翻訳します
- Deepl APIを使用して字幕ファイルを翻訳します
Silero VADを使用した前処理オーディオ入力。
UVRでBGMを分離するための前処理オーディオ入力。
Pyannoteモデルを使用したスピーカーの拡張を使用した後処理。
- pyannoteモデルをダウンロードするには、ハグイングフェイストークンを使用して、以下のページで用語を手動で受け入れる必要があります。
  1. https://huggingface.co/pyannote/speaker-diarization-3.1
  2. https://huggingface.co/pyannote/segmentation-3.0

インストールと実行

ピノキオと一緒に走っています

アプリはPinokioで実行できます。

Pinokioソフトウェアをインストールします。
ソフトウェアを開き、whisper-webuiを検索してインストールします。
Whisper-Webuiを起動し、 http://localhost:7860に接続します。

Dockerで走っています

Docker-desktopをインストールして起動します。
gitリポジトリをクローンします

git clone https://github.com/jhj0517/Whisper-WebUI.git

画像を作成します（画像は約7GB〜）

docker compose build

コンテナを実行します

docker compose up

http://localhost:7860でブラウザでWebUIに接続します

必要に応じて、 docker-compose.yamlを更新して、環境に一致します。

ローカルで実行します

前提条件

このWebUIを実行するには、 git 、 3.10 <= python <= 3.12 、 FFmpegが必要です。
また、NVIDA GPUを使用していない場合、または12.4とは異なるCUDAバージョンを使用していない場合は、環境と一致するようにrequirements.txtを編集してください。

必要なソフトウェアをインストールするには、以下のリンクに従ってください。

git：https：//git-scm.com/downloads
Python：https：//www.python.org/downloads/ 3.10 ~ 3.12お勧めします。
ffmpeg：https：//ffmpeg.org/download.html
cuda：https：//developer.nvidia.com/cuda-downloads

FFMPEGをインストールしたら、 FFmpeg/binフォルダーをシステムパスに追加してください！

自動インストール

Git Cloneこのリポジトリ

git clone https://github.com/jhj0517/Whisper-WebUI.git

install.batまたはinstall.shを実行して、依存関係をインストールします。（ venvディレクトリを作成し、そこに依存関係をインストールします。）
start-webui.batまたはstart-webui.shでWebUIを開始します（venvをアクティブにした後、 python app.pyを実行します）

また、コマンドラインの引数でプロジェクトを実行することもできます。

VRAMの使用

このプロジェクトは、VRAMの使用速度と転写速度を向上させるために、デフォルトでより速いウィスパーと統合されています。

より速いウィスパーによると、最適化されたささやきモデルの効率は次のとおりです。

実装	精度	ビームサイズ	時間	マックス。 GPUメモリ	マックス。 CPUメモリ
Openai/Whisper	FP16	5	4m30s	11325MB	9439MB
より速いウィスパー	FP16	5	54s	4755MB	3244MB

より速いウィスパー以外の実装を使用する場合は、 --whisper_type argとリポジトリ名を使用します。
CLI Argsの詳細については、Wikiをお読みください。

利用可能なモデル

これは、モデル用のWhisperのオリジナルVRAM使用テーブルです。

サイズ	パラメーター	英語のみのモデル	多言語モデル	必要なvram	相対速度
小さい	39 m	`tiny.en`	`tiny`	〜1 gb	〜32x
ベース	74 m	`base.en`	`base`	〜1 gb	〜16x
小さい	244 m	`small.en`	`small`	〜2 gb	〜6x
中くらい	769 m	`medium.en`	`medium`	〜5 gb	〜2x
大きい	1550 m	n/a	`large`	〜10 gb	1x

.enモデルは英語のみであり、クールなことは、「大規模」モデルのTranslate to Englishオプションを使用できることです！

トッド？

Deepl API翻訳を追加します
NLLBモデルの翻訳を追加します
より速いウィスパーと統合します
非常に速いウィスパーと統合します
whisperxと統合する（スピーカーのダイアリゼーションのみ）
UVRを使用して、バックグラウンドミュージック分離前処理を追加します
高速APIスクリプトを追加します
マイクのリアルタイム転写をサポートします

翻訳

言語を翻訳に翻訳するPRS.yamlは大歓迎です！

拡大する

追加情報

バージョン 1.0.0
タイプその他のソースコード
更新時間 2025-02-26
サイズ 198.21KB
から Github

Whisper WebUI

whisper-webui

ノート

特徴

インストールと実行

ピノキオと一緒に走っています

Dockerで走っています

ローカルで実行します

前提条件

自動インストール

VRAMの使用

利用可能なモデル

トッド？

翻訳

webui_bfm

JableTVDownload WebUI

flux webui

open webui

webui

stable diffusion webui

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

hidusbf

Google Dorks

shepherd

hidusbf