Whisper WebUI下载 - Whisper WebUI源代码下载

Whisper WebUI

其他源码

1.0.0

下载

窃窃私语

低语的基于Gradio的浏览器界面。您可以将其用作简单的字幕生成器！

耳语webui

笔记本

如果您想在Colab上尝试此操作，可以在这里进行！

特征

选择您要使用的耳语实现：
- Openai/窃窃私语
- systran/更快的旋风（默认使用）
- vaibhavs10/疯狂狂欢
来自各种来源的字幕，包括：
- 文件
- YouTube
- 麦克风
目前支持的字幕格式：
- SRT
- Webvtt
- txt（只有不含时间表的文本文件）
对文字翻译的讲话
- 从其他语言到英语。（这是Whisper的端到端语音到文本翻译功能）
文字转换翻译
- 使用Facebook NLLB模型翻译字幕文件
- 使用DEEPL API翻译字幕文件
用Silero VAD预处理音频输入。
预处理音频输入以使用UVR分开BGM。
使用Pyannote模型进行后处理，并使用扬声器诊断。
- 要下载Pyannote模型，您需要在下面的页面中拥有一个拥抱面代币，并手动接受其条款。
  1. https://huggingface.co/pyannote/speaker-diarization-3.1
  2. https://huggingface.co/pyannote/sementation-3.0

安装和运行

与Pinokio一起运行

该应用程序可以使用Pinokio运行。

安装Pinokio软件。
打开软件并搜索Whisper-Webui并安装它。
启动Whisper-Webui，然后连接到http://localhost:7860 。

与Docker一起跑步

安装和启动Docker-Desktop。
git克隆存储库

git clone https://github.com/jhj0517/Whisper-WebUI.git

构建图像（图像约为7GB〜）

docker compose build

运行容器

docker compose up

使用您的浏览器http://localhost:7860连接到WebUI

如果需要，请更新docker-compose.yaml以匹配您的环境。

本地运行

先决条件

要运行此WebUI，您需要拥有git ， 3.10 <= python <= 3.12 ， FFmpeg 。
而且，如果您不使用NVIDA GPU，或者使用与12.4的CUDA版本不同，请编辑requirements.txt以匹配您的环境。

请按照以下链接安装必要的软件：

git：https：//git-scm.com/downloads
Python：https：//www.python.org/downloads/建议使用3.10 ~ 3.12 。
ffmpeg：https：//ffmpeg.org/download.html
cuda：https：//developer.nvidia.com/cuda-downloads

安装FFMPEG后，请确保将FFmpeg/bin文件夹添加到您的系统路径！

自动安装

git克隆这个存储库

git clone https://github.com/jhj0517/Whisper-WebUI.git

运行install.bat或install.sh以安装依赖项。（它将创建一个venv目录并在那里安装依赖项。）
使用start-webui.bat或start-webui.sh启动webui（激活VENV后将运行python app.py ）

而且，如果您愿意，您还可以使用命令行参数运行该项目，请参阅Wiki以获取参数指南。

VRAM用法

默认情况下，该项目与更快的呼声集成在一起，以更好地使用VRAM和转录速度。

根据更快的呼声，优化的耳语模型的效率如下：

执行	精确	梁尺寸	时间	最大限度。 GPU内存	最大限度。 CPU内存
Openai/窃窃私语	FP16	5	4M30S	11325MB	9439MB
更快的呼声	FP16	5	54	4755MB	3244MB

如果要使用更快的旋转速度以外的实现，请使用--whisper_type arg和存储库名称。
阅读Wiki以获取有关CLI ARGS的更多信息。

可用型号

这是Whisper的原始VRAM使用表用于模型。

尺寸	参数	仅英语模型	多语言模型	需要VRAM	相对速度
微小的	39 m	`tiny.en`	`tiny`	〜1 GB	〜32X
根据	74 m	`base.en`	`base`	〜1 GB	〜16x
小的	244 m	`small.en`	`small`	〜2 GB	〜6x
中等的	769 m	`medium.en`	`medium`	〜5 GB	〜2x
大的	1550 m	N/A。	`large`	〜10 GB	1倍

.en Translate to English

待会？

添加DEEPL API翻译
添加NLLB模型翻译
与更快的旋风集成
与疯狂的呼声集成在一起
与Whisperx整合（仅说话者诊断部分）
使用UVR添加背景音乐分离预处理
添加快速的API脚本
支持麦克风实时转录

翻译

任何将语言翻译成翻译的PR。YAML将不胜感激！

展开

附加信息

版本 1.0.0
类型其他源码
更新时间 2025-02-26
大小 198.21KB
来自于 Github

Whisper WebUI

窃窃私语

笔记本

特征

安装和运行

与Pinokio一起运行

与Docker一起跑步

本地运行

先决条件

自动安装

VRAM用法

可用型号

待会？

翻译

webui_bfm

JableTVDownload WebUI

flux webui

open webui

webui

stable diffusion webui

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

hidusbf

Google Dorks

shepherd

hidusbf