Descargar Whisper WebUI - Descargar el código fuente Whisper WebUI

Whisper WebUI

Otro código fuente

1.0.0

Descargar

Whisper-Webui

Una interfaz de navegador con sede en Gradio para Whisper. ¡Puedes usarlo como un generador de subtítulos fácil!

Whisper Webui

Computadora portátil

Si desea probar esto en Colab, ¡puede hacerlo aquí!

Característica

Seleccione la implementación Whisper que desea usar entre:
- OpenAi/susurro
- Systran/más rápido (utilizado por defecto)
- Vaibhavs10/Insanely-Fast-Whisper
Generar subtítulos de varias fuentes, incluidas:
- Archivos
- YouTube
- Micrófono
Formatos de subtítulo actualmente compatibles:
- SRT
- Webvtt
- txt (solo archivo de texto sin línea de tiempo)
Traducción de discurso a texto
- De otros idiomas al inglés. (Esta es la función de traducción de voz a texto de extremo a texto de Whisper)
Traducción de texto a texto
- Traducir archivos de subtítulo usando modelos Facebook NLLB
- Traducir archivos de subtítulos utilizando API DeepL
Entrada de audio previa al procesamiento con Silero VAD.
Entrada de audio de preprocesamiento para separar BGM con UVR.
Postprocesamiento con diarización del altavoz utilizando el modelo Pyannote.
- Para descargar el modelo Pyannote, debe tener un token de Huggingface y aceptar manualmente sus términos en las páginas a continuación.
  1. https://huggingface.co/pyannote/speaker-diarization-3.1
  2. https://huggingface.co/pyannote/segmation-3.0

Instalación y ejecución

Corriendo con Pinokio

La aplicación puede ejecutarse con Pinokio.

Instale el software Pinokio.
Abra el software y busque Whisper-Webui e instálelo.
Comience el whisper-webui y conéctese al http://localhost:7860 .

Corriendo con Docker

Instale y inicie Docker-desktop.
Git clon el repositorio

git clone https://github.com/jhj0517/Whisper-WebUI.git

Construir la imagen (la imagen es de aproximadamente 7 gb ~)

docker compose build

Ejecute el contenedor

docker compose up

Conéctese a la webui con su navegador en http://localhost:7860

Si es necesario, actualice docker-compose.yaml para que coincida con su entorno.

Ejecutar localmente

Requisito previo

Para ejecutar este webui, debe tener git , 3.10 <= python <= 3.12 , FFmpeg .
Y si no está utilizando una GPU NVIDA, o utilizando una versión CUDA diferente de 12.4, edite los requirements.txt para que coincida con su entorno.

Siga los enlaces a continuación para instalar el software necesario:

git: https://git-scm.com/downloads
Python: https://www.python.org/downloads/ 3.10 ~ 3.12 se recomienda.
Ffmpeg: https://ffmpeg.org/download.html
Cuda: https://developer.nvidia.com/cuda-downloads

Después de instalar FFMPEG, ¡asegúrese de agregar la carpeta FFmpeg/bin a la ruta de su sistema!

Instalación automática

Git Clone Este repositorio

git clone https://github.com/jhj0517/Whisper-WebUI.git

Ejecute install.bat o install.sh para instalar dependencias. (Creará un directorio venv e instalará dependencias allí).
Inicie Webui con start-webui.bat o start-webui.sh (ejecutará python app.py después de activar el Venv)

Y también puede ejecutar el proyecto con argumentos de línea de comandos si desea, consulte Wiki para obtener una guía de argumentos.

Usos de vram

Este proyecto está integrado con Whisper más rápido de forma predeterminada para un mejor uso de VRAM y velocidad de transcripción.

Según más rápido, la eficiencia del modelo de susurro optimizado es la siguiente:

Implementación	Precisión	Tamaño del haz	Tiempo	Max. Memoria de GPU	Max. Memoria de la CPU
OpenAi/susurro	FP16	5	4M30S	11325MB	9439mb
más rápido	FP16	5	54s	4755mb	3244mb

Si desea utilizar una implementación que no sea más rápido, use --whisper_type Arg y el nombre del repositorio.
Lea Wiki para obtener más información sobre CLI Args.

Modelos disponibles

Esta es la mesa de uso de VRAM original de Whisper para modelos.

Tamaño	Parámetros	Modelo solo en inglés	Modelo multilingüe	VRAM requerido	Velocidad relativa
diminuto	39 m	`tiny.en`	`tiny`	~ 1 GB	~ 32x
base	74 m	`base.en`	`base`	~ 1 GB	~ 16x
pequeño	244 m	`small.en`	`small`	~ 2 GB	~ 6x
medio	769 m	`medium.en`	`medium`	~ 5 GB	~ 2x
grande	1550 m	N / A	`large`	~ 10 GB	1x