Una interfaz de navegador con sede en Gradio para Whisper. ¡Puedes usarlo como un generador de subtítulos fácil!

Si desea probar esto en Colab, ¡puede hacerlo aquí!
La aplicación puede ejecutarse con Pinokio.
http://localhost:7860 . Instale y inicie Docker-desktop.
Git clon el repositorio
git clone https://github.com/jhj0517/Whisper-WebUI.gitdocker compose build docker compose uphttp://localhost:7860 Si es necesario, actualice docker-compose.yaml para que coincida con su entorno.
Para ejecutar este webui, debe tener git , 3.10 <= python <= 3.12 , FFmpeg .
Y si no está utilizando una GPU NVIDA, o utilizando una versión CUDA diferente de 12.4, edite los requirements.txt para que coincida con su entorno.
Siga los enlaces a continuación para instalar el software necesario:
3.10 ~ 3.12 se recomienda. Después de instalar FFMPEG, ¡asegúrese de agregar la carpeta FFmpeg/bin a la ruta de su sistema!
git clone https://github.com/jhj0517/Whisper-WebUI.gitinstall.bat o install.sh para instalar dependencias. (Creará un directorio venv e instalará dependencias allí).start-webui.bat o start-webui.sh (ejecutará python app.py después de activar el Venv)Y también puede ejecutar el proyecto con argumentos de línea de comandos si desea, consulte Wiki para obtener una guía de argumentos.
Este proyecto está integrado con Whisper más rápido de forma predeterminada para un mejor uso de VRAM y velocidad de transcripción.
Según más rápido, la eficiencia del modelo de susurro optimizado es la siguiente:
| Implementación | Precisión | Tamaño del haz | Tiempo | Max. Memoria de GPU | Max. Memoria de la CPU |
|---|---|---|---|---|---|
| OpenAi/susurro | FP16 | 5 | 4M30S | 11325MB | 9439mb |
| más rápido | FP16 | 5 | 54s | 4755mb | 3244mb |
Si desea utilizar una implementación que no sea más rápido, use --whisper_type Arg y el nombre del repositorio.
Lea Wiki para obtener más información sobre CLI Args.
Esta es la mesa de uso de VRAM original de Whisper para modelos.
| Tamaño | Parámetros | Modelo solo en inglés | Modelo multilingüe | VRAM requerido | Velocidad relativa |
|---|---|---|---|---|---|
| diminuto | 39 m | tiny.en | tiny | ~ 1 GB | ~ 32x |
| base | 74 m | base.en | base | ~ 1 GB | ~ 16x |
| pequeño | 244 m | small.en | small | ~ 2 GB | ~ 6x |
| medio | 769 m | medium.en | medium | ~ 5 GB | ~ 2x |
| grande | 1550 m | N / A | large | ~ 10 GB | 1x |
.en Los modelos son solo para inglés, y lo bueno es que puede usar la opción Translate to English de los modelos "grandes".
Cualquier PRS que traduzca el idioma en la traducción. ¡Yaml sería muy apreciado!