Whisper WebUI Download - Whisper WebUI Quellcode herunterladen

Whisper WebUI

Anderer Quellcode

1.0.0

Herunterladen

Flüstergezui

Eine basierte Browser-Schnittstelle für Flüsterung. Sie können es als einfachen Untertitelgenerator verwenden!

Flüstere webui

Notizbuch

Wenn Sie dies auf Colab versuchen möchten, können Sie es hier tun!

Besonderheit

Wählen Sie die Whisper -Implementierung aus, die Sie zwischen:
- Openai/Whisper
- Systran/schnellerem Whisper (standardmäßig verwendet)
- Vaibhavs10/Insany-Fast-Whisper
Generieren Sie Untertitel aus verschiedenen Quellen, darunter:
- Dateien
- YouTube
- Mikrofon
Derzeit unterstützte Untertitelformate:
- Srt
- Webvtt
- txt (nur Textdatei ohne Zeitleiste)
Sprache zur Textübersetzung
- Von anderen Sprachen bis Englisch. (Dies ist das End-to-End-Übersetzungsfunktion von Whisper von Speech-to-Text))
Text zur Textübersetzung
- Übersetzen Sie Untertiteldateien mit Facebook NLLB -Modellen
- Übersetzen Sie Untertiteldateien mit Deeptl API
Vorverarbeitung der Audioeingabe mit Silero VAD.
Vorverarbeitung der Audioeingabe, um BGM mit UVR zu trennen.
Nachbearbeitung mit Sprecherdurch Diatrisierung unter Verwendung des Pyannote-Modells.
- Um das Pyannote -Modell herunterzuladen, müssen Sie ein Token mit Umarmungen haben und ihre Begriffe auf den folgenden Seiten manuell akzeptieren.
  1. https://huggingface.co/pyannote/speaker-diarization-3.1
  2. https://huggingface.co/pyannote/segmentation-3.0

Installation und Laufen

Laufen mit Pinokio

Die App kann mit Pinokio ausgeführt werden.

Installieren Sie die Pinokio -Software.
Öffnen Sie die Software und suchen Sie nach Flüstern-Webui und installieren Sie sie.
Starten Sie das Whisper-Webui und stellen Sie eine Verbindung zum http://localhost:7860 .

Laufen mit Docker

Installieren und starten Sie Docker-Desktop.
Git -Klon das Repository

git clone https://github.com/jhj0517/Whisper-WebUI.git

Erstellen Sie das Bild (Bild ist ca. 7 GB ~)

docker compose build

Führen Sie den Behälter aus

docker compose up

Stellen Sie mit Ihrem Browser unter http://localhost:7860 eine Verbindung zum Webui her

Aktualisieren Sie bei Bedarf die docker-compose.yaml so, dass sie Ihrer Umgebung entspricht.

Vor Ort laufen

Voraussetzung

Um dieses Webui auszuführen, müssen Sie git , 3.10 <= python <= 3.12 , FFmpeg haben.
Und wenn Sie keine NVIDA -GPU oder eine andere CUDA -Version als 12,4 verwenden, bearbeiten Sie die requirements.txt , um Ihre Umgebung zu entsprechen.

Bitte folgen Sie den folgenden Links, um die erforderliche Software zu installieren:

GIT: https://git-scm.com/downloads
Python: https://www.python.org/downloads/ 3.10 ~ 3.12 wird empfohlen.
Ffmpeg: https://ffmpeg.org/download.html
CUDA: https://developer.nvidia.com/cuda-downloads

Stellen Sie nach dem Installieren von FFMPEG den Ordner FFmpeg/bin zu Ihrem Systempfad hin!

Automatische Installation

Git -Klon dieses Repository

git clone https://github.com/jhj0517/Whisper-WebUI.git

Führen Sie install.bat oder install.sh aus, um Abhängigkeiten zu installieren. (Es wird ein venv -Verzeichnis erstellt und dort Abhängigkeiten installiert.)
Start Webui mit start-webui.bat oder start-webui.sh (es wird python app.py nach Aktivierung des Venvs ausgeführt)

Und Sie können das Projekt auch mit Befehlszeilenargumenten ausführen, wenn Sie möchten, finden Sie in Wiki eine Anleitung zu Argumenten.

VRAM -Verwendungen

Dieses Projekt ist standardmäßig in schnellerer WHISPER integriert, um eine bessere VRAM-Nutzung und Transkriptionsgeschwindigkeit zu erzielen.

Laut schnellerem Whisper ist die Effizienz des optimierten Flüstungsmodells wie folgt:

Durchführung	Präzision	Strahlgröße	Zeit	Max. GPU -Speicher	Max. CPU -Speicher
Openai/Whisper	FP16	5	4m30s	11325MB	9439MB
schneller-Whisper	FP16	5	54s	4755 MB	3244MB

Wenn Sie eine andere Implementierung als schneller-Whisper verwenden möchten, verwenden Sie --whisper_type arg und den Repository-Namen.
Lesen Sie Wiki für weitere Informationen zu CLI Args.

Verfügbare Modelle

Dies ist Whispers ursprünglicher VRAM -Nutzungstisch für Modelle.

Größe	Parameter	Nur Englischmodell	Mehrsprachiger Modell	Erforderliches VRAM	Relative Geschwindigkeit
winzig	39 m	`tiny.en`	`tiny`	~ 1 GB	~ 32x
Base	74 m	`base.en`	`base`	~ 1 GB	~ 16x
klein	244 m	`small.en`	`small`	~ 2 GB	~ 6x
Medium	769 m	`medium.en`	`medium`	~ 5 GB	~ 2x
groß	1550 m	N / A	`large`	~ 10 GB	1x

.en -Modelle sind nur für Englisch, und das Coole ist, dass Sie die Option " Translate to English Option" aus den "großen" Modellen verwenden können!

TODO?

Fügen Sie eine Deeptl API -Übersetzung hinzu
Fügen Sie die NLLB -Modellübersetzung hinzu
Integrieren Sie sich in schnellerer Whisper
Insany-Fast-Whisper integrieren
Integrieren Sie sich in Whisperx (nur Lautsprecher -Diarisierungsteil)
Fügen Sie Hintergrundmusik-Trennung Vorverarbeitung mit UVR hinzu
Fügen Sie eine schnelle API -Skript hinzu
Unterstützen Sie die Echtzeit-Transkription für Mikrofon

Übersetzung

Alle PRs, die die Sprache in Übersetzung übersetzen. Yaml wäre sehr geschätzt!

Expandieren

Zusätzliche Informationen

Version 1.0.0
Typ Anderer Quellcode
Aktualisierungszeit 2025-02-26
Größe 198.21KB
Kommt von Github

Ähnliche Anwendungen

webui_bfm

2024-11-13
JableTVDownload WebUI

2024-11-12
flux webui

2024-11-09
open webui

2024-11-03
webui

2024-11-02
stable diffusion webui

2024-11-01

Whisper WebUI

Flüstergezui

Notizbuch

Besonderheit

Installation und Laufen

Laufen mit Pinokio

Laufen mit Docker

Vor Ort laufen

Voraussetzung

Automatische Installation

VRAM -Verwendungen

Verfügbare Modelle

TODO?

Übersetzung

webui_bfm

JableTVDownload WebUI

flux webui

open webui

webui

stable diffusion webui

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

hidusbf

Google Dorks

shepherd

hidusbf