whisperx api Download - whisperx api Quellcode herunterladen

whisperx api

AI-Quellcode

1.0.0

Herunterladen

Flüsterte API -Wrapper

Eine API -Wrapper für die Flüsterung der Bibliothek

Überblick

Dies ist eine Fastapi -Anwendung, die einen Endpunkt für die Video-/Audio -Transkription mit dem Befehl whisperx bietet. Die Anwendung unterstützt mehrere Audio- und Videoformate. Es führt die Transkription, Ausrichtung und Durchdiatisierung der hochgeladenen Mediendateien durch.

Merkmale

Benutzerauthentifizierung mit JWT
Unterstützung für mehrere Audio- und Videoformate
Diarisierungsunterstützung
Anpassbare Sprach- und Modelleinstellungen

Anforderungen

Flüsterung
Python 3.8+
Fastapi
ffmpeg
Sqlite
Pyjwt
dotenv

Befolgen Sie die Anweisungen zur Installation von Whisperx im offiziellen Repository. Sie können diese Abhängigkeiten mithilfe der requirements.txt -Datei installieren:

pip install -r requirements.txt

Umgebungsvariablen

Erstellen Sie eine .env -Datei in Ihrem Stammverzeichnis und fügen Sie die folgenden Variablen hinzu:

 SECRET_KEY = your_secret_key
MASTER_KEY = your_master_key
HUGGING_FACE_TOKEN = your_hugging_face_token
API_PORT = 11300

Datenbank -Setup

SQLite wird zum Speichern von Benutzerinformationen verwendet. Die Datenbank wird automatisch erstellt, wenn die Anwendung ausgeführt wird.

Ausführen der Anwendung

Führen Sie die Anwendung mit: Ausführen:

python api_whisperx.py

Ersetzen Sie main durch den Namen Ihrer Python -Datei, wenn es sich nicht um main.py handelt.

API -Endpunkte

Post `/auth`

Authentifizieren Sie einen Benutzer und geben Sie ein JWT -Token zurück.

username : Der Benutzername des Benutzers.
password : Das Passwort des Benutzers.

Post `/create_user`

Erstellen Sie einen neuen Benutzer.

username : gewünschter Benutzername.
password : gewünschtes Passwort.
master_key : Master -Schlüssel für die autorisierte Benutzererstellung.

Post `/whisperx-transcribe/`

Transkribieren Sie eine hochgeladene Audio- oder Videodatei.

file : Die zu transkribierende Audio- oder Videodatei.
lang : Sprache für die Transkription (Standard ist "pt").
model : Modell für die Transkription (Standard ist "groß-V2").
min_speakers : Mindestanzahl von Lautsprechern für die Diarisierung (Standard ist 1).
max_speakers : maximale Anzahl der Sprecher für die Diarisierung (Standard ist 2).

Protokollierung

Die Anwendung verfügt über integrierte Protokollierung, die über die von den durchgeführten Schritten und über alle auftretenden Fehler informiert werden.

Expandieren

Zusätzliche Informationen