Téléchargement whisperx api - Téléchargement du code source de whisperx api

whisperx api

Code Source AI

1.0.0

Télécharger

Whisperx API Wrapper

Un emballage API pour la bibliothèque Whisperx

Aperçu

Il s'agit d'une application FastAPI qui fournit un point de terminaison pour la transcription vidéo / audio à l'aide de la commande whisperx . L'application prend en charge plusieurs formats audio et vidéo. Il effectue la transcription, l'alignement et la diarité des fichiers multimédias téléchargés.

Caractéristiques

Authentification des utilisateurs avec JWT
Prise en charge de plusieurs formats audio et vidéo
Support de diarité
Paramètres de langue et de modèle personnalisables

Exigences

chuchoter
Python 3.8+
Fastapi
ffmpeg
Sqlite
pyjwt
dotenv

Suivez les instructions sur la façon d'installer Whisperx dans le référentiel officiel, vous pouvez installer ces dépendances à l'aide du fichier requirements.txt :

pip install -r requirements.txt

Variables d'environnement

Créez un fichier .env dans votre répertoire racine et ajoutez les variables suivantes:

 SECRET_KEY = your_secret_key
MASTER_KEY = your_master_key
HUGGING_FACE_TOKEN = your_hugging_face_token
API_PORT = 11300

Configuration de la base de données

SQLite est utilisé pour stocker les informations des utilisateurs. La base de données est créée automatiquement lorsque l'application s'exécute.

Exécution de l'application

Exécutez l'application en utilisant:

python api_whisperx.py

Remplacez main par le nom de votre fichier Python s'il n'est pas main.py

Points de terminaison API

Post `/auth`

Authentifiez un utilisateur et renvoyez un jeton JWT.

username : le nom d'utilisateur de l'utilisateur.
password : le mot de passe de l'utilisateur.

Post `/create_user`

Créer un nouvel utilisateur.

username : nom d'utilisateur souhaité.
password : mot de passe souhaité.
master_key : Master Key pour la création utilisateur autorisée.

Post `/whisperx-transcribe/`

Transcrire un fichier audio ou vidéo téléchargé.

file : le fichier audio ou vidéo à transcrire.
lang : Langue pour la transcription (par défaut est "PT").
model : modèle à utiliser pour la transcription (par défaut est "grand-V2").
min_speakers : nombre minimum de haut-parleurs pour la diarisation (par défaut est 1).
max_speakers : Nombre maximum de haut-parleurs pour la diarisation (par défaut est 2).