Descarga de whisperx api - Descargar el código fuente whisperx api

whisperx api

Código Fuente de IA

1.0.0

Descargar

Envoltorio de API de Whisperx

Un envoltorio API para la biblioteca Whisperx

Descripción general

Esta es una aplicación FastAPI que proporciona un punto final para la transcripción de video/audio utilizando el comando whisperx . La aplicación admite múltiples formatos de audio y video. Realiza la transcripción, la alineación y la diario de los archivos multimedia cargados.

Características

Autenticación de usuario con JWT
Soporte para múltiples formatos de audio y video
Soporte de diarización
Configuración personalizable de idiomas y modelos

Requisitos

susurro
Python 3.8+
Fastapi
ffmpeg
Sqlite
pyjwt
dotenv

Siga las instrucciones sobre cómo instalar Whisperx en el repositorio oficial, puede instalar estas dependencias utilizando el archivo requirements.txt :

pip install -r requirements.txt

Variables de entorno

Cree un archivo .env en su directorio raíz y agregue las siguientes variables:

 SECRET_KEY = your_secret_key
MASTER_KEY = your_master_key
HUGGING_FACE_TOKEN = your_hugging_face_token
API_PORT = 11300

Configuración de la base de datos

SQLite se utiliza para almacenar información del usuario. La base de datos se crea automáticamente cuando se ejecuta la aplicación.

Ejecutando la aplicación

Ejecute la aplicación usando:

python api_whisperx.py

Reemplace main con el nombre de su archivo Python si no es main.py

Puntos finales de API

Post `/auth`

Autenticar a un usuario y devolver un token JWT.

username : el nombre de usuario del usuario.
password : la contraseña del usuario.

Post `/create_user`

Crear un nuevo usuario.

username : nombre de usuario deseado.
password : contraseña deseada.
master_key : clave maestra para la creación autorizada de usuarios.

Post `/whisperx-transcribe/`

Transcribe un archivo de audio o video cargado.

file : el archivo de audio o video para transcribir.
lang : Idioma para la transcripción (el valor predeterminado es "PT").
model : Modelo para usar para la transcripción (el valor predeterminado es "grande-V2").
min_speakers : número mínimo de altavoces para diarización (el valor predeterminado es 1).
max_speakers : número máximo de altavoces para diarización (el valor predeterminado es 2).