Download whisperx api - download do código fonte whisperx api

whisperx api

Código-Fonte de IA

1.0.0

Baixar

Whisperx API Wrapper

Um invólucro de API para biblioteca Whisperx

Visão geral

Este é um aplicativo FASTAPI que fornece um terminal para transcrição de vídeo/áudio usando o comando whisperx . O aplicativo suporta vários formatos de áudio e vídeo. Ele executa a transcrição, o alinhamento e a diarização dos arquivos de mídia carregados.

Características

Autenticação de usuário com JWT
Suporte para vários formatos de áudio e vídeo
Suporte à diarização
Configurações de linguagem e modelo personalizáveis

Requisitos

Whisperx
Python 3.8+
FASTAPI
ffmpeg
Sqlite
pyjwt
dotenv

Siga as instruções sobre como instalar o Whisperx no repositório oficial, você pode instalar essas dependências usando o arquivo requirements.txt :

pip install -r requirements.txt

Variáveis de ambiente

Crie um arquivo .env no seu diretório raiz e adicione as seguintes variáveis:

 SECRET_KEY = your_secret_key
MASTER_KEY = your_master_key
HUGGING_FACE_TOKEN = your_hugging_face_token
API_PORT = 11300

Configuração do banco de dados

O SQLite é usado para armazenar informações do usuário. O banco de dados é criado automaticamente quando o aplicativo é executado.

Executando o aplicativo

Execute o aplicativo usando:

python api_whisperx.py

Substitua main pelo nome do seu arquivo python, se não for main.py

Endpoints da API

Post `/auth`

Autentique um usuário e retorne um token JWT.

username : o nome de usuário do usuário.
password : a senha do usuário.

Post `/create_user`

Crie um novo usuário.

username : nome de usuário desejado.
password : senha desejada.
master_key : chave mestre para criação de usuário autorizada.

Publicar `/whisperx-transcribe/`

Transcreva um arquivo de áudio ou vídeo carregado.

file : o arquivo de áudio ou vídeo para transcrever.
lang : Idioma para transcrição (o padrão é "pt").
model : Modelo a ser usado para transcrição (o padrão é "grande-v2").
min_speakers : Número mínimo de alto -falantes para diarização (o padrão é 1).
max_speakers : Número máximo de alto -falantes para diarização (o padrão é 2).