Download do PAFTS - Download do código -fonte do PAFTS

PAFTS

Código-Fonte de IA

v1.0.0

Baixar

PAFTS

Biblioteca que pré -processando áudio para TTS.

Esta biblioteca permite fácil processamento de arquivos de áudio em um formato adequado para dados de treinamento TTS com uma execução simples. arquitetura

Descrição

Os PAFTS têm três recursos.

Separador
Diarização
STT

Separador: remove a música de fundo (MR) e o ruído de cada arquivo de áudio para isolar faixas de voz limpas.
Diarização: separa os alto -falantes em cada arquivo de áudio, identificando vozes distintas.
STT: Extraia o texto do áudio.

 # before run()

      path
        ├── 1_001.wav # have mr or noise
        ├── 1_002.wav
        ├── 1_003.wav
        ├── 1_004.wav
        └── abc.wav


# after run()
    
       path
        ├── SPEAKER_00
        │   ├── SPEAKER_00_1.wav # removed mr and noise
        │   ├── SPEAKER_00_2.wav
        │   └── SPEAKER_00_3.wav
        ├── SPEAKER_01
        │   ├── SPEAKER_01_1.wav
        │   └── SPEAKER_01_2.wav
        ├── SPEAKER_02
        │   ├── SPEAKER_02_1.wav
        │   └── SPEAKER_02_2.wav
        └── audio.json
        
        # audio.json
        {
              'SPEAKER_00_1.wav' : "I have a note.", 
              'SPEAKER_00_2.wav' : "I want to eat chicken.",
              'SPEAKER_00_3.wav' : "...",
              'SPEAKER_01_1.wav' : "...",
              'SPEAKER_01_2.wav' : "...",   
        }

Características

Separador: Usando o modelo e o código do projeto UVR para a separação da fonte de música.
Diarização: Usando a diarização do alto-falante de Pyannote-Audio
STT: Usando o STT Model Whisper do OpenAI

Configurar

Esta biblioteca foi desenvolvida usando o Python 3.10 e recomendamos o uso de versões Python 3.8 a 3.10 para compatibilidade.

Enquanto a biblioteca é compatível com o Linux e o Windows, todos os testes foram realizados no Windows. Para quaisquer problemas ou erros encontrados durante a execução no Linux, sinta -se à vontade para abrir um problema.

Antes de executar a biblioteca, verifique se o seguinte está instalado:

Pytorch

É altamente recomendável usar uma GPU para otimizar o desempenho. Para a instalação do Pytorch, siga os comandos abaixo para garantir a compatibilidade com sua GPU

 # Example for installing PyTorch with CUDA 11.8
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

ffmpeg

O FFMPEG é necessário para tarefas de processamento de áudio nessa biblioteca. Verifique se está instalado e acessível a partir do caminho do seu sistema. Para instalar o ffmpeg:

Windows

Faça o download da versão mais recente do FFMPEG no site oficial do FFMPEG e adicione a pasta BIN ao caminho do seu sistema.

Linux

Use o seguinte comando para instalar o ffmpeg:

 sudo apt update
sudo apt install ffmpeg

Após a instalação, você pode verificar executando

 ffmpeg -version

Token de acesso à HuggingFace (necessário para a diarização)

Para ativar a funcionalidade de diarização, preencha as seguintes etapas

Aceite pyannote/segmentation-3.0 Condições do usuário
Aceite pyannote/speaker-diarization-3.1 Condições do usuário
Crie token de acesso em hf.co/settings/tokens .

 from pafts.pafts import PAFTS

p = PAFTS(
    path = 'your_audio_directory_path',
    output_path = 'output_path',
    hf_token="HUGGINGFACE_ACCESS_TOKEN_GOES_HERE"
)

Depois de concluir as etapas de configuração acima, você pode instalar esta biblioteca executando

 pip install pafts

Uso

 from pafts import PAFTS

p = PAFTS(
    path = 'your_audio_directory_path',
    output_path = 'output_path',
    hf_token="HUGGINGFACE_ACCESS_TOKEN_GOES_HERE" # if you use diarization
    
)

# Separator
p.separator()

# Diarization
p.diarization()

# STT
p.STT(model_size='small')

# One-Click Process
p.run()