Descarga de PAFTS - Descarga del código fuente PAFTS

PAFTS

Código Fuente de IA

v1.0.0

Descargar

Pafts

Biblioteca que preprocesando audio para TTS.

Esta biblioteca permite un fácil procesamiento de archivos de audio en un formato adecuado para datos de capacitación TTS con una ejecución simple. arquitectura

Descripción

Pafts tiene tres características.

Separador
Diarización
Stt

Separador: elimina la música de fondo (MR) y el ruido de cada archivo de audio para aislar pistas de voz limpias.
Diarización: separa los altavoces dentro de cada archivo de audio, identificando voces distintas.
STT: extrae texto del audio.

 # before run()

      path
        ├── 1_001.wav # have mr or noise
        ├── 1_002.wav
        ├── 1_003.wav
        ├── 1_004.wav
        └── abc.wav


# after run()
    
       path
        ├── SPEAKER_00
        │   ├── SPEAKER_00_1.wav # removed mr and noise
        │   ├── SPEAKER_00_2.wav
        │   └── SPEAKER_00_3.wav
        ├── SPEAKER_01
        │   ├── SPEAKER_01_1.wav
        │   └── SPEAKER_01_2.wav
        ├── SPEAKER_02
        │   ├── SPEAKER_02_1.wav
        │   └── SPEAKER_02_2.wav
        └── audio.json
        
        # audio.json
        {
              'SPEAKER_00_1.wav' : "I have a note.", 
              'SPEAKER_00_2.wav' : "I want to eat chicken.",
              'SPEAKER_00_3.wav' : "...",
              'SPEAKER_01_1.wav' : "...",
              'SPEAKER_01_2.wav' : "...",   
        }

Características

Separador: utilizando el modelo y el código del proyecto UVR para la separación de la fuente de música.
Diarización: Uso de la diarización del altavoz de Pyannote-Audio
STT: Uso de STT Model Whisper de OpenAi

Configuración

Esta biblioteca se desarrolló con Python 3.10, y recomendamos usar las versiones de Python 3.8 a 3.10 para compatibilidad.

Si bien la biblioteca es compatible con Linux y Windows, todas las pruebas se realizaron en Windows. Para cualquier problema o error encontrado mientras se ejecuta en Linux, no dude en abrir un problema.

Antes de ejecutar la biblioteca, asegúrese de que se instale lo siguiente:

Pytorch

Recomendamos encarecidamente el uso de una GPU para optimizar el rendimiento. Para la instalación de Pytorch, siga los comandos a continuación para garantizar la compatibilidad con su GPU

 # Example for installing PyTorch with CUDA 11.8
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

ffmpeg

Se requiere FFMPEG para tareas de procesamiento de audio dentro de esta biblioteca. Asegúrese de que esté instalado y accesible desde la ruta de su sistema. Para instalar ffmpeg:

Windows

Descargue la última versión de FFMPEG desde el sitio web oficial de FFMPEG y agregue la carpeta bin a la ruta de su sistema.

Linux

Use el siguiente comando para instalar ffmpeg:

 sudo apt update
sudo apt install ffmpeg

Después de la instalación, puede verificar ejecutando

 ffmpeg -version

Token de acceso de Huggingface (requerido para la diarización)

Para habilitar la funcionalidad de diarización, complete los siguientes pasos

Aceptar pyannote/segmentation-3.0 Condiciones del usuario
Aceptar pyannote/speaker-diarization-3.1 condiciones del usuario
Cree token de acceso en hf.co/settings/tokens .

 from pafts.pafts import PAFTS

p = PAFTS(
    path = 'your_audio_directory_path',
    output_path = 'output_path',
    hf_token="HUGGINGFACE_ACCESS_TOKEN_GOES_HERE"
)

Después de completar los pasos de configuración anteriores, puede instalar esta biblioteca ejecutando

 pip install pafts

Uso

 from pafts import PAFTS

p = PAFTS(
    path = 'your_audio_directory_path',
    output_path = 'output_path',
    hf_token="HUGGINGFACE_ACCESS_TOKEN_GOES_HERE" # if you use diarization
    
)

# Separator
p.separator()

# Diarization
p.diarization()

# STT
p.STT(model_size='small')

# One-Click Process
p.run()