Unduh PAFTS - Unduh Kode Sumber PAFTS

PAFTS

Kode Sumber AI

v1.0.0

Unduh

Paft

Perpustakaan yang preprocessing audio untuk TTS.

Perpustakaan ini memungkinkan pemrosesan file audio yang mudah menjadi format yang cocok untuk data pelatihan TTS dengan eksekusi sederhana. arsitektur

Keterangan

Paft memiliki tiga fitur.

Pemisah
Diarisasi
Stt

Pemisah: Menghapus musik latar (MR) dan kebisingan dari setiap file audio untuk mengisolasi trek suara bersih.
Diarization: Memisahkan speaker dalam setiap file audio, mengidentifikasi suara yang berbeda.
STT: Ekstrak teks dari audio.

 # before run()

      path
        ├── 1_001.wav # have mr or noise
        ├── 1_002.wav
        ├── 1_003.wav
        ├── 1_004.wav
        └── abc.wav


# after run()
    
       path
        ├── SPEAKER_00
        │   ├── SPEAKER_00_1.wav # removed mr and noise
        │   ├── SPEAKER_00_2.wav
        │   └── SPEAKER_00_3.wav
        ├── SPEAKER_01
        │   ├── SPEAKER_01_1.wav
        │   └── SPEAKER_01_2.wav
        ├── SPEAKER_02
        │   ├── SPEAKER_02_1.wav
        │   └── SPEAKER_02_2.wav
        └── audio.json
        
        # audio.json
        {
              'SPEAKER_00_1.wav' : "I have a note.", 
              'SPEAKER_00_2.wav' : "I want to eat chicken.",
              'SPEAKER_00_3.wav' : "...",
              'SPEAKER_01_1.wav' : "...",
              'SPEAKER_01_2.wav' : "...",   
        }

Fitur

Pemisah: Menggunakan model dan kode proyek UVR untuk pemisahan sumber musik.
Diarization: Menggunakan Diarization Speaker dari Pyannote-Audio
STT: Menggunakan Model STT Whisper dari OpenAI

Pengaturan

Perpustakaan ini dikembangkan menggunakan Python 3.10, dan kami sarankan menggunakan Python Versions 3.8 hingga 3.10 untuk kompatibilitas.

Sementara pustaka kompatibel dengan Linux dan Windows, semua pengujian dilakukan pada Windows. Untuk masalah atau kesalahan yang dihadapi saat menjalankan di Linux, jangan ragu untuk membuka masalah.

Sebelum menjalankan perpustakaan, pastikan yang berikut ini diinstal:

Pytorch

Kami sangat merekomendasikan menggunakan GPU untuk mengoptimalkan kinerja. Untuk instalasi Pytorch, silakan ikuti perintah di bawah ini untuk memastikan kompatibilitas dengan GPU Anda

 # Example for installing PyTorch with CUDA 11.8
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

ffmpeg

FFMPEG diperlukan untuk tugas pemrosesan audio dalam perpustakaan ini. Harap pastikan itu diinstal dan dapat diakses dari jalur sistem Anda. Untuk menginstal ffmpeg:

Windows

Unduh rilis FFMPEG terbaru dari situs web resmi FFMPEG, dan tambahkan folder bin ke jalur sistem Anda.

Linux

Gunakan perintah berikut untuk menginstal FFMPEG:

 sudo apt update
sudo apt install ffmpeg

Setelah instalasi, Anda dapat memverifikasi dengan menjalankan

 ffmpeg -version

Huggingface Access Token (Diperlukan untuk Diarization)

Untuk mengaktifkan fungsionalitas Diarization, harap selesaikan langkah -langkah berikut

Terima Kondisi Pengguna pyannote/segmentation-3.0
Terima pyannote/speaker-diarization-3.1 Kondisi Pengguna
Buat Token Akses di hf.co/settings/tokens .

 from pafts.pafts import PAFTS

p = PAFTS(
    path = 'your_audio_directory_path',
    output_path = 'output_path',
    hf_token="HUGGINGFACE_ACCESS_TOKEN_GOES_HERE"
)

Setelah menyelesaikan langkah pengaturan di atas, Anda dapat menginstal perpustakaan ini dengan menjalankan

 pip install pafts

Penggunaan

 from pafts import PAFTS

p = PAFTS(
    path = 'your_audio_directory_path',
    output_path = 'output_path',
    hf_token="HUGGINGFACE_ACCESS_TOKEN_GOES_HERE" # if you use diarization
    
)

# Separator
p.separator()

# Diarization
p.diarization()

# STT
p.STT(model_size='small')

# One-Click Process
p.run()