ดาวน์โหลด PAFTS - ดาวน์โหลดซอร์สโค้ด PAFTS

PAFTS

โค้ดแหล่งที่มา AI

v1.0.0

ดาวน์โหลด

เพลา

ห้องสมุดที่ประมวลผลเสียงล่วงหน้าสำหรับ TTS

ไลบรารีนี้ช่วยให้การประมวลผลไฟล์เสียงง่ายขึ้นในรูปแบบที่เหมาะสำหรับข้อมูลการฝึกอบรม TTS ด้วยการดำเนินการอย่างง่าย สถาปัตยกรรม

คำอธิบาย

Pafts มีสามคุณสมบัติ

เครื่องแยก
การทำให้ดีขึ้น
STT

ตัวคั่น: ลบเพลงพื้นหลัง (MR) และเสียงรบกวนจากแต่ละไฟล์เสียงเพื่อแยกแทร็กเสียงที่สะอาด
Diarization: แยกลำโพงภายในไฟล์เสียงแต่ละไฟล์โดยระบุเสียงที่แตกต่างกัน
STT: แยกข้อความจากเสียง

 # before run()

      path
        ├── 1_001.wav # have mr or noise
        ├── 1_002.wav
        ├── 1_003.wav
        ├── 1_004.wav
        └── abc.wav


# after run()
    
       path
        ├── SPEAKER_00
        │   ├── SPEAKER_00_1.wav # removed mr and noise
        │   ├── SPEAKER_00_2.wav
        │   └── SPEAKER_00_3.wav
        ├── SPEAKER_01
        │   ├── SPEAKER_01_1.wav
        │   └── SPEAKER_01_2.wav
        ├── SPEAKER_02
        │   ├── SPEAKER_02_1.wav
        │   └── SPEAKER_02_2.wav
        └── audio.json
        
        # audio.json
        {
              'SPEAKER_00_1.wav' : "I have a note.", 
              'SPEAKER_00_2.wav' : "I want to eat chicken.",
              'SPEAKER_00_3.wav' : "...",
              'SPEAKER_01_1.wav' : "...",
              'SPEAKER_01_2.wav' : "...",   
        }

คุณสมบัติ

ตัวคั่น: การใช้โมเดลและรหัสของโครงการ UVR สำหรับการแยกแหล่งที่มาของเพลง
Diarization: การใช้ลำโพง diarization จาก pyannote-Audio
STT: การใช้ STT Model Whisper จาก OpenAI

การตั้งค่า

ไลบรารีนี้ได้รับการพัฒนาโดยใช้ Python 3.10 และเราขอแนะนำให้ใช้ Python Version 3.8 ถึง 3.10 สำหรับความเข้ากันได้

ในขณะที่ห้องสมุดเข้ากันได้กับทั้ง Linux และ Windows การทดสอบทั้งหมดได้ดำเนินการบน Windows สำหรับปัญหาหรือข้อผิดพลาดใด ๆ ที่พบขณะทำงานบน Linux โปรดเปิดปัญหา

ก่อนที่จะเรียกใช้ห้องสมุดโปรดตรวจสอบให้แน่ใจว่ามีการติดตั้งต่อไปนี้:

pytorch

เราขอแนะนำให้ใช้ GPU เพื่อเพิ่มประสิทธิภาพประสิทธิภาพ สำหรับการติดตั้ง pytorch โปรดทำตามคำสั่งด้านล่างเพื่อให้แน่ใจว่าเข้ากันได้กับ GPU ของคุณ

 # Example for installing PyTorch with CUDA 11.8
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

FFMPEG

FFMPEG เป็นสิ่งจำเป็นสำหรับงานประมวลผลเสียงภายในไลบรารีนี้ โปรดตรวจสอบให้แน่ใจว่าได้รับการติดตั้งและเข้าถึงได้จากเส้นทางของระบบของคุณ ในการติดตั้ง ffmpeg:

หน้าต่าง

ดาวน์โหลดรุ่น FFMPEG ล่าสุดจากเว็บไซต์ทางการของ FFMPEG และเพิ่มโฟลเดอร์ bin ลงในเส้นทางของระบบของคุณ

ลินเวกซ์

ใช้คำสั่งต่อไปนี้เพื่อติดตั้ง ffmpeg:

 sudo apt update
sudo apt install ffmpeg

หลังจากการติดตั้งคุณสามารถตรวจสอบได้โดยการรัน

 ffmpeg -version

โทเค็นการเข้าถึง HuggingFace (จำเป็นสำหรับ diarization)

หากต้องการเปิดใช้งานฟังก์ชั่น diarization โปรดทำตามขั้นตอนต่อไปนี้

ยอมรับเงื่อนไขของผู้ใช้ pyannote/segmentation-3.0
ยอมรับเงื่อนไขของผู้ใช้ pyannote/speaker-diarization-3.1
สร้างโทเค็นการเข้าถึงที่ hf.co/settings/tokens

 from pafts.pafts import PAFTS

p = PAFTS(
    path = 'your_audio_directory_path',
    output_path = 'output_path',
    hf_token="HUGGINGFACE_ACCESS_TOKEN_GOES_HERE"
)

หลังจากเสร็จสิ้นขั้นตอนการตั้งค่าด้านบนคุณสามารถติดตั้งไลบรารีนี้ได้โดยเรียกใช้

 pip install pafts

การใช้งาน

 from pafts import PAFTS

p = PAFTS(
    path = 'your_audio_directory_path',
    output_path = 'output_path',
    hf_token="HUGGINGFACE_ACCESS_TOKEN_GOES_HERE" # if you use diarization
    
)

# Separator
p.separator()

# Diarization
p.diarization()

# STT
p.STT(model_size='small')

# One-Click Process
p.run()