PAFTS 다운로드 - PAFTS 소스 코드 다운로드

PAFTS

AI 소스 코드

v1.0.0

다운로드

당황

TTS 용 오디오 전처리 라이브러리.

이 라이브러리를 사용하면 간단한 실행으로 TTS 교육 데이터에 적합한 형식으로 오디오 파일을 쉽게 처리 할 수 있습니다. 건축학

설명

PAFT에는 세 가지 기능이 있습니다.

분리 기호
발기
stt

분리기 : 각 오디오 파일에서 배경 음악 (MR) 및 노이즈를 제거하여 깨끗한 음성 트랙을 분리합니다.
일기 : 각 오디오 파일 내의 스피커를 분리하여 별개의 음성을 식별합니다.
STT : 오디오에서 텍스트를 추출하십시오.

 # before run()

      path
        ├── 1_001.wav # have mr or noise
        ├── 1_002.wav
        ├── 1_003.wav
        ├── 1_004.wav
        └── abc.wav


# after run()
    
       path
        ├── SPEAKER_00
        │   ├── SPEAKER_00_1.wav # removed mr and noise
        │   ├── SPEAKER_00_2.wav
        │   └── SPEAKER_00_3.wav
        ├── SPEAKER_01
        │   ├── SPEAKER_01_1.wav
        │   └── SPEAKER_01_2.wav
        ├── SPEAKER_02
        │   ├── SPEAKER_02_1.wav
        │   └── SPEAKER_02_2.wav
        └── audio.json
        
        # audio.json
        {
              'SPEAKER_00_1.wav' : "I have a note.", 
              'SPEAKER_00_2.wav' : "I want to eat chicken.",
              'SPEAKER_00_3.wav' : "...",
              'SPEAKER_01_1.wav' : "...",
              'SPEAKER_01_2.wav' : "...",   
        }

특징

분리기 : 음악 소스 분리를위한 UVR 프로젝트 모델 및 코드 사용.
일기 : Pyannote-Audio의 스피커 발기 사용
STT : OpenAi에서 STT 모델 속삭임을 사용합니다

설정

이 라이브러리는 Python 3.10을 사용하여 개발되었으며 호환성을 위해 Python 버전 3.8 ~ 3.10을 사용하는 것이 좋습니다.

라이브러리는 Linux 및 Windows와 호환되지만 모든 테스트는 Windows에서 수행되었습니다. Linux에서 실행 중에 발생하는 모든 문제 나 오류에 대해서는 문제를 열어 주시기 바랍니다.

라이브러리를 실행하기 전에 다음이 설치되어 있는지 확인하십시오.

Pytorch

GPU를 사용하여 성능을 최적화하는 것이 좋습니다. Pytorch 설치의 경우 아래 명령을 따라 GPU와의 호환성을 확인하십시오.

 # Example for installing PyTorch with CUDA 11.8
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

ffmpeg

이 라이브러리의 오디오 처리 작업에는 FFMPEG가 필요합니다. 시스템 경로에서 설치 및 액세스 할 수 있는지 확인하십시오. ffmpeg를 설치하려면 :

창

FFMPEG의 공식 웹 사이트에서 최신 FFMPEG 릴리스를 다운로드하고 시스템 경로에 BIN 폴더를 추가하십시오.

리눅스

다음 명령을 사용하여 ffmpeg를 설치하십시오.

 sudo apt update
sudo apt install ffmpeg

설치 후 실행하여 확인할 수 있습니다

 ffmpeg -version

Huggingface Access Token (발기 필요)

일기 기능을 활성화하려면 다음 단계를 완료하십시오

pyannote/segmentation-3.0 사용자 조건을 수락하십시오
pyannote/speaker-diarization-3.1 사용자 조건을 수락하십시오
hf.co/settings/tokens 에서 액세스 토큰을 만듭니다.

 from pafts.pafts import PAFTS

p = PAFTS(
    path = 'your_audio_directory_path',
    output_path = 'output_path',
    hf_token="HUGGINGFACE_ACCESS_TOKEN_GOES_HERE"
)

위의 설정 단계를 완료 한 후 실행 하여이 라이브러리를 설치할 수 있습니다.

 pip install pafts

용법

 from pafts import PAFTS

p = PAFTS(
    path = 'your_audio_directory_path',
    output_path = 'output_path',
    hf_token="HUGGINGFACE_ACCESS_TOKEN_GOES_HERE" # if you use diarization
    
)

# Separator
p.separator()

# Diarization
p.diarization()

# STT
p.STT(model_size='small')

# One-Click Process
p.run()