PAFTS
v1.0.0
이 라이브러리를 사용하면 간단한 실행으로 TTS 교육 데이터에 적합한 형식으로 오디오 파일을 쉽게 처리 할 수 있습니다. 
PAFT에는 세 가지 기능이 있습니다.
# before run()
path
├── 1_001.wav # have mr or noise
├── 1_002.wav
├── 1_003.wav
├── 1_004.wav
└── abc.wav
# after run()
path
├── SPEAKER_00
│ ├── SPEAKER_00_1.wav # removed mr and noise
│ ├── SPEAKER_00_2.wav
│ └── SPEAKER_00_3.wav
├── SPEAKER_01
│ ├── SPEAKER_01_1.wav
│ └── SPEAKER_01_2.wav
├── SPEAKER_02
│ ├── SPEAKER_02_1.wav
│ └── SPEAKER_02_2.wav
└── audio.json
# audio.json
{
'SPEAKER_00_1.wav' : "I have a note.",
'SPEAKER_00_2.wav' : "I want to eat chicken.",
'SPEAKER_00_3.wav' : "...",
'SPEAKER_01_1.wav' : "...",
'SPEAKER_01_2.wav' : "...",
}
이 라이브러리는 Python 3.10을 사용하여 개발되었으며 호환성을 위해 Python 버전 3.8 ~ 3.10을 사용하는 것이 좋습니다.
라이브러리는 Linux 및 Windows와 호환되지만 모든 테스트는 Windows에서 수행되었습니다. Linux에서 실행 중에 발생하는 모든 문제 나 오류에 대해서는 문제를 열어 주시기 바랍니다.
라이브러리를 실행하기 전에 다음이 설치되어 있는지 확인하십시오.
GPU를 사용하여 성능을 최적화하는 것이 좋습니다. Pytorch 설치의 경우 아래 명령을 따라 GPU와의 호환성을 확인하십시오.
# Example for installing PyTorch with CUDA 11.8
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
이 라이브러리의 오디오 처리 작업에는 FFMPEG가 필요합니다. 시스템 경로에서 설치 및 액세스 할 수 있는지 확인하십시오. ffmpeg를 설치하려면 :
FFMPEG의 공식 웹 사이트에서 최신 FFMPEG 릴리스를 다운로드하고 시스템 경로에 BIN 폴더를 추가하십시오.
다음 명령을 사용하여 ffmpeg를 설치하십시오.
sudo apt update
sudo apt install ffmpeg
설치 후 실행하여 확인할 수 있습니다
ffmpeg -version
일기 기능을 활성화하려면 다음 단계를 완료하십시오
pyannote/segmentation-3.0 사용자 조건을 수락하십시오pyannote/speaker-diarization-3.1 사용자 조건을 수락하십시오hf.co/settings/tokens 에서 액세스 토큰을 만듭니다. from pafts.pafts import PAFTS
p = PAFTS(
path = 'your_audio_directory_path',
output_path = 'output_path',
hf_token="HUGGINGFACE_ACCESS_TOKEN_GOES_HERE"
)
위의 설정 단계를 완료 한 후 실행 하여이 라이브러리를 설치할 수 있습니다.
pip install pafts
from pafts import PAFTS
p = PAFTS(
path = 'your_audio_directory_path',
output_path = 'output_path',
hf_token="HUGGINGFACE_ACCESS_TOKEN_GOES_HERE" # if you use diarization
)
# Separator
p.separator()
# Diarization
p.diarization()
# STT
p.STT(model_size='small')
# One-Click Process
p.run()
Pafts 의 코드는 MIT- 라이센스가 있습니다