Эта библиотека обеспечивает легкую обработку аудиофайлов в формат, подходящий для учебных данных TTS с простой выполнением. 
У PAFT есть три функции.
# before run()
path
├── 1_001.wav # have mr or noise
├── 1_002.wav
├── 1_003.wav
├── 1_004.wav
└── abc.wav
# after run()
path
├── SPEAKER_00
│ ├── SPEAKER_00_1.wav # removed mr and noise
│ ├── SPEAKER_00_2.wav
│ └── SPEAKER_00_3.wav
├── SPEAKER_01
│ ├── SPEAKER_01_1.wav
│ └── SPEAKER_01_2.wav
├── SPEAKER_02
│ ├── SPEAKER_02_1.wav
│ └── SPEAKER_02_2.wav
└── audio.json
# audio.json
{
'SPEAKER_00_1.wav' : "I have a note.",
'SPEAKER_00_2.wav' : "I want to eat chicken.",
'SPEAKER_00_3.wav' : "...",
'SPEAKER_01_1.wav' : "...",
'SPEAKER_01_2.wav' : "...",
}
Эта библиотека была разработана с использованием Python 3.10, и мы рекомендуем использовать версии Python от 3,8 до 3.10 для совместимости.
В то время как библиотека совместима как с Linux, так и с Windows, все тестирование проводилось в Windows. Для любых проблем или ошибок, возникающих во время работы на Linux, пожалуйста, не стесняйтесь открывать проблему.
Перед запуском библиотеки, пожалуйста, убедитесь, что следующее установлено:
Мы настоятельно рекомендуем использовать графический процессор для оптимизации производительности. Для установки Pytorch, пожалуйста, следуйте приведенным ниже командам, чтобы обеспечить совместимость с GPU
# Example for installing PyTorch with CUDA 11.8
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
FFMPEG требуется для задач обработки аудио в этой библиотеке. Пожалуйста, убедитесь, что он установлен и доступен с пути вашей системы. Для установки FFMPEG:
Загрузите последний выпуск FFMPEG с официального веб -сайта FFMPEG и добавьте папку BIN на путь вашей системы.
Используйте следующую команду для установки FFMPEG:
sudo apt update
sudo apt install ffmpeg
После установки вы можете проверить, запустив
ffmpeg -version
Чтобы включить функциональность дневника, выполните следующие шаги
pyannote/segmentation-3.0 Условия пользователяpyannote/speaker-diarization-3.1 Условия пользователяhf.co/settings/tokens . from pafts.pafts import PAFTS
p = PAFTS(
path = 'your_audio_directory_path',
output_path = 'output_path',
hf_token="HUGGINGFACE_ACCESS_TOKEN_GOES_HERE"
)
После завершения шагов настройки выше вы можете установить эту библиотеку, запустив
pip install pafts
from pafts import PAFTS
p = PAFTS(
path = 'your_audio_directory_path',
output_path = 'output_path',
hf_token="HUGGINGFACE_ACCESS_TOKEN_GOES_HERE" # if you use diarization
)
# Separator
p.separator()
# Diarization
p.diarization()
# STT
p.STT(model_size='small')
# One-Click Process
p.run()
Кодекс PAFTS лицензирован MIT