Скачать PAFTS - скачать исходный код PAFTS

PAFTS

AI Исходный код

v1.0.0

Скачать

Pafts

Библиотека, которая предварительно обрабатывает звук для TTS.

Эта библиотека обеспечивает легкую обработку аудиофайлов в формат, подходящий для учебных данных TTS с простой выполнением. архитектура

Описание

У PAFT есть три функции.

Сепаратор
Дневник
Stt

Сепаратор: удаляет фоновую музыку (MR) и шум из каждого аудиофайла, чтобы изолировать чистые голосовые дорожки.
Диаризация: отделяет динамики в каждом аудиофайле, идентифицируя отдельные голоса.
STT: извлечь текст из аудио.

 # before run()

      path
        ├── 1_001.wav # have mr or noise
        ├── 1_002.wav
        ├── 1_003.wav
        ├── 1_004.wav
        └── abc.wav


# after run()
    
       path
        ├── SPEAKER_00
        │   ├── SPEAKER_00_1.wav # removed mr and noise
        │   ├── SPEAKER_00_2.wav
        │   └── SPEAKER_00_3.wav
        ├── SPEAKER_01
        │   ├── SPEAKER_01_1.wav
        │   └── SPEAKER_01_2.wav
        ├── SPEAKER_02
        │   ├── SPEAKER_02_1.wav
        │   └── SPEAKER_02_2.wav
        └── audio.json
        
        # audio.json
        {
              'SPEAKER_00_1.wav' : "I have a note.", 
              'SPEAKER_00_2.wav' : "I want to eat chicken.",
              'SPEAKER_00_3.wav' : "...",
              'SPEAKER_01_1.wav' : "...",
              'SPEAKER_01_2.wav' : "...",   
        }

Функции

Сепаратор: Использование модели и кода проекта UVR для разделения источника музыки.
Диаризация: использование диализа динамика от Pyannote-Audio
STT: Использование STT Model Whisper из OpenAI

Настраивать

Эта библиотека была разработана с использованием Python 3.10, и мы рекомендуем использовать версии Python от 3,8 до 3.10 для совместимости.

В то время как библиотека совместима как с Linux, так и с Windows, все тестирование проводилось в Windows. Для любых проблем или ошибок, возникающих во время работы на Linux, пожалуйста, не стесняйтесь открывать проблему.

Перед запуском библиотеки, пожалуйста, убедитесь, что следующее установлено:

Пирог

Мы настоятельно рекомендуем использовать графический процессор для оптимизации производительности. Для установки Pytorch, пожалуйста, следуйте приведенным ниже командам, чтобы обеспечить совместимость с GPU

 # Example for installing PyTorch with CUDA 11.8
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

ffmpeg

FFMPEG требуется для задач обработки аудио в этой библиотеке. Пожалуйста, убедитесь, что он установлен и доступен с пути вашей системы. Для установки FFMPEG:

Окна

Загрузите последний выпуск FFMPEG с официального веб -сайта FFMPEG и добавьте папку BIN на путь вашей системы.

Linux

Используйте следующую команду для установки FFMPEG:

 sudo apt update
sudo apt install ffmpeg

После установки вы можете проверить, запустив

 ffmpeg -version

Токен доступа к объятиям (требуется для дневника)

Чтобы включить функциональность дневника, выполните следующие шаги

Принять pyannote/segmentation-3.0 Условия пользователя
Принять pyannote/speaker-diarization-3.1 Условия пользователя
Создайте токен доступа на hf.co/settings/tokens .

 from pafts.pafts import PAFTS

p = PAFTS(
    path = 'your_audio_directory_path',
    output_path = 'output_path',
    hf_token="HUGGINGFACE_ACCESS_TOKEN_GOES_HERE"
)

После завершения шагов настройки выше вы можете установить эту библиотеку, запустив

 pip install pafts

Использование

 from pafts import PAFTS

p = PAFTS(
    path = 'your_audio_directory_path',
    output_path = 'output_path',
    hf_token="HUGGINGFACE_ACCESS_TOKEN_GOES_HERE" # if you use diarization
    
)

# Separator
p.separator()

# Diarization
p.diarization()

# STT
p.STT(model_size='small')

# One-Click Process
p.run()