PAFTS
v1.0.0
このライブラリは、オーディオファイルを簡単な実行でTTSトレーニングデータに適した形式に簡単に処理できるようにします。 
パフトには3つの機能があります。
# before run()
path
├── 1_001.wav # have mr or noise
├── 1_002.wav
├── 1_003.wav
├── 1_004.wav
└── abc.wav
# after run()
path
├── SPEAKER_00
│ ├── SPEAKER_00_1.wav # removed mr and noise
│ ├── SPEAKER_00_2.wav
│ └── SPEAKER_00_3.wav
├── SPEAKER_01
│ ├── SPEAKER_01_1.wav
│ └── SPEAKER_01_2.wav
├── SPEAKER_02
│ ├── SPEAKER_02_1.wav
│ └── SPEAKER_02_2.wav
└── audio.json
# audio.json
{
'SPEAKER_00_1.wav' : "I have a note.",
'SPEAKER_00_2.wav' : "I want to eat chicken.",
'SPEAKER_00_3.wav' : "...",
'SPEAKER_01_1.wav' : "...",
'SPEAKER_01_2.wav' : "...",
}
このライブラリはPython 3.10を使用して開発されました。互換性のためにPythonバージョン3.8〜3.10を使用することをお勧めします。
ライブラリはLinuxとWindowsの両方と互換性がありますが、すべてのテストはWindowsで行われました。 Linuxで実行中に遭遇した問題やエラーについては、お気軽に問題を開いてください。
ライブラリを実行する前に、以下がインストールされていることを確認してください。
パフォーマンスを最適化するためにGPUを使用することを強くお勧めします。 Pytorchのインストールについては、GPUとの互換性を確認するために、以下のコマンドに従ってください
# Example for installing PyTorch with CUDA 11.8
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
FFMPEGは、このライブラリ内のオーディオ処理タスクに必要です。システムのパスからインストールされ、アクセス可能であることを確認してください。 FFMPEGをインストールするには:
FFMPEGの公式Webサイトから最新のFFMPEGリリースをダウンロードし、システムのパスにビンフォルダーを追加します。
次のコマンドを使用してFFMPEGをインストールします。
sudo apt update
sudo apt install ffmpeg
インストール後、実行して確認できます
ffmpeg -version
ダイアリゼーション機能を有効にするには、次の手順を完了してください
pyannote/segmentation-3.0ユーザー条件を受け入れますpyannote/speaker-diarization-3.1ユーザー条件を受け入れますhf.co/settings/tokensでアクセストークンを作成します。 from pafts.pafts import PAFTS
p = PAFTS(
path = 'your_audio_directory_path',
output_path = 'output_path',
hf_token="HUGGINGFACE_ACCESS_TOKEN_GOES_HERE"
)
上記のセットアップ手順を完了したら、このライブラリを実行してインストールできます
pip install pafts
from pafts import PAFTS
p = PAFTS(
path = 'your_audio_directory_path',
output_path = 'output_path',
hf_token="HUGGINGFACE_ACCESS_TOKEN_GOES_HERE" # if you use diarization
)
# Separator
p.separator()
# Diarization
p.diarization()
# STT
p.STT(model_size='small')
# One-Click Process
p.run()
パフトのコードはMITライセンスです