PAFTSダウンロード - PAFTSトソースコードのダウンロード

PAFTS

AI ソースコード

v1.0.0

ダウンロード

パフト

TTS用の前処理オーディオのライブラリ。

このライブラリは、オーディオファイルを簡単な実行でTTSトレーニングデータに適した形式に簡単に処理できるようにします。

説明

パフトには3つの機能があります。

セパレーター
ダイアリゼーション
stt

セパレーター：各オーディオファイルからバックグラウンドミュージック（MR）とノイズを削除して、クリーンな音声トラックを分離します。
ダイアリゼーション：各オーディオファイル内のスピーカーを分離し、異なる声を識別します。
STT：オーディオからテキストを抽出します。

 # before run()

      path
        ├── 1_001.wav # have mr or noise
        ├── 1_002.wav
        ├── 1_003.wav
        ├── 1_004.wav
        └── abc.wav


# after run()
    
       path
        ├── SPEAKER_00
        │   ├── SPEAKER_00_1.wav # removed mr and noise
        │   ├── SPEAKER_00_2.wav
        │   └── SPEAKER_00_3.wav
        ├── SPEAKER_01
        │   ├── SPEAKER_01_1.wav
        │   └── SPEAKER_01_2.wav
        ├── SPEAKER_02
        │   ├── SPEAKER_02_1.wav
        │   └── SPEAKER_02_2.wav
        └── audio.json
        
        # audio.json
        {
              'SPEAKER_00_1.wav' : "I have a note.", 
              'SPEAKER_00_2.wav' : "I want to eat chicken.",
              'SPEAKER_00_3.wav' : "...",
              'SPEAKER_01_1.wav' : "...",
              'SPEAKER_01_2.wav' : "...",   
        }

特徴

セパレーター：UVRプロジェクトのモデルと音楽ソース分離のコードを使用します。
ダイアリゼーション：pyannote-audioからのスピーカーダイアリゼーションの使用
STT：OpenaiのSTTモデルのささやきを使用します

設定

このライブラリはPython 3.10を使用して開発されました。互換性のためにPythonバージョン3.8〜3.10を使用することをお勧めします。

ライブラリはLinuxとWindowsの両方と互換性がありますが、すべてのテストはWindowsで行われました。 Linuxで実行中に遭遇した問題やエラーについては、お気軽に問題を開いてください。

ライブラリを実行する前に、以下がインストールされていることを確認してください。

Pytorch

パフォーマンスを最適化するためにGPUを使用することを強くお勧めします。 Pytorchのインストールについては、GPUとの互換性を確認するために、以下のコマンドに従ってください

 # Example for installing PyTorch with CUDA 11.8
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

ffmpeg

FFMPEGは、このライブラリ内のオーディオ処理タスクに必要です。システムのパスからインストールされ、アクセス可能であることを確認してください。 FFMPEGをインストールするには：

Windows

FFMPEGの公式Webサイトから最新のFFMPEGリリースをダウンロードし、システムのパスにビンフォルダーを追加します。

Linux

次のコマンドを使用してFFMPEGをインストールします。

 sudo apt update
sudo apt install ffmpeg

インストール後、実行して確認できます

 ffmpeg -version

ハギングフェイスアクセストークン（ダイアリゼーションに必要）

ダイアリゼーション機能を有効にするには、次の手順を完了してください

pyannote/segmentation-3.0ユーザー条件を受け入れます
pyannote/speaker-diarization-3.1ユーザー条件を受け入れます
hf.co/settings/tokensでアクセストークンを作成します。

 from pafts.pafts import PAFTS

p = PAFTS(
    path = 'your_audio_directory_path',
    output_path = 'output_path',
    hf_token="HUGGINGFACE_ACCESS_TOKEN_GOES_HERE"
)

上記のセットアップ手順を完了したら、このライブラリを実行してインストールできます

 pip install pafts

使用法

 from pafts import PAFTS

p = PAFTS(
    path = 'your_audio_directory_path',
    output_path = 'output_path',
    hf_token="HUGGINGFACE_ACCESS_TOKEN_GOES_HERE" # if you use diarization
    
)

# Separator
p.separator()

# Diarization
p.diarization()

# STT
p.STT(model_size='small')

# One-Click Process
p.run()