youtube_tts_data_generatorダウンロードyoutube_tts_data_generatorソースコードダウンロード

youtube_tts_data_generator

AI ソースコード

Youtube Speech Data Generator

ダウンロード

YouTubeの音声データジェネレーター

音声データセットを生成するためのPythonライブラリ。 YouTube Speech Data Generatorは、スピーチデータセットを構築するために必要なスピーチデータのほぼすべての処理と、ディレクトリ構造に続いてテキストからスピーチのアーキテクチャのほとんどが続くことを確認するために、スピーチデータセットを構築する必要があります。

インストール

FFMPEGがインストールされ、システムパスに設定されていることを確認してください。

$ pip install youtube-tts-data-generator

データセットを作成するための最小限の開始

 from youtube_tts_data_generator import YTSpeechDataGenerator

# First create a YTSpeechDataGenerator instance:

generator = YTSpeechDataGenerator ( dataset_name = 'elon' )

# Now create a '.txt' file that contains a list of YouTube videos that contains speeches.
# NOTE - Make sure you choose videos with subtitles.

generator . prepare_dataset ( 'links.txt' )
# The above will take care about creating your dataset, creating a metadata file and trimming silence from the audios.

使用法

ジェネレーターの初期化： generator = YTSpeechDataGenerator(dataset_name='your_dataset',lang='en')
- パラメーター：
  - dataset_name ：
    - あなたが与えたいデータセットの名前。
    - このようなディレクトリ構造が作成されます。
      ├───your_dataset │ ├───txts │ └───wavs └───your_dataset_prep ├───concatenated ├───downloaded └───split
  - output_type ：
    - データセットが生成された後に作成されるメタデータのタイプ。
    - サポートされているタイプ：CSV/JSON
    - デフォルトの出力タイプはCSVに設定されています
    - CSVファイルは、LJスピーチデータセットの形式に従います
    - JSONファイルはこの形式に従います。
      { "your_dataset1.wav": "This is an example text", "your_dataset2.wav": "This is an another example text", }
  - keep_audio_extension ：
    - メタデータファイルにオーディオファイル拡張子を保持するかどうか
    - デフォルト値はfalseに設定されています
  - ラング：
    - 字幕をダウンロードする必要があるターゲット言語のキー。
    - デフォルト値はenに設定されています
    - ヒント- 使用可能な言語とそのキーのリストを確認してください： generator.get_available_langs()
  - SR ：
    - オーディオを保持するためのサンプルレート。
    - デフォルト値は22050に設定されています
方法：
- ダウンロード（）：
  - YouTubeからビデオファイルを字幕とともにダウンロードし、WAVファイルとして保存します。
  - パラメーター：
    - links_txt ：
      - ビデオのURLを含む「.txt」ファイルへのパス。
  - この方法の使用はオプションです。このメソッドを使用しない場合は、すべてのオーディオファイルとサブタイトルファイルを 'Your_Dataset_Prep/Downloaded' Directoryに配置してください。
  - 次に、「files.txt」というファイルを作成し、再び「your_dataset_prep/downloaded」の下に配置します。「files.txt」は次の形式に従う必要があります。
```
 filename,subtitle,trim_min_begin,trim_min_end
audio.wav,subtitle.srt,0,0
audio2.wav,subtitle.vtt,5,6
```
  - スピーチを含むYouTubeビデオのリストを含む「.txt」ファイルを作成します。
  - 例generator.download('links.txt')
- split_audios（）：
  - この方法は、すべてのWAVファイルを、字幕内のテキストの期間に従って小さなチャンクに分割します。
  - チャンクごとに「.txt」ファイルとして転写を保存します。
  - 例generator.split_audios()
- concat_audios（）：
  - 分割されたオーディオは字幕の期間に基づいているため、それほど長くはないかもしれません。この方法は、分割ファイルを認識可能なファイルに結合します。
  - パラメーター：
    - max_limit ：
      - 認められるべきオーディオの長さの上限。残りはそのまま保持されます。
      - デフォルト値は7に設定されています
    - concat_count ：
      - 一緒に認められるべき連続したオーディオの数。
      - デフォルト値は2に設定されています
  - 例generator.concat_audios()
- finalize_dataset（）：
  - YouTubeからデータが収集され、すべての前処理が終了した後に最終的なデータセットを生成するため、結合されたオーディオを沈黙します。
  - パラメーター：
    - min_audio_length ：
      - 保持する必要があるスピーチのミナムの長さ。残りは無視されます。
      - デフォルト値は5に設定されています。
    - max_audio_length ：
      - 保持する必要がある音声の最大長。残りは無視されます。
      - デフォルト値は14に設定されています。
  - 例generator.finalize_dataset(min_audio_length=6)
- get_available_langs（）：
  - 字幕をダウンロードできる利用可能な言語のリストを取得します。
  - 例generator.get_available_langs()
- get_total_audio_length（）：
  - 発電機によって収集された前処理された音声データの総量を返します。
  - 例generator.get_total_audio_length()
- prepare_dataset（）：
  - ダウンロード（） 、 split_audios（） 、 concat_audios（） 、 finalize_dataset（）のラッパー方法。
  - 上記の方法を使用したくない場合は、 prepare_dataset（）を直接呼び出すことができます。すべてのデータ生成を処理します。
  - パラメーター：
    - links_txt ：
      - ビデオのURLを含む「.txt」ファイルへのパス。
    - SR ：
      - オーディオを保持するためのサンプルレート。
      - デフォルト値は22050に設定されています
    - download_youtube_data ：
      - YouTubeからオーディオをダウンロードするかどうか。
      - デフォルト値は真です
    - max_concat_limit ：
      - 認められるべきオーディオの長さの上限。残りはそのまま保持されます。
      - デフォルト値は7に設定されています
    - concat_count ：
      - 一緒に認められるべき連続したオーディオの数。
      - デフォルト値は2に設定されています
    - min_audio_length ：
      - 保持する必要があるスピーチのミナムの長さ。残りは無視されます。
      - デフォルト値は5に設定されています。
    - max_audio_length ：
      - 保持する必要がある音声の最大長。残りは無視されます。
      - デフォルト値は14に設定されています。
  - 例generator.prepare_dataset(links_txt='links.txt', download_youtube_data=True, min_audio_length=6)

最終的なデータセット構造

データセットが作成されると、「Your_Dataset」ディレクトリの下の構造が次のようになります。

 your_dataset
├───txts
│   ├───your_dataset1.txt
│   └───your_dataset2.txt
├───wavs
│    ├───your_dataset1.wav
│    └───your_dataset2.wav
└───metadata.csv/alignment.json

注audio.pyはリアルタイムの音声クローニングに大きく基づいています