youtube_tts_data_generator下載youtube_tts_data

youtube_tts_data_generator

Ai源碼

Youtube Speech Data Generator

下載

YouTube語音數據生成器

一個用於生成語音數據集的Python庫。 YouTube語音數據生成器還要處理構建語音數據集所需的幾乎所有語音數據預處理以及它們的轉錄，以確保它遵循目錄結構，然後大多數文本到語音架構。

安裝

確保已安裝FFMPEG並將其設置為系統路徑。

$ pip install youtube-tts-data-generator

創建數據集的最小啟動

 from youtube_tts_data_generator import YTSpeechDataGenerator

# First create a YTSpeechDataGenerator instance:

generator = YTSpeechDataGenerator ( dataset_name = 'elon' )

# Now create a '.txt' file that contains a list of YouTube videos that contains speeches.
# NOTE - Make sure you choose videos with subtitles.

generator . prepare_dataset ( 'links.txt' )
# The above will take care about creating your dataset, creating a metadata file and trimming silence from the audios.

用法

初始化生成器： generator = YTSpeechDataGenerator(dataset_name='your_dataset',lang='en')
- 參數：
  - dataset_name ：
    - 您想給出的數據集的名稱。
    - 將創建類似的目錄結構：
      ├───your_dataset │ ├───txts │ └───wavs └───your_dataset_prep ├───concatenated ├───downloaded └───split
  - output_type ：
    - 生成數據集後要創建的元數據的類型。
    - 支持類型：CSV/JSON
    - 默認輸出類型設置為CSV
    - CSV文件遵循LJ語音數據集的格式
    - JSON文件遵循此格式：
      { "your_dataset1.wav": "This is an example text", "your_dataset2.wav": "This is an another example text", }
  - keep_audio_extension ：
    - 是否將音頻文件擴展放在元數據文件中
    - 默認值設置為false
  - 朗：
    - 必須下載字幕的目標語言的關鍵。
    - 默認值設置為en
    - 提示- 使用以下方式檢查可用語言及其鍵的列表： generator.get_available_langs()
  - SR ：
    - 保持音頻的樣本率。
    - 默認值設置為22050
方法：
- 下載（）：
  - 從YouTube下載視頻文件及其字幕，並將其保存為WAV文件。
  - 參數：
    - links_txt ：
      - 通往包含視頻URL的'.txt'文件的路徑。
  - 該方法的使用是可選的。如果您不使用此方法，請確保將所有音頻和字幕文件放在“ your_dataset_prep/downloaded”目錄中。
  - 然後，創建一個名為“ files.txt”的文件，然後再次將其放在'your_dataset_prep/downloaded'下。 “ files.txt”應遵循以下格式：
```
 filename,subtitle,trim_min_begin,trim_min_end
audio.wav,subtitle.srt,0,0
audio2.wav,subtitle.vtt,5,6
```
  - 創建一個“ .txt”文件，其中包含包含演講的YouTube視頻列表。
  - 示例generator.download('links.txt')
- split_audios（）：
  - 該方法根據字幕中文本的持續時間將所有WAV文件分為較小的塊。
  - 將轉錄作為每個塊的“ .txt”文件保存。
  - 示例generator.split_audios()
- concat_audios（）：
  - 由於拆分音頻是基於其字幕的持續時間，因此它們可能不會太長。此方法將拆分文件連接到可識別的文件中。
  - 參數：
    - max_limit ：
      - 應該概括的音頻長度的上限。其餘的將保持原樣。
      - 默認值設置為7
    - concat_count ：
      - 應將連續音頻的數量合在一起。
      - 默認值設置為2
  - 示例generator.concat_audios()
- finalize_dataset（）：
  - 修剪靜音默默連接的音頻，因為數據是從YouTube收集的，並在完成所有預處理後生成了最終數據集。
  - 參數：
    - min_audio_length ：
      - 應該保留演講的縮影。其餘的將被忽略。
      - 默認值設置為5 。
    - max_audio_length ：
      - 應該保留的演講的最大長度。其餘的將被忽略。
      - 默認值設置為14 。
  - 示例generator.finalize_dataset(min_audio_length=6)
- get_available_langs（）：
  - 獲取可下載字幕的可用語言列表。
  - 示例generator.get_available_langs()
- get_total_audio_length（）：
  - 返回發電機收集的預處理的語音數據的總量。
  - 示例generator.get_total_audio_length()
- prepary_dataset（）：
  - 用於下載的包裝方法（） ， split_audios（） ， concat_audios（）和finalize_dataset（） 。
  - 如果您不希望使用上述方法，則可以直接調用preeph_dataset（） 。它將處理您的所有數據生成。
  - 參數：
    - links_txt ：
      - 通往包含視頻URL的'.txt'文件的路徑。
    - SR ：
      - 保持音頻的樣本率。
      - 默認值設置為22050
    - download_youtube_data ：
      - 是否從YouTube下載音頻。
      - 默認值是正確的
    - max_concat_limit ：
      - 應該概括的音頻長度的上限。其餘的將保持原樣。
      - 默認值設置為7
    - concat_count ：
      - 應將連續音頻的數量合在一起。
      - 默認值設置為2
    - min_audio_length ：
      - 應該保留演講的縮影。其餘的將被忽略。
      - 默認值設置為5 。
    - max_audio_length ：
      - 應該保留的演講的最大長度。其餘的將被忽略。
      - 默認值設置為14 。
  - 示例generator.prepare_dataset(links_txt='links.txt', download_youtube_data=True, min_audio_length=6)

最終數據集結構

創建數據集後，“ your_dataset”目錄下的結構應該看起來像：

 your_dataset
├───txts
│   ├───your_dataset1.txt
│   └───your_dataset2.txt
├───wavs
│    ├───your_dataset1.wav
│    └───your_dataset2.wav
└───metadata.csv/alignment.json

注意audio.py高度基於實時語音克隆