youtube_tts_data_generator下载youtube_tts_data

youtube_tts_data_generator

Ai源码

Youtube Speech Data Generator

下载

YouTube语音数据生成器

一个用于生成语音数据集的Python库。 YouTube语音数据生成器还要处理构建语音数据集所需的几乎所有语音数据预处理以及它们的转录，以确保它遵循目录结构，然后大多数文本到语音架构。

安装

确保已安装FFMPEG并将其设置为系统路径。

$ pip install youtube-tts-data-generator

创建数据集的最小启动

 from youtube_tts_data_generator import YTSpeechDataGenerator

# First create a YTSpeechDataGenerator instance:

generator = YTSpeechDataGenerator ( dataset_name = 'elon' )

# Now create a '.txt' file that contains a list of YouTube videos that contains speeches.
# NOTE - Make sure you choose videos with subtitles.

generator . prepare_dataset ( 'links.txt' )
# The above will take care about creating your dataset, creating a metadata file and trimming silence from the audios.

用法

初始化生成器： generator = YTSpeechDataGenerator(dataset_name='your_dataset',lang='en')
- 参数：
  - dataset_name ：
    - 您想给出的数据集的名称。
    - 将创建类似的目录结构：
      ├───your_dataset │ ├───txts │ └───wavs └───your_dataset_prep ├───concatenated ├───downloaded └───split
  - output_type ：
    - 生成数据集后要创建的元数据的类型。
    - 支持类型：CSV/JSON
    - 默认输出类型设置为CSV
    - CSV文件遵循LJ语音数据集的格式
    - JSON文件遵循此格式：
      { "your_dataset1.wav": "This is an example text", "your_dataset2.wav": "This is an another example text", }
  - keep_audio_extension ：
    - 是否将音频文件扩展放在元数据文件中
    - 默认值设置为false
  - 朗：
    - 必须下载字幕的目标语言的关键。
    - 默认值设置为en
    - 提示- 使用以下方式检查可用语言及其键的列表： generator.get_available_langs()
  - SR ：
    - 保持音频的样本率。
    - 默认值设置为22050
方法：
- 下载（）：
  - 从YouTube下载视频文件及其字幕，并将其保存为WAV文件。
  - 参数：
    - links_txt ：
      - 通往包含视频URL的'.txt'文件的路径。
  - 该方法的使用是可选的。如果您不使用此方法，请确保将所有音频和字幕文件放在“ your_dataset_prep/downloaded”目录中。
  - 然后，创建一个名为“ files.txt”的文件，然后再次将其放在'your_dataset_prep/downloaded'下。 “ files.txt”应遵循以下格式：
```
 filename,subtitle,trim_min_begin,trim_min_end
audio.wav,subtitle.srt,0,0
audio2.wav,subtitle.vtt,5,6
```
  - 创建一个“ .txt”文件，其中包含包含演讲的YouTube视频列表。
  - 示例generator.download('links.txt')
- split_audios（）：
  - 该方法根据字幕中文本的持续时间将所有WAV文件分为较小的块。
  - 将转录作为每个块的“ .txt”文件保存。
  - 示例generator.split_audios()
- concat_audios（）：
  - 由于拆分音频是基于其字幕的持续时间，因此它们可能不会太长。此方法将拆分文件连接到可识别的文件中。
  - 参数：
    - max_limit ：
      - 应该概括的音频长度的上限。其余的将保持原样。
      - 默认值设置为7
    - concat_count ：
      - 应将连续音频的数量合在一起。
      - 默认值设置为2
  - 示例generator.concat_audios()
- finalize_dataset（）：
  - 修剪静音默默连接的音频，因为数据是从YouTube收集的，并在完成所有预处理后生成了最终数据集。
  - 参数：
    - min_audio_length ：
      - 应该保留演讲的缩影。其余的将被忽略。
      - 默认值设置为5 。
    - max_audio_length ：
      - 应该保留的演讲的最大长度。其余的将被忽略。
      - 默认值设置为14 。
  - 示例generator.finalize_dataset(min_audio_length=6)
- get_available_langs（）：
  - 获取可下载字幕的可用语言列表。
  - 示例generator.get_available_langs()
- get_total_audio_length（）：
  - 返回发电机收集的预处理的语音数据的总量。
  - 示例generator.get_total_audio_length()
- prepary_dataset（）：
  - 用于下载的包装方法（） ， split_audios（） ， concat_audios（）和finalize_dataset（） 。
  - 如果您不希望使用上述方法，则可以直接调用preeph_dataset（） 。它将处理您的所有数据生成。
  - 参数：
    - links_txt ：
      - 通往包含视频URL的'.txt'文件的路径。
    - SR ：
      - 保持音频的样本率。
      - 默认值设置为22050
    - download_youtube_data ：
      - 是否从YouTube下载音频。
      - 默认值是正确的
    - max_concat_limit ：
      - 应该概括的音频长度的上限。其余的将保持原样。
      - 默认值设置为7
    - concat_count ：
      - 应将连续音频的数量合在一起。
      - 默认值设置为2
    - min_audio_length ：
      - 应该保留演讲的缩影。其余的将被忽略。
      - 默认值设置为5 。
    - max_audio_length ：
      - 应该保留的演讲的最大长度。其余的将被忽略。
      - 默认值设置为14 。
  - 示例generator.prepare_dataset(links_txt='links.txt', download_youtube_data=True, min_audio_length=6)

最终数据集结构

创建数据集后，“ your_dataset”目录下的结构应该看起来像：

 your_dataset
├───txts
│   ├───your_dataset1.txt
│   └───your_dataset2.txt
├───wavs
│    ├───your_dataset1.wav
│    └───your_dataset2.wav
└───metadata.csv/alignment.json

注意audio.py高度基于实时语音克隆