youtube_tts_data_generator Скачать - youtube_tts_data

youtube_tts_data_generator

AI Исходный код

Youtube Speech Data Generator

Скачать

Генератор речевых данных YouTube

Библиотека Python для генерации набора данных речи. Генератор речевых данных YouTube также заботится о практически обо всех ваших речевых данных, необходимой для создания набора речевых данных, а также их транскрипций, убедившись, что он следует за структурой каталогов, за которой следует большинство архитектур текста в речь.

Установка

Убедитесь, что FFMPEG установлен и установлен на системный путь.

$ pip install youtube-tts-data-generator

Минимальное начало для создания набора данных

 from youtube_tts_data_generator import YTSpeechDataGenerator

# First create a YTSpeechDataGenerator instance:

generator = YTSpeechDataGenerator ( dataset_name = 'elon' )

# Now create a '.txt' file that contains a list of YouTube videos that contains speeches.
# NOTE - Make sure you choose videos with subtitles.

generator . prepare_dataset ( 'links.txt' )
# The above will take care about creating your dataset, creating a metadata file and trimming silence from the audios.

Использование

Инициализация генератора: generator = YTSpeechDataGenerator(dataset_name='your_dataset',lang='en')
- Параметры:
  - dataSet_name :
    - Имя набора данных, который вы хотели бы дать.
    - Такая структура каталогов будет создана:
      ├───your_dataset │ ├───txts │ └───wavs └───your_dataset_prep ├───concatenated ├───downloaded └───split
  - output_type :
    - Тип метаданных, которые будут созданы после создания набора данных.
    - Поддерживаемые типы: CSV/JSON
    - Тип вывода по умолчанию установлен в CSV
    - Файл CSV следует формату набора данных речи LJ
    - Файл JSON следует за этим форматом:
      { "your_dataset1.wav": "This is an example text", "your_dataset2.wav": "This is an another example text", }
  - Keep_audio_extension :
    - Сохранять ли аудиофильс расширение в файле метаданных
    - Значение по умолчанию установлено на false
  - Ланг :
    - Ключ для целевого языка, на котором необходимо загрузить субтитры.
    - Значение по умолчанию установлено на en
    - Совет - Проверьте список доступных языков и их ключей с помощью: generator.get_available_langs()
  - SR :
    - Скорость дискретизации, чтобы сохранить аудио.
    - Значение по умолчанию установлено на 22050
Методы:
- скачать():
  - Загружает видеофайлы с YouTube вместе с их субтитрами и сохраняет их в виде файлов WAV.
  - Параметры:
    - links_txt :
      - Путь к файлу .txt ', который содержит URL -адреса для видео.
  - Использование этого метода является необязательным. Если вы не используете этот метод, обязательно поместите все файлы звука и субтитров в каталог 'Your_Dataset_prep/Загружено.
  - Затем создайте файл с именем «files.txt» и снова поместите его в «your_dataset_prep/загрузка». 'files.txt' должен следовать следующему формату:
```
 filename,subtitle,trim_min_begin,trim_min_end
audio.wav,subtitle.srt,0,0
audio2.wav,subtitle.vtt,5,6
```
  - Создайте файл «.txt», который содержит список видео на YouTube, которые содержат речи.
  - Пример - generator.download('links.txt')
- split_audios ():
  - Этот метод расщепляет все файлы WAV на более мелкие куски в соответствии с продолжительностью текста в субтитрах.
  - Сохраняет транскрипции как файл .txt 'для каждой из кусков.
  - Пример - generator.split_audios()
- concat_audios ():
  - Поскольку разделенные звуки основаны на продолжительности их субтитров, они могут быть не так длинными. Этот метод соединяет разделенные файлы в узнаваемые.
  - Параметры:
    - max_limit :
      - Верхний предел длины звуков, который должен быть рассмотрен. Остальные будут сохранены, как они есть.
      - Значение по умолчанию установлено на 7
    - concat_count :
      - Количество последовательных звуков, которые должны быть согласованы вместе.
      - Значение по умолчанию установлено на 2
  - Пример - generator.concat_audios()
- finalize_dataset ():
  - Тримки замолчают соединенные аудионы с тех пор, как данные были собраны с YouTube, и генерирует окончательный набор данных после завершения всей предварительной обработки.
  - Параметры:
    - min_audio_length :
      - Длина речи, которая должна быть сохранена. Остальное будет игнорировано.
      - Значение по умолчанию установлено на 5 .
    - max_audio_length :
      - Максимальная длина речи, которая должна быть сохранена. Остальное будет игнорировано.
      - Значение по умолчанию установлено на 14 .
  - Пример - generator.finalize_dataset(min_audio_length=6)
- get_available_langs ():
  - Получите список доступных языков, на которых можно загрузить субтитры.
  - Пример - generator.get_available_langs()
- get_total_audio_length ():
  - Возвращает общее количество предварительно обработанных речевых данных, собранных генератором.
  - Пример - generator.get_total_audio_length()
- PRIPARE_DATASET ():
  - Метод обертки для загрузки () , split_audios () , concat_audios () и infintize_dataset () .
  - Если вы не хотите использовать приведенные выше методы, вы можете напрямую вызовать prepare_dataset () . Он будет обрабатывать все ваши генерации данных.
  - Параметры:
    - links_txt :
      - Путь к файлу .txt ', который содержит URL -адреса для видео.
    - SR :
      - Скорость дискретизации, чтобы сохранить аудио.
      - Значение по умолчанию установлено на 22050
    - Загрузка_YOUTUBE_DATA :
      - Скачать ли аудио с YouTube.
      - Значение по умолчанию верно
    - max_concat_limit :
      - Верхний предел длины звуков, который должен быть рассмотрен. Остальные будут сохранены, как они есть.
      - Значение по умолчанию установлено на 7
    - concat_count :
      - Количество последовательных звуков, которые должны быть согласованы вместе.
      - Значение по умолчанию установлено на 2
    - min_audio_length :
      - Длина речи, которая должна быть сохранена. Остальное будет игнорировано.
      - Значение по умолчанию установлено на 5 .
    - max_audio_length :
      - Максимальная длина речи, которая должна быть сохранена. Остальное будет игнорировано.
      - Значение по умолчанию установлено на 14 .
  - Пример - generator.prepare_dataset(links_txt='links.txt', download_youtube_data=True, min_audio_length=6)

Окончательная структура набора данных

Как только набор данных был создан, структура в рамках каталога «your_dataset» должна выглядеть как:

 your_dataset
├───txts
│   ├───your_dataset1.txt
│   └───your_dataset2.txt
├───wavs
│    ├───your_dataset1.wav
│    └───your_dataset2.wav
└───metadata.csv/alignment.json

Примечание - audio.py очень основан на клонировании голоса в реальном времени