youtube_tts_data_generator 다운로드 youtube_tts_data

youtube_tts_data_generator

AI 소스 코드

Youtube Speech Data Generator

다운로드

YouTube 음성 데이터 생성기

음성 데이터 세트를 생성하는 파이썬 라이브러리. YouTube Speech Data Generator는 또한 음성 데이터 세트를 구축하는 데 필요한 거의 모든 음성 데이터 전처리를 처리하여 디렉토리 구조를 따르고 대부분의 텍스트 음성 건축물을 따라야합니다.

설치

FFMPEG가 설치되어 시스템 경로로 설정되어 있는지 확인하십시오.

$ pip install youtube-tts-data-generator

데이터 세트 생성을위한 최소한의 시작

 from youtube_tts_data_generator import YTSpeechDataGenerator

# First create a YTSpeechDataGenerator instance:

generator = YTSpeechDataGenerator ( dataset_name = 'elon' )

# Now create a '.txt' file that contains a list of YouTube videos that contains speeches.
# NOTE - Make sure you choose videos with subtitles.

generator . prepare_dataset ( 'links.txt' )
# The above will take care about creating your dataset, creating a metadata file and trimming silence from the audios.

용법

생성기 초기화 : generator = YTSpeechDataGenerator(dataset_name='your_dataset',lang='en')
- 매개 변수 :
  - DataSet_Name :
    - 당신이주고 싶은 데이터 세트의 이름.
    - 이와 같은 디렉토리 구조가 생성됩니다.
      ├───your_dataset │ ├───txts │ └───wavs └───your_dataset_prep ├───concatenated ├───downloaded └───split
  - output_type :
    - 데이터 세트가 생성 된 후 생성 될 메타 데이터의 유형.
    - 지원 유형 : CSV/JSON
    - 기본 출력 유형은 CSV 로 설정됩니다
    - CSV 파일은 LJ Speech DataSet의 형식을 따릅니다.
    - JSON 파일은이 형식을 따릅니다.
      { "your_dataset1.wav": "This is an example text", "your_dataset2.wav": "This is an another example text", }
  - Keep_audio_extension :
    - 메타 데이터 파일에 오디오 파일 확장을 유지할지 여부
    - 기본값이 False 로 설정됩니다
  - 랭 :
    - 자막을 다운로드 해야하는 대상 언어의 키입니다.
    - 기본값은 EN 으로 설정됩니다
    - 팁 - 사용 가능한 언어 및 키를 사용하여 : generator.get_available_langs()
  - SR :
    - 오디오를 유지하는 샘플 속도.
    - 기본값은 22050 으로 설정됩니다
행동 양식:
- 다운로드 () :
  - 자막과 함께 YouTube에서 비디오 파일을 다운로드하여 WAV 파일로 저장합니다.
  - 매개 변수 :
    - links_txt :
      - 비디오의 URL이 포함 된 '.txt'파일로가는 경로.
  - 이 방법의 사용은 선택 사항입니다. 이 메소드를 사용하지 않으면 모든 오디오 및 자막 파일을 'Your_dataset_prep/다운로드'디렉토리에 배치하십시오.
  - 그런 다음 'files.txt'라는 파일을 만들고 다시 'your_dataset_prep/downloaded'아래에 배치하십시오. 'files.txt'는 다음 형식을 따라야합니다.
```
 filename,subtitle,trim_min_begin,trim_min_end
audio.wav,subtitle.srt,0,0
audio2.wav,subtitle.vtt,5,6
```
  - 연설이 포함 된 YouTube 비디오 목록이 포함 된 '.txt'파일을 만듭니다.
  - 예제 - generator.download('links.txt')
- split_audios () :
  - 이 방법은 자막의 텍스트 기간에 따라 모든 WAV 파일을 작은 청크로 나눕니다.
  - 각 청크에 대해 전사를 '.txt'파일로 저장합니다.
  - 예 - generator.split_audios()
- concat_audios () :
  - 분할 오디오는 자막의 지속 시간을 기준으로하기 때문에 그렇게 길지 않을 수 있습니다. 이 메소드는 분할 파일을 인식 가능한 파일로 연결합니다.
  - 매개 변수 :
    - max_limit :
      - 준수 해야하는 오디오의 길이의 상한. 나머지는 그대로 유지 될 것입니다.
      - 기본값은 7 으로 설정됩니다
    - concat_count :
      - 함께 인정 해야하는 연속 오디오의 수.
      - 기본값은 2 로 설정됩니다
  - 예 - generator.concat_audios()
- finalize_dataset () :
  - 트림은 데이터가 YouTube에서 수집되었고 모든 전처리를 완료 한 후 최종 데이터 세트를 생성하기 때문에 결합 된 오디오를 침묵시킵니다.
  - 매개 변수 :
    - min_audio_length :
      - 보관 해야하는 연설의 미성년 길이. 나머지는 무시됩니다.
      - 기본값은 5 로 설정됩니다.
    - max_audio_length :
      - 보관 해야하는 연설의 최대 길이. 나머지는 무시됩니다.
      - 기본값은 14 로 설정됩니다.
  - 예 - generator.finalize_dataset(min_audio_length=6)
- get_available_langs () :
  - 자막을 다운로드 할 수있는 사용 가능한 언어 목록을 가져옵니다.
  - 예 - generator.get_available_langs()
- get_total_audio_length () :
  - 발전기가 수집 한 전처리 음성 데이터의 총량을 반환합니다.
  - 예 - generator.get_total_audio_length()
- repay_dataset () :
  - 다운로드 () , split_audios () , concat_audios () 및 finalize_dataset () 의 래퍼 메소드.
  - 위의 메소드를 사용하지 않으려면 repay_dataset ()을 직접 호출 할 수 있습니다. 모든 데이터 생성을 처리합니다.
  - 매개 변수 :
    - links_txt :
      - 비디오의 URL이 포함 된 '.txt'파일로가는 경로.
    - SR :
      - 오디오를 유지하는 샘플 속도.
      - 기본값은 22050 으로 설정됩니다
    - 다운로드 _youtube_data :
      - YouTube에서 오디오를 다운로드할지 여부
      - 기본값은 참 입니다
    - max_concat_limit :
      - 준수 해야하는 오디오의 길이의 상한. 나머지는 그대로 유지 될 것입니다.
      - 기본값은 7 으로 설정됩니다
    - concat_count :
      - 함께 인정 해야하는 연속 오디오의 수.
      - 기본값은 2 로 설정됩니다
    - min_audio_length :
      - 보관 해야하는 연설의 미성년 길이. 나머지는 무시됩니다.
      - 기본값은 5 로 설정됩니다.
    - max_audio_length :
      - 보관 해야하는 연설의 최대 길이. 나머지는 무시됩니다.
      - 기본값은 14 로 설정됩니다.
  - 예제 - generator.prepare_dataset(links_txt='links.txt', download_youtube_data=True, min_audio_length=6)

최종 데이터 세트 구조

데이터 세트가 생성되면 'Your_dataset'디렉토리의 구조는 다음과 같습니다.

 your_dataset
├───txts
│   ├───your_dataset1.txt
│   └───your_dataset2.txt
├───wavs
│    ├───your_dataset1.wav
│    └───your_dataset2.wav
└───metadata.csv/alignment.json

참고 audio.py 실시간 음성 복제를 기반으로합니다.