youtube_tts_data_generator
Youtube Speech Data Generator
음성 데이터 세트를 생성하는 파이썬 라이브러리. YouTube Speech Data Generator는 또한 음성 데이터 세트를 구축하는 데 필요한 거의 모든 음성 데이터 전처리를 처리하여 디렉토리 구조를 따르고 대부분의 텍스트 음성 건축물을 따라야합니다.
FFMPEG가 설치되어 시스템 경로로 설정되어 있는지 확인하십시오.
$ pip install youtube-tts-data-generator from youtube_tts_data_generator import YTSpeechDataGenerator
# First create a YTSpeechDataGenerator instance:
generator = YTSpeechDataGenerator ( dataset_name = 'elon' )
# Now create a '.txt' file that contains a list of YouTube videos that contains speeches.
# NOTE - Make sure you choose videos with subtitles.
generator . prepare_dataset ( 'links.txt' )
# The above will take care about creating your dataset, creating a metadata file and trimming silence from the audios. 생성기 초기화 : generator = YTSpeechDataGenerator(dataset_name='your_dataset',lang='en')
├───your_dataset
│ ├───txts
│ └───wavs
└───your_dataset_prep
├───concatenated
├───downloaded
└───split
{
"your_dataset1.wav": "This is an example text",
"your_dataset2.wav": "This is an another example text",
}
generator.get_available_langs()행동 양식:
filename,subtitle,trim_min_begin,trim_min_end
audio.wav,subtitle.srt,0,0
audio2.wav,subtitle.vtt,5,6
generator.download('links.txt')generator.split_audios()generator.concat_audios()generator.finalize_dataset(min_audio_length=6)generator.get_available_langs()generator.get_total_audio_length()generator.prepare_dataset(links_txt='links.txt', download_youtube_data=True, min_audio_length=6) 데이터 세트가 생성되면 'Your_dataset'디렉토리의 구조는 다음과 같습니다.
your_dataset
├───txts
│ ├───your_dataset1.txt
│ └───your_dataset2.txt
├───wavs
│ ├───your_dataset1.wav
│ └───your_dataset2.wav
└───metadata.csv/alignment.json
참고 audio.py 실시간 음성 복제를 기반으로합니다.
JSON에서 SRT
도서관에 대한 자세한 내용은 여기를 참조하십시오