TTS_Data_Maker 다운로드 TTS_Data_Maker 소스 코드 다운로드

TTS_Data_Maker

AI 소스 코드

1.0.0

다운로드

음성 데이터 세트 메이커에 대한 텍스트

Data_Maker

이 저장소는 유명한 TTS 텍스트 To Speech Github Repo를 사용하여 모델 생성을위한 개인화 된 데이터 세트를 만들 수있는 방법을 제공합니다.

TTS 리포지토리 링크 -https://github.com/coqui-ai/tts

pypi -https://pypi.org/project/tts/#description의 tts 링크

데이터 세트를 구축하는 단계

자신의 스킵 2 단계의 오디오 파일을 사용하려면 2 단계입니다. YouTube 2에서 사용할 수있는 광범위한 스피커에서 오디오를 사용하려면 귀하를위한 것입니다.

1. 저장소를 복제하십시오

 git clone https://github.com/souvikg544/TTS_Data_Maker.git

 cd TTS_Data_Maker
pip install -r requirements.txt

2. 연설을 다운로드하십시오

YouTube Video CD에서 오디오를 TTS_DATA_MAKER 디렉토리로 다운로드하려면 Audio_Download.py를 사용하려면 GOT 비디오를 다운로드하기위한 샘플 명령입니다. : A MP4 파일은 main_audio 디렉토리에서 다운로드됩니다. video_link 및 스피커/비디오 이름을 아래 Python 파일에 대한 인수로 제공해야합니다.

 python audio_download.py --video_link https://www.youtube.com/watch?v=-B8IkMj6d1E --speaker_name got

3. 오디오를 작은 부품으로 분할하십시오.

다운로드 된 오디오를 작은 부품으로 분할하려면 리포지토리의 Extrac_Segment.py 파일을 사용하십시오.

 from extract_segment import SplitWavAudioMubin
download_folder="main_audio"                      #folder in which audio file is stored
video_filename="got.mp4"                          # Filename of the audio
output_folder="/content/sample_tts_dataset/wavs"  #Output folder that will have segments of audio 
duration=20                                       # Duration of each split in seconds

spliter=SplitWavAudioMubin(download_folder,video_filename,output_folder)
spliter.multiple_split(duration)

오디오 연설

오디오 대 음성을 위해 Google 및 IBM을 포함하여 많은 텍스트 To Speech Engine을 선택합니다. 아래 코드 스 니펫을 실행하여 오디오 스 니펫에서 텍스트를 추출하십시오.

 from extract_text import text_extraction

path_to_audio_split="/content/sample_tts_dataset/wavs"  # As the name suggests use the same folder as output folder before
output_folder="/content/sample_tts_dataset"             # Output folder having the text file
output_file= "metadata.txt"                             # Name of the text file.

et=text_extraction(path_to_audio_split)
et.extract(output_folder,output_file)

최종 데이터 세트

최종 데이터 세트에는 1.wav, 2.wav, 3.wav 및 곧 metadata.txt 파일과 같은 모든 오디오 파일이있는 Metadata.txt 및 Audio_split 폴더가 있습니다.

 metadata.txt-
audio1|Hey how are you
audio2|I hope you are fine
audio3|Lets meet at dinner

모든 오디오 파일을 포함하는 WAV 폴더는 다음과 같습니다.

 wav
-audio1.wav
-audio2.wav
-audio3.wav

결국, 우리는 다음과 같은 폴더 구조를 가져야합니다.

 /MyTTSDataset
 |
 | -> metadata.txt
 | -> /wavs
  | -> audio1.wav
  | -> audio2.wav
  | ...

구현

Github Readmes에서 구현하는 것은 항상 고통입니다. 상황을 쉽게하기 위해 전체 프로세스가 Google Collab에서 구현되었습니다.
데이터 세트 생성에 이어 TTS를 사용하여 모델을 작성해야합니다. 이에 대한 세부 사항에 대한 자세한 내용은이 노트북에서 찾을 수 있습니다.