
鏈接到TTS存儲庫-https://github.com/coqui-ai/tts
鏈接到PYPI中的TTS -https://pypi.org/project/tts/#description
如果您想使用自己的跳過步驟2的音頻文件。如果您想使用YouTube步驟2的各種揚聲器的音頻,則適合您。
git clone https://github.com/souvikg544/TTS_Data_Maker.git
cd TTS_Data_Maker
pip install -r requirements.txt
要從YouTube視頻CD下載音頻,然後將視頻目錄中的YouTube視頻CD下載到tts_data_maker目錄中,以下是下面下載got視頻的示例命令:) .) ... mp4文件將在main_audio目錄中下載。必須將視頻_link和揚聲器/視頻名稱作為參數提供給以下Python文件。
python audio_download.py --video_link https://www.youtube.com/watch?v=-B8IkMj6d1E --speaker_name got
要將下載的音頻拆分為較小的部分,請使用extract_semt.py文件。
from extract_segment import SplitWavAudioMubin
download_folder="main_audio" #folder in which audio file is stored
video_filename="got.mp4" # Filename of the audio
output_folder="/content/sample_tts_dataset/wavs" #Output folder that will have segments of audio
duration=20 # Duration of each split in seconds
spliter=SplitWavAudioMubin(download_folder,video_filename,output_folder)
spliter.multiple_split(duration)
對於音頻到語音,我們將選擇許多文本到語音引擎,包括Google和IBM的文本引擎。運行以下代碼段以從音頻片段中提取文本。
from extract_text import text_extraction
path_to_audio_split="/content/sample_tts_dataset/wavs" # As the name suggests use the same folder as output folder before
output_folder="/content/sample_tts_dataset" # Output folder having the text file
output_file= "metadata.txt" # Name of the text file.
et=text_extraction(path_to_audio_split)
et.extract(output_folder,output_file)
最終數據集將具有metadata.txt和audio_split文件夾,其中所有音頻文件(例如1.Wav,2.Wav,2.Wav,3.Wav和Suon Metadata.txt文件)將看起來像這樣。
metadata.txt-
audio1|Hey how are you
audio2|I hope you are fine
audio3|Lets meet at dinner
包含所有音頻文件的WAV文件夾將看起來像這樣
wav
-audio1.wav
-audio2.wav
-audio3.wav
最後,我們應該具有以下文件夾結構:
/MyTTSDataset
|
| -> metadata.txt
| -> /wavs
| -> audio1.wav
| -> audio2.wav
| ...
從github readmes實施總是很痛苦。為了使事情變得更容易,整個過程已經在Google合作中實施 -
必須遵循使用TTS創建模型的數據集創建。可以從此筆記本中找到相同的詳細信息 -
如果在合作或云上運行,請忽略。
該存儲庫中廣泛使用的PYDUB模塊使用FFMPEG處理WAV文件。因此,如果在本地計算機上運行,則需要下載FFMPEG,並且必須將BIN文件夾添加到路徑。
鏈接-https://ffmpeg.org/download.html
從上述鏈接中的獲取軟件包和可執行文件部分下載。