TTS_Data_Maker下載TTS_Data_Maker源代碼下載

TTS_Data_Maker

Ai源碼

1.0.0

下載

文字到語音數據集製造商

data_maker

該存儲庫提供了一種使用著名的TTS文本進行Secement Github repo製作個性化數據集來製作個性化數據集。

鏈接到TTS存儲庫-https：//github.com/coqui-ai/tts

鏈接到PYPI中的TTS -https：//pypi.org/project/tts/#description

構建數據集的步驟

如果您想使用自己的跳過步驟2的音頻文件。如果您想使用YouTube步驟2的各種揚聲器的音頻，則適合您。

1。克隆存儲庫

 git clone https://github.com/souvikg544/TTS_Data_Maker.git

 cd TTS_Data_Maker
pip install -r requirements.txt

2。下載演講

要從YouTube視頻CD下載音頻，然後將視頻目錄中的YouTube視頻CD下載到tts_data_maker目錄中，以下是下面下載got視頻的示例命令:) .) ... mp4文件將在main_audio目錄中下載。必須將視頻_link和揚聲器/視頻名稱作為參數提供給以下Python文件。

 python audio_download.py --video_link https://www.youtube.com/watch?v=-B8IkMj6d1E --speaker_name got

3.將音頻分為小部分。

要將下載的音頻拆分為較小的部分，請使用extract_semt.py文件。

 from extract_segment import SplitWavAudioMubin
download_folder="main_audio"                      #folder in which audio file is stored
video_filename="got.mp4"                          # Filename of the audio
output_folder="/content/sample_tts_dataset/wavs"  #Output folder that will have segments of audio 
duration=20                                       # Duration of each split in seconds

spliter=SplitWavAudioMubin(download_folder,video_filename,output_folder)
spliter.multiple_split(duration)

音頻到語音

對於音頻到語音，我們將選擇許多文本到語音引擎，包括Google和IBM的文本引擎。運行以下代碼段以從音頻片段中提取文本。

 from extract_text import text_extraction

path_to_audio_split="/content/sample_tts_dataset/wavs"  # As the name suggests use the same folder as output folder before
output_folder="/content/sample_tts_dataset"             # Output folder having the text file
output_file= "metadata.txt"                             # Name of the text file.

et=text_extraction(path_to_audio_split)
et.extract(output_folder,output_file)

最終數據集

最終數據集將具有metadata.txt和audio_split文件夾，其中所有音頻文件（例如1.Wav，2.Wav，2.Wav，3.Wav和Suon Metadata.txt文件）將看起來像這樣。

 metadata.txt-
audio1|Hey how are you
audio2|I hope you are fine
audio3|Lets meet at dinner

包含所有音頻文件的WAV文件夾將看起來像這樣

 wav
-audio1.wav
-audio2.wav
-audio3.wav

最後，我們應該具有以下文件夾結構：

 /MyTTSDataset
 |
 | -> metadata.txt
 | -> /wavs
  | -> audio1.wav
  | -> audio2.wav
  | ...

執行

從github readmes實施總是很痛苦。為了使事情變得更容易，整個過程已經在Google合作中實施 -
必須遵循使用TTS創建模型的數據集創建。可以從此筆記本中找到相同的詳細信息 -

筆記：

如果在合作或云上運行，請忽略。

該存儲庫中廣泛使用的PYDUB模塊使用FFMPEG處理WAV文件。因此，如果在本地計算機上運行，則需要下載FFMPEG，並且必須將BIN文件夾添加到路徑。

鏈接-https：//ffmpeg.org/download.html

從上述鏈接中的獲取軟件包和可執行文件部分下載。

展開

附加信息

版本 1.0.0
類型 Ai源碼
更新時間 2025-08-23
大小 1.13MB
來自於 Github

相關應用

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
Experimental_data_processing

2024-11-02
nextcloud_share_url_downloader

2024-11-01
麗華資料分析引擎免費版3.0_搜尋_導航_採集_輿情_排行_api

2022-06-28

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
ML stack

Ai源碼

1.0.0
awesome free chatgpt

Ai源碼

1.0.0
pywin_contextmenu

Ai源碼

Version update
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3

相關資訊全部