voice dataset creation下載 - voice dataset creation源代碼下載

voice dataset creation

Ai源碼

1.0.0

下載

語音數據集創建

此回購概述了創建自己的文本到語音數據集所需的步驟和腳本，以訓練語音模型。最終輸出為ljspeech格式。

流程圖

創建自己的聲音錄音

要求

語音錄製軟件
Omni方向式麥克風
優質的音頻卡

創建文本語料庫

創建大約3-10秒的句子
使用ljspeech格式
- “ |”分開的值，wav文件ID然後句子文本
- 100|this is an example sentence

說話和記錄句子

說每句話
樣本率應為22050或更高

句子長度

運行腳本/wavdurations2csv.sh以繪製句子的長度並驗證您對WAV文件長度的分佈良好。

創建一個合成語音數據集

要求

Google雲平台計算引擎實例
- Cloud API access scopes選擇Allow full access to all Cloud APIs
康達

安裝

在GCP實例上創建CONDA環境

conda create -n tts python=3.7
conda activate tts
pip install google-cloud-texttospeech==2.1.0 tqdm pandas

創建文本語料庫

創建大約3-10秒的句子
使用ljspeech格式
- “ |”分開的值，wav文件ID然後句子文本
- 100|this is an example sentence

生成合成語音數據集

python text_to_wav.py tts_generate

句子長度

運行腳本/wavdurations2csv.sh以繪製句子的長度並驗證您對WAV文件長度的分佈良好。

為現有語音記錄創建抄錄

要求

Adobe試聽或大膽
Google雲平台計算引擎實例
- Cloud API access scopes選擇Allow full access to all Cloud APIs
康達

安裝

在GCP實例上創建CONDA環境

conda create -n stt python=3.7
conda activate stt
pip install google-cloud-speech tqdm pandas

填寫語音數據集的數據表

Gebru等人的查看數據集的數據表：https://arxiv.org/pdf/1803.09010.pdf
MARKDOWN DATASHEET：https：//github.com/jrmeyer/markdown-datasheet-for-datasets/blob/master/master/datasheet.md

標記演講

在Adobe Audition中，打開音頻文件：

選擇Diagnostics - > Mark Audio
選擇Mark the Speech
單擊Scan
單擊Find Levels
再次單擊Scan
單擊Mark All
調整音頻和靜音信號DB和長度，直到夾子在3-10秒之間

或者，在Audacity中，打開音頻文件：

選擇Analyze - > Sound Finder
調整音頻和靜音信號DB和長度，直到夾子在3-10秒之間

調整標記或標籤邊界

在試鏡中：

打開Markers選項卡
調整標記，消除靜音和噪音以使夾子長度在3至10秒之間

在試鏡中：

調整標籤邊界，消除靜音和噪音以使剪輯長度在3至10秒之間

導出標記/標籤和波浪

在試鏡中：

選擇列表中的所有標記
選擇Export Selected Markers to CSV並保存為標記。 CSV
選擇Preferences - > Media & Disk Cache和Untick Save Peak Files
選擇Export Audio of Selected Range Markers並具有以下選項：
- Use marker names in filenames
- 更新為WAV PCM格式
- 更新樣本類型22050 Hz Mono, 16-bit
- 使用文件夾wavs_export

或者，大膽：

選擇Export multiple...
- 格式：wav
- 選項：簽名的16位PCM
- 基於標籤拆分文件
- 使用標籤/曲目名稱的名稱文件
- 使用文件夾wavs_export
選擇Export labels到Label Track.txt

分析具有信號與噪聲比的WAV COLAB

運行colabs/voice_dataset_snr.ipynb
清潔或刪除嘈雜的文件

用STT創建初始抄錄

對於試鏡，使用導出的Markers.csv和WAVS文件夾運行：

 cd scripts
python wav_to_text.py audition

該腳本生成一個新文件Markers_STT.csv 。

對於Audacity ，使用導出的Label Track.txt和Wavs文件夾運行：

 cd scripts
python wav_to_text.py audacity

該腳本生成一個新文件， Label Track STT.csv 。

微調轉錄

試鏡：

刪除所有標記
Import Markers from File ，然後選擇使用stt轉錄的文件：markers_stt.csv
微調標記中的描述字段，以與所說的單詞完全匹配

大膽：

在文本編輯器中打開Label Track STT.txt 。
微調文本文件中的標籤字段以與說話的單詞完全匹配

出口標記（僅試聽）和WAV

試鏡：

選擇列表中的所有標記
選擇Export Selected Markers to CSV並保存為標記。 CSV
選擇Export Audio of Selected Range Markers並具有以下選項：
- Use marker names in filenames
- 更新為WAV PCM格式
- 更新樣本類型22050 Hz Mono, 16-bit
- 使用文件夾wavs_export

大膽：

選擇Export multiple...
- 格式：wav
- 選項：簽名的16位PCM
- 基於標籤拆分文件
- 使用標籤/曲目名稱的名稱文件
- 使用文件夾wavs_export

將標記（試聽）或標籤（Audacity）轉換為ljspeech格式

使用導出的Markers.csv （試聽）或Label Track STT.txt （Audacity）和Wavs_export中的WAVS，腳本/MarkersFile_to_MetAdata.py將創建一個gerdata.csv和Wav的文件夾和WAV文件夾，以訓練您的TTS模型：

試鏡：

python markersfile_to_metadata.py audition

大膽：

python markersfile_to_metadata.py audacity

句子長度

運行腳本/wavdurations2csv.sh以繪製句子的長度並驗證您對WAV文件長度的分佈良好。

其他公用事業

UPSample Wav文件

FFMPEG： ffmpeg 復活：我們測試了三種方法將WAV文件從16,000到22,050 Hz。在審查了頻譜圖後，我們選擇了FFMPEG進行上採樣，因為與復興相比，它還包括另外2 kHz的高端信息。腳本/respamplewav.sh

 scripts/resamplewav.sh

參考

Mozilla TTS：https：//github.com/mozilla/tts
自動對齊，包括沉默的段音頻，Google語音API和識別對齊：https：//github.com/carpedm20/multi-speaker-tacotron-tacotron-tensorflow#2-2-2-2-2-2-2- generate-kenerate-kenerate-korean-datasets
在大型合成庫中進行預處理，並對特定的合成庫進行微調https://twitter.com/garygarywang
數據集的數據集https://arxiv.org/abs/1803.09010

展開

附加信息