voice dataset creation
1.0.0
此回購概述了創建自己的文本到語音數據集所需的步驟和腳本,以訓練語音模型。最終輸出為ljspeech格式。

創建自己的聲音錄音100|this is an example sentence運行腳本/wavdurations2csv.sh以繪製句子的長度並驗證您對WAV文件長度的分佈良好。
創建一個合成語音數據集Cloud API access scopes選擇Allow full access to all Cloud APIs在GCP實例上創建CONDA環境
conda create -n tts python=3.7
conda activate tts
pip install google-cloud-texttospeech==2.1.0 tqdm pandas100|this is an example sentencepython text_to_wav.py tts_generate運行腳本/wavdurations2csv.sh以繪製句子的長度並驗證您對WAV文件長度的分佈良好。
為現有語音記錄創建抄錄Cloud API access scopes選擇Allow full access to all Cloud APIs在GCP實例上創建CONDA環境
conda create -n stt python=3.7
conda activate stt
pip install google-cloud-speech tqdm pandas在Adobe Audition中,打開音頻文件:
Diagnostics - > Mark AudioMark the SpeechScanFind LevelsScanMark All或者,在Audacity中,打開音頻文件:
Analyze - > Sound Finder在試鏡中:
Markers選項卡在試鏡中:
在試鏡中:
Export Selected Markers to CSV並保存為標記。 CSVPreferences - > Media & Disk Cache和Untick Save Peak FilesExport Audio of Selected Range Markers並具有以下選項:Use marker names in filenamesWAV PCM格式22050 Hz Mono, 16-bitwavs_export或者,大膽:
Export multiple...wavs_exportExport labels到Label Track.txt對於試鏡,使用導出的Markers.csv和WAVS文件夾運行:
cd scripts
python wav_to_text.py audition該腳本生成一個新文件Markers_STT.csv 。
對於Audacity ,使用導出的Label Track.txt和Wavs文件夾運行:
cd scripts
python wav_to_text.py audacity該腳本生成一個新文件, Label Track STT.csv 。
試鏡:
Import Markers from File ,然後選擇使用stt轉錄的文件:markers_stt.csv大膽:
Label Track STT.txt 。試鏡:
Export Selected Markers to CSV並保存為標記。 CSVExport Audio of Selected Range Markers並具有以下選項:Use marker names in filenamesWAV PCM格式22050 Hz Mono, 16-bitwavs_export大膽:
Export multiple...wavs_export使用導出的Markers.csv (試聽)或Label Track STT.txt (Audacity)和Wavs_export中的WAVS,腳本/MarkersFile_to_MetAdata.py將創建一個gerdata.csv和Wav的文件夾和WAV文件夾,以訓練您的TTS模型:
試鏡:
python markersfile_to_metadata.py audition大膽:
python markersfile_to_metadata.py audacity運行腳本/wavdurations2csv.sh以繪製句子的長度並驗證您對WAV文件長度的分佈良好。
FFMPEG:
復活:
我們測試了三種方法將WAV文件從16,000到22,050 Hz。在審查了頻譜圖後,我們選擇了FFMPEG進行上採樣,因為與復興相比,它還包括另外2 kHz的高端信息。腳本/respamplewav.sh
scripts/resamplewav.sh