非英語 - tacotron-2-Training Notebook
TACOTRON 2培訓筆記本支持日語,法語和普通話
概述
本筆記本旨在更輕鬆地使用英語以外的其他語言培訓TaCotron 2型號。目前,包括日語(Talqu和Neutalk語音),法語和普通話預審預週讀的模型,但該計劃是將來包括更多,例如德語。對於日語,建議使用中性語音和預驗證的模型。
支持的音頻
培訓的音頻應為16位22050Hz單WAV文件。請勿在文件名中包含空格。文件應僅包括字母數字(半寬),破折號和下劃線。這意味著沒有日語或中國的文件名或變音符號。音頻剪輯應為10秒或更短的時間,以促進學習。根據我的測試,我建議至少有15分鐘的音頻。
轉錄
轉錄文件應為文本文檔,每行具有以下格式: wavs/{name_of_file}.wav|{text} 。使用隨附的G2P之一將轉錄轉換為適當的語音輸入。
訓練
我希望筆記本中的步驟應該是相當自我解釋的。在開始培訓之前,將音頻上傳到WAV/文件夾中。以下是要記住的筆記:
- 理想情況下,批量大小應該是您擁有的WAV量的一個因素。例如,當訓練15個WAV的模型時,我將批處理大小設置為5。
- 如果您在COLAB上有T4 GPU,請不要將批量尺寸設置高於14。
- 培訓的輸出目錄應在Google驅動器中,以防您斷開連接。
- 訓練時,檢查站將建立。刪除舊的垃圾,以使您的驅動器存儲空間可用。
- 當您獲得適當的驗證損失時,請停止培訓。例如,我要做的是:少於30個文件= 0.07以下; 30-100文件=低於0.09; 150+文件=低於0.1;超過30分鐘的數據=在0.14以下
歸因
- haruqa的talqu語音系統(https://booth.pm/ja/items/2755336)
- Neutalk日本語音系統中性(https://github.com/neutrogic/neutalk)
- Haruqa的Talqu預算模型(https://github.com/haruqa/tacotron2/releases)
- 中立循環(https://github.com/neutrogic/neutalk)中性日語和普通話預審預告額
- 由MIDEMELWE創建的法國預算模型,並由中性訓練(https://github.com/neutrogic)培訓
- 基於Uberduck Tacotron 2培訓筆記本(https://colab.research.google.com/drive/1wtilmdm9vf7ke79gzkeetbigan6iv3bg?usp = sharing)的代碼)
- Nvidia(https://github.com/nvidia/tacotron2)實現Tacotron 2