Multi Tacotron Voice Cloning
1.0.0
該存儲庫是一種基於實時範圍的語音(俄語 - 英語)實現。是一個四階段的深度學習框架,可以從幾秒鐘的音頻中創建語音的數值表示,並向我們提供文本對語音模型的條件。如果您需要英文版本,請使用原始實現。
該存儲庫是一種基於實時派遣的多語言(俄語 - 英語)音素實現。它由四個神經網絡組成,可讓您從幾秒鐘的聲音中創建聲音的數值表示,並使用它創建一個模型,以將文本轉換為語音
使用Colab在線演示
您將需要以下計劃,只需使用工具箱即可重新訓練模型。
≥Python3.6 。
pytorch(> = 1.0.1)。
運行pip install -r requirements.txt以安裝必要的軟件包。
GPU是強制性的,但是如果您想使用該工具箱,則必須使用高層GPU。
下載最新的Geere。
| 姓名 | 語言 | 關聯 | 評論 | 我的鏈接 | 評論 |
|---|---|---|---|---|---|
| 音素詞典 | 恩,ru | 恩,ru | 音素詞典 | 關聯 | 俄語和英文音素詞典 |
| librispeech | en | 關聯 | 300個揚聲器,360h乾淨的演講 | ||
| voxceleb | en | 關聯 | 7000名揚聲器,很多小時不好的演講 | ||
| m-ailabs | ru | 關聯 | 3個揚聲器,46h乾淨的演講 | ||
| open_tts,open_stt | ru | open_tts,open_stt | 許多演講者,很多小時不好的演講 | 關聯 | 清潔了一位發言人的4個小時的演講。校正了陽極,分為最多7秒 |
| voxforge+有聲讀物 | ru | 關聯 | 許多演講者,25h各種質量 | 關聯 | 我選擇了好文件。闖入細分市場。從互聯網上添加了一張有聲讀物。事實證明200名演講者幾分鐘 |
| 魯斯蘭 | ru | 關聯 | 一位發言人,40h好演講 | 關聯 | 在16kHz中糾正 |
| Mozilla | ru | 關聯 | 50名演講者,30h好演講 | 關聯 | 在16kHz中arred,在文件夾中分散了不同的用戶 |
| 俄羅斯單曲 | ru | 關聯 | 一位發言人,9h好演講 | 關聯 | 在16kHz中糾正 |
您可以嘗試工具箱:
python demo_toolbox.py -d <datasets_root>
或者python demo_toolbox.py
預驗證的模型
培訓(以及其他語言)
培訓(以及其他語言)
有任何疑問,請發送電子郵件
| URL | 指定 | 標題 | 實現來源 |
|---|---|---|---|
| 1806.04558 | SV2TTS | 從說話者驗證轉移到多鍾文本到語音合成的學習 | 科倫丁 |
| 1802.08435 | Wavernn(Vocoder) | 有效的音頻合成 | fatchord/wavernn |
| 1712.05884 | TACOTRON 2(合成器) | 天然TTS合成通過在MEL頻譜圖預測上調節波諾特 | Rayhane-Mamah/Tacotron-2 |
| 1710.10467 | GE2E(編碼器) | 演講者驗證的全身端到端損失 | 科倫丁 |