關於言語
該存儲庫組織論文,學習材料和編碼,以理解語音。這裡還有另一個用於機器/深度學習的存儲庫。
到達:
TTS
TTS
- DC-TTS [[Paper]] [Pytorch] [TensorFlow]
- 微軟的Lightspeech [[Paper]] [代碼]
- 語音形式[[Paper]] [代碼]
- 非競爭性塔科克斯[Paper] [Pytorch]
- 平行TACOTRON 2 [[PAPER]] [代碼]
- FCL-TACO2:快速,可控和輕巧的tacotron2 [[Paper]] [代碼]
- 變壓器TTS:具有變壓器網絡的神經語音綜合[[Paper]] [代碼]
- vits:端到端文本到語音的對抗性學習條件變異自動編碼器[[paper]] [代碼]
- 改革者-TT(改革器對TTS的改編)[代碼]
基於及時的TTS(請參閱[鏈接])
語音轉換 /語音克隆 /揚聲器嵌入
- Stargan-VC:通過星生成對抗網絡[[PAPER]] [代碼]的非並行多對面的語音轉換
- 神經語音克隆與很少的音頻樣本(Baidu)[[Paper]] [代碼]
- 彙編VC:通過組裝現代語音綜合技術[[Paper]] [代碼]通過組裝現實的語音轉換
- UNET-TTS:以單發語音克隆[Paper] [Code]改進看不見的揚聲器和样式轉移
- fragmentVC:通過端到端提取並融合精細粒度的語音片段的任何對任何對任何語音轉換,注意[[paper]] [代碼]
- 矢量QuantizedCPC:矢量定量的對比度預測編碼,用於聲學單元發現和語音轉換[[[Paper]] [代碼]
- COTATRON:轉錄引導的語音編碼器,用於沒有並聯數據的任何對角度轉換[[[Paper]] [代碼]
- 再次VC:使用激活指導和自適應實例歸一化[[Paper]] [代碼]的單發語音轉換
- AUTOVC:零擊語音樣式轉移僅使用自動編碼器損失[[Paper]] [代碼]
- sc-glowtts:有效的零擊多演講者文本對語音模型[代碼]
- 深揚聲器:端到端的神經揚聲器嵌入系統[[Paper]] [代碼]
- VQMIVC:一聲(任何對任何)語音轉換[[Paper]] [代碼]
風格(情感,韻律)
- Smart-TTS單個情感TT [代碼]
- 跨揚聲器的情感轉移[[Paper]] [代碼]
- AutoPST:全局節奏樣式轉移無文本抄錄[[Paper]] [代碼]
- 通過非平行訓練數據[[Paper]] [代碼]轉換頻譜和韻律以進行情感語音轉換
- 具有對抗週期一致性的多參考神經TTS樣式[[Paper]] [代碼]
- 在端到端語音綜合(Tacotron-vae)中學習潛在的樣式控制和轉移的潛在表示[[Paper]] [代碼]
- 時域神經音頻風格轉移(NIPS 2017)[[Paper]] [代碼]
- meta-stylespeech和stylespeech [[paper]] [代碼]
- 基於揚聲器conditino層歸一化和文本語音的半監督訓練[[paper]] [code]
跨語言
- 帶有跨語性語言模型的端到端代碼轉換TTS
- 普通話和英語
- 跨語性和多演講者
- 基線:“僅使用單語言數據構建混合語言神經TTS系統”
- 僅使用單語言數據構建混合語言神經TTS系統
- 轉移學習,風格控制和揚聲器重建損失的零擊多語言多語言揚聲器文本到低資源語言的語音
- 使用多語言和單語VQ-VAE [PAPER] [代碼]探索分離
音樂相關
- 在歌曲中學習美麗:神經歌唱的語音美容器(ACL 2022)[[Paper]] [代碼]
- 唱歌的語音(Interspeech 2020)[[Paper]] [代碼]
- DIFFSINGER:通過淺擴散機制(AAAI 2022)[[Paper]] [代碼]唱歌聲音綜合
- 通用音樂翻譯網絡(ICLR 2019)
- Jukebox:音樂的生成模型(OpenAi)[Paper] [代碼]
工具包
- IMS Toucan語音合成工具包[Paper] [代碼]
- crepe音調跟踪器[代碼]
- 語音腦 - 促進語音研究的有用工具[代碼]
聲碼器
注意力
ASR
語音分類,檢測,過濾等。
- HTS-AT:用於聲音分類和檢測的層次令牌 - 語音音頻變壓器[[Paper]] [代碼]
- Google AI的VoiceFilter系統[[Paper]] [代碼]
- 使用自我注意力機制和多任務學習改進端到端的語音情緒識別(Interspeech 2019)[[Paper]] [代碼]
- 具有基於tranformer的自我監督特徵融合[[Paper]] [代碼]的多模式情緒識別
- 使用WAV2VEC 2.0嵌入(Interspeech 2021)的語音識別情緒識別[[Paper]] [代碼]
- 探索WAV2VEC 2.0微調以改進語音情感識別[[[Paper]] [代碼]
- 重新考慮用於音頻分類的CNN模型[[Paper]] [代碼]
- 使用Sincnet [[Paper]] [代碼]基於EEG的情緒識別
發言人驗證
- 揚聲器驗證(IEEE SLT 2021)的交叉專心池[[[Paper]] [代碼]
語言學
數據集
- vggsound:大規模的音頻 - 視覺數據集[[Paper]] [代碼]
- CSS10:10個Langauges的單個揚聲器語音數據集[代碼]
- IEMOCAP:有10個男性和女演員的12小時視聽數據[網站]
- voxceleb [repo]
數據增強
- 聽眾(Pytorch中的快速音頻數據增強)[代碼]
對準器
- 蒙特利爾強迫對準器
數據(前)處理 /增強
- 基於wiktionary ko-pron lua模塊[代碼]的韓國發音和羅馬化
- 音頻信號處理[代碼]
- 語音特徵(對於“ 0-Shot多語言語音綜合的語音特徵”)[[Paper]] [代碼]
- smart-g2p(以韓語句子更改英語和漢字表達式為韓國發音)[代碼]
- kakao grupheme到“普通話” [代碼]的音素轉換包
- Webaverse語音工具[代碼]
確認
- MCD [repo]
- 代碼有效,但我不確定是否正確。即使對於成對的類似音頻,MCD號也有點太高。
其他可能有幫助的研究
- 文本到圖像綜合
- 聽到(屏蔽的自動編碼器聆聽)[代碼]
組織
- DeepMind [repo]
- Openai [repo]
- 俱樂部大廈:每週arxivtalk [repo]
其他存儲庫要參考 - 包括語音/相關的語音
- 演講研究人員列表[repo]
- 傑克遜 - 康[倉庫]
- 石質性的ML [repo]
- ivallesp的[repo]
- DDLBOJACK的講話預處理[repo]
- 富本辛的樣式轉移文本[repo]
學習材料
- 數字信號處理講座[鏈接]
- Ratsgo的語音手冊[鏈接]
- 語音處理的YSDA課程[代碼]
- NHN Forward YouTube視頻[鏈接]