有關尖端語音綜合,文本到語音(TTS) ,唱歌語音綜合(SVS) ,語音轉換(VC) ,唱歌語音轉換(SVC)以及相關有趣的有趣作品(例如音樂合成,自動音樂轉錄,自動音樂轉錄,自動Mos預測,基於SSL的ASR ,ASR,...等)的論文和項目清單。
歡迎致PR或通過電子郵件([email protected])與我聯繫,以更新論文和作品。
IEEE/ACM TASLP,IEEE JSTSP,JSLHR,IEEE TPAMI
Neuraips,ICLR,ICML,IJAI,AAAI,ACL,NAACL,EMNLP,ISMIR,ACM MM,ICASSP,ICASSP,Interpeech,ICME
ASRU,SLT
[ 2022 ]
Learn2sing 2.0:通過向歌唱老師學習,擴散和基於信息的目標揚聲器SVS | Interspeech 2022 | ✔️Code|演示
單發唱歌語音轉換的層次揚聲器表示框架| Interspeech 2022 |演示
用諧波信號改善基於對抗波形的歌聲轉換| ICASSP 2022 |演示
[ 2021 ]
DIFFSVC:用於唱歌語音轉換的擴散概率模型| ASRU 2021 |演示
通過彙編VC可控且可解釋的歌聲分解|神經2021研討會|演示
通過聲學參考和對比度預測編碼朝著高保真的歌聲轉換| 2021/10 |演示
fastsvc:快速跨域唱歌語音轉換,通過特徵線性調製| ICME 2021 |演示
使用俯仰擴大和兩相方法的無監督Wavenet的歌聲轉換| 2021/07 | ✔️Code|演示
[ 2020 ]
零拍的聲音轉換| Ismir 2020 |演示
通過對抗訓練,語音後驗的多到許多歌聲轉換| 2020/12 |演示|非官方代碼
榴蓮SC:持續時間知情的基於注意力網絡的歌聲轉換系統|間言式2020 |演示
無監督的跨域歌聲轉換|間言式2020 |演示
PitchNet:無監督的歌聲轉換與俯仰對手網絡| ICASSP 2020 |演示
通過非平行訓練數據唱歌語音轉換的VAW-GAN | APSIPA 2020 | ✔️Code|演示
M4Singer:一種多式,多名和音樂樂譜提供了普通話的演唱語料庫|神經2022 | ?應用和下載|演示
NUS-48E演唱和口語語料庫|申請和下載
NHSS:語音和唱歌並行數據庫|申請和下載
[ 2022 ]
[ 2021 ]
調查唱歌技術分類中音頻特徵提取的時頻表示| APSIPA 2021
零拍打技術轉換| CMMR 2021
[ 2022 ]
學習無噪聲的語音表示,用於嘈雜目標揚聲器的高質量語音轉換| Interspeech 2022 |演示
Glow-Wavegan 2:高質量的零擊文本到語音綜合和任何對任何語音轉換| Interspeech 2022 |演示
基於擴散的語音轉換具有快速最大似然採樣方案| ICLR 2022 | ✔️Code|演示
YourTTS:朝著每個人的零射擊多演講者TTS和零拍的語音轉換| ICML 2022 | ✔️Code|演示|演示|博客
基於自我監督語音表示形式的語音轉換的比較研究| IEEE JSTSP 2022/07
S3PRL-VC:帶有自我監督的語音表示的開源語音轉換框架| ICASSP 2022 | ✔️Code
比較離散語音單元的比較,以改善語音轉換| ICASSP 2022 | ✔️Code|演示
彙編VC:通過組裝現代語音合成技術的現實語音轉換| ICASSP 2022 | ✔️Code|演示
NVC-NET:端到端對抗語音轉換| ICASSP 2022 | ✔️Code|演示
零聲音轉換的穩健分發性差異語音表示學習| ICASSP 2022 |演示
訓練具有自我監督功能的強大零擊語音轉換模型| ICASSP 2022 |演示
朝著降解的語音轉換| ICASSP 2022
DGC-VECTOR:一個新的揚聲器嵌入零發音轉換| ICASSP 2022 |演示
端到端的零擊語音樣式轉移帶有位置變量卷積| 2022/05 |演示
[ 2021 ]
關於基於ASR+TTS語音轉換的韻律建模| ASRU 2021 |演示
神經分析和綜合:從自我監督的表示中重建語音|神經2021 |演示|非官方代碼
中VC:使用合成特定揚聲器演講作為中間功能的任何對任何語音轉換| 2021/10 | ✔️Code|演示
Starganv2-VC:一種自然聲音轉換的多樣,無監督,非平行的框架| Interspeech 2021最佳紙張獎| ✔️Code|演示
S2VC:任何一對一語音轉換的框架,都具有自我監督的預審計表示| Interspeech 2021 | ✔️Code|演示
基於多個語音轉換的多個語音轉換使用變量自動編碼器| Interspeech 2021 | ✔️Code|演示
來自離散的解開自我監督的表示的語音重新合成| Interspeech 2021 |演示
通過刪除表示形式學習改善零拍的語音風格轉移| ICLR 2021
全局節奏樣式轉移,沒有文本轉錄| ICML 2021 | ✔️Code
再次VC:使用激活指南和自適應實例歸一化的單發語音轉換| ICASSP 2021 | ✔️Code|演示
與位置相關序列到序列建模的任何對一道語音轉換| IEEE/ACM TASLP 2021/05 | ✔️Code|演示
[ 2020 ]
語音轉換及其挑戰的概述:從統計建模到深度學習| IEEE/ACM TASLP 2020/11
通過三重信息瓶頸無監督的語音分解| ICML 2020 | ✔️Code
[ 2019 ]
通過將揚聲器和內容表示形式分開,以實例歸一化來分開語音轉換| Interspeech 2019 | ✔️Code
AUTOVC:零擊語音樣式傳輸僅使用自動編碼器損失| ICML 2019 | ✔️Code|演示
CSTR VCTK語料庫:CSTR語音克隆工具包的英語多演講者語料庫| 2019 |申請和下載
Aishell-3:多揚聲器普通話TTS語料庫和基線| 2020 | ?應用和下載|演示
Aishell-2:將普通話ASR研究轉變為工業規模| 2018 |申請和下載
Aishell-1:開源的普通話語料庫和語音識別基線| 2017 |申請和下載
[ 2022 ]
表達語音轉換的情感風格和演講者身份的解開| Interspeech 2022 |演示
基於韻律補償的端到端語音綜合的跨言情緒轉移| Interspeech 2022 |演示
情感強度及其對情感語音轉換的控制|情感計算上的IEEE交易2022/07 | ✔️Code|演示
使用離散和分解表示的無短信語音情感轉換| 202202 |演示
[ 2021 ]
[ 2020 ]
轉換任何人的情感:轉向與說話者無關的情感聲音轉換|間言式2020 | ✔️Code|演示
通過非平行訓練數據轉換頻譜和韻律以進行情感語音轉換|奧德賽2020 | ✔️Code|演示
[ 2022 ]
Muskits:用於唱歌語音綜合的端到端音樂處理工具包| Interspeech 2022 | ✔️Code
Singaug:通過週期符合培訓策略的唱歌語音綜合的數據增強| Interspeech 2022 | ✔️Code
Wesinger:具有輔助損失的數據增強的歌聲綜合| Interspeech 2022 |演示
Wesinger 2:通過多彈奏的條件對抗訓練完全平行的歌聲綜合| 2022/08 |演示
歌唱信息處理主題的深度學習方法| IEEE/ACM TASLP 2022/07
在歌曲中學習美麗:神經歌唱的語音美容| ACL 2022 | ✔️Code|演示
DIFFSINGER:通過淺擴散機制唱歌的語音合成| AAAI 2022 | ✔️Code|演示
[ 2021 ]
[ 2020 ]
M4Singer:一種多式,多名和音樂樂譜提供了普通話的演唱語料庫|神經2022 | ?應用和下載|演示
popcs | AAAI 2022 |申請和下載
OpencPop:高質量的開源中文流行歌曲語料庫,用於唱歌聲音綜合| Interspeech 2022 |申請和下載
[ 2022 ]
Prodiff:高質量文本到語音的漸進快速擴散模型| ACM MM 2022 | ✔️Code|演示
BDDM:快速和高質量語音合成的雙邊降級擴散模型| ICLR 2022 | ✔️Code|演示
FastDiff:高質量語音合成的快速條件擴散模型| IJCAI 2022 | ✔️Code|演示
[ 2022 ]
基於DDSP的歌手聲碼器:一種新的基於減法的合成器和全面的評估| Ismir 2022 | ✔️Code|演示
FastDiff:高質量語音合成的快速條件擴散模型| IJCAI 2022 | ✔️Code|演示
雙耳:雙耳音頻合成的兩階段條件擴散概率模型| 2022/05 |演示
[ 2021 ]
多名球員:帶有大型語料庫的快速多弦樂語音演唱器| ACM MM 2021 | ?應用和下載| ✔️Code|演示
Wavegrad 2:文本到語音綜合的迭代改進| Interspeech 2021 |演示
diffwave:音頻合成的多功能擴散模型| ICLR 2021 | ✔️Code|演示
WaveGrad:估計波形生成梯度| ICLR 2021 |演示
[ 2020 ]
HIFI-GAN:生成的對抗網絡,可高效且高保真語音綜合|神經2020 | ✔️Code|演示
多頻段梅爾根(Melgan):高質量文本到語音的更快波形生成|間言式2020 |演示
平行波形:基於具有多分辨率光譜圖的生成對抗網絡的快速波形生成模型| ICASSP 2020 |演示|非官方代碼
[ 2019 ]
梅爾根:有條件波形合成的生成對抗網絡| Neurips 2019 | ✔️Code|演示
旨在實現強大的通用神經聲音| Interspeech 2019 | ✔️Code|演示|非官方代碼
[ 2022 ]
與光譜擴散的多儀器音樂合成| Ismir 2022 | ✔️Code|演示
musika!快速無限波形音樂發電| Ismir 2022 | ✔️Code|演示
[ 2022 ]
[ 2021 ]
[ 2022 ]
Unispeech-Sat:通用語音表示與說話者意識到的培訓的學習| ICASSP 2022 | ✔️Code| ✔️Code
在無監督的預識別預培訓中的性能效率權衡| ICASSP 2022 | ✔️Code| ✔️Code
偽標記,用於大量多語言語音識別| ICASSP 2022 | ✔️Code| ✔️Code
WAVLM:大規模自我監督的預培訓,用於完整的堆棧語音處理| IEEE JSTSP 2022/06 | ✔️Code| ✔️Code
[ 2021 ]
XLS-R:自我監管的跨語性語音表示按大規模學習| 2021/12 | ✔️Code| ✔️Code
簡單有效的零射擊跨語性音素識別| 2021/09 | ✔️Code| ✔️Code
TERA:對言語的變壓器編碼器表示的自我監督學習| IEEE/ACM TASLP 2021/08 | ✔️Code
UNISPEECH:統一的語音表示學習,具有標記和未標記的數據| ICML 2021 | ✔️Code| ✔️Code| ✔️Code
休伯特:隱藏單位的掩蓋預測進行自我監督的語音表示學習| IEEE/ACM TASLP 2021/06 | ✔️Code| ✔️Code
[ 2020 ]
WAV2VEC 2.0:一個自我監督語音表示的框架|神經2020 | ✔️Code| ✔️Code
VQ-WAV2VEC:離散語音表示的自我監督學習| ICLR 2020 | ✔️Code| ✔️Code
MockingJay:無監督的語音表示學習,深層雙向變壓器編碼器| ICASSP 2020 | ✔️Code
無監督的跨語性表示語音識別學習| 2020/06 | ✔️Code| ✔️Code
Fairseq S2T:使用Fairseq |快速的語音到文本建模| AACL 2020 | ✔️Code| ✔️Code
[ 2019 ]
[ 2022 ]
[ 2021 ]
[ 2021 ]
[ 2022 ]
[ 2022 ]
[ 2021 ]
[ 2022 ]
[ 2021 ]
[ 2021 ]
語音轉換挑戰2020 | ?應用和下載| ✔️Code
暴雪挑戰