有关尖端语音综合,文本到语音(TTS) ,唱歌语音综合(SVS) ,语音转换(VC) ,唱歌语音转换(SVC)以及相关有趣的有趣作品(例如音乐合成,自动音乐转录,自动音乐转录,自动Mos预测,基于SSL的ASR ,ASR,...等)的纸张和项目清单。
欢迎致PR或通过电子邮件([email protected])与我联系,以更新论文和作品。
IEEE/ACM TASLP,IEEE JSTSP,JSLHR,IEEE TPAMI
Neuraips,ICLR,ICML,IJAI,AAAI,ACL,NAACL,EMNLP,ISMIR,ACM MM,ICASSP,ICASSP,Interpeech,ICME
ASRU,SLT
[ 2022 ]
Learn2sing 2.0:通过向歌唱老师学习,扩散和基于信息的目标扬声器SVS | Interspeech 2022 | ✔️Code|演示
单发唱歌语音转换的层次扬声器表示框架| Interspeech 2022 |演示
用谐波信号改善基于对抗波形的歌声转换| ICASSP 2022 |演示
[ 2021 ]
DIFFSVC:用于唱歌语音转换的扩散概率模型| ASRU 2021 |演示
通过汇编VC可控且可解释的歌声分解|神经2021研讨会|演示
通过声学参考和对比度预测编码朝着高保真的歌声转换| 2021/10 |演示
fastsvc:快速跨域唱歌语音转换,通过特征线性调制| ICME 2021 |演示
使用俯仰扩大和两相方法的无监督Wavenet的歌声转换| 2021/07 | ✔️Code|演示
[ 2020 ]
零拍的声音转换| Ismir 2020 |演示
通过对抗训练,语音后验的多到许多歌声转换| 2020/12 |演示|非官方代码
榴莲SC:持续时间知情的基于注意力网络的歌声转换系统|间言式2020 |演示
无监督的跨域歌声转换|间言式2020 |演示
PitchNet:无监督的歌声转换与俯仰对手网络| ICASSP 2020 |演示
通过非平行训练数据唱歌语音转换的VAW-GAN | APSIPA 2020 | ✔️Code|演示
M4Singer:一种多式,多名和音乐乐谱提供了普通话的演唱语料库|神经2022 | ?应用和下载|演示
NUS-48E演唱和口语语料库|申请和下载
NHSS:语音和唱歌并行数据库|申请和下载
[ 2022 ]
[ 2021 ]
调查唱歌技术分类中音频特征提取的时频表示| APSIPA 2021
零拍打技术转换| CMMR 2021
[ 2022 ]
学习无噪声的语音表示,用于嘈杂目标扬声器的高质量语音转换| Interspeech 2022 |演示
Glow-Wavegan 2:高质量的零击文本到语音综合和任何对任何语音转换| Interspeech 2022 |演示
基于扩散的语音转换具有快速最大似然采样方案| ICLR 2022 | ✔️Code|演示
YourTTS:朝着每个人的零射击多演讲者TTS和零拍的语音转换| ICML 2022 | ✔️Code|演示|演示|博客
基于自我监督语音表示形式的语音转换的比较研究| IEEE JSTSP 2022/07
S3PRL-VC:带有自我监督的语音表示的开源语音转换框架| ICASSP 2022 | ✔️Code
比较离散语音单元的比较,以改善语音转换| ICASSP 2022 | ✔️Code|演示
汇编VC:通过组装现代语音合成技术的现实语音转换| ICASSP 2022 | ✔️Code|演示
NVC-NET:端到端对抗语音转换| ICASSP 2022 | ✔️Code|演示
零声音转换的稳健分发性差异语音表示学习| ICASSP 2022 |演示
训练具有自我监督功能的强大零击语音转换模型| ICASSP 2022 |演示
朝着降解的语音转换| ICASSP 2022
DGC-VECTOR:一个新的扬声器嵌入零发音转换| ICASSP 2022 |演示
端到端的零击语音样式转移带有位置变量卷积| 2022/05 |演示
[ 2021 ]
关于基于ASR+TTS语音转换的韵律建模| ASRU 2021 |演示
神经分析和综合:从自我监督的表示中重建语音|神经2021 |演示|非官方代码
中VC:使用合成特定扬声器演讲作为中间功能的任何对任何语音转换| 2021/10 | ✔️Code|演示
Starganv2-VC:一种自然声音转换的多样,无监督,非平行的框架| Interspeech 2021最佳纸张奖| ✔️Code|演示
S2VC:任何一对一语音转换的框架,都具有自我监督的预审计表示| Interspeech 2021 | ✔️Code|演示
基于多个语音转换的多个语音转换使用变量自动编码器| Interspeech 2021 | ✔️Code|演示
来自离散的解开自我监督的表示的语音重新合成| Interspeech 2021 |演示
通过删除表示形式学习改善零拍的语音风格转移| ICLR 2021
全局节奏样式转移,没有文本转录| ICML 2021 | ✔️Code
再次VC:使用激活指南和自适应实例归一化的单发语音转换| ICASSP 2021 | ✔️Code|演示
与位置相关序列到序列建模的任何对一道语音转换| IEEE/ACM TASLP 2021/05 | ✔️Code|演示
[ 2020 ]
语音转换及其挑战的概述:从统计建模到深度学习| IEEE/ACM TASLP 2020/11
通过三重信息瓶颈无监督的语音分解| ICML 2020 | ✔️Code
[ 2019 ]
通过将扬声器和内容表示形式分开,以实例归一化来分开语音转换| Interspeech 2019 | ✔️Code
AUTOVC:零击语音样式传输仅使用自动编码器损失| ICML 2019 | ✔️Code|演示
CSTR VCTK语料库:CSTR语音克隆工具包的英语多演讲者语料库| 2019 |申请和下载
Aishell-3:多扬声器普通话TTS语料库和基线| 2020 | ?应用和下载|演示
Aishell-2:将普通话ASR研究转变为工业规模| 2018 |申请和下载
Aishell-1:开源的普通话语料库和语音识别基线| 2017 |申请和下载
[ 2022 ]
表达语音转换的情感风格和演讲者身份的解开| Interspeech 2022 |演示
基于韵律补偿的端到端语音综合的跨言情绪转移| Interspeech 2022 |演示
情感强度及其对情感语音转换的控制|情感计算上的IEEE交易2022/07 | ✔️Code|演示
使用离散和分解表示的无短信语音情感转换| 202202 |演示
[ 2021 ]
[ 2020 ]
转换任何人的情感:转向与说话者无关的情感声音转换|间言式2020 | ✔️Code|演示
通过非平行训练数据转换频谱和韵律以进行情感语音转换|奥德赛2020 | ✔️Code|演示
[ 2022 ]
Muskits:用于唱歌语音综合的端到端音乐处理工具包| Interspeech 2022 | ✔️Code
Singaug:通过周期符合培训策略的唱歌语音综合的数据增强| Interspeech 2022 | ✔️Code
Wesinger:具有辅助损失的数据增强的歌声综合| Interspeech 2022 |演示
Wesinger 2:通过多弹奏的条件对抗训练完全平行的歌声综合| 2022/08 |演示
歌唱信息处理主题的深度学习方法| IEEE/ACM TASLP 2022/07
在歌曲中学习美丽:神经歌唱的语音美容| ACL 2022 | ✔️Code|演示
DIFFSINGER:通过浅扩散机制唱歌的语音合成| AAAI 2022 | ✔️Code|演示
[ 2021 ]
[ 2020 ]
M4Singer:一种多式,多名和音乐乐谱提供了普通话的演唱语料库|神经2022 | ?应用和下载|演示
popcs | AAAI 2022 |申请和下载
OpencPop:高质量的开源中文流行歌曲语料库,用于唱歌声音综合| Interspeech 2022 |申请和下载
[ 2022 ]
Prodiff:高质量文本到语音的渐进快速扩散模型| ACM MM 2022 | ✔️Code|演示
BDDM:快速和高质量语音合成的双边降级扩散模型| ICLR 2022 | ✔️Code|演示
FastDiff:高质量语音合成的快速条件扩散模型| IJCAI 2022 | ✔️Code|演示
[ 2022 ]
基于DDSP的歌手声码器:一种新的基于减法的合成器和全面的评估| Ismir 2022 | ✔️Code|演示
FastDiff:高质量语音合成的快速条件扩散模型| IJCAI 2022 | ✔️Code|演示
双耳:双耳音频合成的两阶段条件扩散概率模型| 2022/05 |演示
[ 2021 ]
多名球员:带有大型语料库的快速多弦乐语音演唱器| ACM MM 2021 | ?应用和下载| ✔️Code|演示
Wavegrad 2:文本到语音综合的迭代改进| Interspeech 2021 |演示
diffwave:音频合成的多功能扩散模型| ICLR 2021 | ✔️Code|演示
WaveGrad:估计波形生成梯度| ICLR 2021 |演示
[ 2020 ]
HIFI-GAN:生成的对抗网络,可高效且高保真语音综合|神经2020 | ✔️Code|演示
多频段梅尔根(Melgan):高质量文本到语音的更快波形生成|间言式2020 |演示
平行波形:基于具有多分辨率光谱图的生成对抗网络的快速波形生成模型| ICASSP 2020 |演示|非官方代码
[ 2019 ]
梅尔根:有条件波形合成的生成对抗网络| Neurips 2019 | ✔️Code|演示
旨在实现强大的通用神经声音| Interspeech 2019 | ✔️Code|演示|非官方代码
[ 2022 ]
与光谱扩散的多仪器音乐合成| Ismir 2022 | ✔️Code|演示
musika!快速无限波形音乐发电| Ismir 2022 | ✔️Code|演示
[ 2022 ]
[ 2021 ]
[ 2022 ]
Unispeech-Sat:通用语音表示与说话者意识到的培训的学习| ICASSP 2022 | ✔️Code| ✔️Code
在无监督的预识别预培训中的性能效率权衡| ICASSP 2022 | ✔️Code| ✔️Code
伪标记,用于大量多语言语音识别| ICASSP 2022 | ✔️Code| ✔️Code
WAVLM:大规模自我监督的预培训,用于完整的堆栈语音处理| IEEE JSTSP 2022/06 | ✔️Code| ✔️Code
[ 2021 ]
XLS-R:自我监管的跨语性语音表示按大规模学习| 2021/12 | ✔️Code| ✔️Code
简单有效的零射击跨语性音素识别| 2021/09 | ✔️Code| ✔️Code
TERA:对言语的变压器编码器表示的自我监督学习| IEEE/ACM TASLP 2021/08 | ✔️Code
UNISPEECH:统一的语音表示学习,具有标记和未标记的数据| ICML 2021 | ✔️Code| ✔️Code| ✔️Code
休伯特:隐藏单位的掩盖预测进行自我监督的语音表示学习| IEEE/ACM TASLP 2021/06 | ✔️Code| ✔️Code
[ 2020 ]
WAV2VEC 2.0:一个自我监督语音表示的框架|神经2020 | ✔️Code| ✔️Code
VQ-WAV2VEC:离散语音表示的自我监督学习| ICLR 2020 | ✔️Code| ✔️Code
MockingJay:无监督的语音表示学习,深层双向变压器编码器| ICASSP 2020 | ✔️Code
无监督的跨语性表示语音识别学习| 2020/06 | ✔️Code| ✔️Code
Fairseq S2T:使用Fairseq |快速的语音到文本建模| AACL 2020 | ✔️Code| ✔️Code
[ 2019 ]
[ 2022 ]
[ 2021 ]
[ 2021 ]
[ 2022 ]
[ 2022 ]
[ 2021 ]
[ 2022 ]
[ 2021 ]
[ 2021 ]
语音转换挑战2020 | ?应用和下载| ✔️Code
暴雪挑战