关于言语
该存储库组织论文,学习材料和编码,以理解语音。这里还有另一个用于机器/深度学习的存储库。
到达:
TTS
TTS
- DC-TTS [[Paper]] [Pytorch] [TensorFlow]
- 微软的Lightspeech [[Paper]] [代码]
- 语音形式[[Paper]] [代码]
- 非竞争性塔科克斯[Paper] [Pytorch]
- 平行TACOTRON 2 [[PAPER]] [代码]
- FCL-TACO2:快速,可控和轻巧的tacotron2 [[Paper]] [代码]
- 变压器TTS:具有变压器网络的神经语音综合[[Paper]] [代码]
- vits:端到端文本到语音的对抗性学习条件变异自动编码器[[paper]] [代码]
- 改革者-TT(改革器对TTS的改编)[代码]
基于及时的TTS(请参阅[链接])
语音转换 /语音克隆 /扬声器嵌入
- Stargan-VC:通过星生成对抗网络[[PAPER]] [代码]的非并行多对面的语音转换
- 神经语音克隆与很少的音频样本(Baidu)[[Paper]] [代码]
- 汇编VC:通过组装现代语音综合技术[[Paper]] [代码]通过组装现实的语音转换
- UNET-TTS:以单发语音克隆[Paper] [Code]改进看不见的扬声器和样式转移
- fragmentVC:通过端到端提取并融合精细粒度的语音片段的任何对任何对任何语音转换,注意[[paper]] [代码]
- 矢量QuantizedCPC:矢量定量的对比度预测编码,用于声学单元发现和语音转换[[[Paper]] [代码]
- COTATRON:转录引导的语音编码器,用于没有并联数据的任何对角度转换[[[Paper]] [代码]
- 再次VC:使用激活指导和自适应实例归一化[[Paper]] [代码]的单发语音转换
- AUTOVC:零击语音样式转移仅使用自动编码器损失[[Paper]] [代码]
- sc-glowtts:有效的零击多演讲者文本对语音模型[代码]
- 深扬声器:端到端的神经扬声器嵌入系统[[Paper]] [代码]
- VQMIVC:一声(任何对任何)语音转换[[Paper]] [代码]
风格(情感,韵律)
- Smart-TTS单个情感TT [代码]
- 跨扬声器的情感转移[[Paper]] [代码]
- AutoPST:全局节奏样式转移无文本抄录[[Paper]] [代码]
- 通过非平行训练数据[[Paper]] [代码]转换频谱和韵律以进行情感语音转换
- 具有对抗周期一致性的多参考神经TTS样式[[Paper]] [代码]
- 在端到端语音综合(Tacotron-vae)中学习潜在的样式控制和转移的潜在表示[[Paper]] [代码]
- 时域神经音频风格转移(NIPS 2017)[[Paper]] [代码]
- meta-stylespeech和stylespeech [[paper]] [代码]
- 基于扬声器conditino层归一化和文本语音的半监督训练[[paper]] [code]
跨语言
- 带有跨语性语言模型的端到端代码转换TTS
- 普通话和英语
- 跨语性和多演讲者
- 基线:“仅使用单语言数据构建混合语言神经TTS系统”
- 仅使用单语言数据构建混合语言神经TTS系统
- 转移学习,风格控制和扬声器重建损失的零击多语言多语言扬声器文本到低资源语言的语音
- 使用多语言和单语VQ-VAE [PAPER] [代码]探索分离
音乐相关
- 在歌曲中学习美丽:神经歌唱的语音美容器(ACL 2022)[[Paper]] [代码]
- 唱歌的语音(Interspeech 2020)[[Paper]] [代码]
- DIFFSINGER:通过浅扩散机制(AAAI 2022)[[Paper]] [代码]唱歌声音综合
- 通用音乐翻译网络(ICLR 2019)
- Jukebox:音乐的生成模型(OpenAi)[Paper] [代码]
工具包
- IMS Toucan语音合成工具包[Paper] [代码]
- crepe音调跟踪器[代码]
- 语音脑 - 促进语音研究的有用工具[代码]
声码器
注意力
ASR
语音分类,检测,过滤等。
- HTS-AT:用于声音分类和检测的层次令牌 - 语音音频变压器[[Paper]] [代码]
- Google AI的VoiceFilter系统[[Paper]] [代码]
- 使用自我注意力机制和多任务学习改进端到端的语音情绪识别(Interspeech 2019)[[Paper]] [代码]
- 具有基于tranformer的自我监督特征融合[[Paper]] [代码]的多模式情绪识别
- 使用WAV2VEC 2.0嵌入(Interspeech 2021)的语音识别情绪识别[[Paper]] [代码]
- 探索WAV2VEC 2.0微调以改进语音情感识别[[[Paper]] [代码]
- 重新考虑用于音频分类的CNN模型[[Paper]] [代码]
- 使用Sincnet [[Paper]] [代码]基于EEG的情绪识别
发言人验证
- 扬声器验证(IEEE SLT 2021)的交叉专心池[[[Paper]] [代码]
语言学
数据集
- vggsound:大规模的音频 - 视觉数据集[[Paper]] [代码]
- CSS10:10个Langauges的单个扬声器语音数据集[代码]
- IEMOCAP:有10个男性和女演员的12小时视听数据[网站]
- voxceleb [repo]
数据增强
- 听众(Pytorch中的快速音频数据增强)[代码]
对准器
- 蒙特利尔强迫对准器
数据(前)处理 /增强
- 基于wiktionary ko-pron lua模块[代码]的韩国发音和罗马化
- 音频信号处理[代码]
- 语音特征(对于“ 0-Shot多语言语音综合的语音特征”)[[Paper]] [代码]
- smart-g2p(以韩语句子更改英语和汉字表达式为韩国发音)[代码]
- kakao grupheme到“普通话” [代码]的音素转换包
- Webaverse语音工具[代码]
确认
- MCD [repo]
- 代码有效,但我不确定是否正确。即使对于成对的类似音频,MCD号也有点太高。
其他可能有帮助的研究
- 文本到图像综合
- 听到(屏蔽的自动编码器聆听)[代码]
组织
- DeepMind [repo]
- Openai [repo]
- 俱乐部大厦:每周arxivtalk [repo]
其他存储库要参考 - 包括语音/相关的语音
- 演讲研究人员列表[repo]
- 杰克逊 - 康[仓库]
- 石质性的ML [repo]
- ivallesp的[repo]
- DDLBOJACK的讲话预处理[repo]
- 富本辛的样式转移文本[repo]
学习材料
- 数字信号处理讲座[链接]
- Ratsgo的语音手册[链接]
- 语音处理的YSDA课程[代码]
- NHN Forward YouTube视频[链接]