AUDIOLM:音频产生的语言建模方法(2022),ZalánBorsos等。 [PDF]
AudiOldm:具有潜扩散模型的文本到审计生成(2023),Haohe Liu等。 [PDF]
Musiclm:从文本(2023)中产生音乐,Andrea Agostinelli等。 [PDF]
Moûsai:长篇文本的文本到音乐生成(2023年),Flavio Schneider等。 [PDF]
Noige2Music:具有扩散模型的文本调节音乐生成(2023),Qingqing Huang等。 [PDF]
Markov过程对自动语音识别的概率功能理论的应用介绍(1982),SE Levinson等。 [PDF]
连续语音识别的最大似然方法(1983),Lalit R. Bahl等。 [PDF]
异构声学测量和语音识别的多个分类器(1986年),安德鲁·K·哈尔伯斯塔特(Andrew K. Halberstadt)。 [PDF]
言语识别的隐藏马尔可夫模型参数的最大共同信息估计(1986),Lalit R. Bahi等。 [PDF]
劳伦斯·R·拉伯纳(Lawrence R Rabiner)的隐藏马尔可夫模型和精选应用的教程(1989年)。 [PDF]
使用时间播放神经网络(1989)的音素识别,Alexander H. Waibel等。 [PDF]
使用Hidden Markov模型(1989),Kai-Fu Lee等人使用扬声器独立的电话识别。 [PDF]
隐藏的马尔可夫语音识别模型(1991),BH Juang等。 [PDF]
TDNN(时间延迟神经网络)的评论语音识别(2014),Masahide Sugiyamat等。 [PDF]
Connectionist语音识别:混合方法(1994),Herve Bourlard等。 [PDF]
一个后处理系统,用于产生降低的单词错误率:识别器输出投票误差降低(Rover) (1997),JG Fiscus。 [PDF]
使用加权有限态传感器(2001),M Mohri等人的语音识别。 [PDF]
双向LSTM和其他神经网络体系结构(2005),Alex Graves等人的框架音素分类。 [PDF]
Connectionist时间分类:用复发性神经网络将未分段序列数据标记(2006),Alex Graves等。 [PDF]
Kaldi语音识别工具包(2011),Daniel Povey等。 [PDF]
将卷积神经网络概念应用于语音识别的混合NN-HMM模型(2012年),Ossama Abdel-Hamid等。 [PDF]
依赖上下文训练的大型语音识别的预训练的深神网络(2012),乔治·E·达尔等人。 [PDF]
语音识别中的声学建模的深神经网络(2012年),Geoffrey Hinton等。 [PDF]
复发神经网络的序列转导(2012),Alex Graves等。 [PDF]
LVCSR的深度卷积神经网络(2013),Tara N. Sainath等。 [PDF]
使用整流的线性单元和辍学,改善LVCSR的深神经网络(2013),George E. Dahl等。 [PDF]
使用辍学和多语言DNN培训(2013),Yajie Miao等人改善低资源CD-DNN-HMM 。 [PDF]
LVCSR的深度卷积神经网络的改进(2013),Tara N. Sainath等。 [PDF]
语音识别的机器学习范例:概述(2013),李邓等。 [PDF]
Microsoft(2013),Li Deng等人的言语研究深度学习的最新进展。 [PDF]
具有深度复发性神经网络的语音识别(2013),Alex Graves等。 [PDF]
卷积的Deep Maxout网络电话识别(2014年),LászlóTóth等。 [PDF]
语音识别的卷积神经网络(2014年),Ossama Abdel-Hamid等。 [PDF]
在基于卷积神经网络的电话识别(2014年)中结合了时间和频域卷积,LászlóTóth。 [PDF]
深度语音:扩展端到端的语音识别(2014年),Awni Y. Hannun等。 [PDF]
使用基于注意力的复发NN:第一结果(2014),Jan Chorowski等人的端到端连续语音识别。 [PDF]
使用双向复发DNNS(2014),Andrew L. Maas等人使用双向重复DNNS的第一通通词汇连续语音识别。 [PDF]
大规模声学建模的长期短期记忆复发性神经网络体系结构(2014),Hasim Sak等。 [PDF]
Gabor Filter内核(2014),Shuo-Yiin Chang等人的基于CNN的强大语音识别。 [PDF]
低资源语音识别的随机合并Maxout网络(2014年),Meng Cai等。 [PDF]
通过复发性神经网络(2014),Alex Graves等人端到端的语音识别。 [PDF]
神经传感器(2015),N Jaitly等。 [PDF]
基于注意力的语音识别模型(2015年),Jan Chorowski等。 [PDF]
使用原始语音作为输入(2015),Dimitri Palaz等人对基于CNN的语音识别系统的分析。 [PDF]
卷积,长期记忆,完全连接的深神经网络(2015),Tara N. Sainath等。 [PDF]
William Chan等人,低资源语言的声学建模深度卷积神经网络。 [PDF]
单渠道多通话器语音识别的深神经网络(2015),Chao Weng等。 [PDF]
Eesen:使用Deep RNN模型和基于WFST的解码(2015),Y Miao等人的端到端语音识别。 [PDF]
言语识别的快速,准确的复发性神经网络声学模型(2015),Hasim Sak等。 [PDF]
神经网络(2015),Andrew L. Maas等。 [PDF]
通过连接主义时间分类的复发神经网络的在线序列培训(2015),Kyuyeon Hwang等。 [PDF]
Geoffrey Zweig等。 [PDF]
LVCSR的非常深的卷积神经网络的进步(2016),Tom Sercu等。 [PDF]
基于端到端注意的大型词汇识别(2016),Dzmitry Bahdanau等。 [PDF]
深度卷积神经网络具有层面环境的扩展和注意力(2016),Dong Yu等。 [PDF]
深度演讲2:英语和普通话的端到端语音识别(2016),Dario Amodei等。 [PDF]
Hassan Taherian的Highway LSTM(2016),基于端到端的远处远处言语识别。 [PDF]
Suyoun Kim等人使用Multi-Task Learning(2016),基于CTC注意的联合端到端语音识别。 [PDF]
听,参加和咒语:大型词汇对话演讲识别的神经网络(2016),William Chan等。 [PDF]
潜在序列分解(2016年),William Chan等。 [PDF]
使用LSTM与LVCSR任务的卷积架构建模时间频模式(2016),Tara N. Sainath等。 [PDF]
多微晶仪远距离语音识别中听觉关注的复发模型(2016),Suyoun Kim等。 [PDF]
端到端语音识别的分段复发网络(2016),Liang Lu等。 [PDF]
Jan Chorowski等人,以序列为序列模型的更好解码和语言模型集成(2016)。 [PDF]
噪声强大的语音识别的非常深的卷积神经网络(2016),Yanmin Qian等。 [PDF]
端到端语音识别的非常深的卷积网络(2016年),Yu Zhang等人。 [PDF]
LVCSR的非常深的多语言卷积神经网络(2016),Tom Sercu等。 [PDF]
WAV2LETTER:基于端到端Convnet的语音识别系统(2016),Ronan Collobert等。 [PDF]
细心的卷积神经网络基于语音情绪识别:关于输入特征,信号长度和ACTED语音影响的研究(2017年),Michael Neumann等人。 [PDF]
穆罕默德胺Menacer等人是阿拉伯语的增强自动语音识别系统(2017年)。 [PDF]
基于CNN Engoder和RNN-LM(2017),Takaaki Hori等人,基于CTC注意的联合CTC注意的进展。 [PDF]
遥远语音识别的深神经网络网络(2017),Mirco Ravanelli等。 [PDF]
Chung-Cheng Chiu等人的嘈杂语音识别的在线顺序到序列模型(2017年)。 [PDF]
Hany Ahmed等人的语音识别系统(2017)基于SOM和I-VECTOR的无监督说话者聚类技术(2017年)。 [PDF]
基于注意力的端到端语音识别(2017年),C Shan等。 [PDF]
建立大型词汇识别的DNN声学模型(2017年),Andrew L. Maas等。 [PDF]
英语对话语音识别的直接声学对话模型(2017年),Kartik Audhkhasi等。 [PDF]
对环境强大的语音识别的深度学习:最近发展的概述(2017年),Zixing Zhang等。 [PDF]
人类和机器(2017),乔治·萨恩(George Saon)等人的英语对话电话演讲识别。 [PDF]
ESE:稀疏LSTM在FPGA(2017),Song Han等人的有效语音识别引擎。 [PDF]
Chris Donahue等人使用生成的对抗网络探索语音增强(2017年)。 [PDF]
大型词汇连续语音识别的深度LSTM (2017),Xu Tian等。 [PDF]
语音识别中自适应神经声学建模的动态层归一化(2017年),Taesup Kim等。 [PDF]
革兰氏阴性算法:序列标签的自动单位选择和目标分解(2017年),Hairong Liu等。 [PDF]
提高在线神经传感器模型(2017)的性能,Tara N. Sainath等。 [PDF]
从原始语音识别的学习过滤器库(2017),尼尔·Zeghidour等。 [PDF]
多通道端到端语音识别(2017),Tsubasa Ochiai等。 [PDF]
Liang Lu等人的CTC和分段CRF的多任务学习(2017年)。 [PDF]
具有自动语音识别的深神经网络的多通道信号处理(2017),Tara N. Sainath等。 [PDF]
具有单一端到端模型(2017)的多语言语音识别,Shubham Toshhiwal等。 [PDF]
通过语音识别采样(2017),Matt Shannon优化预期的单词错误率。 [PDF]
自动语音识别的残留卷积CTC网络(2017),Yisen Wang等。 [PDF]
残留LSTM:遥远语音识别的深度复发架构的设计(2017),Jaeyoung Kim等。 [PDF]
多微粒距离语音识别中听觉注意的复发模型(2017),Suyoun Kim等。 [PDF]
减少生产语音模型的偏见(2017年),Eric Battenberg等。 [PDF]
使用生成对抗网络(2017),Anurop Sriram等人的强大语音识别。 [PDF]
Chung-Cheng Chiu等人的序列到序列模型的最新语音识别(2017年)。 [PDF]
Suyoun Kim等人迈向语言 - 世界端到端的语音识别(2017)。 [PDF]
基于基于在线语音识别系统的加速复发性神经网络模型(2018),K Lee等人。 [PDF]
Zhe Yuan等人的改进了语音识别的混合CTC意见模型(2018)。 [PDF]
使用子词单元(2018),Zhangyu Xiao等人的基于混合CTC注意的端到端语音识别。 [PDF]
规格:一种自动语音识别的简单数据增强方法(2019年),Daniel S. Park等。 [PDF]
VQ-WAV2VEC:离散语音表示的自我监督学习(2019年),Alexei Baevski等。 [PDF]
自我监督的预训练对语音识别的有效性(2020年),Alexei Baevski等。 [PDF]
改进了自动语音识别的嘈杂学生培训(2020年),丹尼尔·S·帕克等。 [PDF]
CONTECTERNET:改善具有全球环境自动语音识别的卷积神经网络(2020),Wei Han等。 [PDF]
构象体:卷积增强的言语识别变压器(2020),Anmol Gulati等。 [PDF]
关于大规模语音识别的流行端到端模型的比较(2020),Jinyu Li等人。 [PDF]
增强对比度的自我监督学习,用于音频不变表示(2021),Melikasadat Emami等。 [PDF]
Khaled Koutini等人对音频变压器的有效训练(2021)。 [PDF]
MixSpeech:低资源自动语音识别的数据增强(2021),Linghui Meng等。 [PDF]
基于变压器的端到端自动语音识别的多编码器学习和流融合(2021),Timo Lohrenz等。 [PDF]
Specaugment ++:一种用于声学场景分类的隐藏空间数据增强方法(2021),Helin Wang等。 [PDF]
SpecMix:一种用于使用时频域特征训练的混合样品数据增强方法(2021),Gwantae Kim等。 [PDF]
Awni Hannun等人的言语识别历史(2021年)。 [PDF]
Matthew Baas等人的语音转换可以改善在非常低的农源设置中的ASR (2021)。 [PDF]
CTC为什么会导致峰值行为? (2021),Albert Zeyer等。 [PDF]
E2E细分器:长形ASR的关节分割和解码(2022),W。RonnyHuang等。 [PDF]
音乐源分离与生成流量(2022),Ge Zhu等。 [PDF]
Kaizhi Qian等人通过解开说话者改善自我监督的语音表现(2022)。 [PDF]
通过大规模弱监督(2022),Alec Radford等人的强大语音识别。 [PDF]
关于语音到文本和大型语言模型集成的仅解码器架构(2023),Jian Wu等。 [PDF]
使用改编的高斯混合模型(2000)的扬声器验证,道格拉斯A.Reynolds等。 [PDF]
关于独立的说话者验证的教程(2004年),FrédéricBimbot等。 [PDF]
小脚印文本依赖的扬声器验证(2014),E Variani等人的深神经网络。 [PDF]
半文本独立说话者验证的深扬声器矢量(2015年),兰蒂安·李(Lantian Li)等。 [PDF]
Deep Speaker:端到端的神经扬声器嵌入系统(2017),Chao Li等。 [PDF]
Deep Speaker功能学习独立于文本的说话者验证(2017年),Lantian Li等。 [PDF]
深扬声器验证:我们需要端到头吗? (2017年),东王等。 [PDF]
LSTM(2017),Quan Wang等人的演讲者诊断。 [PDF]
使用3D卷积神经网络(2017),Amirsina Torfi等。 [PDF]
Chunlei Zhang等人的端到端独立于文本的说话者验证(2017年)。 [PDF]
David Snyder等人的深层神经网络嵌入(2017年),David Snyder等。 [PDF]
持续时间强大的说话者验证的深度歧视性嵌入(2018),Na Li等人。 [PDF]
Sarthak Yadav等人学习说话者识别和验证的判别特征(2018年)。 [PDF]
扬声器验证的较大边距软损失(2019年),Yi Liu等。 [PDF]
Phani Sankar Nidadavolu等人无监督的发言人验证功能增强(2019年)。 [PDF]
Saurabh Kataria等人的功能增强功能具有深度功能损失(2019年)。 [PDF]
li wan等人的广义末端2端损失(2019年)。 [PDF]
与文本无关的说话者验证的凸长度归一化的空间金字塔编码(2019年),Youngmoon Jung等。 [PDF]
VoxSRC 2019:第一个Voxceleb发言人识别挑战(2019年),Son Chung等人。 [PDF]
但是对Voxceleb说话者识别挑战2019(2019)的系统描述,Hossein Zeinali等。 [PDF]
Alenin等人的短期扬声器验证挑战2021(2021)的ID R&D系统描述。 [PDF]
使用深双向长期记忆基于复发性神经网络的语音转换(2015),Lifa Sun等。 [PDF]
在没有平行数据训练的情况下,多对一的语音转换的语音后验(2016年),Lifa Sun等。 [PDF]
Stargan-VC:与Star Generative Aversarial Networks(2018),Hirokazu Kameoka等人的无与伦比的多对面语音转换。 [PDF]
AUTOVC:仅使用自动编码器损失(2019),Kaizhi Qian等人的零击语音转移。 [PDF]
Stargan-VC2:基于Stargan的语音转换的有条件方法(2019),Takuhiro Kaneko等。 [PDF]
无监督的语音转换语言单元的端到端学习(2019年),Andy T. Liu等。 [PDF]
基于注意的扬声器嵌入一声音转换(2020),Tatsuma Ishihara等人。 [PDF]
通过有条件自动编码器(2020),Kaizhi Qian等人,F0一致的多到许多非平行语音转换。 [PDF]
基于识别合成的非平行语音转换与对抗性学习(2020),Jing-Xuan Zhang等。 [PDF]
改进的Stargan用于情感语音转换:增强语音质量和数据增强(2021),Xiangheng He等。 [PDF]
Crank:基于矢量定量的变异自动编码器(2021)的非平行语音转换的开源软件,Kazuhiro Kobayashi等。 [PDF]
CVC:非平行语音转换的对比度学习(2021),Tingle Li等人。 [PDF]
NoiseVC:朝着高质量的零声音转换(2021),Shijun Wang等。 [PDF]
关于基于ASR+TTS语音转换的韵律建模(2021),Wen-Chin Huang等。 [PDF]
Starganv2-VC:一个自然声音转换的多样,无监督,非平行的框架(2021),Yinghao Aaron Li等人。 [PDF]
Shijun Wang等人通过自我监督的韵律代表学习(2021)通过零拍的语音转换(2021)。 [PDF]
经过修改的短期傅立叶变换(1993)的信号估计,Daniel W. Griffin等。 [PDF]
文本到语音综合(2009年),Paul Taylor等。 [PDF]
快速的Griffin-Lim算法(2013),Nathanael Perraudin等。 [PDF]
与双向LSTM的复发神经网络(2014),Yuchen Fan等人的TTS合成。 [PDF]
迈向端到端参数TTS合成的第一步:生成具有神经注意力的光谱参数(2016),Wenfu Wang等。 [PDF]
Google实时HMM驱动单元选择合成器(2016),Xavi Gonzalvo等人的最新进展。 [PDF]
Samplernn:无条件的端到端神经音频产生模型(2016),Soroush Mehri等。 [PDF]
Wavenet:原始音频的生成模型(2016),Aäronvan den Oord等。 [PDF]
CHAR2WAV:端到端语音合成(2017年),J Sotelo等。 [PDF]
深层声音:实时神经文本到语音(2017),Sercan O. Arik等。 [PDF]
深声2:多演讲者神经文本到语音(2017),Sercan Arik等。 [PDF]
深语音3:2000扬声器神经文本到语音(2017),Wei ping等。 [PDF]
通过调节波诺特在MEL频谱图预测(2017)中,乔纳森·申(Jonathan Shen)等人的天然TT合成。 [PDF]
平行象征:快速高保真语音综合(2017),Aaron Van Den Oord等。 [PDF]
在多任务学习框架下使用生成对抗网络的统计参数语音综合(2017),S Yang等。 [PDF]
TACOTRON:朝着端到端的语音合成(2017),Yuxuan Wang等。 [PDF]
Yuxuan Wang等人发现表达语音综合的潜在风格因素(2017)。 [PDF]
Voiceloop:语音拟合和综合通过语音循环(2017),Yaniv Taigman等。 [PDF]
单簧管:端到端文本到语音中的平行波产生(2018),Wei ping等。 [PDF]
语音合成的深馈顺序记忆网络(2018),Mengxiao Bi等。 [PDF]
LPCNET:通过线性预测改善神经语音综合(2018),Jean-Marc Valin等。 [PDF]
在端到端语音综合中学习对风格控制和转移的潜在表示(2018),Ya-Jie Zhang等。 [PDF]
神经语音与几个样本(2018),SercanO.Arık等人。 [PDF]
Daisy Stanton等人在端到端语音综合中的文本中预测富有表现力的口语风格。 [PDF]
样式令牌:无监督的样式建模,端到端语音综合中的控制和转移(2018),Y Wang等。 [PDF]
与Tacotron(2018),RJ Skerry-Ryan等人一起朝向端到端的韵律转移。 [PDF]
榴莲:多模式合成的持续时间知情注意力网络(2019),Chengzhu Yu等。 [PDF]
使用多头卷积神经网络(2019)的快速谱图反演,Söarık等。 [PDF]
FastSpeech:Speech的快速,健壮和可控文本(2019),Yi Ren等。 [PDF]
学习用外语说流利:多语言语音综合和跨语言克隆(2019),Yu Zhang等。 [PDF]
Melnet:频域中音频的生成模型(2019),Sean Vasquez等。 [PDF]
多演讲者端到端语音综合(2019年),Jihyun Park等。 [PDF]
梅尔根:有条件波形合成的生成对抗网络(2019),昆丹·库马尔等。 [PDF]
Naihan Li等人的Naihan Li等人的神经语音综合(2019)。 [PDF]
平行神经文本到语音(2019),Kainan Peng等。 [PDF]
预先训练的文本表示形式,用于改进普通话文本到语音综合的前端文本处理(2019),Bing Yang等人[PDF]
平行WaveGAN:基于具有多分辨率光谱图的生成对抗网络的快速波形生成模型(2019),Yamamoto等人Ryuichi。 [PDF]它与梅尔根(Melgan)同时出现,而没有人互相指的是……此外,我认为高斯噪音是不必要的,因为Melspec的信息非常强烈。
Samplernn(2019),David Alvarez等人的多演讲者文本到语音的问题无关的语音嵌入。 [PDF]
稳健的序列到序列的声学建模,具有逐步的神经TTS单调注意力(2019),Mutian He等。 [PDF]
Wei Fang等人从深度训练的语言模型(2019年)中转移学习端到端语音综合的学习。 [PDF]
从说话者验证到多钟文本到语音综合的转移学习(2019年),Ye Jia等。 [PDF]
WaveFlow:一个基于紧凑的原始音频模型(2019),Wei ping等。 [PDF]
WaveGlow:基于流量的语音合成网络(2019),R Prenger等。 [PDF]
Aligntts:没有明确的对准者(2020),有效的馈送文本到语音系统,Zhen Zeng等人。 [PDF]
Boffin TTS:贝叶斯优化的很少的演讲者改编(2020),Henry B.Moss等。 [PDF]
Bunched LPCNet:低成本神经文本到语音系统的Vocoder (2020),Ravichander Vipperla等。 [PDF]
模仿:神经文本到语音的多个细粒度转移(2020),Sri Karlapati等。 [PDF]
有效的:一种高效且高质量的文本到语音架构(2020),Chenfeng Miao等。 [PDF]
端到端对抗文本到语音(2020),Jeff Donahue等。 [PDF]
FastSpeech 2:Yi Ren等人的快速和高质量的端到端文本(2020)。 [PDF]
Flowtron:一种基于自回旋流量的生成网络,用于文本到语音综合(2020),Rafael Valle等。 [PDF]
Flow-TTS:基于流量的非自动回归网络,用于语音的文本(2020),Chenfeng Miao等。 [PDF]
全层次的细粒韵律建模,用于可解释的语音综合(2020),广为Sun等。 [PDF]
Guangzhi Sun等人(2020年),使用量化的细粒度VAE和自动回归韵律生成多样的和自然的文本到语音样品。 [PDF]
Glow-TTS:通过单调对准搜索(2020)的文本到语音的生成流量,Jaehyeon Kim等。 [PDF]
HIFI-GAN:生成的对抗网络,用于有效和高保真言语综合(2020),Jungil Kong等。 [PDF]
可靠的长形语音合成的位置相关注意机制(2020),Eric Battenberg等。 [PDF]
多语言:Mingjian Chen等人使用Transformer(2020)到语音的多演讲者文本。 [PDF]
平行TACOTRON:非自动回旋和可控的TT (2020),Isaac Elias等。 [PDF]
Robutrans:一种强大的基于变压器的文本到语音模型(2020),Naihan Li等人。 [PDF]
双重注意网络(2020),Jingyu Li等人的依赖性扬声器验证。 [PDF]
WaveGrad:估计波形产生梯度(2020),Nanxin Chen等。 [PDF]
AdaSpeech:Mingjian Chen等人的自适应文本(2021)。 [PDF]
关于神经言语综合的调查(2021),Xu Tan等。 [PDF]
Ahmed Mustafa等人以非常低的比特率以非常低的比特率(2021)进行宽带语音编码。 [PDF]
端到端语音综合的可控跨言情感转移(2021),Tao Li等人。 [PDF]
Dongyang Dai等人使用野外数据非常有限的数据克隆声音。 [PDF]
端到端文本到语音的对抗性学习的条件变异自动编码器(2021),Jaehyeon Kim等。 [PDF]
Diffwave:AUDIO合成的多功能扩散模型(2021),Zhifeng Kong等。 [PDF]
diff-tts:文本到语音的转化扩散模型(2021),Myeonghun Jeong等。 [PDF]
Desightfultts:暴雪挑战2021(2021)的Microsoft语音合成系统,Yanqing Liu等。 [PDF]
Fre-GAN:对抗频率一致的音频合成(2021),Ji-hoon Kim等。 [PDF]
全频段LPCNET:使用CPU(2021)的48 kHz音频的实时神经声码器,Keisuke Matsubara等。 [PDF]
Grad-TTS:文本到语音的扩散概率模型(2021),Vadim Popov等。 [PDF]
Glow-Wavegan:从基于GAN的变异自动编码器中学习语音表示,基于高保真流的语音合成(2021),Jian Cong等。 [PDF]
Patrick Lumban Tobing等人,基于多频道Wavernn的高保真和低延迟通用神经声码器,具有数据驱动的线性预测(2021)。 [PDF]
非自动回归语音综合的分层韵律建模(2021),Chung-Ming Chien等。 [PDF]
itoˆtts和itoˆwave:线性随机微分方程是您所需的音频生成所需的(2021),Shoule Wu等。 [PDF]
喷气机:共同训练FastSpeech2和Hifi-gan,以端到头文本到语音(2021),Dan Lim等人。 [PDF]
Meta-voice:使用元学习(2021),Songxiang Liu等人的快速几弹性风格转移,用于表达语音克隆( 2021)。 [PDF]
您需要的全部(对于高质量的无注意力TT) (2021),Shivam Mehta等人。 [PDF]
Max Morrison等人使用可控制的LPCNET(2021)进行神经音调转移和时间拉伸。 [PDF]
Rohan Badlani等人一个TT统治所有的TT对齐(2021)。 [PDF]
Karatuner:在Karaoke(2021)中唱歌的声音的端到端自然音高校正,小米Zhuang等人。 [PDF]
PNG BERT:Ye Jia等人的Neural TTS上的音素和素数上的增强BERT (2021)。 [PDF]
平行TACOTRON 2:具有可区分持续时间建模的非自动回忆神经TTS模型(2021),Isaac Elias等。 [PDF]
PortAspeech:便携式和高质量的生成文本到语音(2021),Yi Ren等。 [PDF]
Chunyang Wu等人基于变压器的声音综合的声学模型(2021)。 [PDF]
Triple M:一种实用的神经文本到语音系统,具有多种引物注意力和多频段多时间LPCNET (2021),Shilun Lin等人。 [PDF]
TalkNet 2:非自动回旋深度的可分离性卷积模型,用于具有显式音高和持续时间预测的语音合成(2021),Stanislav Beliaev等。 [PDF] Talknet2与Talknet有很小的差异,因此我在这里不包括Talknet。
朝着表达语音综合的多尺度样式控制(2021),Xiang li等。 [PDF]
统一源滤波器gan:基于准周期平行波甘(2021)的分解的统一源网络,Reo Yoneyama等。 [PDF]
Yourtts:朝着每个人的零射击多演讲者TT和零击语音转换(2021),Edresson Casanova等。 [PDF]
Avocodo:无伪影的生成对抗网络(2022),Taejun Bak等。 [PDF]
对抗说话者的对抗者一致性学习使用未转录的语音数据进行零击的多演讲者文本到语音(2022),Byoung Jin Choi等人。 [PDF]
束LPCNET2:覆盖从云到边缘的设备(2022)的高效神经声码器,Sangjun Park等。 [PDF]
使用非平行性语音转换与音调数据增强(2022),Ryo Terashima等人,使用非平行语音转换的低资源文本到语音转换的跨言情感转移。 [PDF]
FastDiff:高质量语音合成的快速条件扩散模型(2022),Rongjie Huang等。 [PDF]
快速GRAD-TT:迈向CPU上基于有效扩散的语音产生(2022),Ivan Vovk等。 [[PDF]
Glow-Wavegan 2:高质量的零击文本到语音综合和任何对任何语音转换(2022),Yi Lei等人。 [PDF]
HIFI ++:一个神经辅助,带宽扩展和语音增强的统一框架(2022),Pavel Andreev等。 [PDF]
IQDUBBING:基于离散的自我监督语音表示表达语音转换的韵律建模(2022),Wendong Gan等。 [PDF]
ISTFTNET:快速且轻巧的MEL-SPECTROGRAGION VOCODER,结合了短期傅立叶变换(2022),Takuhiro Kaneko等。 [PDF]
轻巧且高保真的端到端文本到语音,具有多波段生成和逆短期傅立叶变换(2022),Masaya Kawamura等。 [PDF]
在浅滩上的神经语音综合:提高LPCNET的效率(2022),Jean-Marc Valin等。 [PDF]
Nansy ++:与神经分析和合成的统一语音合成(2022),Hyeong-Seok-Seok Choi等。 [PDF]
Priorgrad:Sang-Gil Lee等人(2022)改善了具有数据依赖性自适应先验的有条件降解模型(2022)。 [PDF]
提示:具有文本描述的可控制文本到语音(2022),Zhifang Guo等。 [PDF]
理智-TT:稳定而自然的端到端多语言文本到语音(2022),Hyunjae Cho等。 [PDF]
STFT结构域神经语音增强具有非常低的算法潜伏期(2022),Zhong-qiu Wang等。 [PDF]
简单有效的无监督语音综合(2022),亚历山大·H·刘等人。 [PDF]
Specgrad:基于自适应噪声频谱塑形的基于概率模型的扩散概率模型(2022),Yuma Koizumi等。 [PDF]
Source-Filter Hifi-Gan:快速和俯仰可控的高保真神经声码器(2022),Reo Yoneyama等。 [PDF]
Trinitts:无外部对准器的可控制的端到端TT (2022),Yoon-Cheol Ju等。 [PDF]
使用多流式编码器和有效的扬声器表示(2022),Yibin Zheng等人的零拍传输转移。 [PDF]
ConstructTT:在离散潜在空间中使用自然语言风格提示(2023),Dongchao Yang等人建模表达TT 。 [PDF]
Matcha-TTS:具有条件流匹配的快速TTS架构(2023),Shivam Mehta等。 [PDF]
Mega-TTS:零击的文本到语音,具有内在的感应偏见(2023),Ziyue Jiang等。 [PDF]
Mega-TTS 2:带有任意长度语音提示的零击文本到语音(2023),Ziyue Jiang等。 [PDF]
基于班级的自然语言模型(1992),Peter F. Brown等。 [PDF]
对语言建模的平滑技术的实证研究(1996),Stanley F. Chen等。 [PDF]
神经概率语言模型(2000),Yoshua Bengio等。 [PDF]
中国拼音输入的一种新的统计方法(2000),郑陈等。 [PDF]
判别n-gram语言建模(2007年),布莱恩·罗克(Brian Roark)等。 [PDF]
中国拼音输入方法引擎的神经网络语言模型(2015),S Chen等。 [PDF]
自动语音识别的复发性神经网络语言模型的有效培训和评估(2016),Xie Chen等。 [PDF]
探索语言建模的极限(2016年),R Jozefowicz等人。 [PDF]
On the State of the Art of Evaluation in Neural Language Models (2016), G Melis et al. [pdf]
Pay Less Attention with Lightweight and Dynamic Convolutions (2019), Felix Wu et al.[pdf]
Estimating Confidence using Word Lattices (1997), T. Kemp et al. [pdf]
Large vocabulary decoding and confidence estimation using word posterior probabilities (2000), G. Evermann et al. [pdf]
Combining Information Sources for Confidence Estimation with CRF Models (2011), MS Seigel et al. [pdf]
Speaker-Adapted Confidence Measures for ASR using Deep Bidirectional Recurrent Neural Networks (2018), M. ́A. Del-Agua et al. [pdf]
Bi-Directional Lattice Recurrent Neural Networks for Confidence Estimation (2018), Q. Li et al. [pdf]
Confidence Estimation for Black Box Automatic Speech Recognition Systems Using Lattice Recurrent Neural Networks (2020), A. Kastanos et al. [pdf]
CONFIDENCE ESTIMATION FOR ATTENTION-BASED SEQUENCE-TO-SEQUENCE MODELS FOR SPEECH RECOGNITION (2020), Qiujia Li et al. [pdf]
Residual Energy-Based Models for End-to-End Speech Recognition (2021), Qiujia Li et al. [pdf]
Multi-Task Learning for End-to-End ASR Word and Utterance Confidence with Deletion Prediction (2021), David Qiu et al. [pdf]
Onsets and Frames: Dual-Objective Piano Transcription (2017), Curtis Hawthorne et al. [pdf]
Unsupervised Singing Voice Conversion (2019), Eliya Nachmani et al. [pdf]
ByteSing- A Chinese Singing Voice Synthesis System Using Duration Allocated Encoder-Decoder Acoustic Models and WaveRNN Vocoders (2020), Yu Gu et al. [pdf]
DurIAN-SC: Duration Informed Attention Network based Singing Voice Conversion System (2020), Liqiang Zhang et al. [pdf]
HiFiSinger: Towards High-Fidelity Neural Singing Voice Synthesis (2020), Jiawei Chen et al. [pdf]
Jukebox: A Generative Model for Music (2020), Prafulla Dhariwal et al. [pdf]
DiffSinger: Singing Voice Synthesis via Shallow Diffusion Mechanism (2021), Jinglin Liu et al. [pdf]
MLP Singer: Towards Rapid Parallel Korean Singing Voice Synthesis (2021), Jaesung Tae et al. [pdf]
Multi-Singer: Fast Multi-Singer Singing Voice Vocoder With A Large-Scale Corpus (2021), Rongjie Huang et al. [pdf]
MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training (2021), Mingliang Zeng et al. [pdf]
N-Singer: A Non-Autoregressive Korean Singing Voice Synthesis System for Pronunciation Enhancement (2021), Gyeong-Hoon Lee et al. [pdf]
Non-Autoregressive TTS with Explicit Duration Modelling for Low-Resource Highly Expressive Speech (2021), Raahil Shah et al. [pdf]
PeriodNet: A non-autoregressive waveform generation model with a structure separating periodic and aperiodic components (2021), Yukiya Hono et al. [pdf]
Sequence-to-Sequence Piano Transcription with Transformers (2021), Curtis Hawthorne et al. [pdf]
M4Singer: a Multi-Style, Multi-Singer and Musical Score Provided Mandarin Singing Corpus (2022), Lichao Zhang et al. [pdf]
Opencpop: A High-Quality Open Source Chinese Popular Song Corpus for Singing Voice Synthesis (2022), Yu Wang et al. [pdf]
WeSinger: Data-augmented Singing Voice Synthesis with Auxiliary Losses (2022), Zewang Zhang et al. [pdf]
WeSinger 2: Fully Parallel Singing Voice Synthesis via Multi-Singer Conditional Adversarial Training (2022), Zewang Zhang et al. [pdf]
The Reversible Residual Network: Backpropagation Without Storing Activations (2017), Aidan N. Gomez et al. [pdf]
Soft-DTW: a Differentiable Loss Function for Time-Series (2018), Marco Cuturi et al. [pdf]
FlowSeq: Non-Autoregressive Conditional Sequence Generation with Generative Flow (2019), Xuezhe Ma et al. [pdf]
Learning Problem-agnostic Speech Representations from Multiple Self-supervised Tasks (2019), Santiago Pascual et al. [pdf]
Self-supervised audio representation learning for mobile devices (2019), Marco Tagliasacchi et al. [pdf]
SinGAN: Learning a Generative Model from a Single Natural Image (2019), Tamar Rott Shaham et al. [pdf]
Audio2Face: Generating Speech/Face Animation from Single Audio with Attention-Based Bidirectional LSTM Networks (2019), Guanzhong Tian et al. [pdf]
Attention is Not Only a Weight: Analyzing Transformers with Vector Norms (2020), Goro Kobayashi et al. [pdf]