AUDIOLM:音頻產生的語言建模方法(2022),ZalánBorsos等。 [PDF]
AudiOldm:具有潛擴散模型的文本到審計生成(2023),Haohe Liu等。 [PDF]
Musiclm:從文本(2023)中產生音樂,Andrea Agostinelli等。 [PDF]
Moûsai:長篇文本的文本到音樂生成(2023年),Flavio Schneider等。 [PDF]
Noige2Music:具有擴散模型的文本調節音樂生成(2023),Qingqing Huang等。 [PDF]
Markov過程對自動語音識別的概率功能理論的應用介紹(1982),SE Levinson等。 [PDF]
連續語音識別的最大似然方法(1983),Lalit R. Bahl等。 [PDF]
異構聲學測量和語音識別的多個分類器(1986年),安德魯·K·哈爾伯斯塔特(Andrew K. Halberstadt)。 [PDF]
言語識別的隱藏馬爾可夫模型參數的最大共同信息估計(1986),Lalit R. Bahi等。 [PDF]
勞倫斯·R·拉伯納(Lawrence R Rabiner)的隱藏馬爾可夫模型和精選應用的教程(1989年)。 [PDF]
使用時間播放神經網絡(1989)的音素識別,Alexander H. Waibel等。 [PDF]
使用Hidden Markov模型(1989),Kai-Fu Lee等人使用揚聲器獨立的電話識別。 [PDF]
隱藏的馬爾可夫語音識別模型(1991),BH Juang等。 [PDF]
TDNN(時間延遲神經網絡)的評論語音識別(2014),Masahide Sugiyamat等。 [PDF]
Connectionist語音識別:混合方法(1994),Herve Bourlard等。 [PDF]
一個後處理系統,用於產生降低的單詞錯誤率:識別器輸出投票誤差降低(Rover) (1997),JG Fiscus。 [PDF]
使用加權有限態傳感器(2001),M Mohri等人的語音識別。 [PDF]
雙向LSTM和其他神經網絡體系結構(2005),Alex Graves等人的框架音素分類。 [PDF]
Connectionist時間分類:用複發性神經網絡將未分段序列數據標記(2006),Alex Graves等。 [PDF]
Kaldi語音識別工具包(2011),Daniel Povey等。 [PDF]
將捲積神經網絡概念應用於語音識別的混合NN-HMM模型(2012年),Ossama Abdel-Hamid等。 [PDF]
依賴上下文訓練的大型語音識別的預訓練的深神網絡(2012),喬治·E·達爾等人。 [PDF]
語音識別中的聲學建模的深神經網絡(2012年),Geoffrey Hinton等。 [PDF]
復發神經網絡的序列轉導(2012),Alex Graves等。 [PDF]
LVCSR的深度卷積神經網絡(2013),Tara N. Sainath等。 [PDF]
使用整流的線性單元和輟學,改善LVCSR的深神經網絡(2013),George E. Dahl等。 [PDF]
使用輟學和多語言DNN培訓(2013),Yajie Miao等人改善低資源CD-DNN-HMM 。 [PDF]
LVCSR的深度卷積神經網絡的改進(2013),Tara N. Sainath等。 [PDF]
語音識別的機器學習範例:概述(2013),李鄧等。 [PDF]
Microsoft(2013),Li Deng等人的言語研究深度學習的最新進展。 [PDF]
具有深度復發性神經網絡的語音識別(2013),Alex Graves等。 [PDF]
卷積的Deep Maxout網絡電話識別(2014年),LászlóTóth等。 [PDF]
語音識別的捲積神經網絡(2014年),Ossama Abdel-Hamid等。 [PDF]
在基於卷積神經網絡的電話識別(2014年)中結合了時間和頻域卷積,LászlóTóth。 [PDF]
深度語音:擴展端到端的語音識別(2014年),Awni Y. Hannun等。 [PDF]
使用基於注意力的複發NN:第一結果(2014),Jan Chorowski等人的端到端連續語音識別。 [PDF]
使用雙向復發DNNS(2014),Andrew L. Maas等人使用雙向重複DNNS的第一通通詞彙連續語音識別。 [PDF]
大規模聲學建模的長期短期記憶復發性神經網絡體系結構(2014),Hasim Sak等。 [PDF]
Gabor Filter內核(2014),Shuo-Yiin Chang等人的基於CNN的強大語音識別。 [PDF]
低資源語音識別的隨機合併Maxout網絡(2014年),Meng Cai等。 [PDF]
通過復發性神經網絡(2014),Alex Graves等人端到端的語音識別。 [PDF]
神經傳感器(2015),N Jaitly等。 [PDF]
基於注意力的語音識別模型(2015年),Jan Chorowski等。 [PDF]
使用原始語音作為輸入(2015),Dimitri Palaz等人對基於CNN的語音識別系統的分析。 [PDF]
卷積,長期記憶,完全連接的深神經網絡(2015),Tara N. Sainath等。 [PDF]
William Chan等人,低資源語言的聲學建模深度卷積神經網絡。 [PDF]
單渠道多通話器語音識別的深神經網絡(2015),Chao Weng等。 [PDF]
Eesen:使用Deep RNN模型和基於WFST的解碼(2015),Y Miao等人的端到端語音識別。 [PDF]
言語識別的快速,準確的複發性神經網絡聲學模型(2015),Hasim Sak等。 [PDF]
神經網絡(2015),Andrew L. Maas等。 [PDF]
通過連接主義時間分類的複發神經網絡的在線序列培訓(2015),Kyuyeon Hwang等。 [PDF]
Geoffrey Zweig等。 [PDF]
LVCSR的非常深的捲積神經網絡的進步(2016),Tom Sercu等。 [PDF]
基於端到端注意的大型詞彙識別(2016),Dzmitry Bahdanau等。 [PDF]
深度卷積神經網絡具有層面環境的擴展和注意力(2016),Dong Yu等。 [PDF]
深度演講2:英語和普通話的端到端語音識別(2016),Dario Amodei等。 [PDF]
Hassan Taherian的Highway LSTM(2016),基於端到端的遠處遠處言語識別。 [PDF]
Suyoun Kim等人使用Multi-Task Learning(2016),基於CTC注意的聯合端到端語音識別。 [PDF]
聽,參加和咒語:大型詞彙對話演講識別的神經網絡(2016),William Chan等。 [PDF]
潛在序列分解(2016年),William Chan等。 [PDF]
使用LSTM與LVCSR任務的捲積架構建模時間頻模式(2016),Tara N. Sainath等。 [PDF]
多微晶儀遠距離語音識別中聽覺關注的複發模型(2016),Suyoun Kim等。 [PDF]
端到端語音識別的分段復發網絡(2016),Liang Lu等。 [PDF]
Jan Chorowski等人,以序列為序列模型的更好解碼和語言模型集成(2016)。 [PDF]
噪聲強大的語音識別的非常深的捲積神經網絡(2016),Yanmin Qian等。 [PDF]
端到端語音識別的非常深的捲積網絡(2016年),Yu Zhang等人。 [PDF]
LVCSR的非常深的多語言卷積神經網絡(2016),Tom Sercu等。 [PDF]
WAV2LETTER:基於端到端Convnet的語音識別系統(2016),Ronan Collobert等。 [PDF]
細心的捲積神經網絡基於語音情緒識別:關於輸入特徵,信號長度和ACTED語音影響的研究(2017年),Michael Neumann等人。 [PDF]
穆罕默德胺Menacer等人是阿拉伯語的增強自動語音識別系統(2017年)。 [PDF]
基於CNN Engoder和RNN-LM(2017),Takaaki Hori等人,基於CTC注意的聯合CTC注意的進展。 [PDF]
遙遠語音識別的深神經網絡網絡(2017),Mirco Ravanelli等。 [PDF]
Chung-Cheng Chiu等人的嘈雜語音識別的在線順序到序列模型(2017年)。 [PDF]
Hany Ahmed等人的語音識別系統(2017)基於SOM和I-VECTOR的無監督說話者聚類技術(2017年)。 [PDF]
基於注意力的端到端語音識別(2017年),C Shan等。 [PDF]
建立大型詞彙識別的DNN聲學模型(2017年),Andrew L. Maas等。 [PDF]
英語對話語音識別的直接聲學對話模型(2017年),Kartik Audhkhasi等。 [PDF]
對環境強大的語音識別的深度學習:最近發展的概述(2017年),Zixing Zhang等。 [PDF]
人類和機器(2017),喬治·薩恩(George Saon)等人的英語對話電話演講識別。 [PDF]
ESE:稀疏LSTM在FPGA(2017),Song Han等人的有效語音識別引擎。 [PDF]
Chris Donahue等人使用生成的對抗網絡探索語音增強(2017年)。 [PDF]
大型詞彙連續語音識別的深度LSTM (2017),Xu Tian等。 [PDF]
語音識別中自適應神經聲學建模的動態層歸一化(2017年),Taesup Kim等。 [PDF]
革蘭氏陰性算法:序列標籤的自動單位選擇和目標分解(2017年),Hairong Liu等。 [PDF]
提高在線神經傳感器模型(2017)的性能,Tara N. Sainath等。 [PDF]
從原始語音識別的學習過濾器庫(2017),尼爾·Zeghidour等。 [PDF]
多通道端到端語音識別(2017),Tsubasa Ochiai等。 [PDF]
Liang Lu等人的CTC和分段CRF的多任務學習(2017年)。 [PDF]
具有自動語音識別的深神經網絡的多通道信號處理(2017),Tara N. Sainath等。 [PDF]
具有單一端到端模型(2017)的多語言語音識別,Shubham Toshhiwal等。 [PDF]
通過語音識別採樣(2017),Matt Shannon優化預期的單詞錯誤率。 [PDF]
自動語音識別的殘留卷積CTC網絡(2017),Yisen Wang等。 [PDF]
殘留LSTM:遙遠語音識別的深度復發架構的設計(2017),Jaeyoung Kim等。 [PDF]
多微粒距離語音識別中聽覺注意的複發模型(2017),Suyoun Kim等。 [PDF]
減少生產語音模型的偏見(2017年),Eric Battenberg等。 [PDF]
使用生成對抗網絡(2017),Anurop Sriram等人的強大語音識別。 [PDF]
Chung-Cheng Chiu等人的序列到序列模型的最新語音識別(2017年)。 [PDF]
Suyoun Kim等人邁向語言 - 世界端到端的語音識別(2017)。 [PDF]
基於基於在線語音識別系統的加速復發性神經網絡模型(2018),K Lee等人。 [PDF]
Zhe Yuan等人的改進了語音識別的混合CTC意見模型(2018)。 [PDF]
使用子詞單元(2018),Zhangyu Xiao等人的基於混合CTC注意的端到端語音識別。 [PDF]
規格:一種自動語音識別的簡單數據增強方法(2019年),Daniel S. Park等。 [PDF]
VQ-WAV2VEC:離散語音表示的自我監督學習(2019年),Alexei Baevski等。 [PDF]
自我監督的預訓練對語音識別的有效性(2020年),Alexei Baevski等。 [PDF]
改進了自動語音識別的嘈雜學生培訓(2020年),丹尼爾·S·帕克等。 [PDF]
CONTECTERNET:改善具有全球環境自動語音識別的捲積神經網絡(2020),Wei Han等。 [PDF]
構象體:卷積增強的言語識別變壓器(2020),Anmol Gulati等。 [PDF]
關於大規模語音識別的流行端到端模型的比較(2020),Jinyu Li等人。 [PDF]
增強對比度的自我監督學習,用於音頻不變表示(2021),Melikasadat Emami等。 [PDF]
Khaled Koutini等人對音頻變壓器的有效訓練(2021)。 [PDF]
MixSpeech:低資源自動語音識別的數據增強(2021),Linghui Meng等。 [PDF]
基於變壓器的端到端自動語音識別的多編碼器學習和流融合(2021),Timo Lohrenz等。 [PDF]
Specaugment ++:一種用於聲學場景分類的隱藏空間數據增強方法(2021),Helin Wang等。 [PDF]
SpecMix:一種用於使用時頻域特徵訓練的混合樣品數據增強方法(2021),Gwantae Kim等。 [PDF]
Awni Hannun等人的言語識別歷史(2021年)。 [PDF]
Matthew Baas等人的語音轉換可以改善在非常低的農源設置中的ASR (2021)。 [PDF]
CTC為什麼會導致峰值行為? (2021),Albert Zeyer等。 [PDF]
E2E細分器:長形ASR的關節分割和解碼(2022),W。 RonnyHuang等。 [PDF]
音樂源分離與生成流量(2022),Ge Zhu等。 [PDF]
Kaizhi Qian等人通過解開說話者改善自我監督的語音表現(2022)。 [PDF]
通過大規模弱監督(2022),Alec Radford等人的強大語音識別。 [PDF]
關於語音到文本和大型語言模型集成的僅解碼器架構(2023),Jian Wu等。 [PDF]
使用改編的高斯混合模型(2000)的揚聲器驗證,道格拉斯A.Reynolds等。 [PDF]
關於獨立的說話者驗證的教程(2004年),FrédéricBimbot等。 [PDF]
小腳印文本依賴的揚聲器驗證(2014),E Variani等人的深神經網絡。 [PDF]
半文本獨立說話者驗證的深揚聲器矢量(2015年),蘭蒂安·李(Lantian Li)等。 [PDF]
Deep Speaker:端到端的神經揚聲器嵌入系統(2017),Chao Li等。 [PDF]
Deep Speaker功能學習獨立於文本的說話者驗證(2017年),Lantian Li等。 [PDF]
深揚聲器驗證:我們需要端到頭嗎? (2017年),東王等。 [PDF]
LSTM(2017),Quan Wang等人的演講者診斷。 [PDF]
使用3D卷積神經網絡(2017),Amirsina Torfi等。 [PDF]
Chunlei Zhang等人的端到端獨立於文本的說話者驗證(2017年)。 [PDF]
David Snyder等人的深層神經網絡嵌入(2017年),David Snyder等。 [PDF]
持續時間強大的說話者驗證的深度歧視性嵌入(2018),Na Li等人。 [PDF]
Sarthak Yadav等人學習說話者識別和驗證的判別特徵(2018年)。 [PDF]
揚聲器驗證的較大邊距軟損失(2019年),Yi Liu等。 [PDF]
Phani Sankar Nidadavolu等人無監督的發言人驗證功能增強(2019年)。 [PDF]
Saurabh Kataria等人的功能增強功能具有深度功能損失(2019年)。 [PDF]
li wan等人的廣義末端2端損失(2019年)。 [PDF]
與文本無關的說話者驗證的凸長度歸一化的空間金字塔編碼(2019年),Youngmoon Jung等。 [PDF]
VoxSRC 2019:第一個Voxceleb發言人識別挑戰(2019年),Son Chung等人。 [PDF]
但是對Voxceleb說話者識別挑戰2019(2019)的系統描述,Hossein Zeinali等。 [PDF]
Alenin等人的短期揚聲器驗證挑戰2021(2021)的ID R&D系統描述。 [PDF]
使用深雙向長期記憶基於復發性神經網絡的語音轉換(2015),Lifa Sun等。 [PDF]
在沒有平行數據訓練的情況下,多對一的語音轉換的語音後驗(2016年),Lifa Sun等。 [PDF]
Stargan-VC:與Star Generative Aversarial Networks(2018),Hirokazu Kameoka等人的無與倫比的多對面語音轉換。 [PDF]
AUTOVC:僅使用自動編碼器損失(2019),Kaizhi Qian等人的零擊語音轉移。 [PDF]
Stargan-VC2:基於Stargan的語音轉換的有條件方法(2019),Takuhiro Kaneko等。 [PDF]
無監督的語音轉換語言單元的端到端學習(2019年),Andy T. Liu等。 [PDF]
基於注意的揚聲器嵌入一聲音轉換(2020),Tatsuma Ishihara等人。 [PDF]
通過有條件自動編碼器(2020),Kaizhi Qian等人,F0一致的多到許多非平行語音轉換。 [PDF]
基於識別合成的非平行語音轉換與對抗性學習(2020),Jing-Xuan Zhang等。 [PDF]
改進的Stargan用於情感語音轉換:增強語音質量和數據增強(2021),Xiangheng He等。 [PDF]
Crank:基於矢量定量的變異自動編碼器(2021)的非平行語音轉換的開源軟件,Kazuhiro Kobayashi等。 [PDF]
CVC:非平行語音轉換的對比度學習(2021),Tingle Li等人。 [PDF]
NoiseVC:朝著高質量的零聲音轉換(2021),Shijun Wang等。 [PDF]
關於基於ASR+TTS語音轉換的韻律建模(2021),Wen-Chin Huang等。 [PDF]
Starganv2-VC:一個自然聲音轉換的多樣,無監督,非平行的框架(2021),Yinghao Aaron Li等人。 [PDF]
Shijun Wang等人通過自我監督的韻律代表學習(2021)通過零拍的語音轉換(2021)。 [PDF]
經過修改的短期傅立葉變換(1993)的信號估計,Daniel W. Griffin等。 [PDF]
文本到語音綜合(2009年),Paul Taylor等。 [PDF]
快速的Griffin-Lim算法(2013),Nathanael Perraudin等。 [PDF]
與雙向LSTM的複發神經網絡(2014),Yuchen Fan等人的TTS合成。 [PDF]
邁向端到端參數TTS合成的第一步:生成具有神經註意力的光譜參數(2016),Wenfu Wang等。 [PDF]
Google實時HMM驅動單元選擇合成器(2016),Xavi Gonzalvo等人的最新進展。 [PDF]
Samplernn:無條件的端到端神經音頻產生模型(2016),Soroush Mehri等。 [PDF]
Wavenet:原始音頻的生成模型(2016),Aäronvan den Oord等。 [PDF]
CHAR2WAV:端到端語音合成(2017年),J Sotelo等。 [PDF]
深層聲音:實時神經文本到語音(2017),Sercan O. Arik等。 [PDF]
深聲2:多演講者神經文本到語音(2017),Sercan Arik等。 [PDF]
深語音3:2000揚聲器神經文本到語音(2017),Wei ping等。 [PDF]
通過調節波諾特在MEL頻譜圖預測(2017)中,喬納森·申(Jonathan Shen)等人的天然TT合成。 [PDF]
平行象徵:快速高保真語音綜合(2017),Aaron Van Den Oord等。 [PDF]
在多任務學習框架下使用生成對抗網絡的統計參數語音綜合(2017),S Yang等。 [PDF]
TACOTRON:朝著端到端的語音合成(2017),Yuxuan Wang等。 [PDF]
Yuxuan Wang等人發現表達語音綜合的潛在風格因素(2017)。 [PDF]
Voiceloop:語音擬合和綜合通過語音循環(2017),Yaniv Taigman等。 [PDF]
單簧管:端到端文本到語音中的平行波產生(2018),Wei ping等。 [PDF]
語音合成的深饋順序記憶網絡(2018),Mengxiao Bi等。 [PDF]
LPCNET:通過線性預測改善神經語音綜合(2018),Jean-Marc Valin等。 [PDF]
在端到端語音綜合中學習對風格控制和轉移的潛在表示(2018),Ya-Jie Zhang等。 [PDF]
神經語音與幾個樣本(2018),SercanO.Arık等人。 [PDF]
Daisy Stanton等人在端到端語音綜合中的文本中預測富有表現力的口語風格。 [PDF]
樣式令牌:無監督的樣式建模,端到端語音綜合中的控制和轉移(2018),Y Wang等。 [PDF]
與Tacotron(2018),RJ Skerry-Ryan等人一起朝向端到端的韻律轉移。 [PDF]
榴蓮:多模式合成的持續時間知情注意力網絡(2019),Chengzhu Yu等。 [PDF]
使用多頭卷積神經網絡(2019)的快速譜圖反演,Söarık等。 [PDF]
FastSpeech:Speech的快速,健壯和可控文本(2019),Yi Ren等。 [PDF]
學習用外語說流利:多語言語音綜合和跨語言克隆(2019),Yu Zhang等。 [PDF]
Melnet:頻域中音頻的生成模型(2019),Sean Vasquez等。 [PDF]
多演講者端到端語音綜合(2019年),Jihyun Park等。 [PDF]
梅爾根:有條件波形合成的生成對抗網絡(2019),昆丹·庫馬爾等。 [PDF]
Naihan Li等人的Naihan Li等人的神經語音綜合(2019)。 [PDF]
平行神經文本到語音(2019),Kainan Peng等。 [PDF]
預先訓練的文本表示形式,用於改進普通話文本到語音綜合的前端文本處理(2019),Bing Yang等人[PDF]
平行WaveGAN:基於具有多分辨率光譜圖的生成對抗網絡的快速波形生成模型(2019),Yamamoto等人Ryuichi。 [PDF]它與梅爾根(Melgan)同時出現,而沒有人互相指的是……此外,我認為高斯噪音是不必要的,因為Melspec的信息非常強烈。
Samplernn(2019),David Alvarez等人的多演講者文本到語音的問題無關的語音嵌入。 [PDF]
穩健的序列到序列的聲學建模,具有逐步的神經TTS單調注意力(2019),Mutian He等。 [PDF]
Wei Fang等人從深度訓練的語言模型(2019年)中轉移學習端到端語音綜合的學習。 [PDF]
從說話者驗證到多鍾文本到語音綜合的轉移學習(2019年),Ye Jia等。 [PDF]
WaveFlow:一個基於緊湊的原始音頻模型(2019),Wei ping等。 [PDF]
WaveGlow:基於流量的語音合成網絡(2019),R Prenger等。 [PDF]
Aligntts:沒有明確的對準者(2020),有效的饋送文本到語音系統,Zhen Zeng等人。 [PDF]
Boffin TTS:貝葉斯優化的很少的演講者改編(2020),Henry B.Moss等。 [PDF]
Bunched LPCNet:低成本神經文本到語音系統的Vocoder (2020),Ravichander Vipperla等。 [PDF]
模仿:神經文本到語音的多個細粒度轉移(2020),Sri Karlapati等。 [PDF]
有效的:一種高效且高質量的文本到語音架構(2020),Chenfeng Miao等。 [PDF]
端到端對抗文本到語音(2020),Jeff Donahue等。 [PDF]
FastSpeech 2:Yi Ren等人的快速和高質量的端到端文本(2020)。 [PDF]
Flowtron:一種基於自迴旋流量的生成網絡,用於文本到語音綜合(2020),Rafael Valle等。 [PDF]
Flow-TTS:基於流量的非自動回歸網絡,用於語音的文本(2020),Chenfeng Miao等。 [PDF]
全層次的細粒韻律建模,用於可解釋的語音綜合(2020),廣為Sun等。 [PDF]
Guangzhi Sun等人(2020年),使用量化的細粒度VAE和自動回歸韻律生成多樣的和自然的文本到語音樣本。 [PDF]
Glow-TTS:通過單調對準搜索(2020)的文本到語音的生成流量,Jaehyeon Kim等。 [PDF]
HIFI-GAN:生成的對抗網絡,用於有效和高保真言語綜合(2020),Jungil Kong等。 [PDF]
可靠的長形語音合成的位置相關注意機制(2020),Eric Battenberg等。 [PDF]
多語言:Mingjian Chen等人使用Transformer(2020)到語音的多演講者文本。 [PDF]
平行TACOTRON:非自動迴旋和可控的TT (2020),Isaac Elias等。 [PDF]
Robutrans:一種強大的基於變壓器的文本到語音模型(2020),Naihan Li等人。 [PDF]
雙重註意網絡(2020),Jingyu Li等人的依賴性揚聲器驗證。 [PDF]
WaveGrad:估計波形產生梯度(2020),Nanxin Chen等。 [PDF]
AdaSpeech:Mingjian Chen等人的自適應文本(2021)。 [PDF]
關於神經言語綜合的調查(2021),Xu Tan等。 [PDF]
Ahmed Mustafa等人以非常低的比特率以非常低的比特率(2021)進行寬帶語音編碼。 [PDF]
端到端語音綜合的可控跨言情感轉移(2021),Tao Li等人。 [PDF]
Dongyang Dai等人使用野外數據非常有限的數據克隆聲音。 [PDF]
端到端文本到語音的對抗性學習的條件變異自動編碼器(2021),Jaehyeon Kim等。 [PDF]
Diffwave:AUDIO合成的多功能擴散模型(2021),Zhifeng Kong等。 [PDF]
diff-tts:文本到語音的轉化擴散模型(2021),Myeonghun Jeong等。 [PDF]
Desightfultts:暴雪挑戰2021(2021)的Microsoft語音合成系統,Yanqing Liu等。 [PDF]
Fre-GAN:對抗頻率一致的音頻合成(2021),Ji-hoon Kim等。 [PDF]
全頻段LPCNET:使用CPU(2021)的48 kHz音頻的實時神經聲碼器,Keisuke Matsubara等。 [PDF]
Grad-TTS:文本到語音的擴散概率模型(2021),Vadim Popov等。 [PDF]
Glow-Wavegan:從基於GAN的變異自動編碼器中學習語音表示,基於高保真流的語音合成(2021),Jian Cong等。 [PDF]
Patrick Lumban Tobing等人,基於多頻道Wavernn的高保真和低延遲通用神經聲碼器,具有數據驅動的線性預測(2021)。 [PDF]
非自動回歸語音綜合的分層韻律建模(2021),Chung-Ming Chien等。 [PDF]
itoˆtts和itoˆwave:線性隨機微分方程是您所需的音頻生成所需的(2021),Shoule Wu等。 [PDF]
噴氣機:共同訓練FastSpeech2和Hifi-gan,以端到頭文本到語音(2021),Dan Lim等人。 [PDF]
Meta-voice:使用元學習(2021),Songxiang Liu等人的快速幾彈性風格轉移,用於表達語音克隆( 2021)。 [PDF]
您需要的全部(對於高質量的無注意力TT) (2021),Shivam Mehta等人。 [PDF]
Max Morrison等人使用可控制的LPCNET(2021)進行神經音調轉移和時間拉伸。 [PDF]
Rohan Badlani等人一個TT統治所有的TT對齊(2021)。 [PDF]
Karatuner:在Karaoke(2021)中唱歌的聲音的端到端自然音高校正,小米Zhuang等人。 [PDF]
PNG BERT:Ye Jia等人的Neural TTS上的音素和素數上的增強BERT (2021)。 [PDF]
平行TACOTRON 2:具有可區分持續時間建模的非自動回憶神經TTS模型(2021),Isaac Elias等。 [PDF]
PortAspeech:便攜式和高質量的生成文本到語音(2021),Yi Ren等。 [PDF]
Chunyang Wu等人基於變壓器的聲音綜合的聲學模型(2021)。 [PDF]
Triple M:一種實用的神經文本到語音系統,具有多種引物注意力和多頻段多時間LPCNET (2021),Shilun Lin等人。 [PDF]
TalkNet 2:非自動迴旋深度的可分離性卷積模型,用於具有顯式音高和持續時間預測的語音合成(2021),Stanislav Beliaev等。 [PDF] Talknet2與Talknet有很小的差異,因此我在這裡不包括Talknet。
朝著表達語音綜合的多尺度樣式控制(2021),Xiang li等。 [PDF]
統一源濾波器gan:基於準週期平行波甘(2021)的分解的統一源網絡,Reo Yoneyama等。 [PDF]
Yourtts:朝著每個人的零射擊多演講者TT和零擊語音轉換(2021),Edresson Casanova等。 [PDF]
Avocodo:無偽影的生成對抗網絡(2022),Taejun Bak等。 [PDF]
對抗說話者的對抗者一致性學習使用未轉錄的語音數據進行零擊的多演講者文本到語音(2022),Byoung Jin Choi等人。 [PDF]
束LPCNET2:覆蓋從雲到邊緣的設備(2022)的高效神經聲碼器,Sangjun Park等。 [PDF]
使用非平行性語音轉換與音調數據增強(2022),Ryo Terashima等人,使用非平行語音轉換的低資源文本到語音轉換的跨言情感轉移。 [PDF]
FastDiff:高質量語音合成的快速條件擴散模型(2022),Rongjie Huang等。 [PDF]
快速GRAD-TT:邁向CPU上基於有效擴散的語音產生(2022),Ivan Vovk等。 [[PDF]
Glow-Wavegan 2:高質量的零擊文本到語音綜合和任何對任何語音轉換(2022),Yi Lei等人。 [PDF]
HIFI ++:一個神經輔助,帶寬擴展和語音增強的統一框架(2022),Pavel Andreev等。 [PDF]
IQDUBBING:基於離散的自我監督語音表示表達語音轉換的韻律建模(2022),Wendong Gan等。 [PDF]
ISTFTNET:快速且輕巧的MEL-SPECTROGRAGION VOCODER,結合了短期傅立葉變換(2022),Takuhiro Kaneko等。 [PDF]
輕巧且高保真的端到端文本到語音,具有多波段生成和逆短期傅立葉變換(2022),Masaya Kawamura等。 [PDF]
在淺灘上的神經語音綜合:提高LPCNET的效率(2022),Jean-Marc Valin等。 [PDF]
Nansy ++:與神經分析和合成的統一語音合成(2022),Hyeong-Seok-Seok Choi等。 [PDF]
Priorgrad:Sang-Gil Lee等人(2022)改善了具有數據依賴性自適應先驗的有條件降解模型(2022)。 [PDF]
提示:具有文本描述的可控製文本到語音(2022),Zhifang Guo等。 [PDF]
理智-TT:穩定而自然的端到端多語言文本到語音(2022),Hyunjae Cho等。 [PDF]
STFT結構域神經語音增強具有非常低的算法潛伏期(2022),Zhong-qiu Wang等。 [PDF]
簡單有效的無監督語音綜合(2022),亞歷山大·H·劉等人。 [PDF]
Specgrad:基於自適應噪聲頻譜塑形的基於概率模型的擴散概率模型(2022),Yuma Koizumi等。 [PDF]
Source-Filter Hifi-Gan:快速和俯仰可控的高保真神經聲碼器(2022),Reo Yoneyama等。 [PDF]
Trinitts:無外部對準器的可控制的端到端TT (2022),Yoon-Cheol Ju等。 [PDF]
使用多流式編碼器和有效的揚聲器表示(2022),Yibin Zheng等人的零拍傳輸轉移。 [PDF]
ConstructTT:在離散潛在空間中使用自然語言風格提示(2023),Dongchao Yang等人建模表達TT 。 [PDF]
Matcha-TTS:具有條件流匹配的快速TTS架構(2023),Shivam Mehta等。 [PDF]
Mega-TTS:零擊的文本到語音,具有內在的感應偏見(2023),Ziyue Jiang等。 [PDF]
Mega-TTS 2:帶有任意長度語音提示的零擊文本到語音(2023),Ziyue Jiang等。 [PDF]
基於班級的自然語言模型(1992),Peter F. Brown等。 [PDF]
對語言建模的平滑技術的實證研究(1996),Stanley F. Chen等。 [PDF]
神經概率語言模型(2000),Yoshua Bengio等。 [PDF]
中國拼音輸入的一種新的統計方法(2000),鄭陳等。 [PDF]
判別n-gram語言建模(2007年),布萊恩·羅克(Brian Roark)等。 [PDF]
中國拼音輸入方法引擎的神經網絡語言模型(2015),S Chen等。 [PDF]
自動語音識別的複發性神經網絡語言模型的有效培訓和評估(2016),Xie Chen等。 [PDF]
探索語言建模的極限(2016年),R Jozefowicz等人。 [PDF]
關於神經語言模型的評估藝術狀態(2016),G Melis等人。 [PDF]
輕巧和動態的捲積(2019),Felix Wu等人[PDF]減少關注。
使用Word Lattices估算置信度(1997),T。 Kemp等。 [PDF]
使用單詞後驗概率(2000),G。 Evermann等人的大型詞彙解碼和置信度估算。 [PDF]
Seigel等人將信息源與CRF模型(2011年)相結合,以供置信度估計。 [PDF]
使用深雙向復發性神經網絡(2018),M。 ́a對ASR的置信度指標。 Del-Agua等。 [PDF]
雙向晶格復發性神經網絡供置信度估計(2018),Q。 Li等。 [pdf]
Confidence Estimation for Black Box Automatic Speech Recognition Systems Using Lattice Recurrent Neural Networks (2020), A. Kastanos et al. [pdf]
CONFIDENCE ESTIMATION FOR ATTENTION-BASED SEQUENCE-TO-SEQUENCE MODELS FOR SPEECH RECOGNITION (2020), Qiujia Li et al. [pdf]
Residual Energy-Based Models for End-to-End Speech Recognition (2021), Qiujia Li et al. [pdf]
Multi-Task Learning for End-to-End ASR Word and Utterance Confidence with Deletion Prediction (2021), David Qiu et al. [pdf]
Onsets and Frames: Dual-Objective Piano Transcription (2017), Curtis Hawthorne et al. [pdf]
Unsupervised Singing Voice Conversion (2019), Eliya Nachmani et al. [pdf]
ByteSing- A Chinese Singing Voice Synthesis System Using Duration Allocated Encoder-Decoder Acoustic Models and WaveRNN Vocoders (2020), Yu Gu et al. [pdf]
DurIAN-SC: Duration Informed Attention Network based Singing Voice Conversion System (2020), Liqiang Zhang et al. [pdf]
HiFiSinger: Towards High-Fidelity Neural Singing Voice Synthesis (2020), Jiawei Chen et al. [pdf]
Jukebox: A Generative Model for Music (2020), Prafulla Dhariwal et al. [pdf]
DiffSinger: Singing Voice Synthesis via Shallow Diffusion Mechanism (2021), Jinglin Liu et al. [pdf]
MLP Singer: Towards Rapid Parallel Korean Singing Voice Synthesis (2021), Jaesung Tae et al. [pdf]
Multi-Singer: Fast Multi-Singer Singing Voice Vocoder With A Large-Scale Corpus (2021), Rongjie Huang et al. [pdf]
MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training (2021), Mingliang Zeng et al. [pdf]
N-Singer: A Non-Autoregressive Korean Singing Voice Synthesis System for Pronunciation Enhancement (2021), Gyeong-Hoon Lee et al. [pdf]
Non-Autoregressive TTS with Explicit Duration Modelling for Low-Resource Highly Expressive Speech (2021), Raahil Shah et al. [pdf]
PeriodNet: A non-autoregressive waveform generation model with a structure separating periodic and aperiodic components (2021), Yukiya Hono et al. [pdf]
Sequence-to-Sequence Piano Transcription with Transformers (2021), Curtis Hawthorne et al. [pdf]
M4Singer: a Multi-Style, Multi-Singer and Musical Score Provided Mandarin Singing Corpus (2022), Lichao Zhang et al. [pdf]
Opencpop: A High-Quality Open Source Chinese Popular Song Corpus for Singing Voice Synthesis (2022), Yu Wang et al. [pdf]
WeSinger: Data-augmented Singing Voice Synthesis with Auxiliary Losses (2022), Zewang Zhang et al. [pdf]
WeSinger 2: Fully Parallel Singing Voice Synthesis via Multi-Singer Conditional Adversarial Training (2022), Zewang Zhang et al. [pdf]
The Reversible Residual Network: Backpropagation Without Storing Activations (2017), Aidan N. Gomez et al. [pdf]
Soft-DTW: a Differentiable Loss Function for Time-Series (2018), Marco Cuturi et al. [pdf]
FlowSeq: Non-Autoregressive Conditional Sequence Generation with Generative Flow (2019), Xuezhe Ma et al. [pdf]
Learning Problem-agnostic Speech Representations from Multiple Self-supervised Tasks (2019), Santiago Pascual et al. [pdf]
Self-supervised audio representation learning for mobile devices (2019), Marco Tagliasacchi et al. [pdf]
SinGAN: Learning a Generative Model from a Single Natural Image (2019), Tamar Rott Shaham et al. [pdf]
Audio2Face: Generating Speech/Face Animation from Single Audio with Attention-Based Bidirectional LSTM Networks (2019), Guanzhong Tian et al. [pdf]
Attention is Not Only a Weight: Analyzing Transformers with Vector Norms (2020), Goro Kobayashi et al. [pdf]