Audiolm:オーディオ生成に対する言語モデリングアプローチ(2022)、ZalánBorsoset al。 [PDF]
audioldm:潜在的拡散モデルを備えたテキストからオーディオの生成(2023)、haohe liu et al。 [PDF]
Musiclm:TextからMusic (2023)、Andrea Agostinelli et al。 [PDF]
Moûsai:長いコンテキスト潜在拡散を伴うテキストから音楽への世代(2023)、Flavio Schneider et al。 [PDF]
noise2music:拡散モデルを備えたテキストコンディショニング音楽生成(2023)、Qingqing Huang et al。 [PDF]
自動音声認識(1982)、Se Levinson et al。 [PDF]
連続音声認識に対する最尤アプローチ(1983)、Lalit R. Bahl et al。 [PDF]
不均一な音響測定と音声認識のための複数の分類器(1986)、Andrew K. Halberstadt。 [PDF]
音声認識のための隠されたマルコフモデルパラメーターの最大相互情報推定(1986)、Lalit R. Bahi et al。 [PDF]
Hidden Markov ModelsとSpeed Speect Recoldation(1989)の選択されたアプリケーションに関するチュートリアル、Lawrence R Rabiner。 [PDF]
時間遅延ニューラルネットワークを使用した音素認識(1989)、Alexander H. Waibel et al。 [PDF]
Hidden Markov Models(1989)、Kai-Fu Lee et alを使用したスピーカーに依存しない電話認識。 [PDF]
音声認識のための隠されたマルコフモデル(1991)、Bh Juang et al。 [PDF]
TDNNのレビュー(時間遅延ニューラルネットワーク)音声認識のためのアーキテクチャ(2014)、Masahide Sugiyamat et al。 [PDF]
コネクショニストの音声認識:ハイブリッドアプローチ(1994)、Herve Bourlard et al。 [PDF]
単語のエラー率の低下をもたらす後処理システム:認識器出力投票エラー削減(Rover) (1997)、JG Fiscus。 [PDF]
加重有限状態トランスデューサーによる音声認識(2001)、M Mohri et al。 [PDF]
双方向LSTMおよびその他のニューラルネットワークアーキテクチャ(2005)によるフレームワイズの音素分類、Alex Graves et al。 [PDF]
コネクショニストの時間的分類:再発性ニューラルネットワーク(2006)、Alex Graves et al。 [PDF]
The Kaldi Speech Septunition Toolkit (2011)、Daniel Povey et al。 [PDF]
音声認識のためのハイブリッドNN-HMMモデル(2012)、Ossama Abdel-Hamid et al。 [PDF]
大規模な音声音声認識のためのコンテキスト依存の事前訓練を受けた深部ニューラルネットワーク(2012)、ジョージE.ダールら。 [PDF]
音声認識における音響モデリングのための深いニューラルネットワーク(2012)、Geoffrey Hinton et al。 [PDF]
再発性ニューラルネットワークを使用したシーケンス変換(2012)、Alex Graves et al。 [PDF]
LVCSRの深い畳み込みニューラルネットワーク(2013)、Tara N. Sainath et al。 [PDF]
修正線形ユニットとドロップアウト(2013)を使用したLVCSRの深いニューラルネットワークの改善、George E. Dahl et al。 [PDF]
ドロップアウトと多言語DNNトレーニング(2013)を使用した低リソースCD-DNN-HMMの改善、Yajie Miao et al。 [PDF]
LVCSRの深い畳み込みニューラルネットワークの改善(2013)、Tara N. Sainath et al。 [PDF]
音声認識のための機械学習パラダイム:概要(2013)、Li Deng et al。 [PDF]
Microsoft(2013)での音声研究の深い学習における最近の進歩、Li Deng et al。 [PDF]
深い再発性ニューラルネットワークによる音声認識(2013)、Alex Graves et al。 [PDF]
電話認定のための畳み込み深いマックスアウトネットワーク(2014)、LászlóTóthet al。 [PDF]
音声認識のための畳み込みニューラルネットワーク(2014)、Ossama Abdel-Hamid et al。 [PDF]
畳み込みニューラルネットワークベースの電話認識における時間と周波数ドメインの畳み込みの組み合わせ(2014)、LászlóTóth。 [PDF]
ディープスピーチ:エンドツーエンドの音声認識のスケール(2014)、Awni Y. Hannun et al。 [PDF]
注意ベースの再発NNを使用したエンドツーエンドの連続音声認識:First Results (2014)、Jan Chorowski et al。 [PDF]
双方向の再発DNNS(2014)、アンドリューL.マース等を使用したファーストパスの大規模な語彙連続音声認識。 [PDF]
大規模な音響モデリングのための長期記憶再発性ニューラルネットワークアーキテクチャ(2014)、Hasim Sak et al。 [PDF]
Gabor Filter Kernels (2014)、Shuo-Yiin Chang et al。 [PDF]
低リソースの音声認識のための確率的プーリングマックスアウトネットワーク(2014)、Meng Cai et al。 [PDF]
Recurrent Neural Networks(2014)によるエンドツーエンドの音声認識に向けて、Alex Graves et al。 [PDF]
Neural Transducer (2015)、N Jaitly et al。 [PDF]
音声認識のための注意ベースのモデル(2015)、Jan Chorowski et al。 [PDF]
入力として生の発話を使用したCNNベースの音声認識システムの分析(2015)、Dimitri Palaz et al。 [PDF]
畳み込み、長期記憶、完全に接続された深いニューラルネットワーク(2015)、Tara N. Sainath et al。 [PDF]
低リソース言語での音響モデリングのための深い畳み込みニューラルネットワーク(2015)、William Chan et al。 [PDF]
シングルチャネルマルチトーカー音声認識のための深いニューラルネットワーク(2015)、Chao Weng et al。 [PDF]
Eesen:ディープRNNモデルとWFSTベースのデコード(2015)を使用したエンドツーエンドの音声認識、Y Miao et al。 [PDF]
音声認識のための高速かつ正確な再発性ニューラルネットワーク音響モデル(2015)、Hasim Sak et al。 [PDF]
Neural Networksによるレキシコンフリーの会話音声認識(2015)、Andrew L. Maas et al。 [PDF]
コネクショニストの時間的分類を伴う再発性ニューラルネットワークのオンラインシーケンストレーニング(2015)、Kyuyeon Hwang et al。 [PDF]
すべての神経音声認識の進歩(2016)、Geoffrey Zweig et al。 [PDF]
LVCSRの非常に深い畳み込みニューラルネットワークの進歩(2016)、Tom Sercu et al。 [PDF]
エンドツーエンドの注意ベースの大型語彙音声認識(2016)、Dzmitry Bahdanau et al。 [PDF]
層ごとのコンテキストの拡大と注意を伴う深い畳み込みニューラルネットワーク(2016)、ドンユら。 [PDF]
ディープスピーチ2:英語とマンダリン(2016)のエンドツーエンドの音声認識、Dario Amodei et al。 [PDF]
Highway LSTM(2016)、Hassan Taherianによるエンドツーエンドの注意ベースの遠い音声認識。 [PDF]
マルチタスク学習(2016)、Suyoun Kim et al。 [PDF]
聞いて、出席し、呪文:大規模な語彙会話の音声認識のためのニューラルネットワーク(2016)、William Chan et al。 [PDF]
潜在シーケンス分解(2016)、William Chan et al。 [PDF]
LSTMとLVCSRタスクの畳み込みアーキテクチャを使用した時間周波数パターンのモデリング(2016)、Tara N. Sainath et al。 [PDF]
マルチミクロファン距離音声認識における聴覚注意のための再発モデル(2016)、Suyoun Kim et al。 [PDF]
エンドツーエンドの音声認識のための分節再発ニューラルネットワーク(2016)、Liang Lu et al。 [PDF]
シーケンスモデル(2016)にシーケンスにおけるより良いデコードと言語モデルの統合に向けて、Jan Chorowski et al。 [PDF]
騒音堅牢な音声認識のための非常に深い畳み込みニューラルネットワーク(2016)、Yanmin Qian et al。 [PDF]
エンドツーエンドの音声認識のための非常に深い畳み込みネットワーク(2016)、Yu Zhang et al。 [PDF]
LVCSRのための非常に深い多言語畳み込みニューラルネットワーク(2016)、Tom Sercu et al。 [PDF]
WAV2LETTER:エンドツーエンドのコンベネットベースの音声認識システム(2016)、Ronan Collobert et al。 [PDF]
丁寧な畳み込みニューラルネットワークベースの音声感情認識:入力機能、信号の長さ、および行動された音声(2017)の影響に関する研究、Michael Neumann et al。 [PDF]
アラビア語の強化された自動音声認識システム(2017)、Mohamed Amine Menacer et al。 [PDF]
ディープCNNエンコーダとRNN-LM (2017)、Takaaki Hori et al。 [PDF]
遠い音声認識のための深いニューラルネットワークのネットワーク(2017)、Mirco Ravanelli et al。 [PDF]
騒々しい音声認識のためのオンラインシーケンスからシーケンスモデル(2017)、Chung-Cheng Chiu et al。 [PDF]
音声認識システム用のSOMおよびIベクター(2017)に基づく監視されていないスピーカークラスタリング手法、Hany Ahmed et al。 [PDF]
マンダリン(2017)の注意ベースのエンドツーエンドの音声認識、C Shan et al。 [PDF]
大規模な語彙認識のためのDNN音響モデルの構築(2017)、Andrew L. Maas et al。 [PDF]
英語の会話音声認識の直接音響モデル(2017)、Kartik Audhkhasi et al。 [PDF]
環境的に堅牢な音声認識のための深い学習:最近の開発の概要(2017)、Zixing Zhang et al。 [PDF]
英語の会話電話と機械による音声認識(2017)、George Saon et al。 [PDF]
ESE:FPGA(2017)にまばらなLSTMを備えた効率的な音声認識エンジン、Song Han et al。 [PDF]
堅牢な音声認識のための生成的敵対的ネットワークによる音声強化の調査(2017)、Chris Donahue et al。 [PDF]
大きな語彙連続音声認識のための深いLSTM (2017)、Xu Tian et al。 [PDF]
音声認識における適応神経音響モデリングの動的層の正規化(2017)、Taesup Kim et al。 [PDF]
GRAM-CTC:シーケンス標識の自動ユニットの選択とターゲット分解(2017)、hairong liu et al。 [PDF]
オンラインニューラルトランスデューサーモデルのパフォーマンスの向上(2017)、Tara N. Sainath et al。 [PDF]
電話認定のための生のスピーチからのフィルターバンクの学習(2017)、Neil Zeghidour et al。 [PDF]
マルチチャネルエンドツーエンドの音声認識(2017)、Tsubasa ochiai et al。 [PDF]
音声認識のためのCTCおよびセグメントCRFによるマルチタスク学習(2017)、Liang Lu et al。 [PDF]
自動音声認識のための深いニューラルネットワークを使用したマルチチャネル信号処理(2017)、Tara N. Sainath et al。 [PDF]
単一のエンドツーエンドモデル(2017)を使用した多言語認識、Shubham Toshniwal et al。 [PDF]
音声認識のためのサンプリング(2017)、Matt Shannonを介して予想される単語エラー率を最適化します。 [PDF]
自動音声認識のための残留畳み込みCTCネットワーク(2017)、Yisen Wang et al。 [PDF]
残留LSTM:遠い音声認識のための深い再発アーキテクチャの設計(2017)、Jaeyoung Kim et al。 [PDF]
マルチミクロン距離音声認識(2017)における聴覚注意のための再発モデル、Suyoun Kim et al。 [PDF]
生産音声モデルのバイアスの削減(2017)、Eric Battenberg et al。 [PDF]
生成的敵対ネットワーク(2017)を使用した堅牢な音声認識、Anuroop Sriram et al。 [PDF]
シーケンスからシーケンスモデル(2017)を使用した最先端の音声認識、Chung-Cheng Chiu et al。 [PDF]
言語系統のエンドツーエンドの音声認識(2017)に向けて、Suyoun Kim et al。 [PDF]
加速再発性ニューラルネットワーク言語モデルベースのオンライン音声認識システム(2018)、K Lee et al。 [PDF]
音声認識のためのハイブリッドCTCアテンションモデルの改善(2018)、Zhe Yuan et al。 [PDF]
サブワード単位を使用したハイブリッドCTC-アテンションベースのエンドツーエンドの音声認識(2018)、Zhangyu Xiao et al。 [PDF]
Specaugment:自動音声認識のための単純なデータ増強法(2019)、Daniel S. Park et al。 [PDF]
VQ-WAV2VEC:個別の音声表現の自己監視学習(2019)、Alexei Baevski et al。 [PDF]
音声認識のための自己監視前のトレーニングの有効性(2020)、Alexei Baevski et al。 [PDF]
自動音声認識のための騒々しい学生トレーニングの改善(2020)、ダニエルS.パーク、他[PDF]
ContextNet:グローバルコンテキスト(2020)、Wei Han、et al。 [PDF]
コンフォーマー:音声認識のための畳み込み熟成トランス(2020)、Anmol Gulati、et al。 [PDF]
大規模な音声認識のための一般的なエンドツーエンドモデルの比較(2020)、Jinyu Li et al。 [PDF]
オーディオ不変表現のための拡張対照的な自己監視学習(2021)、Melikasadat Emami et al。 [PDF]
パッチアウトを使用したオーディオトランスの効率的なトレーニング(2021)、Khaled Koutini et al。 [PDF]
MixSpeech:低リソースのためのデータ増強自動音声認識(2021)、Linghui Meng et al。 [PDF]
トランスベースのエンドツーエンドの自動音声認識のためのマルチエンコーダー学習とストリーム融合(2021)、Timo Lohrenz et al。 [PDF]
Specaugment ++:音響シーン分類のための隠れた空間データ増強法(2021)、Helin Wang et al。 [PDF]
SpecMix:時間周波数ドメイン機能(2021)を使用したトレーニングのための混合サンプルデータ増強法(2021)、Gwantae Kim et al。 [PDF]
2030年(2021年)までの音声認識の歴史、Awni Hannun et al。 [PDF]
音声変換は、非常に低リソース設定(2021)、Matthew Baas et al。 [PDF]
なぜCTCはピーキーな動作をもたらすのですか? (2021)、Albert Zeyer et al。 [PDF]
E2Eセグメントター:長型ASRのジョイントセグメント化とデコード(2022)、W。RonnyHuang et al。 [PDF]
生成フローによる音楽ソース分離(2022)、Ge Zhu et al。 [PDF]
解き放つスピーカー(2022)、Kaizhi Qian et al。 [PDF]
大規模な弱い監督(2022)、Alec Radford et al。 [PDF]
スピーチツーテキストおよび大規模な言語モデル統合のためのデコーダーのみのアーキテクチャ(2023)、Jian Wu et al。 [PDF]
アダプトされたガウス混合モデル(2000)を使用したスピーカー検証、ダグラスA.Reynolds et al。 [PDF]
テキストに依存しないスピーカー検証に関するチュートリアル(2004)、FrédéricBimbotet al。 [PDF]
小さなフットプリントのテキスト依存スピーカー検証(2014)のための深いニューラルネットワーク、E Variani et al。 [PDF]
セミテキストに依存しないスピーカー検証(2015)のディープスピーカーベクター、Lantian Li et al。 [PDF]
ディープスピーカー:エンドツーエンドのニューラルスピーカー埋め込みシステム(2017)、Chao Li et al。 [PDF]
テキストに依存しないスピーカー検証のための深いスピーカー機能学習(2017)、Lantian Li et al。 [PDF]
ディープスピーカーの検証:終わりから終わりが必要ですか? (2017)、Dong Wang et al。 [PDF]
LSTM(2017)によるスピーカーダイアリゼーション、Quan Wang et al。 [PDF]
3D畳み込みニューラルネットワークを使用したテキストに依存しないスピーカー検証(2017)、Amirsina Torfi et al。 [PDF]
短い発言でのトリプレット損失によるエンドツーエンドのテキストに依存しないスピーカー検証(2017)、Chunlei Zhang et al。 [PDF]
テキストに依存しないスピーカー検証のための深いニューラルネットワーク埋め込み(2017)、David Snyder et al。 [PDF]
堅牢なスピーカー検証のための深い識別埋め込み(2018)、Na Li et al。 [PDF]
スピーカーの識別と検証のための識別機能の学習(2018)、Sarthak Yadav et al。 [PDF]
スピーカー検証のための大きなマージンソフトマックス損失(2019)、Yi Liu et al。 [PDF]
スピーカー検証のための監視されていない機能強化(2019)、Phani Sankar Nidadavolu et al。 [PDF]
スピーカー検証のための深い特徴損失を伴う機能強化(2019)、Saurabh Kataria et al。 [PDF]
スピーカー検証の一般化END2END損失(2019)、Li Wan et al。 [PDF]
テキストに依存しないスピーカー検証のための凸の長さの正規化を伴う空間ピラミッドエンコード(2019)、Youngmoon Jung et al。 [PDF]
VoxSRC 2019:最初のVoxcelebスピーカー認識チャレンジ(2019)、Son Chung et al。 [PDF]
しかし、Voxcelebスピーカー認識チャレンジ2019 (2019)、Hossein Zeinali et al。 [PDF]
短期間のスピーカー検証課題のID R&Dシステムの説明課題2021 (2021)、Alenin et al。 [PDF]
深い双方向の長期記憶ベースの再発性ニューラルネットワーク(2015)を使用した音声変換、Lifa Sun et al。 [PDF]
並列データトレーニングなしでの多目的な音声変換(2016)、Lifa Sun et al。 [PDF]
Stargan-VC:星生成敵のネットワークとの非平行な多くの音声変換(2018)、Hirokazu Kameoka et al。 [PDF]
AUTOVC:自動エンコーダーのみのゼロの音声スタイル転送(2019)、Kaizhi Qian et al。 [PDF]
Stargan-VC2:Starganベースの音声変換の条件付き方法の再考(2019)、Takuhiro Kaneko et al。 [PDF]
音声変換のための個別の言語単位の教師なしエンドツーエンド学習(2019)、アンディT. Liu et al。 [PDF]
ワンショット音声変換のための注意ベースのスピーカーの埋め込み(2020)、石原tatsuma et al。 [PDF]
条件付きオートエンコーダー(2020)、Kaizhi Qian et al。 [PDF]
認識合成ベースの非平行音声変換と敵対的学習(2020)、Jing-Xuan Zhang et al。 [PDF]
感情的な音声変換のための改善されたスターガン:音声品質とデータ増強(2021)、Xiangheng He et al。 [PDF]
クランク:ベクトルQuantized変異オートエンコーダー(2021)に基づく非平行音声変換のためのオープンソースソフトウェア、Kazuhiro kobayashi et al。 [PDF]
CVC:非平行音声変換の対照学習(2021)、Tingle Li et al。 [PDF]
NoiseVC:高品質のゼロショット音声変換(2021)に向けて、Shijun Wang et al。 [PDF]
ASR+TTSベースの音声変換の韻律モデリング(2021)、Wen-chin Huang et al。 [PDF]
StarGanv2-VC:自然な音声変換のための多様で監視されていない、非平行なフレームワーク(2021)、Yinghao Aaron Li et al。 [PDF]
自己監視された韻律表現学習(2021)、Shijun Wang et al。 [PDF]
修正された短時間のフーリエ変換(1993)からの信号推定、ダニエルW.グリフィンら。 [PDF]
Text-to-Speech Synthesis (2009)、Paul Taylor et al。 [PDF]
速いグリフィン・リム・アルゴリズム(2013)、ナタナエル・ペルラウディン等。 [PDF]
双方向LSTMベースの再発性ニューラルネットワーク(2014)、Yuchen Fan et al。 [PDF]
エンドツーエンドのパラメトリックTTS合成に向けた最初のステップ:神経注意を払ったスペクトルパラメーターの生成(2016)、Wenfu Wang et al。 [PDF]
GoogleリアルタイムのHMM駆動型ユニットセレクションシンセサイザー(2016)の最近の進歩、Xavi Gonzalvo et al。 [PDF]
Samplernn:無条件のエンドツーエンドニューラルオーディオ生成モデル(2016)、Soroush Mehri et al。 [PDF]
Wavenet:Raw Audio(2016)の生成モデル、AäronVanDen Oord et al。 [PDF]
char2wav:エンドツーエンドの音声合成(2017)、J Sotelo et al。 [PDF]
ディープボイス:リアルタイムのニューラルテキスト - スピーチ(2017)、Sercan O. Arik et al。 [PDF]
Deep Voice 2:Multi-Speaker Neural Text-to-Speech (2017)、Sercan Arik et al。 [PDF]
Deep Voice 3:2000スピーカーニューラルテキストツースピーチ(2017)、Wei Ping et al。 [PDF]
MEL Spectrogram Predictions (2017)、Jonathan Shen et al。 [PDF]
平行波線:高速高忠実度の音声合成(2017)、アーロン・ヴァン・デン・ウード等。 [PDF]
マルチタスク学習フレームワーク(2017)、S Yang et al。 [PDF]
タコトロン:エンドツーエンドの音声合成(2017)に向けて、Yuxuan Wang et al。 [PDF]
表現力豊かな音声合成のための潜在的なスタイルの要因を明らかにする(2017)、Yuxuan Wang et al。 [PDF]
Voiceloop:音声継手と音声ループ(2017)、Yaniv Taigman et al。 [PDF]
クラリネット:エンドツーエンドのテキストからスピーチの並列波の生成(2018)、Wei Ping et al。 [PDF]
音声合成のためのディープフィードフォワードシーケンシャルメモリネットワーク(2018)、Mengxiao Bi et al。 [PDF]
LPCNET:線形予測(2018)、Jean-Marc Valin et al。 [PDF]
エンドツーエンドの音声合成におけるスタイルコントロールと転送の潜在表現の学習(2018)、Ya-Jie Zhang et al。 [PDF]
いくつかのサンプル(2018)でクローニングするニューラル音声、Sercan O.Arıketal。 [PDF]
エンドツーエンドの音声合成におけるテキストからの表現型スピーキングスタイルの予測(2018)、Daisy Stanton et al。 [PDF]
スタイルトークン:エンドツーエンドの音声合成(2018)、Y Wang et al。 [PDF]
Tacotron (2018)、RJ Skerry-Ryan et al。 [PDF]
Durian:Multimodal Synthesis (2019)、Chengzhu Yu et al。 [PDF]
マルチヘッド畳み込みニューラルネットワークを使用した高速スペクトログラム反転(2019)、Söarıketal。 [PDF]
FastSpeech:高速で堅牢で制御可能なテキストからスピーチ(2019)、Yi Ren et al。 [PDF]
外国語で流fluentに話すことを学ぶ:多言語の音声統合と言語的な音声Cloning (2019)、Yu Zhang et al。 [PDF]
Melnet:周波数ドメイン(2019)のオーディオの生成モデル、Sean Vasquez et al。 [PDF]
マルチスピーカーエンドツーエンドの音声合成(2019)、Jihyun Park et al。 [PDF]
メルガン:条件付き波形合成のための生成敵ネットワーク(2019)、Kundan Kumar et al。 [PDF]
トランスネットワークによるニューラル音声合成(2019)、Naihan Li et al。 [PDF]
並列ニューラルテキスト - スピーチ(2019)、Kainan Peng et al。 [PDF]
マンダリンのテキストからスピーチへの合成(2019)、Bing Yang et al。[PDF]でのフロントエンドテキスト処理を改善するための事前に訓練されたテキスト表現
並列波線:多解像度スペクトログラム(2019)を備えた生成敵のネットワークに基づく高速波形生成モデル、山本龍子等[PDF]メルガンと同じ時期に出てきますが、誰もお互いを参照していません...さらに、メルスペックには非常に強力な情報があるため、ガウスノイズは不要だと思います。
Multi-Speaker Text-to-Speech with Samplernn (2019)、David Alvarez et al。 [PDF]
神経TTS (2019)、Mutian He et al。 [PDF]
ディーププリトレーニング言語モデル(2019)からのエンドツーエンドの音声合成の転送学習に向けて、Wei Fang et al。 [PDF]
スピーカーの検証からマルチスピーカーのテキストからスピーチへの合成(2019)への転送、Ye Jia et al。 [PDF]
Waveflow:Raw Audioのコンパクトフローベースのモデル(2019)、Wei Ping et al。 [PDF]
Waveglow:音声合成のためのフローベースの生成ネットワーク(2019)、R Prenger et al。 [PDF]
Aligntts:明示的なAlignmen (2020)、Zhen Zeng et al。 [PDF]
Boffin TTS:Bayesian Optimization (2020)、Henry B.Moss et al。 [PDF]
バンチングされたLPCNET:低コストの神経テキストからスピーチへのボコーダー(2020)、Ravichander Vipperla et al。 [PDF]
模倣:神経テキストからスピーチへの多目的な細粒の韻律移動(2020)、Sri Karlapati et al。 [PDF]
EfficientTts:効率的で高品質のテキストからスピーチへのアーキテクチャ(2020)、Chenfeng Miao et al。 [PDF]
エンドツーエンドの敵対的なテキスト(2020)、ジェフドナヒュー等。 [PDF]
FastSpeech 2:高速および高品質のエンドツーエンドテキストからスピーチ(2020)、Yi Ren et al。 [PDF]
Flowtron:テキストからスピーチ合成のための自己脱流フローベースの生成ネットワーク(2020)、Rafael Valle et al。 [PDF]
Flow-TTS:Flow (2020)、Chenfeng Miao et al。 [PDF]
解釈可能な音声統合のための完全階層微粒子モデリング(2020)、広州Sun et al。 [PDF]
量子化された細粒のvaeおよび自己回帰韻律事前(2020)を使用して、多様で自然なテキストからスピーチへのサンプルを生成する、広州Sun et al。 [PDF]
Glow-TTS:単調なアライメント検索(2020)、ジェヒヨンキム等によるテキスト間の生成フロー。 [PDF]
HIFI-GAN:効率的で高忠実度の音声合成のための生成敵ネットワーク(2020)、Jungil Kong et al。 [PDF]
堅牢な長型音声Synthesi(2020)、Eric Battenberg et al。の位置関連注意メカニズム。 [PDF]
マルチスピーチ:トランス(2020)を使用したマルチスピーカーテキストからスピーチ、Mingjian Chen et al。 [PDF]
パラレルタコトロン:非自動節約的で制御可能なTTS (2020)、Isaac Elias et al。 [PDF]
Robutrans:堅牢なトランスベースのテキストからスピーチモデル(2020)、Naihan Li et al。 [PDF]
デュアル注意ネットワーク(2020)を使用したテキストに依存しないスピーカー検証、Jingyu Li et al。 [PDF]
波グラました:波形生成の推定勾配(2020)、Nanxin Chen et al。 [PDF]
Adaspeech:カスタム音声のためのスピーチへの適応テキスト(2021)、Mingjian Chen et al。 [PDF]
神経音声合成に関する調査(2021)、Xu Tan et al。 [PDF]
非常に低いビットレート(2021)でのワイドバンド音声コーディングのためのストリームワイズガンボコーダー、アーメドマスタファら。 [PDF]
エンドツーエンドの音声合成のための制御可能なクロススピーカー感情転送(2021)、Tao Li et al。 [PDF]
野生(2021)で非常に限られたデータを使用して自分の声をクローニングします。 [PDF]
エンドツーエンドのテキストからスピーチ(2021)の敵対的学習を伴う条件付き変動自動エンコーダー、ジェヒョンキムら。 [PDF]
diffwave:オーディオ合成のための汎用性の高い拡散モデル(2021)、Zhifeng Kong et al。 [PDF]
diff-tts:テキストからスピーチの拡散モデル(2021)、myeonghun jeong et al。 [PDF]
DelightFultts:Blizzard Challenge 2021(2021)のMicrosoft Speech Synthesis System 、Yanqing Liu et al。 [PDF]
Fre-Gan:敵対的な周波数整合性オーディオ合成(2021)、Ji-Hoon Kim et al。 [PDF]
フルバンドLPCNET:CPU(2021)を備えた48 kHzオーディオ用のリアルタイムニューラルボコーダー、松村ke。 [PDF]
Grad-TTS:テキストからスピーチの拡散確率モデル(2021)、Vadim Popov et al。 [PDF]
Glow-Wavegan:高忠実度の流れベースの音声合成(2021)のためのGanベースの変異オートエンコーダーからの音声表現の学習、Jian Cong et al。 [PDF]
離散波形モデリングのデータ駆動型線形予測(2021)、パトリックlumban Tobing et al。 [PDF]
非自動網性音声合成のための階層韻律モデリング(2021)、Chung-Ming Chien et al。 [PDF]
itoˆttsおよびitoˆwave:線形確率的微分方程式は、オーディオ生成に必要なすべてです(2021)、shoule wu et al。 [PDF]
ジェット:エンドツーエンドテキストからスピーチ(2021)、ダンリムらのために、fastspeech2とHifi-ganを共同でトレーニングします。 [PDF]
Meta-Voice:Meta Learning (2021)、Songxiang Liu et al。 [PDF]
ニューラルHMMは(高品質の注意を払わないTTSの場合) (2021)、Shivam Mehta et al。 [PDF]
制御可能なLPCNET (2021)、Max Morrison et al。 [PDF]
それらをすべて支配するための1つのTTSアライメント(2021)、Rohan Badlani et al。 [PDF]
Karatuner:カラオケ(2021)の歌声のための端から端までの自然ピッチ補正に向けて、Xiaobin Zhuang et al。 [PDF]
PNG BERT:神経TTSの音素とグラフェメムの補強bert (2021)、ye jia et al。 [PDF]
平行タコトロン2:微分可能な持続時間モデリング(2021)を備えた非自動網膜TTSモデル、Isaac Elias et al。 [PDF]
Portaspeech:ポータブルで高品質の生成テキストからスピーチ(2021)、Yi Ren et al。 [PDF]
ストリーミング音声合成のためのトランスベースの音響モデリング(2021)、Chunyang Wu et al。 [PDF]
トリプルM:マルチガイダンスの注意とマルチバンドマルチタイムLPCNET(2021)を備えた実用的なニューラルテキストからスピーチシステムシステム、Shilun Lin et al。 [PDF]
TalkNet 2:明示的なピッチと持続時間予測(2021)を備えた音声合成のための非自動網性深さの分離可能な畳み込みモデル、Stanislav Beliaev et al。 [PDF] TalkNet2にはTalkNetとはわずかな違いがあるため、ここにTalkNetを含めません。
表現力豊かな音声合成のためのマルチスケールスタイルコントロール(2021)に向けて、Xiang Li et al。 [PDF]
統合されたソースフィルターGAN:準周期並列波動ガン(2021)の因数分解に基づく統一ソースフィルターネットワーク、Reo Yoneyama et al。 [PDF]
yourtts:ゼロショットマルチスピーカーTTSとゼロショット音声変換に向けて(2021)、エドレスソンカサノバ等[PDF]
Avocodo:アーティファクトフリーボコーダーの生成敵ネットワーク(2022)、Taejun Bak et al。 [PDF]
ゼロショットマルチスピーカーのテキストからスピーチ(2022)、Byoung Jin Choi et al。 [PDF]
束縛されたLPCNET2:クラウドからエッジへのデバイスをカバーする効率的なニューラルボコーダー(2022)、Sangjun Park et al。 [PDF]
ピッチシフトデータ増強を使用した非平行な音声変換(2022)、Ryo Terashima et al。 [PDF]
FastDiff:高品質の音声合成のための高速条件付き拡散モデル(2022)、Rongjie Huang et al。 [PDF]
高速卒業生:CPU(2022)の効率的な拡散ベースの音声生成に向けて、Ivan Vovk et al。 [[PDF]
Glow-Wavegan 2:高品質のゼロショットテキストからスピーチへの合成と任意の音声変換(2022)、Yi Lei et al。 [PDF]
HIFI ++:神経ボコード、帯域幅の拡張および音声強化のための統一されたフレームワーク(2022)、Pavel Andreev et al。 [PDF]
IQDubbing:表現力豊かな音声変換のための個別の自己監視音声表現に基づく韻律モデリング(2022)、Wendong Gan et al。 [PDF]
ISTFTNET:逆の短時間のフーリエ変換(2022)を組み込んだ高速および軽量のメルスペクトルグラムボコーダー、高野金属等[PDF]
マルチバンド生成と逆短時間のフーリエ変換(2022)、川村等を伴う軽量で高忠実なエンドツーエンドのテキストからスピーチ。 [PDF]
シューストリングに関するニューラル音声合成:LPCNET(2022)の効率の向上、Jean-Marc Valin et al。 [PDF]
Nansy ++:神経分析と合成による統一音声合成(2022)、Hyeong-Seok Choi et al。 [PDF]
事前格付け:データ依存性適応事前(2022)、Sang-Gil Lee et al。 [PDF]
PROMPTTS:テキスト説明(2022)を使用した制御可能なテキストからスピーチ、Zhifang Guo et al。 [PDF]
SANE-TTS:安定した自然なエンドツーエンドの多言語テキストからスピーチ(2022)、ヒョンジェチョ等。 [PDF]
非常に低いアルゴリズム潜時(2022)、Zhong-Qiu Wang et al。 [PDF]
シンプルで効果的な監視されていない音声統合(2022)、アレクサンダーH. Liu et al。 [PDF]
特定:適応ノイズスペクトル型(2022)を備えた拡散確率モデルベースのニューラルボコーダー、ユマコイズミら。 [PDF]
ソースフィルターHifi-Gan:高速およびピッチ制御可能な高忠実度ニューラルボコーダー(2022)、Reo Yoneyama et al。 [PDF]
Trinitts:外部アライナーのないピッチ制御可能なエンドツーエンドTTS (2022)、Yoon-Cheol Ju et al。 [PDF]
マルチストリームエンコーダーと効率的なスピーカー表現を使用したゼロショット横断転送(2022)、Yibin Zheng et al。 [PDF]
Instructtts:自然言語スタイルのプロンプト(2023)、Dongchao Yang et al。 [PDF]
抹茶TTS:条件付きフローマッチング(2023)を備えた高速TTSアーキテクチャ、Shivam Mehta et al。 [PDF]
Mega-TTS:本質的な帰納的バイアス(2023)、Ziyue Jiang et al。 [PDF]
Mega-TTS 2:任意の長さの音声プロンプト(2023)を使用したゼロショットテキストからスピーチ、Ziyue Jiang et al。 [PDF]
自然言語のクラスベースのN-GRAMモデル(1992)、Peter F. Brown et al。 [PDF]
言語モデリングのための平滑化技術の実証研究(1996)、スタンリーF.チェンら。 [PDF]
神経確率論的言語モデル(2000)、Yoshua Bengio et al。 [PDF]
中国のピニイン入力に対する新しい統計的アプローチ(2000)、Zheng Chen et al。 [PDF]
識別N-GRAM言語モデリング(2007)、ブライアンロアーク等。 [PDF]
中国のピニイン入力法エンジンのニューラルネットワーク言語モデル(2015)、S Chen et al。 [PDF]
自動音声認識のための再発性ニューラルネットワーク言語モデルの効率的なトレーニングと評価(2016)、Xie Chen et al。 [PDF]
Exploring the limits of language modeling (2016), R Jozefowicz et al. [pdf]
On the State of the Art of Evaluation in Neural Language Models (2016), G Melis et al. [pdf]
Pay Less Attention with Lightweight and Dynamic Convolutions (2019), Felix Wu et al.[pdf]
Estimating Confidence using Word Lattices (1997), T. Kemp et al. [pdf]
Large vocabulary decoding and confidence estimation using word posterior probabilities (2000), G. Evermann et al. [pdf]
Combining Information Sources for Confidence Estimation with CRF Models (2011), MS Seigel et al. [pdf]
Speaker-Adapted Confidence Measures for ASR using Deep Bidirectional Recurrent Neural Networks (2018), M. ́A. Del-Agua et al. [pdf]
Bi-Directional Lattice Recurrent Neural Networks for Confidence Estimation (2018), Q. Li et al. [pdf]
Confidence Estimation for Black Box Automatic Speech Recognition Systems Using Lattice Recurrent Neural Networks (2020), A. Kastanos et al. [pdf]
CONFIDENCE ESTIMATION FOR ATTENTION-BASED SEQUENCE-TO-SEQUENCE MODELS FOR SPEECH RECOGNITION (2020), Qiujia Li et al. [pdf]
Residual Energy-Based Models for End-to-End Speech Recognition (2021), Qiujia Li et al. [pdf]
Multi-Task Learning for End-to-End ASR Word and Utterance Confidence with Deletion Prediction (2021), David Qiu et al. [pdf]
Onsets and Frames: Dual-Objective Piano Transcription (2017), Curtis Hawthorne et al. [pdf]
Unsupervised Singing Voice Conversion (2019), Eliya Nachmani et al. [pdf]
ByteSing- A Chinese Singing Voice Synthesis System Using Duration Allocated Encoder-Decoder Acoustic Models and WaveRNN Vocoders (2020), Yu Gu et al. [pdf]
DurIAN-SC: Duration Informed Attention Network based Singing Voice Conversion System (2020), Liqiang Zhang et al. [pdf]
HiFiSinger: Towards High-Fidelity Neural Singing Voice Synthesis (2020), Jiawei Chen et al. [pdf]
Jukebox: A Generative Model for Music (2020), Prafulla Dhariwal et al. [pdf]
DiffSinger: Singing Voice Synthesis via Shallow Diffusion Mechanism (2021), Jinglin Liu et al. [pdf]
MLP Singer: Towards Rapid Parallel Korean Singing Voice Synthesis (2021), Jaesung Tae et al. [pdf]
Multi-Singer: Fast Multi-Singer Singing Voice Vocoder With A Large-Scale Corpus (2021), Rongjie Huang et al. [pdf]
MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training (2021), Mingliang Zeng et al. [pdf]
N-Singer: A Non-Autoregressive Korean Singing Voice Synthesis System for Pronunciation Enhancement (2021), Gyeong-Hoon Lee et al. [pdf]
Non-Autoregressive TTS with Explicit Duration Modelling for Low-Resource Highly Expressive Speech (2021), Raahil Shah et al. [pdf]
PeriodNet: A non-autoregressive waveform generation model with a structure separating periodic and aperiodic components (2021), Yukiya Hono et al. [pdf]
Sequence-to-Sequence Piano Transcription with Transformers (2021), Curtis Hawthorne et al. [pdf]
M4Singer: a Multi-Style, Multi-Singer and Musical Score Provided Mandarin Singing Corpus (2022), Lichao Zhang et al. [pdf]
Opencpop: A High-Quality Open Source Chinese Popular Song Corpus for Singing Voice Synthesis (2022), Yu Wang et al. [pdf]
WeSinger: Data-augmented Singing Voice Synthesis with Auxiliary Losses (2022), Zewang Zhang et al. [pdf]
WeSinger 2: Fully Parallel Singing Voice Synthesis via Multi-Singer Conditional Adversarial Training (2022), Zewang Zhang et al. [pdf]
The Reversible Residual Network: Backpropagation Without Storing Activations (2017), Aidan N. Gomez et al. [pdf]
Soft-DTW: a Differentiable Loss Function for Time-Series (2018), Marco Cuturi et al. [pdf]
FlowSeq: Non-Autoregressive Conditional Sequence Generation with Generative Flow (2019), Xuezhe Ma et al. [pdf]
Learning Problem-agnostic Speech Representations from Multiple Self-supervised Tasks (2019), Santiago Pascual et al. [pdf]
Self-supervised audio representation learning for mobile devices (2019), Marco Tagliasacchi et al. [pdf]
SinGAN: Learning a Generative Model from a Single Natural Image (2019), Tamar Rott Shaham et al. [pdf]
Audio2Face: Generating Speech/Face Animation from Single Audio with Attention-Based Bidirectional LSTM Networks (2019), Guanzhong Tian et al. [pdf]
Attention is Not Only a Weight: Analyzing Transformers with Vector Norms (2020), Goro Kobayashi et al. [pdf]