素晴らしいtts-samples
著者が提供するオーディオサンプルを使用したTTS論文のリスト。各ペーパーの最後の行は、使用されているスペクトログラムの反転(ボコーダー)を示しています。
重要なTTS論文のより包括的なリストについては、Zhengxi Liuが書いたXcmyz/Speech-Synthesis-Paperを読むことをお勧めします。
2020
- FastPitch-FastPitch:ピッチ予測を備えた並列テキストからスピーチ
- https://fastpitch.github.io/
- 波動
- Eats-エンドツーエンドの敵対的なテキストからスピーチ
- https://deepmind.com/research/publications/end-to-end-adversarial-text-to-speech
- エンドツーエンドモデル
- glow-tts-glow-tts:単調なアライメント検索を介したテキストからスピーチの生成フロー
- https://jaywalnut310.github.io/glow-tts-demo
- 波動
- Flowtron-flowtron:テキスト間合成のための自己回帰フローベースの生成ネットワーク
- https://nv-adlr.github.io/flowtron
- 波動
2019年
- Tacotron2+DCA-堅牢な長型音声合成のための位置関連の注意メカニズム
- https://google.github.io/tacotron/publications/location_relative_attention
- ワバーン
- GAN -TTS-敵対的なネットワークを備えた高忠実度の音声合成
- https://storage.googleapis.com/deepmind-media/research/abstract.wav
- エンドツーエンドモデル(200Hzの言語およびログピッチ機能の上に構築されています)
- 多言語Tacotron2-外国語で流fluentに話すことを学ぶ:多言語の統合と言語の音声クローニング
- https://google.github.io/tacotron/publications/multilingual
- ワバーン
- メルネット - メルネット:周波数ドメインのオーディオの生成モデル
- https://audio-samples.github.io
- https://sjvasquez.github.io/blog/melnet
- 勾配ベースのスペクトログラムの反転
- fastspeech -fastspeech:高速で、堅牢で、制御可能なテキストから音声
- https://speechresearch.github.io/fastspeech
- 波動
- パラネット - 並列ニューラルのテキストからスピーチ
- https://parallel-neural-tts-demo.github.io
- 波状、クラリネット、波線
2018年
- トランスTTS-トランスネットワークを使用した神経音声合成
- https://neuraltts.github.io/transformertts
- Wavenet
- マルチスピーカーTacotron2-スピーカーの検証からマルチスピーカーのテキストへのスピーチ合成への転送学習
- https://google.github.io/tacotron/publications/speaker_adaptation
- Wavenet
- Tacotron2+GST-Style Tokens:エンドツーエンドの音声合成における監視されていないスタイルモデリング、制御、転送
- https://google.github.io/tacotron/publications/global_style_tokens
- グリフィン・リム
2017年
- Tacotron2-メルスペクトログラムの予測で波線を条件付けることによる天然TTS合成
- https://google.github.io/tacotron/publications/tacotron2
- Wavenet
- タコトロン - タコトロン:エンドツーエンドの音声合成に向けて
- https://google.github.io/tacotron/publications/tacotron
- グリフィン・リム
貢献
トト