最先端の音声合成、テキストツースピーチ(TTS) 、歌声合成(SVS) 、音声変換(VC) 、音声変換(SVC) 、および関連する興味深い作品(音楽統合、自動音楽転写、自動MOS予測、 SSLベースのASRなど)に関する論文とプロジェクトリスト。
PRへようこそ、または電子メール([email protected])で私に連絡して、論文や作品を更新してください。
IEEE/ACM TASLP、IEEE JSTSP、JSLHR、IEEE TPAMI
Neuraps、ICLR、ICML、IJAI、AAAI、ACL、NAACL、EMNLP、ISMIR、ACM MM、ICASSP、speech、ICME
Asru、Slt
[ 2022 ]
Learn2Sing 2.0:Singing Teacherから学ぶことによる拡散と相互情報ベースのターゲットスピーカーSVS | speech interspeech 2022 | ✔✔| code |デモ
ワンショットの歌声変換のための階層スピーカー表現フレームワーク| speech interspeech 2022 |デモ
ハーモニック信号を使用した敵対的な波形生成ベースの歌声変換| ICASSP 2022 |デモ
[ 2021 ]
diffsvc:音声変換を歌うための拡散確率モデル| ASRU 2021 |デモ
アセンブリvc |を介した制御可能で解釈可能な歌声分解Neurips 2021ワークショップ|デモ
音響参照と対照的な予測コーディングによる高忠実な歌声変換に向けて| 2021/10 |デモ
FASTSVC:機能ごとの線形変調による高速クロスドメインの歌声変換| ICME 2021 |デモ
ピッチの増強と二相アプローチを使用した監視されていないWavenetベースの歌声変換| 2021/07 | ✔✔| code |デモ
[ 2020 ]
ゼロショット歌声変換| ISMIR 2020 |デモ
敵対的なトレーニングを介した音声の多くの歌声変換| 2020/12 |デモ|非公式コード
Durian-SC:持続時間に情報に基づいた注意ネットワークベースの歌声変換システム| speech interspeech 2020 |デモ
監視されていないクロスドメインの歌声変換| speech interspeech 2020 |デモ
ピッチネット:ピッチ敵のネットワークを使用した監視なしの歌声変換| ICASSP 2020 |デモ
非平行トレーニングデータで音声変換を歌うためのVaw-Gan | Apsipa 2020 | ✔✔| code |デモ
M4Singer:マルチスタイル、マルチシンガー、音楽のスコアがマンダリンを歌うコーパスを提供しました|ニューリップ2022 | ?適用&ダウンロード|デモ
Nus-48e歌詞corpus | ?適用&ダウンロード
NHSS:スピーチと歌の並列データベース| ?適用&ダウンロード
[ 2022 ]
[ 2021 ]
歌のテクニック分類におけるオーディオ機能抽出のための時間周波数表現の調査| Apsipa 2021
ゼロショット歌唱テクニック変換| CMMR 2021
[ 2022 ]
ノイズの多いターゲットスピーカーの高品質の音声変換のためのノイズ非依存の音声表現| speech interspeech 2022 |デモ
Glow-Wavegan 2:高品質のゼロショットテキストからスピーチへの合成と任意の音声変換| speech interspeech 2022 |デモ
高速最尤サンプリングスキームを使用した拡散ベースの音声変換| ICLR 2022 | ✔✔| code |デモ
yourtts:ゼロショットマルチスピーカーTTSとゼロショット音声変換に向けて| ICML 2022 | ✔✔| code |デモ|デモ|ブログ
自己教師の音声表現ベースの音声変換の比較研究| IEEE JSTSP 2022/07
S3PRL-VC:自己教師の音声表現を備えたオープンソースの音声変換フレームワーク| ICASSP 2022 | ✔唱。code
改善された音声変換のための離散およびソフト音声ユニットの比較| ICASSP 2022 | ✔✔| code |デモ
アセンブリVC:現代の音声合成技術を組み立てることによる現実的な音声変換| ICASSP 2022 | ✔✔| code |デモ
NVC-NET:エンドツーエンドの敵対的な音声変換| ICASSP 2022 | ✔✔| code |デモ
ゼロショット音声変換のための堅牢な解角変異音声表現学習| ICASSP 2022 |デモ
トレーニング堅牢なゼロショット音声変換モデル自己監視機能を備えた| ICASSP 2022 |デモ
劣化に向けて、音声変換を停止します| ICASSP 2022
DGC-Vector:ゼロショット音声変換のための新しいスピーカー埋め込み| ICASSP 2022 |デモ
ロケーション変動畳み込みによるエンドツーエンドのゼロショットボイススタイル転送| 2022/05 |デモ
[ 2021 ]
ASR+TTSベースの音声変換の韻律モデリング| ASRU 2021 |デモ
ニューラル分析と合成:自己教師の表現からの音声の再構築|ニューリップ2021 |デモ|非公式コード
MediumVC:合成特異的スピーカーのスピーチを使用した任意の音声変換施設としての機能| 2021/10 | ✔✔| code |デモ
Starganv2-VC:自然な音声変換のための多様で、監視されていない、非平行なフレームワーク| speech interspeech 2021 Best Paper Award | ✔✔| code |デモ
S2VC:自己監視された前提条件の表現を使用した任意の音声変換のためのフレームワーク| speech interspeech 2021 | ✔✔| code |デモ
多目的音声変換ベースの特徴変分自動エンコーダーを使用した解像度| speech interspeech 2021 | ✔✔| code |デモ
個別の解き込められた自己監視表現からの音声再調和| speech interspeech 2021 |デモ
ゼロショットの音声スタイルの改善は、拡張された表現学習を介して転送されます| ICLR 2021
テキストの転写なしのグローバルなリズムスタイルの転送| ICML 2021 | ✔唱。code
繰り返しますが、アクティベーションガイダンスと適応インスタンスの正規化を使用したワンショット音声変換| ICASSP 2021 | ✔✔| code |デモ
位置に関連するシーケンスからシーケンスモデリングを使用したすべての多くの音声変換| IEEE/ACM TASLP 2021/05 | ✔✔| code |デモ
[ 2020 ]
音声変換とその課題の概要:統計的モデリングから深い学習まで| IEEE/ACM TASLP 2020/11
トリプル情報ボトルネックを介した監視されていない音声分解| ICML 2020 | ✔唱。code
[ 2019 ]
インスタンスの正規化でスピーカーとコンテンツの表現を分離することによるワンショット音声変換| Speech 2019 | ✔唱。code
AUTOVC:自動エンコーダーのみのゼロシェアスタイルの転送| ICML 2019 | ✔✔| code |デモ
CSTR VCTKコーパス:CSTR音声クローニングツールキット用の英語マルチスピーカーコーパス| 2019 | ?適用&ダウンロード
Aishell-3:マルチスピーカーマンダリンTTSコーパスとベースライン| 2020 | ?適用&ダウンロード|デモ
Aishell-2:マンダリンASRの研究を産業規模に変換| 2018 | ?適用&ダウンロード
Aishell-1:オープンソースのマンダリン音声コーパスと音声認識ベースライン| 2017 | ?適用&ダウンロード
[ 2022 ]
表現力豊かな音声変換のための感情的なスタイルとスピーカーのアイデンティティの解体| speech interspeech 2022 |デモ
エンドツーエンドの音声合成のための韻律補償に基づくクロススピーカーの感情移転| speech interspeech 2022 |デモ
感情の強さと感情的な声の変換のためのそのコントロール|感情コンピューティングに関するIEEEトランザクション2022/07 | ✔✔| code |デモ
離散表現と分解された表現を使用したテキストのない音声感情変換| 202202 |デモ
[ 2021 ]
[ 2020 ]
誰かの感情を変換する:スピーカーに依存しない感情的な音声変換に向けて| speech interspeech 2020 | ✔✔| code |デモ
非平行トレーニングデータによる感情的な音声変換のためのスペクトルと韻律の変換| Odyssey 2020 | ✔✔| code |デモ
[ 2022 ]
ムスキット:音声合成を歌うためのエンドツーエンドの音楽処理ツールキット| speech interspeech 2022 | ✔唱。code
Singaug:サイクル一貫性のあるトレーニング戦略を使用した音声合成を歌うためのデータ増強| speech interspeech 2022 | ✔唱。code
WESINGER:補助損失を伴うデータの高さの歌声統合| speech interspeech 2022 |デモ
WESINGER 2:マルチシンガー条件付き敵対トレーニングを介した完全に並行する歌声合成| 2022/08 |デモ
歌の情報処理のトピックにおける深い学習アプローチ| IEEE/ACM TASLP 2022/07
歌の美しさを学ぶ:ニューラル歌声の声の美しさ| ACL 2022 | ✔✔| code |デモ
Diffsinger:浅い拡散メカニズムを介した音声合成を歌う| AAAI 2022 | ✔✔| code |デモ
[ 2021 ]
[ 2020 ]
M4Singer:マルチスタイル、マルチシンガー、音楽のスコアがマンダリンを歌うコーパスを提供しました|ニューリップ2022 | ?適用&ダウンロード|デモ
popcs | AAAI 2022 | ?適用&ダウンロード
OpenCPop:音声合成のための高品質のオープンソース中国の人気曲コーパス| speech interspeech 2022 | ?適用&ダウンロード
[ 2022 ]
Prodiff:高品質のテキストからスピーチのためのプログレッシブファスト拡散モデル| ACM MM 2022 | ✔✔| code |デモ
BDDM:高速および高品質の音声合成のための拡散モデルの両側除去モデル| ICLR 2022 | ✔✔| code |デモ
FastDiff:高品質の音声合成のための高速条件付き拡散モデル| IJCAI 2022 | ✔✔| code |デモ
[ 2022 ]
DDSPベースの歌声ボコーダー:新しい減算ベースのシンセサイザーと包括的な評価| ISMIR 2022 | ✔✔| code |デモ
FastDiff:高品質の音声合成のための高速条件付き拡散モデル| IJCAI 2022 | ✔✔| code |デモ
バイノーラル:バイノーラルオーディオ合成のための2段階の条件拡散確率モデル| 2022/05 |デモ
[ 2021 ]
マルチシンガー:大規模なコーパスを備えた高速マルチシンガーの歌声ボコーダー| ACM MM 2021 | ?適用&ダウンロード| ✔✔| code |デモ
Wavegrad 2:テキスト間合成のための反復改良| speech interspeech 2021 |デモ
diffwave:オーディオ合成のための汎用性の高い拡散モデル| ICLR 2021 | ✔✔| code |デモ
波動グラード:波形生成の勾配の推定| ICLR 2021 |デモ
[ 2020 ]
HIFI-GAN:効率的かつ高忠実度の音声合成のための生成官能ネットワーク|ニューリップ2020 | ✔✔| code |デモ
マルチバンドメルガン:高品質のテキストからスピーチのための波形生成の高速| speech interspeech 2020 |デモ
並列波線:多解像度スペクトログラムを備えた生成敵対的ネットワークに基づく高速波形生成モデル| ICASSP 2020 |デモ|非公式コード
[ 2019 ]
メルガン:条件付き波形合成のための生成敵ネットワーク| Neurips 2019 | ✔✔| code |デモ
堅牢な普遍的な神経渦の達成に向けて| Speech 2019 | ✔✔| code |デモ|非公式コード
[ 2022 ]
スペクトログラム拡散を備えたマルチ楽器合成| ISMIR 2022 | ✔✔| code |デモ
ムジカ!速い無限波形の音楽生成| ISMIR 2022 | ✔✔| code |デモ
[ 2022 ]
[ 2021 ]
[ 2022 ]
Unispeech-Sat:スピーカーを使用した普遍的な音声表現学習事前トレーニング| ICASSP 2022 | ✔✔| code | ✔唱。code
音声認識のための教師なしの事前訓練におけるパフォーマンス効率のトレードオフ| ICASSP 2022 | ✔✔| code | ✔唱。code
大規模な多言語認識のための擬似標識| ICASSP 2022 | ✔✔| code | ✔唱。code
WAVLM:フルスタック音声処理のための大規模な自己監督の事前トレーニング| IEEE JSTSP 2022/06 | ✔✔| code | ✔唱。code
[ 2021 ]
XLS-R:大規模な学習学習学習| 2021/12 | ✔✔| code | ✔唱。code
シンプルで効果的なゼロショット間の音素認識| 2021/09 | ✔✔| code | ✔唱。code
Tera:音声のための変圧器エンコーダー表現の自己監視学習| IEEE/ACM TASLP 2021/08 | ✔唱。code
Unispeech:ラベル付きおよび非標識データを使用した統一された音声表現学習| ICML 2021 | ✔✔| code | ✔✔| code | ✔唱。code
Hubert:隠されたユニットの仮面予測による自己教師の音声表現学習| IEEE/ACM TASLP 2021/06 | ✔✔| code | ✔唱。code
[ 2020 ]
WAV2VEC 2.0:スピーチ表現の自己学習学習のためのフレームワーク|ニューリップ2020 | ✔✔| code | ✔唱。code
VQ-WAV2VEC:個別の音声表現の自己監視学習| ICLR 2020 | ✔✔| code | ✔唱。code
Mockingjay:監視されていない音声表現学習深い双方向トランスエンコーダー| ICASSP 2020 | ✔唱。code
音声認識のための監視されていない言語表現学習| 2020/06 | ✔✔| code | ✔唱。code
FairSeq S2T:FairSeq |を使用した高速音声からテキストモデリングAACL 2020 | ✔✔| code | ✔唱。code
[ 2019 ]
[ 2022 ]
[ 2021 ]
[ 2021 ]
[ 2022 ]
[ 2022 ]
[ 2021 ]
[ 2022 ]
[ 2021 ]
[ 2021 ]
音声変換チャレンジ2020 | ?適用&ダウンロード| ✔唱。code
ブリザードチャレンジ