すべてのスピーチについて
このリポジトリは、スピーチを理解する目的で、論文、学習資料、コードを開催します。ここには、マシン/ディープラーニング用の別のリポジトリがあります。
dosへ:
- 星を整理します
- より多くの論文を追加します
- 読むべき論文:
- Speech = T:TTSおよびそれ以降のトランスデューサー
TTS
ASR
音声分類、検出、フィルターなど。
- HTS-AT:サウンド分類と検出のための階層トークンセマンチオオーディオトランス
- Google AIのVoiceFilter System [[Paper]] [Code]
- 自己注意メカニズムとマルチタスク学習を使用したエンドツーエンドの音声感情認識の改善(Interspeech 2019)[[Paper]] [Code]
- Tranformerベースの自己監視機能Fusionによるマルチモーダル感情認識[[Paper]] [Code]
- WAV2VEC 2.0埋め込みを使用した音声からの感情認識(Speech 2021)[[Paper]] [Code]
- WAV2VEC 2.0の探索音声感情認識を改善するための微調整[[Paper]] [Code]
- オーディオ分類のためのCNNモデルの再考[[Paper]] [コード]
- sincnetを使用したEEGベースの感情認識[[Paper]] [コード]
スピーカーの検証
- スピーカーの検証のためのクロス丁寧なプーリング(IEEE SLT 2021)[[Paper]] [Code]
言語学
データセット
- vggsound:大規模なオーディオビジュアルデータセット[[Paper]] [Code]
- CSS10:10 langaugesの単一スピーカー音声データセットのコレクション[コード]
- IEMOCAP:10人の男性と女性の俳優がいる12時間の視聴覚データ[Webサイト]
- voxceleb [repo]
データ増強
- Audiomentations(Pytorchでの高速オーディオデータ増強)[コード]
アライナー
- モントリオールはアライナーを強制しました
データ(プレ)処理 /増強
- Wiktionary Ko-Pron Luaモジュール[コード]に基づく韓国の発音とローマ化
- オーディオ信号処理[コード]
- 音韻的特徴(紙「0ショットの多言語統合のための音韻特徴」)[[Paper]] [Code]
- smart-g2p(韓国語の文で英語と漢字の表現を韓国の発音に変更する)[コード]
- 「マンダリン」のためのカカオグラフェムから音素変換パッケージ[コード]
- webaverseスピーチツール[コード]
検証
- MCD [レポ]
- コードは機能しますが、それが正しいかどうかはわかりません。 MCDの数字は、同様のオーディオのペアでも少し高すぎます。
役立つ他の研究
- 画像合成からテキスト
- audiomae(聴くマスクされた自動エンコーダー)[コード]
組織
- deepmind [repo]
- Openai [レポ]
- クラブハウス:weeklyarxivtalk [repo]
参照するその他のリポジトリ - スピーチが含まれている/関連しています
- スピーチ研究者リスト[レポ]
- ジャクソン・カン[レポ]
- Rosinality'sML [repo]
- ivallespの[レポ]
- ddlbojackのスピーチ事前トレーニング[repo]
- Fuzhenxinのテキストでのスタイル転送[レポ]
学習資料
- デジタル信号処理講義[リンク]
- Ratsgo's Speechbook [リンク]
- 音声処理のYSDAコース[コード]
- NHNフォワードYouTubeビデオ[リンク]