VITに関連するリポジトリのリスト
著者は機械学習について何も理解しておらず、このテキストには多くのエラーが含まれている可能性があります。コードが公開されている場合、githubリンクを添付するものとします。ここにリストされていないより多くの素晴らしいリポジトリがあると確信しています。申し訳ありませんが、時間がありませんでした。
オリジナル
- jaywalnut310/vits:vits:エンドツーエンドのテキストからスピーチのための敵対的な学習を備えた条件付き変動自動エンコーダー
修正
softvc
VITSのTextEncoder HuBERTのContentEncoderに置き換えると、音素シーケンスを入力する必要性がなくなります(つまり、言語依存を排除します)。 HuBERT SoftVCの一部です。
- innnky/so-vits-svc:基于vits
- QuickVC/QuickVc-VoiceConversion:QuickVC:逆の短時間フーリエ変換を使用した任意の多くの音声変換
- cjangcjengh/moegoe:vits推論の実行可能ファイル(softvc/w2v2)
- PlayVoice/VI-SVC:PPG&HUBERTに基づくVITS Singing Voice Conversion
- Francis-Komizu/Sovits:ソフトVCとVITの組み合わせの実装は非推奨
- vtuber-plan/vcvits:vitsに基づく非平行音声変換
ISTFT(逆短時間のフーリエ変換)
パフォーマンスは、マルチバンド生成と逆短時間のフーリエ変換により、ボトルネックであるデコーダーを改善することにより改善されます。
- QuickVC/QuickVc-VoiceConversion:QuickVC:逆の短時間フーリエ変換を使用した任意の多くの音声変換
- マサヤカワムラ/MB-ISTFT-VITS:マルチバンド生成と逆短時間のフーリエ変換を備えた軽量で高忠実度のエンドツーエンドのテキストからスピーチ
- HCY71O/MB-ISTFT-VITS-with-autovocoder:MB-Istft-vitsにオートボコーダーを組み込む
- [2206.00208] Adavits:低いコンピューティングリソーススピーカーの適応のための小さなvits
その他の改善
- innnky/vispeech:基于vits fastspeech2 visinger的tts模型
- codejin/vits_diffusion
- HCY71O/SC-VITS:VITSベースのゼロショットTTSシステムは、多様なスタイル/スピーカーコンディショニング方法によって異なります。
- innnky/emotional-vits:无需情感标注的情感可控语音合成模型、基于vits
- Olawod/FreeVC:FreeVC:高品質のテキストフリーのワンショット音声変換に向けて
- edresson/yourtts:yourtts:ゼロショットマルチスピーカーTTSに向けて、ゼロショット音声変換は、以前に発生したゼロショット音声変換のためのゼロショット音声変換です。
他の言語
- Francis-Komizu/Vits:ACGテキストからスピーチ
- Francis-Komizu/Vitsバイリンガル:中国と日本のバイリンガルのテキストへの語り方
- HCY71O/SC-VITS:VITSベースのゼロショットTTSシステムは、多様なスタイル/スピーカーコンディショニング方法によって異なります。
- 腐った作品/vits-mandarin-windows:マンダリンのvits。 WindowsとLinux、ローエンド、ハイエンドのハードウェアをサポートします
- Alexandajerry/Vits-Mandarin-Biaobei:マンダリンTTSへのVITSの適用
- cjangcjengh/vits:日本、中国語、韓国語、サンスクリット語、タイの実装
- ISLETENNOS/MMVC_TRAINER:aiを使ったリアルタイムボイスチェンジャー(トレーナー)
- [2211.09365]自動韻律注釈に基づいた低リソースモンゴル音声統合
- 時代のvits
リファクタリング
リファクタリングには時間がかかるため、最新のテクノロジーは常にこれらのリポジトリで採用されるとは限りません。ただし、これらは使いやすくする必要があります。
- coqui-ai/tts:? - 研究と制作でバトルテストされたテキスト対スピーチのための深い学習ツールキット
- ESPNET/ESPNET:エンドツーエンドの音声処理ツールキット
その他
GUIおよび事前に訓練されたモデル
- cjangcjengh/moegoe_gui:moegoeのgui
- Francis-Komizu/Stellavoicechanger:ローカル推論をサポートする深い学習ベースの音声チェンジャー。
- Luoyily /Moetts:Tacotron2、Hifigan、Vits、Diff-SVCに基づくGalgame文字の音声合成モデル /推論GUIレポ
- thekog/gal-voice-bot
LLMとの統合
- paraworks/vits_with_chatgpt-gpt3
- MINAMI-YUDURU/-CHATGPT_VITS:一个使用OPENAI接口链接VITS模型的语音对话系统GUI
記事、素晴らしいリスト、ニュース
- VoiceConversionLab(@voiceConversion) / Twitter
- ZZW922CN/AWESOMES-SPEECHEECH-認識スピーチ - シンセシスペーパー:自動音声認識(ASR)、スピーカー検証、音声統合、テキストツースピック(TTS)、言語モデリング、歌声合成(SVS)、音声変換(VC)
- 検索| arxiv e-printリポジトリ
- 検索| arxiv e-printリポジトリ
- 「Vits」 - Google検索
- 検索・vits
- 【機械学習】vits&読み上げ器を作った話 -qiita
- 2021年6月に発表された最新の音声合成手法「vits」でアニメ風合成音声を作ってみた【つくよみちゃんコーパス】