vits japros webui
1.0.0
Bert-VITS2の参考記事:https://zenn.dev/litagin/articles/b1ddc1da5ea2b3
日本語VITSモデルを学習でき、アクセント指定込みで音声合成できる、Windows用WebUIです。音声合成のみならグラボがなくても使えます。
? 音声合成のデモ
| 音声合成 | 学習 |
|---|---|
![]() |
![]() |
pyopenjtalk_prosodyがある。という状況で、日本語でg2pをpyopenjtalk_prosodyにして訓練したモデルのことを、JApanese ..._PROSodyから取ってJaProsと便宜上読んでいます(Bingちゃんからの提案)。
pyopenjtalk_prosodyではアクセント等の記号も扱われているので、それを使ってアクセント(ハ➚シ v.s. ハ➘シ等)が制御できます。
| 記号 | 役割 | 例 |
|---|---|---|
[ |
ここからアクセントが上昇(➚のイメージ) | こんにちは → コ[ンニチワ |
] |
ここからアクセントが下降(➘のイメージ) | 京都 → キョ]オト |
(半角スペース) |
アクセント句(何となくひとまとまりの箇所)の切れ目 | ソ[レワ ム[ズカシ]イ |
、 |
ポーズ(息継ぎ)。短いポーズを入れたいときに使います。 | ハ]イ、ソ[オ オ[モイマ]ス |
? |
疑問文の終わりにつけます。 | キ[ミワ ダ]レ? |
これは、Windowsローカル環境でVITS JaProsモデルを学習したり、読み込んで音声合成できるやつです。
config.yamlと一緒に入れれば動くはずPython 3.10でWindows 11でRTX 4070で動作確認しました。
git clone https://github.com/litagin02/vits-japros-webui.gitsetup.bat をダブルクリックして、しばらく待ってください。Setup complete.と表示されたら完了です。webui_train.batをダブルクリックpthファイルを配置してからwebui_infer.batをダブルクリックupdate.batをダブルクリック詳しい情報・WebUIがいらない方はこちらをご覧ください。
モデルはweightsディレクトリにサブディレクトリを作って、その中に{数字}epoch.pthファイルを入れてください。
外部モデル(ESPnetでVITSでpyopenjtalk_prosodyで作ったモデルのみ対応)を使う場合は、学習時のconfig.yamlも入れてください。
weights
├── model1
│ └── 100epoch.pth
|── model2
│ ├── 50epoch.pth
│ └── config.yaml
...
os.unameの使用箇所とシンボリックリンク作成箇所のみです)。