BERT-VITS2 Artigo de referência: https://zenn.dev/litagin/articles/b1ddc1da5ea2b3
Este é um webui para Windows que permite aprender modelos de Vits japoneses e permite sintetizar a fala com sotaques. Se você tiver apenas uma síntese de fala, poderá usá -la mesmo sem uma placa gráfica.
? Demoção de síntese de fala
| Síntese de fala | estudar |
|---|---|
![]() | ![]() |
pyopenjtalk_prosody , que tem um símbolo de destaque adicionado. Nesta situação, estou tomando um modelo treinado com G2P em japonês usando pyopenjtalk_prosody e lendo- o por conveniência (uma proposta de Bing-chan).
pyopenjtalk_prosody também lida com símbolos como sotaques, para que você possa usá -los para controlar sotaques (ハ➚シハ➘シ).
| símbolo | papel | exemplo |
|---|---|---|
[ | O sotaque sobe daqui (imagem de ➚) | Olá →コ[ンニチワ |
] | O sotaque cai daqui (imagem de ➘) | Kyoto →キョ]オト |
(Espaço de meia largura) | O corte no poema de sotaque (de alguma forma um único pedaço de bolo) | ソ[レワ ム[ズカシ]イ |
、 | Pose (respirando). Use -o quando quiser fazer uma pose curta. | ハ]イ、ソ[オ オ[モイマ]ス |
? | Vou adicioná -lo ao final da pergunta. | キ[ミワ ダ]レ? |
Isso é algo que permite que você treine, carregue e síntese de fala dos modelos Vits Japros em um ambiente local do Windows.
config.yaml Confirmei que funciona no RTX 4070 no Windows 11 com o Python 3.10.
git clone https://github.com/litagin02/vits-japros-webui.gitsetup.bat por dentro e espere um momento. Quando Setup complete. Aparece, você terminou.webui_train.batpth e depois clique duas vezes webui_infer.batupdate.bat : Clique em dupla cliquePara mais informações e se você não precisar de um webui, clique aqui.
Para os modelos, crie um subdiretório no diretório weights e coloque o arquivo {数字}epoch.pth dentro. Se você estiver usando um modelo externo (compatível apenas com modelos criados com pyopenjtalk_prosody no vits com o ESPNET), inclua também config.yaml ao estudar.
weights
├── model1
│ └── 100epoch.pth
|── model2
│ ├── 50epoch.pth
│ └── config.yaml
...
os.uname e Link simbólico).