Bert-VITS2 Artículo de referencia: https://zenn.dev/litagin/articles/b1ddc1da5ea2b3
Esta es una webui para Windows que le permite aprender modelos VITs japoneses y le permite sintetizar el habla con acentos. Si solo tiene una síntesis del habla, puede usarla incluso sin una tarjeta gráfica.
? Demostración de síntesis del habla
| Síntesis del habla | estudiar |
|---|---|
![]() | ![]() |
pyopenjtalk_prosody , que tiene un símbolo de acento agregado. En esta situación, estoy tomando un modelo entrenado con G2P en japonés usando pyopenjtalk_prosody y leerlo por conveniencia (una propuesta de Bing-chan).
PyopenJTalk_Prosody también maneja símbolos como acentos, por lo que puede usarlos para controlar los acentos (ハ➚シハ➘シ).
| símbolo | role | ejemplo |
|---|---|---|
[ | El acento aumenta desde aquí (imagen de ➚) | Hola →コ[ンニチワ |
] | El acento cae de aquí (imagen de ➘) | Kioto →キョ]オト |
(Espacio medio ancho) | El poema de acento (de alguna manera un solo pastel) | ソ[レワ ム[ズカシ]イ |
、 | Pose (respirando). Úselo cuando desee hacer una pose corta. | ハ]イ、ソ[オ オ[モイマ]ス |
? | Lo agregaré al final de la pregunta. | キ[ミワ ダ]レ? |
Esto es algo que le permite entrenar, cargar y la síntesis de voz de los modelos Vits Japros en un entorno local de Windows.
config.yaml He confirmado que funciona en RTX 4070 en Windows 11 con Python 3.10.
git clone https://github.com/litagin02/vits-japros-webui.gitsetup.bat Bat adentro y espere un momento. Cuando Setup complete. Aparece, has terminado.webui_train.batpth y luego hacer doble clic webui_infer.batupdate.batPara obtener más información y si no necesita una webui, haga clic aquí.
Para los modelos, cree un subdirectorio en el directorio weights y coloque el archivo {数字}epoch.pth adentro. Si está utilizando un modelo externo (solo compatible con modelos creados con pyopenjtalk_prosody en VITS con ESPNET), también incluya config.yaml al estudiar.
weights
├── model1
│ └── 100epoch.pth
|── model2
│ ├── 50epoch.pth
│ └── config.yaml
...
os.uname y simbólicos).