Nota: Este complemento y la documentación aún están en construcción. ¡Tus contribuciones son bienvenidas!
Recuerde que ForwardTacotron es un modelo de síntesis de voz en Pytorch que utiliza un predictor de duración para alinear el texto y generar espectrogramas MEL. El modelo tiene ventajas, como robustez, velocidad, manipulación de tono y energía, y eficiencia.
Por lo tanto, este complemento es un intento de implementar soporte para ForwardTacotron en el lector de pantalla de código abierto de NVDA a través del cliente/servidor, porque las bibliotecas utilizadas como antorcha no son posibles incluir directamente en NVDA.
Este es un trabajo en progreso y, por lo tanto, todavía hay mucho que hacer.
Mientras tanto, puedes escuchar el progreso que se ha hecho hasta ahora.
| Idioma | Voz | Muestra |
|---|---|---|
| Inglés | LJSPEECH (con griffinlim vocoder) | |
| Inglés | LJSPEECH (con Hifi-Gan Vocoder) | |
| Español | ALD DataSet (con Hifi-Gan Vocoder) | |
| Español | Odal (con Hifi-Gan Vocoder, Modelo Universal) |