Descarga ForwardTacotron NVDA - Descargar el código fuente ForwardTacotron NVDA

ForwardTacotron NVDA

Código Fuente de IA

1.0.0

Descargar

Soporte de ReenseTacotron y Hifi-Gan para el lector de pantalla NVDA

Nota: Este complemento y la documentación aún están en construcción. ¡Tus contribuciones son bienvenidas!

introducción

Recuerde que ForwardTacotron es un modelo de síntesis de voz en Pytorch que utiliza un predictor de duración para alinear el texto y generar espectrogramas MEL. El modelo tiene ventajas, como robustez, velocidad, manipulación de tono y energía, y eficiencia.

Por lo tanto, este complemento es un intento de implementar soporte para ForwardTacotron en el lector de pantalla de código abierto de NVDA a través del cliente/servidor, porque las bibliotecas utilizadas como antorcha no son posibles incluir directamente en NVDA.

Este es un trabajo en progreso y, por lo tanto, todavía hay mucho que hacer.

Mientras tanto, puedes escuchar el progreso que se ha hecho hasta ahora.

muestras de audio

Idioma	Voz	Muestra
Inglés	LJSPEECH (con griffinlim vocoder)
Inglés	LJSPEECH (con Hifi-Gan Vocoder)
Español	ALD DataSet (con Hifi-Gan Vocoder)
Español	Odal (con Hifi-Gan Vocoder, Modelo Universal)

hacer:

Una forma de compilar e integrar el servidor al complemento.
- Cuando esto sucede, permita que el servidor se abra cuando se cargue el sintetizador. Una vez que se carga el servidor, podemos llamar a la verificación para que el sintetizador de voz listo para su uso.
- Se podrían hacer dos versiones para el complemento, con soporte de CPU y una con soporte de GPU, ya que aparentemente la síntesis se genera en tiempo real en una GPU. Mientras tanto, podemos notar desaceleraciones en la CPU.
Soporte de cambio de voz y energía en las opciones de anillo de sintetizador.
En este momento, el complemento usa HTTPLIB2 para comunicarse con el servidor, pero podría buscar otros métodos y, si es necesario, reescribir una parte del servidor.
Agregue soporte para cargar diferentes voces que podrían detectarse dentro de una carpeta "Voice_Models".
- Con esto, se podría agregar un soporte para descargar modelos capacitados. Tenemos un modelo de LJSpeech en inglés, otro en alemán y dos en español.
Para los modelos más nuevos de múltiples altavoces, puede leer la configuración para verificar, y de ser así, puede elegir la voz de las opciones de anillo de sintetizador con primero consultar los nombres de los altavoces en el modelo.

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-08-23
tamaño 2.43MB
Proviene de Github

Aplicaciones relacionadas

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub the via/releases

2024-11-01

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo