ForwardTacotron NVDA Download - ForwardTacotron NVDA Quellcode Download

ForwardTacotron NVDA

AI-Quellcode

1.0.0

Herunterladen

Vorwärtstacotron und Hifi -gan-Unterstützung für den NVDA-Bildschirmleser

Hinweis: Dieses Add-On sowie die Dokumentation befinden sich noch im Bau. Ihre Beiträge sind willkommen!

Einführung

Denken Sie daran, dass Forwardtacotron ein Sprachsynthesemodell in Pytorch ist, das einen Dauer -Prädiktor verwendet, um Text auszurichten und MEL -Spektrogramme zu erzeugen. Das Modell hat Vorteile wie Robustheit, Geschwindigkeit, Tonhöhe und Energiemanipulation und Effizienz.

Dieses Plugin ist also ein Versuch, die Unterstützung für ForwardTacotron im Open Source -Bildschirmleser von NVDA über Client/Server zu implementieren, da die als Torch verwendeten Bibliotheken nicht in NVDA direkt aufgenommen werden können.

Dies ist eine laufende Arbeit und daher gibt es noch viel zu tun.

In der Zwischenzeit können Sie auf die bisherigen Fortschritte anhören.

Audio -Samples

Sprache	Stimme	Probe
Englisch	Ljspeech (mit Griffinlim Vocoder)
Englisch	Ljspeech (mit Hifi-Gan-Vokoder)
Spanisch	ALD-Datensatz (mit Hifi-Gan-Vokoder)
Spanisch	ODAL (mit Hifi-Gan-Vokoder, Universalmodell)

zu tun:

Eine Möglichkeit, den Server in das Add-On zu kompilieren und zu integrieren.
- Wenn dies geschieht, lassen Sie den Server beim Laden des Synthesizer sich öffnen. Sobald der Server geladen wird, können wir die Überprüfung anrufen, um den Sprachsynthesizer für die Verwendung bereitzustellen.
- Für das Add-On können zwei Versionen mit CPU-Unterstützung und einer mit GPU-Unterstützung gemacht werden, da die Synthese anscheinend in Echtzeit auf einer GPU erzeugt wird. In der Zwischenzeit stellen wir möglicherweise Verlangsamungen in der CPU fest.
Unterstützung für Sprach- und Energieveränderungen in den Synth -Ringoptionen.
Im Moment verwendet das Add-On HTTPLIB2, um mit dem Server zu kommunizieren, aber ich könnte nach anderen Methoden suchen und bei Bedarf einen Teil des Servers neu schreiben.
Fügen Sie Unterstützung für das Laden verschiedener Stimmen hinzu, die in einem Ordner "Voice_Models" erkannt werden könnten.
- Damit könnte eine Unterstützung für das Herunterladen geschulter Modelle hinzugefügt werden. Wir haben ein ljspeech -Modell auf Englisch, ein weiteres auf Deutsch und zwei auf Spanisch.
Für neuere Modelle mit mehreren Lautsprechern kann die Einstellungen zum Überprüfen gelesen werden. In diesem Fall können Sie die Stimme aus den Synthesizer-Ringoptionen auswählen, wobei zunächst die Lautsprechernamen auf dem Modell konsultieren.

Expandieren

Zusätzliche Informationen