speaker_adapted_tts Download - speaker_adapted

speaker_adapted_tts

AI-Quellcode

1.0.0

Herunterladen

Erstellen eines TTS -Modells mit 1 Minute Sprachproben innerhalb von 10 Minuten

Als viele Menschen meine Implementierung von Tacotron und DCTTs gesehen haben, haben ich gefragt: "Wie großes Sprachdatensatz für neuronale TTs benötigt wird?" oder "Können Sie ein TTS -Modell mit X -Stunde/Minute (en) von Trainingsdaten erstellen?" Ich bin mir der Bedeutung dieser Fragen voll bewusst. Wenn Sie einen Dienst mit TTS planen, ist es wahrscheinlich nicht immer viele Sprachmuster. Ich möchte eine Antwort geben. Ich mache es wirklich. Aber leider habe ich keine Antwort. Das einzige, was ich weiß, ist, dass ich ein Modell mit fünf Stunden Sprachproben, die ich aus Kate Winslets Hörbuch extrahiert habe, erfolgreich trainieren kann. Ich habe nicht weniger Daten ausprobiert. Ich könnte es versuchen, aber ich habe eigentlich eine bessere Idee. Da ich für mehrere Tage ein anständiges Modell mit dem LJ -Sprachdatensatz trainiert habe, warum benutze ich es nicht? Schließlich haben wir alle verschiedene Stimmen, aber die Art und Weise, wie wir Englisch sprechen, ist nicht völlig anders.

In den beiden oben genannten Repos habe ich TTS -Modelle mit allen Sprachproben meiner beiden Lieblingsstars, Nick Offerman und Kate Winslet, von Grund auf geschult. Diesmal benutze ich nur eine Minute der Sprachproben. Im Folgenden finden Sie die synthetisierten Proben nach 10 Minuten Feinabstimmung. Glaubst du, sie klingen wie sie?

Überprüfen Sie Nick -Proben
Überprüfen Sie Kate -Proben

Darüber hinaus habe ich 10 Sprachproben moderner Familienberühungen von YouTube gesammelt und ihre Stimme generiert, die sie auf diesen Stichproben trainieren.