Als viele Menschen meine Implementierung von Tacotron und DCTTs gesehen haben, haben ich gefragt: "Wie großes Sprachdatensatz für neuronale TTs benötigt wird?" oder "Können Sie ein TTS -Modell mit X -Stunde/Minute (en) von Trainingsdaten erstellen?" Ich bin mir der Bedeutung dieser Fragen voll bewusst. Wenn Sie einen Dienst mit TTS planen, ist es wahrscheinlich nicht immer viele Sprachmuster. Ich möchte eine Antwort geben. Ich mache es wirklich. Aber leider habe ich keine Antwort. Das einzige, was ich weiß, ist, dass ich ein Modell mit fünf Stunden Sprachproben, die ich aus Kate Winslets Hörbuch extrahiert habe, erfolgreich trainieren kann. Ich habe nicht weniger Daten ausprobiert. Ich könnte es versuchen, aber ich habe eigentlich eine bessere Idee. Da ich für mehrere Tage ein anständiges Modell mit dem LJ -Sprachdatensatz trainiert habe, warum benutze ich es nicht? Schließlich haben wir alle verschiedene Stimmen, aber die Art und Weise, wie wir Englisch sprechen, ist nicht völlig anders.
In den beiden oben genannten Repos habe ich TTS -Modelle mit allen Sprachproben meiner beiden Lieblingsstars, Nick Offerman und Kate Winslet, von Grund auf geschult. Diesmal benutze ich nur eine Minute der Sprachproben. Im Folgenden finden Sie die synthetisierten Proben nach 10 Minuten Feinabstimmung. Glaubst du, sie klingen wie sie?
Darüber hinaus habe ich 10 Sprachproben moderner Familienberühungen von YouTube gesammelt und ihre Stimme generiert, die sie auf diesen Stichproben trainieren.
Sehen Sie sich hier an, um die Modelldetails, den Quellcode und das vorgezogene Modell zu sehen, das als Samen diente.