Sprachklonen -App
Eine Python/Pytorch -App für die einfache Synthese menschlicher Stimmen

Dokumentation
Discord Server
Videoführer
Voice Sharing Hub
FAQs
Systemanforderungen
- Windows 10 oder Ubuntu 20.04+ Betriebssystem
- 5 GB+ Festplattenraum
- NVIDIA GPU mit mindestens 4 GB Speicher- und Treiberversion 456.38+ (optional)
Schlüsselmerkmale
- Automatische Datensatzgenerierung (mit Unterstützung für Untertitel und Hörbücher)
- Zusätzliche Sprachunterstützung
- Lokal- und Fernausbildung
- Einfacher Zugstart/Stopp
- Datenimport/Exportieren
- Multi -GPU -Unterstützung
Handbuch
- Installation
- Erstellen des Datensatzes
- Ausbildung
- Synthese
- Änderungen vornehmen
Zukünftige Verbesserungen
- Fügen Sie Unterstützung für TalkNet hinzu
- Fügen Sie GTA-Ausrichtung für Hifi -gan hinzu
- Verbesserte Schätzung der Chargengröße
- AMD GPU -Unterstützung
Andere Ressourcen
- Remote -Trainingsnotizbuch
- Probieren Sie vorhandene Stimmen bei Uberduck.ai und Vocodes aus
- YouTube -Daten abrufen (erstellt von diskr33t#5880)
- Synthese in Colab (erstellt von Mega B#6696)
- Generieren Sie die YouTube -Transkription (erstellt von Mega B#6696)
- Wit.ai Transkription
Anerkennung
Dieses Projekt verwendet eine überarbeitete Version von Tacotron2. Alle Rechte an Nvidia gehören und folgen den Anforderungen ihrer BSD-3-Lizenz.
Darüber hinaus verwendet das Projekt Dsalign, Silero, Deepspeech & Hifi -gan.
Vielen Dank an Dr. John Bustard an der Queen's University Belfast für seine Unterstützung während des gesamten Projekts.
Unterstützt von Uberduck.ai, wenden Sie sich an sie für das Hosting für Live -Model.
Auch ein großer Dank an die Mitglieder der Vocalsynthese subreddit für ihr Feedback.
Vielen Dank an alle, die Probleme aufwerfen und zum Projekt beitragen.