Multi Tacotron Voice Cloning Download - Multi Tacotron Voice Cloning Quellcode Download

Multi Tacotron Voice Cloning

AI-Quellcode

1.0.0

Herunterladen

Multi-Tacotron-Sprachklonen

Dieses Repository ist eine phonemische mehrsprachige (russisch-englische) Implementierung, die auf Echtzeit-Voice-Kloning basiert. Ist ein vierstufiges Deep Learning-Framework, mit dem aus einigen Sekunden Audio eine numerische Darstellung einer Stimme erstellen kann, und um ein Text-zu-Sprach-Modell zu stimmen. Wenn Sie die englische Version benötigen, verwenden Sie bitte die ursprüngliche Implementierung.

Dieses Repository ist eine mehrsprachige (russisch-englische) phonemische Implementierung, die auf Echtzeit-Voice-Klonen basiert. Es besteht aus vier neuronalen Netzwerken, die es Ihnen ermöglichen, eine numerische Darstellung der Stimme aus mehreren Sekunden des Klangs zu erstellen und mit es ein Modell zum Konvertieren von Text in Sprache zu erstellen

Beispiel

Schneller Start

Verwenden Sie die Colab Online -Demo

Anforderungen

Sie benötigen den folgenden Whather, den Sie mit der Toolbox nur verwenden möchten, um die Modelle zu überholen.

≥ Python 3.6 .

Pytorch (> = 1.0.1).

Führen Sie pip install -r requirements.txt aus, um die erforderlichen Pakete zu installieren.

Eine GPU ist obligatorisch, aber Sie benötigen notwendigerweise eine GPU mit hoher Stufe, wenn Sie die Toolbox verwenden möchten.

Vorbereitete Modelle

Laden Sie die neueste Geere herunter.

Datensätze

NAME	Sprache	Link	Kommentare	Mein Link	Kommentare
Phonem Dictionary	En, ru	En, ru	Phonem Dictionary	Link	Kombiniertes russisches und englisches phonemisches Wörterbuch
Librispeech	En	Link	300 Sprecher, 360H saubere Sprache
Voxceleb	En	Link	7000 Sprecher, viele Stunden schlechte Rede
M-Sailabs	Ru	Link	3 Sprecher, 46H saubere Rede
Open_tts, open_stt	Ru	Open_tts, open_stt	Viele Redner, viele Stunden schlechte Rede	Link	Reinigte 4 Stunden Sprache eines Sprechers. Korrigierte die Anotation, unterteilt in Segmente bis zu 7 Sekunden
Voxforge+Hörbuch	Ru	Link	Viele Sprecher, 25h verschiedene Qualität	Link	Ich habe gute Dateien gewählt. Brach in Segmente ein. Ein Hörbuch aus dem Internet hinzugefügt. Es stellte sich als jeweils 200 Lautsprecher ein paar Minuten aus
Ruslan	Ru	Link	Ein Sprecher, 40h gute Rede	Link	Korrigiert in 16 kHz
Mozilla	Ru	Link	50 Sprecher, 30h gute Rede	Link	In 16 kHz gehoben, verstreute verschiedene Benutzer in Ordnern
Russische Single	Ru	Link	Ein Sprecher, 9h gute Rede	Link	Korrigiert in 16 kHz

Werkzeugkasten

Sie können die Toolbox ausprobieren:

python demo_toolbox.py -d <datasets_root>
oder
python demo_toolbox.py

Wiki

Vorbereitete Modelle

Training (und für andere Sprachen)

BEITRAG

Für Fragen senden Sie bitte eine E -Mail an MEM

Papiere implementiert

URL	Bezeichnung	Titel	Implementierungsquelle
1806.04558	SV2TTS	Übertragungslernen von der Überprüfung der Lautsprecher bis zur Multispeaker-Text-zu-Sprache-Synthese	Corentinj
1802.08435	Gernn (Vocoder)	Effiziente Audio -Synthese	Fatchord/Raernn
1712.05884	Tacotron 2 (Synthesizer)	Natürliche TTS	Rayhane-Mamah/Tacotron-2
1710.10467	GE2E (Encoder)	Verallgemeinerter End-to-End-Verlust für die Überprüfung der Sprecher	Corentinj