Dieses Repository ist eine phonemische mehrsprachige (russisch-englische) Implementierung, die auf Echtzeit-Voice-Kloning basiert. Ist ein vierstufiges Deep Learning-Framework, mit dem aus einigen Sekunden Audio eine numerische Darstellung einer Stimme erstellen kann, und um ein Text-zu-Sprach-Modell zu stimmen. Wenn Sie die englische Version benötigen, verwenden Sie bitte die ursprüngliche Implementierung.
Dieses Repository ist eine mehrsprachige (russisch-englische) phonemische Implementierung, die auf Echtzeit-Voice-Klonen basiert. Es besteht aus vier neuronalen Netzwerken, die es Ihnen ermöglichen, eine numerische Darstellung der Stimme aus mehreren Sekunden des Klangs zu erstellen und mit es ein Modell zum Konvertieren von Text in Sprache zu erstellen
Verwenden Sie die Colab Online -Demo
Sie benötigen den folgenden Whather, den Sie mit der Toolbox nur verwenden möchten, um die Modelle zu überholen.
≥ Python 3.6 .
Pytorch (> = 1.0.1).
Führen Sie pip install -r requirements.txt aus, um die erforderlichen Pakete zu installieren.
Eine GPU ist obligatorisch, aber Sie benötigen notwendigerweise eine GPU mit hoher Stufe, wenn Sie die Toolbox verwenden möchten.
Laden Sie die neueste Geere herunter.
| NAME | Sprache | Link | Kommentare | Mein Link | Kommentare |
|---|---|---|---|---|---|
| Phonem Dictionary | En, ru | En, ru | Phonem Dictionary | Link | Kombiniertes russisches und englisches phonemisches Wörterbuch |
| Librispeech | En | Link | 300 Sprecher, 360H saubere Sprache | ||
| Voxceleb | En | Link | 7000 Sprecher, viele Stunden schlechte Rede | ||
| M-Sailabs | Ru | Link | 3 Sprecher, 46H saubere Rede | ||
| Open_tts, open_stt | Ru | Open_tts, open_stt | Viele Redner, viele Stunden schlechte Rede | Link | Reinigte 4 Stunden Sprache eines Sprechers. Korrigierte die Anotation, unterteilt in Segmente bis zu 7 Sekunden |
| Voxforge+Hörbuch | Ru | Link | Viele Sprecher, 25h verschiedene Qualität | Link | Ich habe gute Dateien gewählt. Brach in Segmente ein. Ein Hörbuch aus dem Internet hinzugefügt. Es stellte sich als jeweils 200 Lautsprecher ein paar Minuten aus |
| Ruslan | Ru | Link | Ein Sprecher, 40h gute Rede | Link | Korrigiert in 16 kHz |
| Mozilla | Ru | Link | 50 Sprecher, 30h gute Rede | Link | In 16 kHz gehoben, verstreute verschiedene Benutzer in Ordnern |
| Russische Single | Ru | Link | Ein Sprecher, 9h gute Rede | Link | Korrigiert in 16 kHz |
Sie können die Toolbox ausprobieren:
python demo_toolbox.py -d <datasets_root>
oder
python demo_toolbox.py
Vorbereitete Modelle
Training (und für andere Sprachen)
Training (und für andere Sprachen)
Für Fragen senden Sie bitte eine E -Mail an MEM
| URL | Bezeichnung | Titel | Implementierungsquelle |
|---|---|---|---|
| 1806.04558 | SV2TTS | Übertragungslernen von der Überprüfung der Lautsprecher bis zur Multispeaker-Text-zu-Sprache-Synthese | Corentinj |
| 1802.08435 | Gernn (Vocoder) | Effiziente Audio -Synthese | Fatchord/Raernn |
| 1712.05884 | Tacotron 2 (Synthesizer) | Natürliche TTS | Rayhane-Mamah/Tacotron-2 |
| 1710.10467 | GE2E (Encoder) | Verallgemeinerter End-to-End-Verlust für die Überprüfung der Sprecher | Corentinj |