Sprachklonenwerkzeuge
1. TTS Voice Cloning -Dokumentation
Beschreibung
Dieses Skript führt eine Text-zu-Sprache-Synthese mit der TTS-Bibliothek (Text-to-Speech) mit zwei unterschiedlichen Modellen aus: XTTS v2.0.2 und Tortoise. Das Skript enthält auch eine Dienstprogrammfunktion zum Konvertieren von MP3 -Dateien in segmentierte WAV -Dateien.
Voraussetzungen
Stellen Sie vor dem Ausführen des Skripts sicher, dass die TTS -Bibliothek mit dem folgenden Befehl installiert wird:
pip install TTS==0.22.0 transformers==4.37.2 torch torchaudio soundfile librosa
Ausführung
python tortoise_TTS_local_best.py
Aufgaben
XTTS v2.0.2 Synthese:
- Verwendet das XTTS v2.0.2 -Modell aus der Coqui TTS -Bibliothek.
- Führen Sie die Text-zu-Sprache-Synthese mit dem angegebenen Eingabetxt durch.
- Speichert das synthetisierte Audio in WAV -Dateien sowohl mit als auch ohne Satzaufteilung.
MP3 zu WAV -Konvertierung
- Konvertiert eine Eingabe -MP3 -Datei in segmentierte WAV -Dateien, ohne die PyDub -Bibliothek zu verwenden.
- Segmente das Audio in 10-Sekunden-Intervalle und speichert sie als einzelne WAV-Dateien (für die Schildkröte benötigt).
Schildkrötenmodellsynthese Beschreibung:
- Verwendet das Schildkrötenmodell aus der Coqui TTS-Bibliothek für eine qualitativ hochwertige Synthese.
- Lädt das vorgebildete Schildkrötenmodell und synthetisiert die Sprache basierend auf dem Eingabetxt.
- Speichert das synthetisierte Audio als WAV -Datei.
Weitere Informationen
XTTS v2.0.2 wird für seine Geschwindigkeit und angemessene Qualität vorgeschlagen. Tortoise bietet die beste Qualität, hat aber eine längere Zeit.
Notizen
- Stellen Sie sicher, dass die Abhängigkeiten installiert und Dateipfade entsprechend angepasst werden.
- URLs in den Kommentaren liefern weitere Informationen zu den Modellen und Konfigurationen.
- Fühlen Sie sich frei, das Skript basierend auf bestimmten Anforderungen zu ändern, und stellen Sie sicher, dass die erforderlichen Anpassungen vorgenommen werden, um Pfade und Abhängigkeiten für eine erfolgreiche Ausführung einzureichen.
2. Dokumentation von TTS Model Analyzer Dokumentation
Beschreibung
Dieses Skript analysiert die in der TTS-Bibliothek verfügbaren Text-to-Speech-Modelle (TTS), die sich speziell auf ihre Sprachunterstützung und Vocoder-Funktionen konzentrieren. Es kategorisiert Modelle basierend auf:
- Multisprachiger vs. Englisch : Ob das Modell mehrere Sprachen oder nur Englisch unterstützt.
- Benutzerdefinierter vs. Standard englischer Vokoder : Ob das Modell über einen benutzerdefinierten englischen Vokoder verfügt, der das Sprachklonen oder einen Standard -Vocoder ermöglicht, der dies nicht tut.
Das Skript verfolgt auch die Anzahl der Modelle mit Fehlern und diejenigen, die aus bestimmten Gründen ignoriert werden (z. B. bekannte fehlerhafte Modelle).
Code -Aufschlüsselung
Voraussetzungen
Stellen Sie vor dem Ausführen des Skripts sicher, dass die TTS -Bibliothek mit dem folgenden Befehl installiert wird:
Ausführung
python TTS_download_and_test_all_models.py
Ausgabe
Das Skript generiert Informationen zu Multisprachelmodellen mit einem englischen Vokoder, englischen Modellen mit benutzerdefinierten Vocoder, Multisprachelmodellen mit Standard-englischen Vokördern und englischen Modellen mit standardmäßigen englischen Vocoder. Darüber hinaus werden Modelle identifiziert, die nicht englische Sprachen, Modelle mit Fehlern und Modelle unterstützen, die ignoriert werden sollten.
Skript Erklärung
Das Skript führt die folgenden Aufgaben aus:
Importe notwendige Bibliotheken (TTS, Zeit, Betriebssystem).
Richtet einen Timer ein, um die Skriptausführungszeit zu messen.
Definiert einen Beispieltext für die Sprachsynthese.
Initialisiert Zähler und Listen für verschiedene Modellkategorien.
Iteriert alle verfügbaren TTS -Modelle.
Downloads und lädt jedes Modell so, dass sie unterschiedliche Text-zu-Sprach-Aufgaben ausführen und diese basierend auf Sprachunterstützung und Vocodertypen kategorisieren.
Druckt die Ergebnisse, einschließlich der Anzahl und Namen von Modellen in jeder Kategorie, zusammen mit allen während des Prozesses aufgetretenen Fehler.
Zeigt die Gesamtzahl der überprüften Modelle und die Skriptausführungszeit an.
Führt eine Behauptungsprüfung durch, um die korrekte Zählung von Modellen sicherzustellen.
Bietet ein Beispiel für die Verwendung von TTs für Text-to-Speech mit einem mehrsprachigen und mehrsprachigen Modell.
Notizen
Einige Modelle können aus Fehlern oder anderen Gründen (im Code angegeben) ignoriert werden. Das Skript enthält auch ein Beispiel für griechische Text-zu-Sprache in Colab unter Verwendung eines bestimmten Modells.
Weitere Informationen
- TTS -Bibliothek: https://github.com/mozilla/tts
- TTS -Dokumentation: https://tts.readthedocs.io/
Fühlen Sie sich frei, das Skript nach Bedarf für Ihren speziellen Anwendungsfall zu ändern oder integrieren Sie es in Ihre Projekte für die TTS -Modellanalyse.
3. Sprachklon mit offiziellem Schildkröten -Repository
Überblick
Dieses Skript demonstriert die Verwendung des TTS-Systems (Text-to-Speech), um Sprache aus Eingabetxt zu generieren. Das Skript nutzt die TTS -Bibliothek TTSISE und bietet Anweisungen zur Installation. Die generierte Rede wird als WAV -Datei gespeichert.
Installation
git clone https://github.com/neonbjb/tortoise-tts.git
cd tortoise-tts
pip install -r requirements.txt
pip install librosa einops rotary_embedding_torch omegaconf pydub inflect
python setup.py install
Verwendung
- Ersetzen Sie den Pfad in Sprachvariable durch die Sprachmuster des gewünschten Lautsprechers.
- Ändern Sie optional die Textvariable, um den gewünschten Eingabetxt anzugeben.
- Führen Sie das Skript mit
python tortoise_API.py aus, um TTS von Schildkröten durchzuführen, und speichern Sie die generierte Sprache als WAV -Datei.
Aufgabenbeschreibung
Notwendige Bibliotheken importieren:
- Importe erforderten Bibliotheken wie Torchaudio, Tortoise.api, Tortoise.utils und OS.
TTS TTS initialisieren:
- Initialisiert TTs mit Schildkröte.
- Ermöglicht optional DeepSpeed für eine schnellere Leistung (kommentiert, da es in der Praxis möglicherweise langsamer ist).
Geben Sie den Eingabetxt an:
- Legt den Eingangstext fest, der in Sprache konvertiert werden soll.
Wählen Sie Voreinstellung und Stimme:
- Wählt einen voreingestellten Modus für die Bestimmung der Qualität der Ausgabe ("Ultra_fast", "Fast", "Standard" oder "High_Quality") aus.
- Wählt eine bestimmte Stimme, indem sie den Pfad zu den Sprachmuster des Sprechers zur Verfügung stellt.
Referenzklammern laden:
- Laden Sie Referenz -Audioclips vom gewählten Sprachpfad.
TTS mit Schildkröte durchführen:
- Verwendet TTS TTS, um Sprache aus dem Eingabetxt zu generieren.
- Speichert die generierte Sprache im WAV -Format.
Weitere Informationen
- Das Skript downloads erforderten Modelle aus dem Modell Hub Face (HF).
- Passen Sie Parameter wie Voreinstellung und Stimme entsprechend Ihren Vorlieben an.
- Das generierte Audio wird im angegebenen Verzeichnis als "generated_hq_faceswap.wav.wav" gespeichert.
V.
Überblick
Dieses Skript erleichtert die Konvertierung von Opus -Audio -Dateien in MP3 -Format. Es enthält Funktionen zum Lesen von OPUS -Dateien, konvertieren sie in MP3 und kombinieren mehrere MP3 -Dateien in eine einzelne Datei. Das Skript bietet Flexibilität, indem Benutzer Eingabe- und Ausgabeordner angeben können.
Parameter
opus_folder: Pfad zum Ordner mit Opus -Dateien.
mp3_output_folder: Pfad zum Speichern einzelner MP3 -Dateien.
combined_output_folder: Pfad zum Speichern der kombinierten MP3 -Datei.
Das Skript erstellt Ausgabeordner, wenn es nicht existiert.
Voraussetzungen
Aufgaben
- Opus -Datei lesen:
- Liest Opus -Dateien mit der SoundFile -Bibliothek.
- Gibt ein Numpy -Array und die Stichprobenrate zurück.
- Konvertieren Sie Opus in MP3
- Verwendet die Funktion read_opus, um Opus -Dateien zu lesen.
- Konvertiert Opus mit derselben Beispielrate in MP3.
- Speichert die MP3 -Datei im angegebenen Ausgaberordner.
- Konvertieren Sie Opus -Dateien
- Iteriert Opus -Dateien in einem Ordner und konvertiert jeden in MP3.
- Gibt eine Liste gespeicherter MP3 -Dateinamen zurück.
- MP3 -Dateien kombinieren
- Kombiniert einzelne MP3 -Dateien zu einem.
- Speichert die kombinierte MP3 -Datei im angegebenen Ausgaberordner.
5. Bark Google Colab (nicht sehr gut)
Überblick
Dieses Jupyter -Notizbuch demonstriert den Prozess, eine Stimme mit dem Bark -Sprachklonsystem zu klonen. Es umfasst die Montage von Google Drive, um auf Audio -Samples für das Klonen zuzugreifen, die erforderlichen Bibliotheken zu installieren, Modelle zu laden, semantische Token zu generieren und schließlich diese Token zum Klonen zu verwenden.
Aufgaben
Mount Google Drive:
- Mountert Google Drive, um auf den Ordner zuzugreifen, der Sprachmuster zum Klon enthält.
Setzen Sie Parameter:
- Definiert Parameter wie den Pfad zur Audiodatei, den Namen der Stimme und den Ausgabepfad zum Speichern geklonter Sprachaufforderungen.
Bibliotheken installieren und importieren:
- Installiert und Importe erforderliche Bibliotheken, Pytorch, Numpy und andere.
Installieren Sie Rinde mit Sprachklon:
- Installiert die Rinde mit der Sprachklonbibliothek aus dem bereitgestellten Github -Repository.
Lastmodelle laden und Hubert initialisieren:
- Belastet notwendige Modelle und initialisiert den Hubert -Manager für die semantische Token -Extraktion.
Last und verarbeiten Audio:
- Laden Sie die Audiodatei und konvertiert sie für die weitere Verarbeitung.
- Extrahiert semantische Vektoren und Token unter Verwendung des Hubert -Modells.
Eingabeaufforderungen codieren und speichern:
- Codiert Audio -Frames mit CCODEC.
- Spart feine, grobe und semantische Eingabeaufforderungen als Numpy -Arrays.
Generieren Sie Audio mit Rinde:
- Vorlast -Rindenmodelle für Text, grob, feine Generation und Codec.
- Erzeugt Audio mithilfe von Texteingabeaufforderungen, semantischen Eingabeaufforderungen und Verlaufsaufforderungen.
Spielen und speichern Sie generiertes Audio:
- Spielt das generierte Audio mit Ipythons Audio ab.
- Sparen Sie optional das generierte Audio als WAV -Datei.
Gesamtlaufzeit:
- Zeigt die Gesamtzeit an, die für die Ausführung des Skripts benötigt wird.
Skriptverbrauch
- Stellen Sie sicher, dass Google Drive mit Zugriff auf den gewünschten Sprachmusterordner montiert ist.
- Ändern Sie die Parameter wie
audio_filepath , voice_name und output_path gemäß Ihrem Setup. - Führen Sie das Skript aus, um die Stimme zu klonen, Audio zu generieren und die Ausgabe optional zu speichern.
Weitere Informationen
- Das Skript installiert und verwendet die Rinde mit Sprachklonbibliothek aus dem bereitgestellten Github -Repository.
- Passen Sie die Pfade, Parameter und Eingabeaufforderungen bei Bedarf für Ihr Sprachkloning -Projekt an.
- Generiertes Audio kann direkt oder als WAV -Datei gespeichert werden.
- Stellen Sie sicher, dass die erforderlichen Abhängigkeiten installiert und ordnungsgemäß konfiguriert sind.
6. Coqui tts aufruft API (nicht mehr existieren - kann nicht verwendet werden)
Überblick
Dieses Skript zeigt den Prozess, eine Stimme mit der Coqui TTS -API zu klonen. Dazu gehören das Importieren der erforderlichen Bibliotheken, das Aufrufen von API-Aufrufen, um eine Stimme aus einer Audio-Datei zu klonen und Text-zu-Sprache mithilfe der klonierten Stimme zu generieren.
Aufgaben
Bibliotheken importieren:
- Importe erforderliche Bibliotheken, einschließlich
requests um API -Anrufe zu tätigen.
Setzen Sie Parameter:
- Legt Parameter wie den Pfad zur Eingabe -Audio -Datei, den Pfad zum Speichern der neuen Audiodatei und den zu gelesenen Text fest.
Rufen Sie Coqui TTS API für das Klonen von Sprachklonen an:
- Ruft die Coqui TTS -API auf, um eine Stimme aus der bereitgestellten Audio -Datei zu klonen.
- Extrahiert die Sprach-ID der geklonten Stimme für nachfolgende Text-zu-Sprache.
Rufen Sie die Coqui TTS-API für Text-to-Speech an:
- Ruft die Coqui TTS -API auf, um den angegebenen Text mit der geklonten Stimme in Sprache umzuwandeln.
- Ruft die Audio -URL der generierten Rede ab.
Audio herunterladen und speichern:
- Laden Sie die generierte Audiodatei von der bereitgestellten URL herunter.
- Speichert die Audiodatei in den angegebenen Pfad.
Skriptverbrauch
- Geben Sie den Pfad zur Eingabe -Audio -Datei (
path_audio ), den Pfad zum Speichern der neuen Audio -Datei ( save_path ) und den zu lesen ( text_to_read ) an. - Holen Sie sich den erforderlichen API -Schlüssel von der Coqui TTS -Website und ersetzen Sie den Platzhalter in den
headers durch den tatsächlichen Schlüssel. - Führen Sie das Skript aus, um die Stimme zu klonen und Text-zu-Sprache zu generieren.
Weitere Informationen
- Das Skript verwendet die Coqui TTS-API für Sprachklonen und Text-zu-Sprache.
- Passen Sie die Parameter an und ersetzen Sie die API -Taste für Ihren spezifischen Anwendungsfall.
- Stellen Sie sicher, dass Sie die Richtlinien für die Verwendung von Coqui TTS -API einhalten.
- Heruntergeladene Audio -Dateien werden lokal wie in
save_path angegeben gespeichert.