Chinese-Speech2
Basierend auf den Standarddaten von weiblichen Sprachdaten von biaobei -chinesisch wurde das Fastspeech2 -Modell des Originalpapier
20230402 Update
- 1. Fügen Sie den Rhythmus -Modelltrainingscode im BertProsody -Verzeichnis hinzu
- 2. Fügen Sie den Vorverarbeitungscode für das Rhythmusmodelltraining hinzu (für Standard -Shell -Daten wurde der Code in Precessor/biaobei.py nicht aussortiert, zuerst veröffentlicht)
Probe
Beziehen Sie sich auf das in Proben generierte Audio
Modelldatei
Die Hauptstruktur dieses Projekts ist die Fastspeech2+HiFigan -Struktur. Darüber hinaus wird der Rhythmusvektor des chinesischen Textes in der Eingangsphase eingeführt. Daher gibt es drei Modelle: Fastspeech_Model, HiFigan_Model, prosody_model (Net -Festplatten -Link, Extraktionscode: QGPI). Legen Sie nach dem Herunterladen die Modelldatei in das angegebene Verzeichnis:
- 8000.PTH.TAR ---> Ausgang/CKPT/BIAOBEI/
- Generator_universal.pth.tar ---> HiFigan/
- Best_model.pt ---> Transformator/Prosody_Model/
vorhersagen
Es werden zwei Vorhersagemethoden bereitgestellt: 1) Python synthesize_all.py; 2) HTTP -Schnittstellenaufruf
- Die erste Methode ist interaktiv . Geben Sie nach dem Ausführen von Python SyntheSize_ALL.py in der Befehlszeile den Text ein, der konvertiert werden muss. Nach dem Ausführen wird die TMP.WAV -Datei im Code im aktuellen Arbeitsverzeichnis generiert.
- Die zweite Methode besteht darin, die API aufzurufen , TTS_Server.py auszuführen, die die Voice-to-Text-Schnittstelle startet. Wenn Sie diese Schnittstelle nennen, können Sie sich auf testServer.py beziehen. Die gleiche generierte Audiodatei (TMP.WAV) wird im aktuellen Arbeitsverzeichnis gespeichert.
Zug
- Da sich dieses Projekt auf das Fastspeech2 -Projekt bezieht, bietet das Projekt eine detailliertere Schulungsmethode für die Referenz.
- Dieses Projekt hat einige Optimierungen für die ursprüngliche Methode vorgenommen. Für den Optimierungsteil finden Sie im Blog: Chinesische Sprachsynthese basierend auf der Optimierung von Fastspeech2
Dieses Projekt ist ein Versuch, die Sprachsynthese aus persönlichen Interessen herauszufinden. Jeder ist herzlich eingeladen, mich zu kritisieren und zu korrigieren und mehr zu kommunizieren!