In unserem jüngsten Artikel schlagen wir WG-Wavenet vor, ein schnelles, leichtes und hochwertiges Modell der Wellenformgenerierung. WG-Wavenet besteht aus einem kompakten fließenden Modell und einem Postfilter. Die beiden Komponenten werden gemeinsam trainiert, indem die Wahrscheinlichkeit der Trainingsdaten maximiert und die Verlustfunktionen auf den Frequenzbereiche optimiert werden. Während wir ein fließbasiertes Modell entwerfen, das stark komprimiert ist, erfordert das vorgeschlagene Modell im Vergleich zu anderen Modellen der Wellenformgenerierung sowohl während des Trainings als auch während der Inferenzzeit viel weniger rechnerische Ressourcen. Obwohl das Modell stark komprimiert ist, behält der Post-Film die Qualität der erzeugten Wellenform bei. Unsere Pytorch -Implementierung kann mit einem GPU -Speicher von weniger als 8 GB geschult werden und generiert Audio -Proben mit einer Geschwindigkeit von mehr als 5000 kHz bei einer NVIDIA 1080TI -GPU. Selbst wenn wir auf einer CPU synthetisieren, zeigen wir, dass die vorgeschlagene Methode in der Lage ist, 44,1 kHz Sprachwellenform 1,2-mal schneller als Echtzeit zu erzeugen. Experimente zeigen auch, dass die Qualität des generierten Audios mit denen anderer Methoden vergleichbar ist.
Besuchen Sie den Demopage für Audio -Proben.
Laden Sie die LJ -Rede herunter. In diesem Beispiel befindet es sich in data/
Führen Sie für das Training den folgenden Befehl aus.
python3 train.py --data_dir= < dir/to/dataset > --ckpt_dir= < dir/to/models >python3 train.py --data_dir= < dir/to/dataset > --ckpt_dir= < dir/to/models > --ckpt_pth= < pth/to/pretrained/model >python3 train.py --data_dir= < dir/to/dataset > --ckpt_dir= < dir/to/models > --log_dir= < dir/to/logs > python3 inference.py --ckpt_pth= < pth/to/model > --src_pth= < pth/to/src/wavs > --res_pth= < pth/to/save/wavs > In Arbeit arbeiten.
Wir werden diesen Vocoder mit Tacotron2 kombinieren. Weitere Informationen und Colab -Demo werden hier veröffentlicht.