TensorFlowTTS Download - TensorFlowTTS Quellcode Download

TensorFlowTTS

AI-Quellcode

v1.8

Herunterladen

? Tensorflowtts

Echtzeit auf der neuesten Sprachsynthese für Tensorflow 2

? Tensorflowtts liefert Echtzeit-Architekturen für hochmoderne Sprachsynthese wie Tacotron-2, Melgan, Multiband-Melgan, Fastspeech2, Fastspeech2-Basis-On-Tensorflow 2. Mit Tensorflow 2 können wir mit Tensorflow 2. eingebettete Systeme.

Was ist neu

2021/08/18 ( neu! ) Integriert in Räume mit Gradio. Siehe Gradio Web Demo.
2021/08/12 ( neu! ) Unterstützung französischer TTS (Tacotron2, Multiband Melgan). Bitte sehen Sie den Colab. Vielen Dank Samuel Delalez
2021/06/01 Integriert in Huggingface -Hub. Siehe die PR. Danke Patrickvonplaten und Osanseviero
2021/03/18 Support iOS für Fastspeech2 und MB Melgan. Danke Kewlbear. Siehe hier
2021/01/18 Unterstützung Tflite C ++ Inferenz. Danke luan78zaoha. Siehe hier
2020/12/02 Deutsche TTS mit Thorsten -Datensatz unterstützen. Siehe den Colab. Danke Thorstenmueller und Monatis
2020/11/24 Hinzufügen von Hifi -gan-Vocoder. Siehe hier
2020/11/19 Fügen Sie Multi-GPU-Gradienten Akkumulator hinzu. Siehe hier
2020/08/23 Parallele Wavegan Tensorflow -Implementierung hinzufügen. Siehe hier
2020/08/20 Fügen Sie C ++ - Inferenzcode hinzu. Danke @zdisket. Siehe hier
2020/08/18 Neuen Basisprozessor aktualisieren. Fügen Sie Autoprozessor und voraber Prozessor JSON -Datei hinzu
2020/08/14 Unterstützung chinesischer TTs. Bitte sehen Sie den Colab. Danke @azraelkuan
2020/08/05 Support Korean TTS. Bitte sehen Sie den Colab. Danke @CRUX153
2020/07/17 Support Multigpu für alle Trainer
2020/07/05 Unterstützung Tacotron-2, Fastspeech in Tflite. Bitte sehen Sie den Colab. Vielen Dank an @jaeyoo vom Tflite -Team für seine Unterstützung
2020/06/20 Fastspeech2 -Implementierung mit TensorFlow wird unterstützt.
2020/06/07 Multi-Band-Melgan (MB Melgan) Implementierung mit Tensorflow wird unterstützt

Merkmale

Hohe Leistung zur Sprachsynthese.
In der Lage sein, andere Sprachen gut abzustimmen.
Schnell, skalierbar und zuverlässig.
Für den Einsatz geeignet.
Einfach ein neues Modell basiert, basierend auf abstrakter Klasse.
Gemischte Präzision, um das Training nach Möglichkeit zu beschleunigen.
Unterstützen Sie eine einzelne/Multi -GPU -Gradient, die sich ansammelt.
Unterstützen Sie sowohl Single/Multi -GPU in der Basistrainerklasse.
Tflite Conversion für alle unterstützten Modelle.
Android -Beispiel.
Unterstützen Sie viele Sprachen (derzeit unterstützen wir Chinesisch, Koreanisch, Englisch, Französisch und Deutsch)
Unterstützen Sie C ++ - Inferenz.
Unterstützen Sie das Gewicht für einige Modelle von Pytorch zum Tensorflow, um die Geschwindigkeit zu beschleunigen.

Anforderungen

Dieses Repository wird auf Ubuntu 18.04 getestet mit:

Python 3.7+
CUDA 10.1
CUDNN 7.6.5
Tensorflow 2.2/2.3/2.4/2,5/2.6
Tensorflow Addons> = 0,10.0

Verschiedene Tensorflow -Version sollten funktionieren, aber noch nicht getestet werden. Dieses Repo wird versuchen, mit der neuesten stabilen Tensorflow -Version zu arbeiten. Wir empfehlen Ihnen, den TensorFlow 2.6.0 für ein Training zu installieren, falls Sie Multigpu verwenden möchten.

Installation

Mit Pip

$ pip install TensorFlowTTS

Von Quelle

Beispiele sind im Repository enthalten, werden jedoch nicht mit dem Framework versendet. Um die neueste Version der Beispiele auszuführen, müssen Sie die folgende Quelle installieren.

$ git clone https://github.com/TensorSpeech/TensorFlowTTS.git
$ cd TensorFlowTTS
$ pip install .

Wenn Sie das Repository und seine Abhängigkeiten aktualisieren möchten:

$ git pull
$ pip install --upgrade .

Unterstützte Modellarchitekturen

TensorFlowtts liefert derzeit die folgenden Architekturen:

Melgan wurde mit dem Papier Melgan veröffentlicht: generative kontroverse Netzwerke für die bedingte Wellenform -Synthese von Kundan Kumar, Rithesh Kumar, Thibault de Boissere, Lucas Gestin, Wei Zhen Teoh, Jose Sotelo, Alexandre de Brebisson, Yoshua -Bengio, Aaron Courville.
Tacotron-2 released with the paper Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions by Jonathan Shen, Ruoming Pang, Ron J. Weiss, Mike Schuster, Navdeep Jaitly, Zongheng Yang, Zhifeng Chen, Yu Zhang, Yuxuan Wang, RJ Skerry-Ryan, Rif A. Saurous, Yannis Agiomyrgiannakis, Yonghui Wu.
Fastspeech mit dem Papier Fastspeech veröffentlicht: Fast, Fast, Robust und kontrollierbarer Text von Yi Ren, Yangjun Ruan, Xu Tan, Tao Qin, Sheng Zhao, Zhou Zhao, Tie-Yan Liu.
Multi-Band-Melgan wurde mit dem Papier Multi-Band Melgan veröffentlicht: schnellere Wellenformgenerierung für hochwertige Text-zu-Sprache von Geng Yang, Shan Yang, Kai Liu, Peng Fang, Wei Chen, Lei Xie.
Fastspeech2 mit dem Papier Fastspeech 2 veröffentlicht: Fast- und hochwertiger End-to-End-Text zur Sprache von Yi Ren, Chenxu Hu, Xu Tan, Tao Qin, Sheng Zhao, Zhou Zhao, Tie-Yan Liu.
Paralleler Wellengegan, das mit dem Papier Parallel Wavegan veröffentlicht wurde: Ein Modell der schnellen Wellenformgenerierung, das auf generativen kontroversen Netzwerken basiert, mit mehrfacher Auflösungsspektrogram von Ryuichi Yamamoto, Eunwoo Song, JAE-MIN KIM.
Hifi-gan wurde mit dem Papier Hifigan veröffentlicht: generative kontroverse Netzwerke für eine effiziente und High-Fidelity-Sprachsynthese von Jungil Kong, Jaehyeon Kim, Jakekyoung Bae.

Wir implementieren auch einige Techniken, um die Qualität und die Konvergenzgeschwindigkeit aus den folgenden Papieren zu verbessern:

Der geführte Aufmerksamkeitsverlust, das mit dem Papier effizient trainierbares Text-zu-Sprach-System auf der Grundlage von tiefen Faltungsnetzwerken mit geführter Aufmerksamkeit von Hideyuki Tachibana, Katsuya Uenoyama, Shunsuke Aihara, freigegeben wurde.

Audio -Samples

Hier in einem Audio -Muster am gültigen Satz. Tacotron-2, Fastspeech, Melgan, Melgan.stft, Fastspeech2, Multiband_Melgan

Tutorial End-to-End

Datensatz vorbereiten

Bereiten Sie einen Datensatz im folgenden Format vor:

 |- [NAME_DATASET]/
|   |- metadata.csv
|   |- wavs/
|       |- file1.wav
|       |- ...

Wobei metadata.csv das folgende Format hat: id|transcription . Dies ist ein ljspeech-ähnliches Format; Sie können die Vorverarbeitungsschritte ignorieren, wenn Sie andere Formatdatensätze haben.

Beachten Sie, dass NAME_DATASET beispielsweise [ljspeech/kss/baker/libritts/synpaflex] sein sollte.

Vorverarbeitung

Die Vorverarbeitung hat zwei Schritte:

Preprocess -Audiofunktionen
- Schalten Sie Zeichen in IDs um
- Berechnen Sie MEL -Spektrogramme
- Normalisieren Sie MEL-Spektrogramme auf [-1, 1] Bereich
- Teilen Sie den Datensatz in Zug und Validierung auf
- Berechnen Sie den Mittelwert und die Standardabweichung mehrerer Merkmale aus der Trainingsaufteilung
Standardisieren Sie das MEL -Spektrogramm basierend auf Computerstatistiken

Um die obigen Schritte zu reproduzieren:

 tensorflow-tts-preprocess --rootdir ./[ljspeech/kss/baker/libritts/thorsten/synpaflex] --outdir ./dump_[ljspeech/kss/baker/libritts/thorsten/synpaflex] --config preprocess/[ljspeech/kss/baker/thorsten/synpaflex]_preprocess.yaml --dataset [ljspeech/kss/baker/libritts/thorsten/synpaflex]
tensorflow-tts-normalize --rootdir ./dump_[ljspeech/kss/baker/libritts/thorsten/synpaflex] --outdir ./dump_[ljspeech/kss/baker/libritts/thorsten/synpaflex] --config preprocess/[ljspeech/kss/baker/libritts/thorsten/synpaflex]_preprocess.yaml --dataset [ljspeech/kss/baker/libritts/thorsten/synpaflex]

Im Moment unterstützen wir nur ljspeech , kss , baker , libritts , thorsten und synpaflex für das Dataset -Argument. In Zukunft beabsichtigen wir, mehr Datensätze zu unterstützen.

Hinweis : Um die Vorverarbeitung libritts auszuführen, lesen Sie bitte zuerst die Anweisung in Beispielen/Fastspeech2_Libritts. Wir müssen es zuerst neu formatieren, bevor wir die Vorverarbeitung durchführen.

Hinweis : Um synpaflex -Vorverarbeitung auszuführen, führen Sie bitte zuerst die Notebooks Notebooks/prepe_synpaflex.ipynb aus. Wir müssen es zuerst neu formatieren, bevor wir die Vorverarbeitung durchführen.

Nach der Vorverarbeitung sollte die Struktur des Projektordners sein:

 |- [NAME_DATASET]/
|   |- metadata.csv
|   |- wav/
|       |- file1.wav
|       |- ...
|- dump_[ljspeech/kss/baker/libritts/thorsten]/
|   |- train/
|       |- ids/
|           |- LJ001-0001-ids.npy
|           |- ...
|       |- raw-feats/
|           |- LJ001-0001-raw-feats.npy
|           |- ...
|       |- raw-f0/
|           |- LJ001-0001-raw-f0.npy
|           |- ...
|       |- raw-energies/
|           |- LJ001-0001-raw-energy.npy
|           |- ...
|       |- norm-feats/
|           |- LJ001-0001-norm-feats.npy
|           |- ...
|       |- wavs/
|           |- LJ001-0001-wave.npy
|           |- ...
|   |- valid/
|       |- ids/
|           |- LJ001-0009-ids.npy
|           |- ...
|       |- raw-feats/
|           |- LJ001-0009-raw-feats.npy
|           |- ...
|       |- raw-f0/
|           |- LJ001-0001-raw-f0.npy
|           |- ...
|       |- raw-energies/
|           |- LJ001-0001-raw-energy.npy
|           |- ...
|       |- norm-feats/
|           |- LJ001-0009-norm-feats.npy
|           |- ...
|       |- wavs/
|           |- LJ001-0009-wave.npy
|           |- ...
|   |- stats.npy
|   |- stats_f0.npy
|   |- stats_energy.npy
|   |- train_utt_ids.npy
|   |- valid_utt_ids.npy
|- examples/
|   |- melgan/
|   |- fastspeech/
|   |- tacotron2/
|   ...

stats.npy
stats_energy.npy enthält den Mittelwert und die sexuell übertragbaren Energiewerte aus der Trainingsaufteilung
stats_f0.npy enthält den Mittelwert und die STD der F0 -Werte in der Trainingsaufteilung
train_utt_ids.npy / valid_utt_ids.npy enthält Trainings- und Validierungs -Äußerungen -IDs

Wir verwenden für jeden Eingangstyp Suffix ( ids , raw-feats , raw-energy , raw-f0 , norm-feats und wave ).

Wichtige Anmerkungen :

Dieser Vorverarbeitungsschritt basiert auf ESPNET, sodass Sie alle Modelle mit anderen Modellen aus ESPNET -Repository kombinieren können.
Unabhängig davon, wie Ihr Datensatz formatiert ist, sollte die endgültige Struktur des dump -Ordners der obigen Struktur folgen, um das Trainingsskript zu verwenden, oder Sie können es selbst ändern?

Trainingsmodelle

Um zu wissen, wie man das Modell von Grund auf oder gut mit anderen Datensätzen/Sprachen feinsteht, siehe Detail im Beispielverzeichnis.

Für Tacotron-2-Tutorial siehe Beispiele/Tacotron2
Für Fastspeech -Tutorial siehe Beispiele/Fastspeech
Für Fastspeech2 -Tutorial siehe Beispiele/Fastspeech22
Für Fastspeech2 + MFA -Tutorial siehe Beispiele/Fastspeech2_Libritts
Für Melgan Tutorial siehe Beispiele/Melgan
Für Melgan + STFT -Verlust -Tutorial siehe Beispiele/Melgan.stft
Für Multiband-Melgan-Tutorial siehe Beispiele/Multiband_Melgan
Für Parallel Wavegan Tutorial siehe Beispiele/Parallel_Wavegan
Für Multiband-Melgan-Generator + Hifi-Gan-Tutorial siehe Beispiele/multiband_melgan_hf
Für Hifi-Gan-Tutorial siehe Beispiele/HiFigan

Abstrakte Klassenerklärung

Abstrakter DataLoader TensorFlow-basierter Datensatz

Eine Detailimplementierung der abstrakten Datensatzklasse aus TensorFlow_tts/Dataset/Abstract_dataset. Es gibt einige Funktionen, die Sie übergeordnet haben und verstehen:

get_args : Diese Funktion gibt Argumentation für die Generatorklasse zurück, normalerweise ist Utt_ids.
Generator : Diese Funktion verfügt über Eingänge aus der Funktion get_args und gibt eine Eingabe für Modelle zurück. Beachten Sie, dass wir ein Wörterbuch für alle Generatorfunktionen mit den Tasten zurückgeben, die genau mit den Parametern des Modells übereinstimmen, da Base_Trainer das Modell (** Stapel) verwendet, um den Schritt voranzutreiben.
get_output_dtypes : Diese Funktion muss für jedes Element von Generatorfunktion zurückgeben.
get_len_dataset : return len of datasets, normaly ist len (utt_ids).

Wichtige Anmerkungen :

Eine Pipeline zum Erstellen von Datensatz sollte sein: Cache -> Shuffle -> MAP_FN -> get_batch -> Prefetch.
Wenn Sie vor dem Cache mischen, wird der Datensatz nicht mischt, wenn er über Datensätze wieder auftritt.
Sie sollten MAP_FN anwenden, damit jedes Element die gleiche Länge von Generator zurückgibt, bevor Sie die Stapel erhalten und in ein Modell einspeisen.

Einige Beispiele für diesen Abstract_Dataset sind tacotron_dataset.py, fastspeech_dataset.py, melgan_dataset.py, fastspeech2_dataset.py

Zusammenfassung Trainerklasse

Eine Detailimplementierung von Base_Trainer von TensorFlow_tts/Trainer/Base_Trainer.py. Es umfasst SEQ2SeqbasedTrainer und GanbasedTrainer inerit von basiertem Strainer. Alle Trainer unterstützen sowohl Single/Multi GPU. Es gibt einige Funktionen, die Sie bei der Implementierung von New_Trainer übergeben müssen :

Kompilieren : Diese Funktion zielt darauf ab, Modelle und Verluste zu definieren.
generate_and_save_intermediate_result : Diese Funktion speichert intermediates Ergebnis wie: Diagrammausrichtung, Audio generiert, Diagramm-Melspektrogramm ...
compute_per_example_losses : Diese Funktion berechnet per_example_loss für das Modell. Beachten Sie, dass das gesamte Element des Verlusts eine Form hat [batch_size].

Alle Modelle auf diesem Repo sind auf GanbasedTrainer (siehe train_melgan.py, train_melgan_stft.py, train_multiband_melgan.py) und seq2SeqBasedTrainer (siehe Train_tacotron2., Train_fastspeech.py) ausgebildet.

End-to-End-Beispiele

Sie können wissen, wie Sie jedes Modell bei Notebooks inferenzieren oder ein Colab (für Englisch), Colab (für Koreanisch), Colab (für Chinesisch), Colab (für Französisch), Colab (für Deutsch) sehen können. Hier ist ein Beispielcode für End2end-Inferenz mit Fastspeech2 und Multi-Band Melgan. Wir haben alle unsere vorgezogenen in Huggingface -Hub hochgeladen.

 import numpy as np
import soundfile as sf
import yaml

import tensorflow as tf

from tensorflow_tts . inference import TFAutoModel
from tensorflow_tts . inference import AutoProcessor

# initialize fastspeech2 model.
fastspeech2 = TFAutoModel . from_pretrained ( "tensorspeech/tts-fastspeech2-ljspeech-en" )


# initialize mb_melgan model
mb_melgan = TFAutoModel . from_pretrained ( "tensorspeech/tts-mb_melgan-ljspeech-en" )


# inference
processor = AutoProcessor . from_pretrained ( "tensorspeech/tts-fastspeech2-ljspeech-en" )

input_ids = processor . text_to_sequence ( "Recent research at Harvard has shown meditating for as little as 8 weeks, can actually increase the grey matter in the parts of the brain responsible for emotional regulation, and learning." )
# fastspeech inference

mel_before , mel_after , duration_outputs , _ , _ = fastspeech2 . inference (
    input_ids = tf . expand_dims ( tf . convert_to_tensor ( input_ids , dtype = tf . int32 ), 0 ),
    speaker_ids = tf . convert_to_tensor ([ 0 ], dtype = tf . int32 ),
    speed_ratios = tf . convert_to_tensor ([ 1.0 ], dtype = tf . float32 ),
    f0_ratios = tf . convert_to_tensor ([ 1.0 ], dtype = tf . float32 ),
    energy_ratios = tf . convert_to_tensor ([ 1.0 ], dtype = tf . float32 ),
)

# melgan inference
audio_before = mb_melgan . inference ( mel_before )[ 0 , :, 0 ]
audio_after = mb_melgan . inference ( mel_after )[ 0 , :, 0 ]

# save to file
sf . write ( './audio_before.wav' , audio_before , 22050 , "PCM_16" )
sf . write ( './audio_after.wav' , audio_after , 22050 , "PCM_16" )

Kontakt

Minh nguyen quan anh: [email protected]
Erogol: [email protected]
Kuan Chen: [email protected]
Dawid Kobus: [email protected]
Takuya ebata: [email protected]
Trinh Le Quang: [email protected]
Yunchao er: [email protected]
Alejandro Miguel Velasquez: [email protected]

Lizenz

Alle Modelle hier sind unter dem Apache 2.0 lizenziert

Anerkennung

Wir möchten Tomoki Hayashi danken, der mit uns viel über Melgan, Multi-Band Melgan, Fastspeech und Tacotron bespricht. Dieser Rahmen, der sein großartiges Open-Source-Parallelwavegan-Projekt basiert.

Expandieren

Zusätzliche Informationen