Unduh TensorFlowTTS - Unduh Kode Sumber TensorFlowTTS

TensorFlowTTS

Kode Sumber AI

v1.8

Unduh

? Tensorflowtts

Sintesis ucapan canggih real-time untuk TensorFlow 2

? TensorFlowTTS provides real-time state-of-the-art speech synthesis architectures such as Tacotron-2, Melgan, Multiband-Melgan, FastSpeech, FastSpeech2 based-on TensorFlow 2. With Tensorflow 2, we can speed-up training/inference progress, optimizer further by using fake-quantize aware and pruning, make TTS models can be run faster than real-time and be able to deploy on mobile devices or embedded sistem.

Apa yang baru

2021/08/18 ( baru! ) Terintegrasi ke ruang pelukan dengan gradio. Lihat Demo Web Gradio.
2021/08/12 ( Baru! ) Mendukung TT Prancis (Tacotron2, Multiband Melgan). Tolong lihat colab. Banyak terima kasih samuel delalez
2021/06/01 Terintegrasi dengan HUB HUGGINGFACE. Lihat PR. Terima kasih Patrickvonplaten dan Osanseviero
2021/03/18 Dukungan iOS untuk FastSpeech2 dan MB Melgan. Terima kasih Kewlbear. Lihat di sini
2021/01/18 Mendukung inferensi TFLITE C ++. Terima kasih Luan78zaoha. Lihat di sini
2020/12/02 Mendukung TTS Jerman dengan Dataset Thorsten. Lihat Colab. Terima kasih Thorstenmueller dan Monatis
2020/11/24 Tambahkan vocoder hifi-gan. Lihat di sini
2020/11/19 Tambahkan akumulator gradien multi-GPU. Lihat di sini
2020/08/23 Tambahkan Implementasi Paralel Wavegan TensorFlow. Lihat di sini
2020/08/20 Tambahkan kode inferensi C ++. Terima kasih @zdisket. Lihat di sini
2020/08/18 Perbarui prosesor basis baru. Tambahkan autoprosesor dan file json prosesor pretrained
2020/08/14 Mendukung TT Cina. Tolong lihat colab. Terima kasih @Azraelkuan
2020/08/05 Mendukung TT Korea. Tolong lihat colab. Terima kasih @crux153
2020/07/17 Dukungan Multigpu untuk Semua Pelatih
2020/07/05 Dukungan Konversi Tacotron-2, Fastspeech ke Tflite. Tolong lihat colab. Terima kasih @jaeyoo dari tim TFLITE atas dukungannya
2020/06/20 Implementasi FastSpeech2 dengan TensorFlow didukung.
2020/06/07 Multi-band Melgan (MB Melgan) Implementasi dengan TensorFlow didukung

Fitur

Kinerja tinggi pada sintesis ucapan.
Dapat menyempurnakan bahasa lain.
Cepat, dapat diskalakan, dan dapat diandalkan.
Cocok untuk penempatan.
Mudah menerapkan model baru, kelas abstrak berdasarkan.
Presisi campuran untuk pelatihan mempercepat jika memungkinkan.
Dukung gradien tunggal/multi GPU menumpuk.
Dukung GPU tunggal/multi di kelas pelatih dasar.
Konversi tflite untuk semua model yang didukung.
Contoh Android.
Mendukung banyak bahasa (saat ini, kami mendukung Cina, Korea, Inggris, Prancis dan Jerman)
Dukung inferensi C ++.
Dukung Bobot Konversi untuk Beberapa Model Dari Pytorch ke TensorFlow untuk mempercepat kecepatan.

Persyaratan

Repositori ini diuji pada Ubuntu 18.04 dengan:

Python 3.7+
Cuda 10.1
Cudnn 7.6.5
TensorFlow 2.2/2.3/2.4/2.5/2.6
TensorFlow Addons> = 0.10.0

Versi TensorFlow yang berbeda harus berfungsi tetapi belum diuji. Repo ini akan mencoba bekerja dengan versi TensorFlow stabil terbaru. Kami menyarankan Anda menginstal TensorFlow 2.6.0 untuk berlatih jika Anda ingin menggunakan MultigPU.

Instalasi

Dengan pip

$ pip install TensorFlowTTS

Dari sumber

Contohnya termasuk dalam repositori tetapi tidak dikirim dengan kerangka kerja. Oleh karena itu, untuk menjalankan contoh versi terbaru, Anda perlu menginstal sumber di bawah ini.

$ git clone https://github.com/TensorSpeech/TensorFlowTTS.git
$ cd TensorFlowTTS
$ pip install .

Jika Anda ingin meningkatkan repositori dan dependensinya:

$ git pull
$ pip install --upgrade .

Arsitektur model yang didukung

TensorFlowTTS saat ini menyediakan arsitektur berikut:

Melgan dirilis dengan kertas Melgan: Jaringan permusuhan generatif untuk sintesis bentuk gelombang bersyarat oleh Kundan Kumar, Rithesh Kumar, Thibault de Boissiere, Lucas Gestin, Wei Zhen Teoh, Jose Sotelo, Alexandre de Brebisson, Yoshua Bengio, Aaron.
Tacotron-2 dirilis dengan kertas sintesis TTS alami dengan mengkondisikan Wavenet pada prediksi spektrogram Mel oleh Jonathan Shen, Ruoming Pang, Ron J. Weiss, Mike Schuster, Navdeep Jaitly, Zongheng Yang, Zhifeng Chen, Yu Zhang, Yuxuan Wang, Rj Skerry-Rerry-Cerry, Yu Zhang, Yuxuan Wang, RJ Skerry-Rry-Rry, Yu Zhang, Yuxuan Wang, RJ Skerry-Rry, Yonghui Wu.
Fastspeech dirilis dengan kertas FastSpeech: teks cepat, kuat, dan dapat dikendalikan oleh Yi Ren, Yangjun Ruan, Xu Tan, Tao Qin, Sheng Zhao, Zhou Zhao, Tie-yan Liu.
Multi-band Melgan dirilis dengan kertas multi-band Melgan: Generasi bentuk gelombang yang lebih cepat untuk teks-ke-speech berkualitas tinggi oleh Geng Yang, Shan Yang, Kai Liu, Peng Fang, Wei Chen, Lei Xie.
Fastspeech2 dirilis dengan kertas Fastspeech 2: teks ujung ke ujung berkualitas tinggi dan berkualitas tinggi untuk diucapkan oleh Yi Ren, Chenxu Hu, Xu Tan, Tao Qin, Sheng Zhao, Zhou Zhao, Tie-yan Liu.
Paralel Wavegan dirilis dengan kertas paralel Wavegan: model generasi gelombang cepat berdasarkan jaringan permusuhan generatif dengan spektrogram multi-resolusi oleh Ryuichi Yamamoto, lagu Eunwoo, Jae-Min Kim.
HiFi-Gan dirilis dengan kertas HiFi-Gan: Jaringan permusuhan generatif untuk sintesis pidato kesetiaan yang efisien dan tinggi oleh Jungil Kong, Jaehyeon Kim, Jaekyoung Bae.

Kami juga menerapkan beberapa teknik untuk meningkatkan kualitas dan kecepatan konvergensi dari makalah berikut:

Kehilangan perhatian yang dipandu dirilis dengan makalah ini sistem teks-ke-ucapan yang dapat dilatih secara efisien berdasarkan jaringan konvolusional yang mendalam dengan perhatian terpandu oleh Hideyuki Tachibana, Katsuya Uenoyama, Shunsuke Aihara.

Sampel audio

Di sini, dalam sampel audio di set yang valid. Tacotron-2, FastSpeech, Melgan, Melgan.stft, FastSpeech2, Multiband_Melgan

Tutorial ujung ke ujung

Siapkan dataset

Siapkan dataset dalam format berikut:

 |- [NAME_DATASET]/
|   |- metadata.csv
|   |- wavs/
|       |- file1.wav
|       |- ...

Di mana metadata.csv memiliki format berikut: id|transcription . Ini adalah format seperti LJSPEECH; Anda dapat mengabaikan langkah -langkah preprocessing jika Anda memiliki set data format lainnya.

Perhatikan bahwa NAME_DATASET harus [ljspeech/kss/baker/libritts/synpaflex] misalnya.

Preprocessing

Preprocessing memiliki dua langkah:

Fitur Audio Preprocess
- Konversi karakter ke ID
- Hitung spektrogram Mel
- Normalisasi spektrogram Mel ke kisaran [-1, 1]
- Pisahkan dataset menjadi kereta dan validasi
- Hitung rata -rata dan standar deviasi beberapa fitur dari split pelatihan
Standarisasi spektrogram MEL berdasarkan statistik yang dihitung

Untuk mereproduksi langkah -langkah di atas:

 tensorflow-tts-preprocess --rootdir ./[ljspeech/kss/baker/libritts/thorsten/synpaflex] --outdir ./dump_[ljspeech/kss/baker/libritts/thorsten/synpaflex] --config preprocess/[ljspeech/kss/baker/thorsten/synpaflex]_preprocess.yaml --dataset [ljspeech/kss/baker/libritts/thorsten/synpaflex]
tensorflow-tts-normalize --rootdir ./dump_[ljspeech/kss/baker/libritts/thorsten/synpaflex] --outdir ./dump_[ljspeech/kss/baker/libritts/thorsten/synpaflex] --config preprocess/[ljspeech/kss/baker/libritts/thorsten/synpaflex]_preprocess.yaml --dataset [ljspeech/kss/baker/libritts/thorsten/synpaflex]

Saat ini kami hanya mendukung ljspeech , kss , baker , libritts , thorsten dan synpaflex untuk argumen dataset. Di masa depan, kami bermaksud mendukung lebih banyak kumpulan data.

Catatan : Untuk menjalankan preprocessing libritts , silakan baca pertama instruksi dalam contoh/fastspeech2_libritts. Kita perlu memformat ulang terlebih dahulu sebelum menjalankan preprocessing.

CATATAN : Untuk menjalankan preprocessing synpaflex , silakan jalankan notebook notebooks/prepared_synpaflex.ipynb. Kita perlu memformat ulang terlebih dahulu sebelum menjalankan preprocessing.

Setelah preprocessing, struktur folder proyek harus:

 |- [NAME_DATASET]/
|   |- metadata.csv
|   |- wav/
|       |- file1.wav
|       |- ...
|- dump_[ljspeech/kss/baker/libritts/thorsten]/
|   |- train/
|       |- ids/
|           |- LJ001-0001-ids.npy
|           |- ...
|       |- raw-feats/
|           |- LJ001-0001-raw-feats.npy
|           |- ...
|       |- raw-f0/
|           |- LJ001-0001-raw-f0.npy
|           |- ...
|       |- raw-energies/
|           |- LJ001-0001-raw-energy.npy
|           |- ...
|       |- norm-feats/
|           |- LJ001-0001-norm-feats.npy
|           |- ...
|       |- wavs/
|           |- LJ001-0001-wave.npy
|           |- ...
|   |- valid/
|       |- ids/
|           |- LJ001-0009-ids.npy
|           |- ...
|       |- raw-feats/
|           |- LJ001-0009-raw-feats.npy
|           |- ...
|       |- raw-f0/
|           |- LJ001-0001-raw-f0.npy
|           |- ...
|       |- raw-energies/
|           |- LJ001-0001-raw-energy.npy
|           |- ...
|       |- norm-feats/
|           |- LJ001-0009-norm-feats.npy
|           |- ...
|       |- wavs/
|           |- LJ001-0009-wave.npy
|           |- ...
|   |- stats.npy
|   |- stats_f0.npy
|   |- stats_energy.npy
|   |- train_utt_ids.npy
|   |- valid_utt_ids.npy
|- examples/
|   |- melgan/
|   |- fastspeech/
|   |- tacotron2/
|   ...

stats.npy berisi rata -rata dan STD dari spektrogram terpisah pelatihan
stats_energy.npy berisi rata -rata dan std nilai energi dari split pelatihan
stats_f0.npy berisi nilai rata -rata dan std dari f0 dalam split pelatihan
train_utt_ids.npy / valid_utt_ids.npy masing -masing berisi ID pelatihan dan ucapan validasi

Kami menggunakan sufiks ( ids , raw-feats , raw-energy , raw-f0 , norm-feats , dan wave ) untuk setiap jenis input.

Catatan Penting :

Langkah preprocessing ini didasarkan pada ESPNET sehingga Anda dapat menggabungkan semua model di sini dengan model lain dari repositori ESPNet.
Terlepas dari bagaimana dataset Anda diformat, struktur akhir folder dump harus mengikuti struktur di atas untuk dapat menggunakan skrip pelatihan, atau Anda dapat memodifikasinya sendiri?

Model pelatihan

Untuk mengetahui cara melatih model dari awal atau menyempurnakan dengan kumpulan data/bahasa lain, silakan lihat detail di Contoh Direktori.

Untuk tutorial Tacotron-2, tolong lihat contoh/tacotron2
Untuk tutorial FastSpeech, mohon lihat contoh/fastspeech
Untuk tutorial FastSpeech2, mohon lihat contoh/fastspeech2
Untuk tutorial FastSpeech2 + MFA, tolong lihat contoh/fastspeech2_libritts
Untuk tutorial Melgan, silakan lihat contoh/Melgan
Untuk Tutorial Kehilangan Melgan + STFT, tolong lihat contoh/Melgan.stft
Untuk tutorial multiband-selgan, tolong lihat contoh/multiband_melgan
Untuk tutorial Wavegan paralel, tolong lihat contoh/paralel_wavegan
Untuk Generator Multiband-Melgan + Tutorial HiFi-Gan, tolong lihat contoh/multiband_melgan_hf
Untuk tutorial Hifi-Gan, mohon lihat contoh/hifigan

Penjelasan Kelas Abstrak

Dataset berbasis DATALOADER TENSOLDERT

Implementasi detail kelas dataset abstrak dari TensorFlow_TTS/Dataset/Abstract_dataset. Ada beberapa fungsi yang Anda butuhkan di seluruh negeri dan pahami:

Get_args : Fungsi ini argumentasi pengembalian untuk kelas generator , biasanya utt_ids.
Generator : Fungsi ini memiliki input dari fungsi get_args dan mengembalikan input untuk model. Perhatikan bahwa kami mengembalikan kamus untuk semua fungsi generator dengan tombol yang persis cocok dengan parameter model karena base_trainer akan menggunakan model (** batch) untuk melakukan langkah maju.
get_output_dtypes : Fungsi ini perlu mengembalikan dTypes untuk setiap elemen dari fungsi generator .
get_len_dataset : return len of datasets, normaly adalah len (utt_ids).

Catatan Penting :

Pipa membuat dataset harus: cache -> shuffle -> map_fn -> get_batch -> prefetch.
Jika Anda mengocok sebelum cache, dataset tidak akan mengocok saat mengulangi kumpulan data.
Anda harus menerapkan MAP_FN untuk membuat setiap elemen kembali dari fungsi generator memiliki panjang yang sama sebelum mendapatkan batch dan memasukkannya ke dalam model.

Beberapa contoh untuk menggunakan abstrak ini adalah tacotron_dataset.py, fastspeech_dataset.py, melgan_dataset.py, fastspeech2_dataset.py

Kelas pelatih abstrak

Implementasi detail base_trainer dari tensorflow_tts/trainer/base_trainer.py. Ini termasuk seq2seqbasedtrainer dan ganbasedtrainer warisan dari berdasarkan Basedtrainer. Semua pelatih mendukung GPU tunggal/multi. Ada beberapa fungsi yang harus Anda kelebihan saat mengimplementasikan new_trainer:

Kompilasi : Fungsi ini bertujuan untuk mendefinisikan model, dan kerugian.
Generate_and_save_intermediate_result : Fungsi ini akan menyimpan hasil perantara seperti: Plot Alignment, Simpan Audio yang Dihasilkan, Plot Mel-Spectrogram ...
compute_per_example_losses : Fungsi ini akan menghitung per_example_loss untuk model, perhatikan bahwa semua elemen kerugian harus memiliki bentuk [batch_size].

Semua model pada repo ini dilatih berdasarkan ganbasedtrainer (lihat train_melgan.py, train_melgan_stft.py, train_multiband_melgan.py) dan seq2seqbasedtrainer (lihat train_tacotron2.py, train_fastspeech.py).

Contoh ujung ke ujung

Anda dapat mengetahui cara menyimpulkan setiap model di notebook atau melihat Colab (untuk bahasa Inggris), Colab (untuk Korea), Colab (untuk Cina), Colab (untuk Prancis), Colab (untuk Jerman). Berikut adalah contoh kode untuk inferensi end2end dengan fastspeech2 dan multi-band Melgan. Kami mengunggah semua pretrained kami di Huggingface Hub.

 import numpy as np
import soundfile as sf
import yaml

import tensorflow as tf

from tensorflow_tts . inference import TFAutoModel
from tensorflow_tts . inference import AutoProcessor

# initialize fastspeech2 model.
fastspeech2 = TFAutoModel . from_pretrained ( "tensorspeech/tts-fastspeech2-ljspeech-en" )


# initialize mb_melgan model
mb_melgan = TFAutoModel . from_pretrained ( "tensorspeech/tts-mb_melgan-ljspeech-en" )


# inference
processor = AutoProcessor . from_pretrained ( "tensorspeech/tts-fastspeech2-ljspeech-en" )

input_ids = processor . text_to_sequence ( "Recent research at Harvard has shown meditating for as little as 8 weeks, can actually increase the grey matter in the parts of the brain responsible for emotional regulation, and learning." )
# fastspeech inference

mel_before , mel_after , duration_outputs , _ , _ = fastspeech2 . inference (
    input_ids = tf . expand_dims ( tf . convert_to_tensor ( input_ids , dtype = tf . int32 ), 0 ),
    speaker_ids = tf . convert_to_tensor ([ 0 ], dtype = tf . int32 ),
    speed_ratios = tf . convert_to_tensor ([ 1.0 ], dtype = tf . float32 ),
    f0_ratios = tf . convert_to_tensor ([ 1.0 ], dtype = tf . float32 ),
    energy_ratios = tf . convert_to_tensor ([ 1.0 ], dtype = tf . float32 ),
)

# melgan inference
audio_before = mb_melgan . inference ( mel_before )[ 0 , :, 0 ]
audio_after = mb_melgan . inference ( mel_after )[ 0 , :, 0 ]

# save to file
sf . write ( './audio_before.wav' , audio_before , 22050 , "PCM_16" )
sf . write ( './audio_after.wav' , audio_after , 22050 , "PCM_16" )

Kontak

Minh Nguyen Quan Anh: [email protected]
erogol: [email protected]
Kuan Chen: [email protected]
Dawid Kobus: [email protected]
Takuya Ebata: [email protected]
Trinh Le Quang: [email protected]
Yunchao He: [email protected]
Alejandro Miguel Velasquez: [email protected]

Lisensi

Semua model di sini dilisensikan di bawah Apache 2.0

Pengakuan

Kami ingin mengucapkan terima kasih kepada Tomoki Hayashi, yang banyak berdiskusi dengan kami tentang Melgan, Multi-band Melgan, Fastspeech, dan Tacotron. Kerangka kerja ini berdasarkan proyek paralelwavegan open-source-nya yang hebat ini.

Memperluas

Informasi Tambahan

Versi v1.8
Tipe Kode Sumber AI
Waktu Pembaruan 2025-08-21
ukuran 41.84MB
Berasal dari Github

Aplikasi Terkait

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ML stack

Kode Sumber AI

1.0.0
awesome free chatgpt

Kode Sumber AI

1.0.0
pywin_contextmenu

Kode Sumber AI

Version update
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua