Download TensorFlowTTS - TensorFlowTTS Download de código fonte

TensorFlowTTS

Código-Fonte de IA

v1.8

Baixar

? Tensorflowtts

Síntese de fala em tempo real de ponta para Tensorflow 2

? TensorFlowTTS provides real-time state-of-the-art speech synthesis architectures such as Tacotron-2, Melgan, Multiband-Melgan, FastSpeech, FastSpeech2 based-on TensorFlow 2. With Tensorflow 2, we can speed-up training/inference progress, optimizer further by using fake-quantize aware and pruning, make TTS models can be run faster than real-time and be able to deploy on mobile devices or embedded systems.

O que há de novo

2021/08/18 ( Novo! ) Integrado aos espaços Hugging Space com Gradio. Veja Demonstração da Web Gradio.
2021/08/12 ( NOVO! ) Apoie TTS francês (Tacotron2, Multiband Melgan). Pls veja o colab. Muito obrigado Samuel DeLalez
2021/06/01 Integrado ao HUGGINGFACE HUB. Veja o pr. Obrigado Patrickvonplaten e Osanseviero
2021/03/18 Suporte iOS para FastSpeech2 e MB Melgan. Obrigado Kewlbear. Veja aqui
2021/01/18 Suporte a inferência Tflite C ++. Obrigado Luan78zaoha. Veja aqui
2020/12/02 Apoie o TTS alemão com o conjunto de dados Thorsten. Veja o Colab. Obrigado Thorstenmueller e Monatis
2020/11/24 Adicionar vocoder hifi-gan. Veja aqui
2020/11/19 Adicione o acumulador de gradiente multi-GPU. Veja aqui
2020/08/23 Adicione a implementação do TensorFlow de onda paralela. Veja aqui
2020/08/20 Adicione o código de inferência C ++. Obrigado @ZDisket. Veja aqui
2020/08/18 Atualize o novo processador base. Adicione o arquivo JSON de autoprocessador e processador pré -terenciado
2020/08/14 Apoio a TTS chinesa. Pls veja o colab. Obrigado @azraelkuan
2020/08/05 Apoie o coreano TTS. Pls veja o colab. Obrigado @crux153
2020/07/17 Suporte a multigpu para todos os treinadores
2020/07/05 SUPORTE CONVERTA TACOTRON-2, FASTSPEECH em Tflite. Pls veja o colab. Obrigado @jaeyoo da equipe Tflite por seu apoio
2020/06/20 A implementação do FastSpeech2 com o TensorFlow é suportado.
2020/06/07 Multi-Band Melgan (MB Melgan) A implementação com TensorFlow é suportada

Características

Alto desempenho na síntese de fala.
Ser capaz de ajustar outros idiomas.
Rápido, escalável e confiável.
Adequado para implantação.
Fácil de implementar um novo modelo, baseada em classe abstrata.
Precisão mista para acelerar o treinamento, se possível.
Suporte o gradiente único/multi -GPU acumulado.
Apoie a classe de treinador única/multi -multi na classe de instrutores.
Conversão Tflite para todos os modelos suportados.
Exemplo do Android.
Apoie muitos idiomas (atualmente, apoiamos chinês, coreano, inglês, francês e alemão)
Apoie a inferência C ++.
Suporte converter peso para alguns modelos de pytorch em tensorflow para acelerar a velocidade.

Requisitos

Este repositório é testado no Ubuntu 18.04 com:

Python 3.7+
CUDA 10.1
CUDNN 7.6.5
Tensorflow 2.2/2.3/2.4/2.5/2.6
Addons Tensorflow> = 0,10.0

A versão diferente do TensorFlow deve estar funcionando, mas ainda não testada. Este repositório tentará trabalhar com a mais recente versão estável tensorflow. Recomendamos que você instale o TensorFlow 2.6.0 para o treinamento, caso deseje usar o Multigpu.

Instalação

Com pip

$ pip install TensorFlowTTS

Da fonte

Os exemplos estão incluídos no repositório, mas não são enviados com a estrutura. Portanto, para executar a versão mais recente dos exemplos, você precisa instalar a fonte abaixo.

$ git clone https://github.com/TensorSpeech/TensorFlowTTS.git
$ cd TensorFlowTTS
$ pip install .

Se você deseja atualizar o repositório e suas dependências:

$ git pull
$ pip install --upgrade .

Arquiteturas de modelo suportadas

Atualmente, o TensorFlowtts fornece as seguintes arquiteturas:

Melgan lançou com o artigo Melgan: redes adversárias generativas para síntese de formas de onda condicional por Kundan Kumar, Rithesh Kumar, Thibault de Boissiere, Lucas Gestin, Wei Zhen Teoh, Jose Sotelo, Alexandre de Brebisson, Yoshua Bengio, Aaron Courville.
Tacotron-2 released with the paper Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions by Jonathan Shen, Ruoming Pang, Ron J. Weiss, Mike Schuster, Navdeep Jaitly, Zongheng Yang, Zhifeng Chen, Yu Zhang, Yuxuan Wang, RJ Skerry-Ryan, Rif A. Saurous, Yannis Agiomyrgiannakis, Yonghui wu.
O FastSpeech foi lançado com o papel FastSpeech: texto rápido, robusto e controlável para a fala de Yi Ren, Yangjun Ruan, Xu Tan, Tao Qin, Sheng Zhao, Zhou Zhao, Tie-Yan Liu.
O Melgan multi-banda foi lançado com o papel Melgan multi-banda: geração de formas de onda mais rápida para o texto em fala de alta qualidade por Geng Yang, Shan Yang, Kai Liu, Peng Fang, Wei Chen, Lei Xie.
O FastSpeech2 foi lançado com o papel FastSpeech 2: texto de ponta a ponta rápido e de alta qualidade para a fala de Yi Ren, Chenxu Hu, Xu Tan, Tao Qin, Sheng Zhao, Zhou Zhao, Tie-Yan Liu.
Godane de onda paralela liberada com o modelo de onda paralelo de papel: um modelo de geração de formas de onda rápido baseado em redes adversárias generativas com espectrograma de várias resolução por Ryuichi Yamamoto, música de Eunwoo, Jae-min Kim.
Hifi-Gan liberado com o papel Hifi-Gan: Redes adversárias generativas para síntese de fala eficiente e de alta fidelidade por Jungil Kong, Jaehyeon Kim, Jaekyoung Bae.

Também estamos implementando algumas técnicas para melhorar a velocidade de qualidade e convergência dos documentos a seguir:

Perda de atenção guiada libertada com o artigo com eficiência do sistema de texto em fala com base em redes convolucionais profundas com atenção guiada de Hideyuki Tachibana, Katsuya Uenoyama, Shunsuke Aihara.

Amostras de áudio

Aqui em uma amostras de áudio no conjunto válido. Tacotron-2, FastSpeech, Melgan, Melgan.stft, FastSpeech2, multiband_melgan

Tutorial de ponta a ponta

Prepare o conjunto de dados

Prepare um conjunto de dados no seguinte formato:

 |- [NAME_DATASET]/
|   |- metadata.csv
|   |- wavs/
|       |- file1.wav
|       |- ...

Onde metadata.csv possui o seguinte formato: id|transcription . Este é um formato de LJSpeech; Você pode ignorar as etapas de pré -processamento se tiver outros conjuntos de dados de formato.

Observe que NAME_DATASET deve ser [ljspeech/kss/baker/libritts/synpaflex] por exemplo.

Pré -processamento

O pré -processamento tem duas etapas:

Recursos de áudio de pré -processo
- Converter caracteres em ids
- Calcule os espectrogramas MEL
- Normalize os espectrogramas MEL para [-1, 1] intervalo
- Divida o conjunto de dados em trem e validação
- Calcule a média e o desvio padrão de vários recursos da divisão de treinamento
Padronizar o espectrograma MEL com base em estatísticas computadas

Para reproduzir as etapas acima:

 tensorflow-tts-preprocess --rootdir ./[ljspeech/kss/baker/libritts/thorsten/synpaflex] --outdir ./dump_[ljspeech/kss/baker/libritts/thorsten/synpaflex] --config preprocess/[ljspeech/kss/baker/thorsten/synpaflex]_preprocess.yaml --dataset [ljspeech/kss/baker/libritts/thorsten/synpaflex]
tensorflow-tts-normalize --rootdir ./dump_[ljspeech/kss/baker/libritts/thorsten/synpaflex] --outdir ./dump_[ljspeech/kss/baker/libritts/thorsten/synpaflex] --config preprocess/[ljspeech/kss/baker/libritts/thorsten/synpaflex]_preprocess.yaml --dataset [ljspeech/kss/baker/libritts/thorsten/synpaflex]

No momento, apoiamos apenas ljspeech , kss , baker , libritts , thorsten e synpaflex para o argumento do conjunto de dados. No futuro, pretendemos suportar mais conjuntos de dados.

NOTA : Para executar o pré -processamento libritts , leia primeiro as instruções em exemplos/fastspeech2_libritt. Precisamos reformatá -lo primeiro antes de executar o pré -processamento.

NOTA : Para executar o pré -processamento synpaflex , primeiro execute o notebooks notebooks/prepare_synpaflex.ipynb. Precisamos reformatá -lo primeiro antes de executar o pré -processamento.

Após o pré -processamento, a estrutura da pasta do projeto deve ser:

 |- [NAME_DATASET]/
|   |- metadata.csv
|   |- wav/
|       |- file1.wav
|       |- ...
|- dump_[ljspeech/kss/baker/libritts/thorsten]/
|   |- train/
|       |- ids/
|           |- LJ001-0001-ids.npy
|           |- ...
|       |- raw-feats/
|           |- LJ001-0001-raw-feats.npy
|           |- ...
|       |- raw-f0/
|           |- LJ001-0001-raw-f0.npy
|           |- ...
|       |- raw-energies/
|           |- LJ001-0001-raw-energy.npy
|           |- ...
|       |- norm-feats/
|           |- LJ001-0001-norm-feats.npy
|           |- ...
|       |- wavs/
|           |- LJ001-0001-wave.npy
|           |- ...
|   |- valid/
|       |- ids/
|           |- LJ001-0009-ids.npy
|           |- ...
|       |- raw-feats/
|           |- LJ001-0009-raw-feats.npy
|           |- ...
|       |- raw-f0/
|           |- LJ001-0001-raw-f0.npy
|           |- ...
|       |- raw-energies/
|           |- LJ001-0001-raw-energy.npy
|           |- ...
|       |- norm-feats/
|           |- LJ001-0009-norm-feats.npy
|           |- ...
|       |- wavs/
|           |- LJ001-0009-wave.npy
|           |- ...
|   |- stats.npy
|   |- stats_f0.npy
|   |- stats_energy.npy
|   |- train_utt_ids.npy
|   |- valid_utt_ids.npy
|- examples/
|   |- melgan/
|   |- fastspeech/
|   |- tacotron2/
|   ...

stats.npy contém a média e a DST dos espectrogramas Mel Split de Treinamento
stats_energy.npy contém a média e o padrão dos valores de energia da divisão de treinamento
stats_f0.npy contém a média e a DST dos valores F0 na divisão de treinamento
train_utt_ids.npy / valid_utt_ids.npy contém IDs de treinamento e validação, respectivamente

Utilizamos sufixo ( ids , raw-feats , raw-energy , raw-f0 , norm-feats e wave ) para cada tipo de entrada.

Notas importantes :

Esta etapa de pré -processamento é baseada no ESPNET para que você possa combinar todos os modelos aqui com outros modelos do Repositório da ESPNET.
Independentemente de como seu conjunto de dados é formatado, a estrutura final da pasta dump deve seguir a estrutura acima para poder usar o script de treinamento ou você pode modificá -lo sozinho?

Modelos de treinamento

Para saber como treinar o modelo do zero ou ajustar com outros conjuntos de dados/idiomas, consulte os detalhes no diretório de exemplo.

Para tutorial de tacotron-2, pls consulte exemplos/tacotron2
Para o tutorial do FastSpeech, por favor, consulte Exemplos/FastSpeech
Para o tutorial do fastspeech2, por favor, consulte Exemplos/FastSpeech2
Para o tutorial do FastSpeech2 + MFA, por favor, consulte Exemplos/FastSpeech2_libritts
Para o tutorial de Melgan, por favor, veja exemplos/Melgan
Para Melgan + STFT Loss Tutorial, por favor, consulte Exemplos/Melgan.stft
Para o tutorial multiband-Melgan, pls consulte Exemplos/Multiband_melgan
Para o tutorial de órgãos paralelos, por favor, consulte exemplos/parallel_wavegan
Para gerador multiband-microgan + tutorial hifi-gan, pls consulte exemplos/multiband_melgan_hf
Para o tutorial Hifi-Gan, por favor, consulte Exemplos/Hifigan

Explicação abstrata de classe

Resumo Dataloader Tensorflow DataSet

Uma implementação detalhada da classe abstrata do conjunto de dados de tensorflow_tts/dataset/abstract_dataset. Existem algumas funções que você precisa sobrecarregar e entender:

get_args : esta função retorna argumentação para a classe geradora , normalmente é utt_ids.
Gerador : Esta função possui uma entrada da função get_args e retorna uma entrada para modelos. Observe que retornamos um dicionário para todas as funções do gerador com as teclas que correspondem exatamente aos parâmetros do modelo, porque o Base_Trainer usará o Modelo (** lote) para fazer a etapa avançada.
get_output_dtypes : esta função precisa retornar dtypes para cada elemento da função geradora .
get_len_dataSet : retornar len de conjuntos de dados, normalmente é len (utt_ids).

Notas importantes :

Um pipeline de criação do conjunto de dados deve ser: cache -> shuffle -> map_fn -> get_batch -> prefissão.
Se você embaralhar antes do cache, o conjunto de dados não embaralhará quando reiterar sobre os conjuntos de dados.
Você deve aplicar o MAP_FN para fazer com que cada elemento retorne da função do gerador tenha o mesmo comprimento antes de obter lote e alimentá -lo em um modelo.

Alguns exemplos para usar este abstrato_dataset são tacotron_dataset.py, fastspeech_dataset.py, melgan_dataset.py, fastspeech2_dataset.py

Classe de treinador abstrato

Uma implementação detalhada de base_trainer de tensorflow_tts/treinador/base_trainener.py. Inclui seq2SeqBasedTrainer e Herit de baseado em GanBasedTrain do BasedTrainer. Todos os treinadores suportam a GPU único/multi. Existem algumas funções que você deve exagerar ao implementar new_trainer:

Compilar : esta função visa definir modelos e perdas.
GERETE_AND_SAVE_INTERMEDIATE_RESULT : Esta função salvará o resultado intermediário, como: alinhamento da plotagem, salvar áudio gerado, plota
Compute_per_example_losses : Esta função calculará PER_EXAMPLE_LOSS PARA MODELO, Observe que todo elemento da perda deve ter forma [Batch_size].

Todos os modelos neste repositório são treinados com base no ganbasedtrainer (consulte Train_melgan.py, Train_melgan_stft.py, Train_multiband_melgan.py) e seq2seqbasedtrainer (consulte Train_tacotron2.py, Train_fastspeech.py).

Exemplos de ponta a ponta

Você pode saber como inferência cada modelo em notebooks ou ver um colab (para inglês), colab (para coreano), colab (para chinês), colab (para francês), colab (para alemão). Aqui está um código de exemplo para a inferência END2END com FastSpeech2 e Melgan de várias bandas. Carregamos todo o nosso hub de hubs huggingface.

 import numpy as np
import soundfile as sf
import yaml

import tensorflow as tf

from tensorflow_tts . inference import TFAutoModel
from tensorflow_tts . inference import AutoProcessor

# initialize fastspeech2 model.
fastspeech2 = TFAutoModel . from_pretrained ( "tensorspeech/tts-fastspeech2-ljspeech-en" )


# initialize mb_melgan model
mb_melgan = TFAutoModel . from_pretrained ( "tensorspeech/tts-mb_melgan-ljspeech-en" )


# inference
processor = AutoProcessor . from_pretrained ( "tensorspeech/tts-fastspeech2-ljspeech-en" )

input_ids = processor . text_to_sequence ( "Recent research at Harvard has shown meditating for as little as 8 weeks, can actually increase the grey matter in the parts of the brain responsible for emotional regulation, and learning." )
# fastspeech inference

mel_before , mel_after , duration_outputs , _ , _ = fastspeech2 . inference (
    input_ids = tf . expand_dims ( tf . convert_to_tensor ( input_ids , dtype = tf . int32 ), 0 ),
    speaker_ids = tf . convert_to_tensor ([ 0 ], dtype = tf . int32 ),
    speed_ratios = tf . convert_to_tensor ([ 1.0 ], dtype = tf . float32 ),
    f0_ratios = tf . convert_to_tensor ([ 1.0 ], dtype = tf . float32 ),
    energy_ratios = tf . convert_to_tensor ([ 1.0 ], dtype = tf . float32 ),
)

# melgan inference
audio_before = mb_melgan . inference ( mel_before )[ 0 , :, 0 ]
audio_after = mb_melgan . inference ( mel_after )[ 0 , :, 0 ]

# save to file
sf . write ( './audio_before.wav' , audio_before , 22050 , "PCM_16" )
sf . write ( './audio_after.wav' , audio_after , 22050 , "PCM_16" )

Contato

Minh Nguyen Quan Anh: [email protected]
erogol: [email protected]
Kuan Chen: [email protected]
Dawid Kobus: [email protected]
Takuya ebata: [email protected]
Trinh le Quang: [email protected]
Yunchao ele: [email protected]
Alejandro Miguel Velasquez: [email protected]

Licença

Todos os modelos aqui estão licenciados no Apache 2.0

Reconhecimento

Queremos agradecer a Tomoki Hayashi, que discutiu conosco muito sobre Melgan, Melgan de várias bandas, FastSpeech e Tacotron. Essa estrutura baseou-se em seu grande projeto de paralelo owavegan.

Expandir

Informações adicionais

Versão v1.8
Tipo Código-Fonte de IA
Data da Última Atualização 2025-08-21
tamanho 41.84MB
Vindo de Github

Aplicativos Relacionados

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos