Tacotron 2 alemão e Melgan de várias bandas em tensorflow com suporte de inferência TF Lite
O Google suportou este trabalho, fornecendo crédito ao Google Cloud. Obrigado Google por apoiar o código aberto! ?
Estou lançando modelos de texto para fala em fala (TTS) pré-Treined Alemura (TTS) e Melgan de várias bandas. Ele suporta inferência nos formatos saved_model e TF Lite , e todos os modelos podem ser encontrados no Hub Tensorflow.
Diga olá em discussões se você achar útil para qualquer coisa.
inference.py para inferir com saved_model .inference_tflite.py para inferir com TF Lite .e2e-notebook.ipynb para verificar como eu exportei para esses formatos de modelo.Treinei esses modelos no conjunto de dados Thorsten por Thorsten Müller. É licenciado sob os termos do Creative Commons Zero V1 Universal (CC0), que é usado para optar por não participar completamente dos direitos autorais e garantir que o trabalho tenha o maior alcance. Obrigado @thorstenmueller por uma contribuição tão grande para a comunidade.
Alguns mocinhos estão fazendo um ótimo trabalho no Tensorspeech/Tensorflowtts, que já apoiava o TTS em inglês, chinês e coreano. Eu queria contribuir com o apoio para o alemão e treinar esses modelos. Agora ele suporta treinamento e inferência com processadores adequados. Uma postagem detalhada do blog será acompanhada, mas algumas notas rápidas por enquanto:
Tacotron 2 produz um pouco de ruído no final e você precisa cortá -lo. Novamente, exemplos de inferência mostram como fazer isso.Multi-band MelGAN para TF Lite sem otimizações porque produziu algum ruído de fundo quando exportei com os padrão. Usei otimizações padrão no Tacotron 2 .saved_model que estou lançando aqui não são adequados para o Finetuning. A implementação da arquitetura usa Subclassing API no TensorFlow 2.x e obtém várias entradas no método call para forçar o professor durante o treinamento. Isso causou alguns problemas ao exportar para saved_model e eu tive que remover essa lógica antes de exportar. Se você deseja modelos FineTune, consulte meu garfo de TensorFlowtts. Você pode usar esses artefatos e exemplos de código de modelo pré -terenciados nos termos da licença Apache 2.0. Por outro lado, você pode entrar em contato comigo para consultorias e/ou colaborações pagas em projetos de fala e/ou PNL no endereço de email mostrado no meu perfil.