Em nosso artigo recente, propomos WG-WaveNet, um modelo de geração de formas de onda rápido, leve e de alta qualidade. O WG-WaveNet é composto por um modelo compacto baseado em fluxo e um pós-filtro. Os dois componentes são treinados em conjunto, maximizando a probabilidade dos dados de treinamento e otimizando as funções de perda nos domínios de frequência. À medida que projetamos um modelo baseado em fluxo que é fortemente comprimido, o modelo proposto requer muito menos recursos computacionais em comparação com outros modelos de geração de formas de onda durante o treinamento e o tempo de inferência; Embora o modelo seja altamente comprimido, o pós-filtro mantém a qualidade da forma de onda gerada. Nossa implementação Pytorch pode ser treinada usando menos de 8 GB de memória GPU e gera amostras de áudio a uma taxa de mais de 5000 kHz em uma GPU NVIDIA 1080TI. Além disso, mesmo que sintetize em uma CPU, mostramos que o método proposto é capaz de gerar 44,1 kHz de forma de onda de fala 1,2 vezes mais rápido que em tempo real. As experiências também mostram que a qualidade do áudio gerado é comparável às de outros métodos.
Visite o DemoPage para amostras de áudio.
Baixe o discurso LJ. Neste exemplo, está em data/
Para treinamento, execute o seguinte comando.
python3 train.py --data_dir= < dir/to/dataset > --ckpt_dir= < dir/to/models >python3 train.py --data_dir= < dir/to/dataset > --ckpt_dir= < dir/to/models > --ckpt_pth= < pth/to/pretrained/model >python3 train.py --data_dir= < dir/to/dataset > --ckpt_dir= < dir/to/models > --log_dir= < dir/to/logs > python3 inference.py --ckpt_pth= < pth/to/model > --src_pth= < pth/to/src/wavs > --res_pth= < pth/to/save/wavs > Trabalho em andamento.
Combinaremos esse vocoder com o Tacotron2. Mais informações e a demonstração do Colab serão divulgadas aqui.