Esta é uma reimplementação do vocoder neural em Difwave: um modelo de difusão versátil para a síntese de áudio.
Para continuar treinando o modelo, execute python distributed_train.py -c config_${channel}.json , onde ${channel} pode ser 64 ou 128 .
Para treinar o modelo, altere o parâmetro ckpt_iter no arquivo json correspondente para -1 e use o comando acima.
Para gerar áudio, execute python inference.py -c config_${channel}.json -cond ${conditioner_name} . Por exemplo, se o nome do espectrograma MEL for LJ001-0001.wav.pt , então ${conditioner_name} é LJ001-0001 . Os espectrogramas MEL desde que incluem LJ001-0001 a LJ001-0186 .
Observe que você pode precisar ajustar cuidadosamente alguns parâmetros no arquivo json , como data_path e batch_size_per_gpu .