Recentemente, o texto em fala (TTS) teve um grande progresso ao sintetizar a fala de alta qualidade devido ao rápido desenvolvimento de sistemas TTS paralelos, mas a produção de discurso com variações prosódicas naturalistas, estilos de palestras e tons emocionais continua desafiador. Além disso, como a duração e a fala são geradas separadamente, os modelos TTS paralelos ainda têm problemas para encontrar os melhores alinhamentos monotônicos que são cruciais para a síntese naturalista da fala. Aqui, propomos Styletts, um modelo generativo baseado em estilo para TTs paralelos que podem sintetizar a fala diversificada com a prosódia natural de uma expressão de fala de referência. Com um novo alinhador monotônico transferível (TMA) e esquemas de aumento de dados invariantes à duração, nosso método supera significativamente os modelos de ponta em conjuntos de dados de um único e multi-falante em testes subjetivos de naturalidade da fala e similaridade dos alto-falantes. Através do aprendizado auto-supervisionado dos estilos de fala, nosso modelo pode sintetizar a fala com o mesmo tom prosódico e emocional que qualquer discurso de referência sem a necessidade de rotular explicitamente essas categorias.
Papel: https://arxiv.org/abs/2107.10394
Amostras de áudio: https://styletts.github.io/
git clone https://github.com/yl4579/StyleTTS.git
cd StyleTTSpip install SoundFile torchaudio munch torch pydub pyyaml librosa git+https://github.com/resemble-ai/monotonic_align.gitTreinamento da primeira etapa:
python train_first.py --config_path ./Configs/config.ymlTreinamento do segundo estágio:
python train_second.py --config_path ./Configs/config.yml Você pode correr consecutivamente e ele treinará o primeiro e o segundo estágio. O modelo será salvo no formato "epoch_1st_%05d.tth" e "epoch_2nd_%05d.tth". Os pontos de verificação e os logs do Tensorboard serão salvos em log_dir .
O formato da lista de dados precisa ser filename.wav|transcription , consulte Val_list_libritts.txt como exemplo.
Consulte o inference.ipynb para obter detalhes.
Os estiletos pré-treinados e o HIFI-GAN no LJSpeech Corpus em 24 kHz podem ser baixados no link Styletts e Hifi-Gan.
Os estiletos pré-treinados e o HIFI-GAN no Libritts Corpus podem ser baixados no link Styletts e Hifi-Gan. Você também precisa baixar o teste de teste de Libritts se deseja executar a demonstração zero-tiro.
Descompacte os Models e Vocoder , respectivamente, e execute cada célula no caderno. Você também precisará instalar o PhoneMizer para executar esta demonstração de inferência.
Os modelos de alinhador de texto pré -treinamento e extrator de afinação são fornecidos na pasta Utils . Os modelos de alinhador de texto e extrator de pitch são treinados com melspectrogramas pré -processados usando meldataset.py.
Você pode editar o Meldataset.py com seu próprio pré -processamento de Melspectrograma, mas os modelos previstos previstas não funcionarão mais. Você precisará treinar seu próprio alinhador de texto e extrator de afinação com o novo pré -processamento.
O código para treinamento do modelo de novo texto de texto está disponível aqui e que para o treinamento de novos modelos de extrator de afinação está disponível aqui.
Fornecerei mais recepções com o pré -processamento existente, como os do Hifigan e ESPNET oficial no futuro, se eu tiver tempo extra. Se você estiver disposto a ajudar, sinta -se à vontade para fazer recibos com a ESPNET.