Download de StyleTTS - Download de código -fonte StyleTTS

StyleTTS

Código-Fonte de IA

1.0.0

Baixar

Styletts: um modelo generativo baseado em estilo para síntese natural e diversificada de texto em fala

Yinghao Aaron Li, Cong Han, Nima Mesgarani

Recentemente, o texto em fala (TTS) teve um grande progresso ao sintetizar a fala de alta qualidade devido ao rápido desenvolvimento de sistemas TTS paralelos, mas a produção de discurso com variações prosódicas naturalistas, estilos de palestras e tons emocionais continua desafiador. Além disso, como a duração e a fala são geradas separadamente, os modelos TTS paralelos ainda têm problemas para encontrar os melhores alinhamentos monotônicos que são cruciais para a síntese naturalista da fala. Aqui, propomos Styletts, um modelo generativo baseado em estilo para TTs paralelos que podem sintetizar a fala diversificada com a prosódia natural de uma expressão de fala de referência. Com um novo alinhador monotônico transferível (TMA) e esquemas de aumento de dados invariantes à duração, nosso método supera significativamente os modelos de ponta em conjuntos de dados de um único e multi-falante em testes subjetivos de naturalidade da fala e similaridade dos alto-falantes. Através do aprendizado auto-supervisionado dos estilos de fala, nosso modelo pode sintetizar a fala com o mesmo tom prosódico e emocional que qualquer discurso de referência sem a necessidade de rotular explicitamente essas categorias.

Papel: https://arxiv.org/abs/2107.10394

Amostras de áudio: https://styletts.github.io/

Pré-requisitos

Python> = 3.7
Clone este repositório:

git clone https://github.com/yl4579/StyleTTS.git
cd StyleTTS

Instale os requisitos do Python:

pip install SoundFile torchaudio munch torch pydub pyyaml librosa git+https://github.com/resemble-ai/monotonic_align.git

Faça o download e extraia o conjunto de dados LJSpeech, descompacte para a pasta de dados e aumente os dados para 24 kHz. O vocoder, o alinhador de texto e o extrator de afinação são pré-treinados em dados de 24 kHz, mas você pode alterar facilmente o pré-processamento e re-trepê-los usando seu próprio pré-processamento. Fornecerei mais receitas e modelos pré-treinados mais tarde, se tiver tempo. Se você estiver disposto a ajudar, sinta -se à vontade para trabalhar em outros métodos de pré -processamento. Para o Libritts, você precisará combinar o trem-CLAN-360 com o trem-100 e renomear a pasta Trem-Clean-460 (consulte VAL_LIST_LIBRITTS.TXT como exemplo).

Treinamento

Treinamento da primeira etapa:

python train_first.py --config_path ./Configs/config.yml

Treinamento do segundo estágio:

python train_second.py --config_path ./Configs/config.yml

Você pode correr consecutivamente e ele treinará o primeiro e o segundo estágio. O modelo será salvo no formato "epoch_1st_%05d.tth" e "epoch_2nd_%05d.tth". Os pontos de verificação e os logs do Tensorboard serão salvos em log_dir .

O formato da lista de dados precisa ser filename.wav|transcription , consulte Val_list_libritts.txt como exemplo.

Inferência

Consulte o inference.ipynb para obter detalhes.

Os estiletos pré-treinados e o HIFI-GAN no LJSpeech Corpus em 24 kHz podem ser baixados no link Styletts e Hifi-Gan.

Os estiletos pré-treinados e o HIFI-GAN no Libritts Corpus podem ser baixados no link Styletts e Hifi-Gan. Você também precisa baixar o teste de teste de Libritts se deseja executar a demonstração zero-tiro.

Descompacte os Models e Vocoder , respectivamente, e execute cada célula no caderno. Você também precisará instalar o PhoneMizer para executar esta demonstração de inferência.

Pré -processamento

Os modelos de alinhador de texto pré -treinamento e extrator de afinação são fornecidos na pasta Utils . Os modelos de alinhador de texto e extrator de pitch são treinados com melspectrogramas pré -processados usando meldataset.py.

Você pode editar o Meldataset.py com seu próprio pré -processamento de Melspectrograma, mas os modelos previstos previstas não funcionarão mais. Você precisará treinar seu próprio alinhador de texto e extrator de afinação com o novo pré -processamento.

O código para treinamento do modelo de novo texto de texto está disponível aqui e que para o treinamento de novos modelos de extrator de afinação está disponível aqui.

Fornecerei mais recepções com o pré -processamento existente, como os do Hifigan e ESPNET oficial no futuro, se eu tiver tempo extra. Se você estiver disposto a ajudar, sinta -se à vontade para fazer recibos com a ESPNET.

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-08-21
tamanho 111.28MB
Vindo de Github

Aplicativos Relacionados

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos