Download de StyleSpeech - Download do código fonte StyleSpeech

StyleSpeech

Código-Fonte de IA

v1.0.2

Baixar

Stylespeech - Implementação de Pytorch

Implementação de Pytorch de meta-estilos: geração de texto para fala em múltiplos falantes.

Filial

Stylespeech (ramo naive )
Meta-Stylespeech (ramo main )

Investir rápido

Dependências

Você pode instalar as dependências do Python com

 pip3 install -r requirements.txt

Inferência

Você precisa baixar modelos pré -tenhados e colocá -los em output/ckpt/LibriTTS_meta_learner/ .

Para TTS de vários falantes ingleses, execute

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --ref_audio path/to/reference_audio.wav --restore_step 200000 --mode single -p config/LibriTTS/preprocess.yaml -m config/LibriTTS/model.yaml -t config/LibriTTS/train.yaml

Os enunciados gerados serão colocados em output/result/ . Seu discurso sintetizado terá o estilo de ref_audio .

Inferência em lote

A inferência em lote também é suportada, tente

 python3 synthesize.py --source preprocessed_data/LibriTTS/val.txt --restore_step 200000 --mode batch -p config/LibriTTS/preprocess.yaml -m config/LibriTTS/model.yaml -t config/LibriTTS/train.yaml

Para sintetizar todos os enunciados em preprocessed_data/LibriTTS/val.txt . Isso pode ser visto como uma reconstrução de conjuntos de dados de validação que se referem a si mesmos para o estilo de referência.

Controlabilidade

A taxa de afinação/volume/fala dos enunciados sintetizados pode ser controlada especificando as taxas desejadas de afinação/energia/duração. Por exemplo, pode -se aumentar a taxa de fala em 20 % e diminuir o volume em 20 % em

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step 200000 --mode single -p config/LibriTTS/preprocess.yaml -m config/LibriTTS/model.yaml -t config/LibriTTS/train.yaml --duration_control 0.8 --energy_control 0.8

Observe que a controlabilidade é originada no FastSpeech2 e não é um interesse vital do Stylespeech. Consulte o Styler [Demo, código] para a controlabilidade de cada fator de estilo.

Treinamento

Conjuntos de dados

Os conjuntos de dados suportados são

Libritts: um conjunto de dados em inglês de vários falantes contendo 585 horas de fala por 2456 alto-falantes.
(será adicionado mais)

Pré -processamento

Correr

 python3 prepare_align.py config/LibriTTS/preprocess.yaml

para alguns preparativos.

Para o alinhamento forçado, o alinhador forçado de Montreal (MFA) é usado para obter os alinhamentos entre os enunciados e as seqüências de fonemas. Alinhamentos pré-extraídos para os conjuntos de dados são fornecidos aqui. Você precisa descompactar os arquivos em preprocessed_data/LibriTTS/TextGrid/ . Como alternativa, você pode executar o alinhador sozinho.

Depois disso, execute o script de pré -processamento por

 python3 preprocess.py config/LibriTTS/preprocess.yaml

Treinamento

Treine seu modelo com

 python3 train.py -p config/LibriTTS/preprocess.yaml -m config/LibriTTS/model.yaml -t config/LibriTTS/train.yaml

Conforme descrito no artigo, o script começará no pré-treinamento do modelo ingênuo até que meta_learning_warmup etapas e depois meta o modelo para etapas adicionais por meio de treinamento episódico.

Tensorboard

Usar

 tensorboard --logdir output/log/LibriTTS

Para servir o Tensorboard em sua localhost. As curvas de perda, os espectrogramas MEL sintetizados e os áudios são mostrados.

Questões de implementação

Use a taxa de amostragem 22050Hz em vez de 16kHz .
Adicione uma camada totalmente conectada no início do codificador do estilo MEL para aumentar o espectrograma de MEL de entrada de 80 a 128 .
O tamanho do modelo, incluindo o meta-aprendizado, é 28.197M .
Use um tamanho máximo 16 lote no treinamento em vez de 48 ou 20 principalmente devido à falta de capacidade de memória com um único 24GIB Titan-RTX . Isso pode ser alcançado pelo script a seguir para filtrar dados mais longos que max_seq_len :
```
 python3 filelist_filtering.py -p config/LibriTTS/preprocess.yaml -m config/LibriTTS/model.yaml
```
Isso gerará train_filtered.txt no mesmo local do train.txt .
Como o tamanho total do lote é diminuído, o número de etapas de treinamento é dobrado em comparação com o papel original.
Use Hifi-Gan em vez de Melgan para vocoding.

Citação

 @misc{lee2021stylespeech,
  author = {Lee, Keon},
  title = {StyleSpeech},
  year = {2021},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/keonlee9420/StyleSpeech}}
}

Referências

Meta-Stylespeech: geração de texto para fala de múltiplos falantes
Uma arquitetura geradora baseada em estilo para redes adversárias generativas
Redes correspondentes para um aprendizado de um tiro
Redes prototípicas para aprendizado de poucos tiros
Tadam: métrica adaptativa dependente de tarefas para melhorar a aprendizagem de poucos tiros
FastSpeech2 do Ming024

Expandir

Informações adicionais

Versão v1.0.2
Tipo Código-Fonte de IA
Data da Última Atualização 2025-08-20
tamanho 111.54MB
Vindo de Github

Aplicativos Relacionados

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos