Download do PortaSpeech - Download do código fonte PortaSpeech

PortaSpeech

Código-Fonte de IA

v0.2.0

Baixar

PortasPasech - Implementação de Pytorch

Implementação de Pytorch da PortasPasech: Texto-para-fala portátil e de alta qualidade.

Amostras de áudio

Amostras de áudio estão disponíveis em /demonstração.

Tamanho do modelo

Módulo	Normal	Pequeno	Normal (papel)	Pequeno (papel)
Total	24m	7.6m	21,8m	6.7m
LinguisticEncoder	3,7m	1.4m	-	-
VariationalGenerator	11m	2,8m	-	-
FlowPostNet	9,3m	3,4m	-	-

Investir rápido

O conjunto de dados refere -se aos nomes de conjuntos de dados como LJSpeech nos documentos a seguir.

Dependências

Você pode instalar as dependências do Python com

 pip3 install -r requirements.txt

Além disso, Dockerfile é fornecido para usuários Docker .

Inferência

Você precisa baixar os modelos pré -tenhados e colocá -los em output/ckpt/DATASET/ .

Para um tts de alto-falante , execute

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step RESTORE_STEP --mode single --dataset DATASET

Os enunciados gerados serão colocados em output/result/ .

Inferência em lote

A inferência em lote também é suportada, tente

 python3 synthesize.py --source preprocessed_data/DATASET/val.txt --restore_step RESTORE_STEP --mode batch --dataset DATASET

Para sintetizar todos os enunciados em preprocessed_data/DATASET/val.txt .

Controlabilidade

A taxa de fala dos enunciados sintetizados pode ser controlada especificando as taxas de duração desejadas. Por exemplo, pode -se aumentar a taxa de fala em 20 em

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step RESTORE_STEP --mode single --dataset DATASET --duration_control 0.8

Observe que a controlabilidade é originada no FastSpeech2 e não é um interesse vital do PortasPasech.

Treinamento

Conjuntos de dados

Os conjuntos de dados suportados são

LJSPEECH: Um conjunto de dados em inglês de um único alto-falante consiste em 13100 clipes de áudio curtos de uma falante lendo passagens de 7 livros de não ficção, aproximadamente 24 horas no total.

Pré -processamento

Correr

 python3 prepare_align.py --dataset DATASET

para alguns preparativos.

Para o alinhamento forçado, o alinhador forçado de Montreal (MFA) é usado para obter os alinhamentos entre os enunciados e as seqüências de fonemas. Alinhamentos pré-extraídos para os conjuntos de dados são fornecidos aqui. Você precisa descompactar os arquivos em preprocessed_data/DATASET/TextGrid/ . Como alternativa, você pode executar o alinhador sozinho.

Depois disso, execute o script de pré -processamento por

 python3 preprocess.py --dataset DATASET

Treinamento

Treine seu modelo com

 python3 train.py --dataset DATASET

Opções úteis:

Para usar a precisão mista automática, anexar --use_amp do comando acima.
O treinador assume treinamento multi-GPU de um nó único. Para usar GPUs específicos, especifique CUDA_VISIBLE_DEVICES=<GPU_IDs> no início do comando acima.

Tensorboard

Usar

 tensorboard --logdir output/log

Para servir o Tensorboard em sua localhost. As curvas de perda, os espectrogramas MEL sintetizados e os áudios são mostrados.

Modelo normal

Perda de modelo pequeno

Notas

Para o vocoder, Hifi-Gan e Melgan são apoiados.
Nenhuma ativação e camada do Relu no Variação GeriatalGenerator para evitar o purê de saída.
Acelere a convergência do alinhamento de palavras em fonema no LinguisticEncoder , dividindo palavras longas em subpainhas e classificando o conjunto de dados pelo comprimento do quadro de espectrograma MEL.
Existem dois tipos de perda auxiliar para melhorar o alinhamento do palavra-phonema: "CTC" e "DGA". Você pode alterná -los da seguinte forma:
```
 # In the train.yaml
aligner :
    helper_type : " dga " # ["dga", "ctc", "none"]
```
- "DGA": perda de atenção guiada na diagonal (DGA)
- "CTC": Perda de Classificação Temporal Connectionista (CTC) com algoritmo de soma para a frente
- Se você definir "nenhum", nenhuma perda de auxílio será aplicada durante o treinamento.
- A comparação de alinhamentos de três métodos ("DGA", "CTC" e "Nenhum" de cima para baixo):
- A configuração padrão é "DGA". Embora "CTC" faça o alinhamento mais forte, a qualidade da saída e a precisão são piores que "DGA".
- Mas ainda assim, há um espaço para a melhoria da qualidade da saída. A qualidade do áudio e o alingment (precisão) parecem ser uma troca.
Será estendido a um TTS de vários alto-falantes .