Download Cross Speaker Emotion Transfer - Cross Speaker Emotion Transfer download de código fonte

Cross Speaker Emotion Transfer

Código-Fonte de IA

v0.2.0

Baixar

Transferência em emoção entre transferências em emoção-implementação de pytorch

A implementação de Pytorch da transferência de emoção cruzada do Bytedance com base na normalização da camada de condição do alto-falante e treinamento semi-supervisionado em texto para fala.

Amostras de áudio

Amostras de áudio estão disponíveis em /demonstração.

Investir rápido

O conjunto de dados refere -se aos nomes de conjuntos de dados como RAVDESS nos seguintes documentos.

Dependências

Você pode instalar as dependências do Python com

 pip3 install -r requirements.txt

Além disso, instale o Fairseq (documento oficial, GitHub) para utilizar LConvBlock . Por favor, verifique aqui para resolver qualquer problema ao instalá -lo. Observe que Dockerfile é fornecido para usuários Docker , mas você precisa instalar o Fairseq manualmente.

Inferência

Você precisa baixar os modelos pré -tenhados e colocá -los em output/ckpt/DATASET/ .

Para extrair tokens de emoção suave de um áudio de referência, execute

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --speaker_id SPEAKER_ID --ref_audio REF_AUDIO_PATH --restore_step RESTORE_STEP --mode single --dataset DATASET

Ou, para usar tokens emoção dura de um id em emoção, corra

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --speaker_id SPEAKER_ID --emotion_id EMOTION_ID --restore_step RESTORE_STEP --mode single --dataset DATASET

O dicionário de alto -falantes instruídos pode ser encontrado em preprocessed_data/DATASET/speakers.json , e os enunciados gerados serão colocados em output/result/ .

Inferência em lote

A inferência em lote também é suportada, tente

 python3 synthesize.py --source preprocessed_data/DATASET/val.txt --restore_step RESTORE_STEP --mode batch --dataset DATASET

Para sintetizar todos os enunciados em preprocessed_data/DATASET/val.txt . Observe que apenas os tokens de emoção difícil de um determinado ID da emoção são suportados nesse modo.

Treinamento

Conjuntos de dados

Os conjuntos de dados suportados são

Ravdess: Esta parte da Ravdess contém 1440 arquivos: 60 ensaios por ator x 24 atores = 1440. A Ravdess contém 24 atores profissionais (12 mulheres, 12 homens), vocalizando duas declarações parexicamente correspondentes em um sotaque norte-americano neutro. As emoções de fala incluem expressões calmas, felizes, tristes, zangadas, com medo, surpresa e nojo. Cada expressão é produzida em dois níveis de intensidade emocional (normal, forte), com uma expressão neutra adicional.

Seu próprio idioma e conjunto de dados podem ser adaptados a seguir aqui.

Pré -processamento

Para um TTS multi-falante com o orador externo incorporador, faça o download do Modelo de Pré-Priendido de Rescnn Softmax+Tripleto do Philipperemy Deepaker para o alto-falante incorporando e localize-o em ./deepspeaker/pretrained_models/ .
Correr
```
 python3 prepare_align.py --dataset DATASET
```
para alguns preparativos.
Para o alinhamento forçado, o alinhador forçado de Montreal (MFA) é usado para obter os alinhamentos entre os enunciados e as seqüências de fonemas. Alinhamentos pré-extraídos para os conjuntos de dados são fornecidos aqui. Você precisa descompactar os arquivos em preprocessed_data/DATASET/TextGrid/ . Como alternativa, você pode executar o alinhador sozinho.
Depois disso, execute o script de pré -processamento por
```
 python3 preprocess.py --dataset DATASET
```

Treinamento

Treine seu modelo com

 python3 train.py --dataset DATASET

Opções úteis:

Para usar a precisão mista automática, anexar --use_amp do comando acima.
O treinador assume treinamento multi-GPU de um nó único. Para usar GPUs específicos, especifique CUDA_VISIBLE_DEVICES=<GPU_IDs> no início do comando acima.

Tensorboard

Usar

 tensorboard --logdir output/log

Para servir o Tensorboard em sua localhost. As curvas de perda, os espectrogramas MEL sintetizados e os áudios são mostrados.

Notas

A implementação atual não é treinada de maneira semi-supervisionada devido ao pequeno tamanho do conjunto de dados. Mas pode ser facilmente ativado especificando alto -falantes -alvo e não passando por ID de emoção sem perda de classificador de emoção.
No decodificador , o bloco LCONV de 15 x 1 é usado em vez de 17 x 1 devido a problemas de memória.
Duas opções para incorporar a configuração de TTS de vários falantes : Treinando o alto-falante do zero ou o uso de um modelo Deepspeaker de Philipperemy pré-treinado (como o Styler fez). Você pode alterná -lo configurando a configuração (entre 'none' e 'DeepSpeaker' ).
Deepaker no conjunto de dados Ravdess mostra uma identificação clara entre os falantes. A figura a seguir mostra o gráfico de T-Sne da incorporação de alto-falante extraída.