durian pytorch Download - durian pytorch Download do código fonte

durian pytorch

Código-Fonte de IA

1.0.0

Baixar

Durian

Implementação da "Rede de atenção informada de duração para síntese multimodal" (https://arxiv.org/pdf/1909.01700.pdf).

Status : liberado

1 informação

Durian é arquitetura do codificador para tarefa de síntese de texto em fala. Ao contrário de arquiteturas anteriores como o Tacotron 2, ele não aprende mecanismo de atenção, mas leva em consideração as informações de durações de fonemas. Portanto, é claro, para usar este modelo um modelo um deve ter um conjunto de dados fonemizado e alinhado à duração. No entanto, você pode tentar usar o modelo de duração pré -treinamento no conjunto de dados LJSpeech (ditado CMU usado). Os links serão fornecidos abaixo.

2 detalhes da arquitetura

O modelo durian consiste em dois módulos: sintetizador de backbone e preditor de duração. Aqui estão algumas das diferenças mais notáveis de Durian descritas em papel:

Marcadores de fronteira prosódicos não são usados (não os rotulou) e, portanto, não há exclusão de 'estados de pular' dos Estados Hidden de limites prosódicos '
Os códigos de estilo não são usados também (o mesmo motivo)
Removido PreNET antes do codificador CBHG (não melhorou a precisão durante as experiências)
A célula recorrente do decodificador produz quadro de espectrograma único de cada vez

O sintetizador de backbone e o modelo de duração são treinados simultaneamente. Para simplificações de implementação, o modelo de duração prevê o alinhamento sobre o número máximo fixo de quadros. Você pode aprender essas saídas como problema de BCE, MSE, resumindo sobre o eixo dos quadros ou para usar as duas perdas (não testei este), defina-o no config.json . As experiências mostraram que a versão Just-BCE do processo de otimização mostrou-se instável com sequências de texto mais longas; portanto, prefira usar MSE+BCE ou Just-MSE (não se importe se você receber alinhamentos ruins no tensorboard).

3 reprodutibilidade

Você pode verificar o wavfile de demonstração de síntese (foi obtido muito antes da convergência) na pasta demo (vocoder de glow de onda usado).

Primeiro de tudo, verifique se você instalou todos os pacotes usando pip install --upgrade -r requirements.txt . O código é testado usando pytorch==1.5.0
Clone o repositório: git clone https://github.com/ivanvovk/DurrIAN
Para iniciar o treinamento, a versão durian baseada em papel, execute python train.py -c configs/default.json . Você pode especificar para treinar o modelo de linha de base como python train.py -c configs/baseline.json --baseline

Para garantir que tudo funcione bem no ambiente local, você pode executar testes de unidade na pasta tests por python <test_you_want_to_run.py> .

4 modelos pré -ridicularizados

Esta implementação foi treinada usando o conjunto de dados LJSPEECH alinhado por duração por duração com minimização de perda de duração da AC. Você pode encontrá -lo através deste link.

5 Problema de alinhamento do conjunto de dados

A principal desvantagem deste modelo está exigindo o conjunto de dados alinhado à duração. Você pode encontrar a lista de fileiras LJSpeech LJSECH usada no treinamento da implementação atual na pasta filelists . Para usar seus dados, verifique se você organizou seus filmes da mesma maneira que os LJSpeech os fornecem. No entanto, para economizar tempo e neurônios de seus cérebros, você pode tentar treinar o modelo no seu conjunto de dados sem alinhamento de duração usando o modelo de duração de LJSpeech no meu ponto de verificação do meu modelo (não tentei). Mas se você estiver interessado em alinhar o conjunto de dados pessoal, siga cuidadosamente a próxima seção.

6 Como alinhar seus próprios dados

Nos meus experimentos, alinhei o LJSpeech com a ferramenta de alinhamento forçada de Montreal. Se aqui algo não estiver claro, siga as instruções nos documentos do Toolkit. Para começar, o alinhamento de alinhamento tem várias etapas:

Organize seu conjunto de dados corretamente. O MFA exige que ele esteja em uma única pasta de estrutura {utterance_id.lab, utterance_id.wav}. Verifique se todos os seus textos são do formato .lab .
Faça o download do MFA Libere e siga as instruções de instalação através deste link.
Uma vez feito com o MFA, você precisa do seu dicionário de palavras do conjunto de dados com transcrições de fonemas. Aqui você tem várias opções:
1. (Experimente este primeiro) Faça o download do dicionário já feito da Lista de modelos pré -tenhados da MFA (na parte inferior da página). Na implementação atual, usei o dicionário Arpabet inglês. Aqui pode ser um problema: se o seu conjunto de dados contiver algumas palavras ausentes no dicionário, o MFA poderá deixar de analisá -lo no futuro e pular esses arquivos de dados. Você pode ignorá -los ou tentar pré -processar seu conjunto de dados com conformidade com o dicionário ou adicionar palavras ausentes manualmente (se não muito deles).
2. Você pode gerar o dicionário com o modelo G2P pré -terenciado da lista de modelos pré -treinados da MFA usando o comando bin/mfa_generate_dictionary /path/to/model_g2p.zip /path/to/data dict.txt . Observe que a instalação padrão do MFA fornecerá automaticamente o modelo de pré -treinamento em inglês, que você pode usar.
3. Em outros casos, você precisará treinar seu próprio modelo G2P em seus dados. Para treinar seu modelo, siga as instruções através deste link.
Depois de preparar seus dados, dicionário e modelo G2P, agora você está pronto para o alinhamento. Execute o comando bin/mfa_align /path/to/data dict.txt path/to/model_g2p.zip outdir . Espere até terminar. A pasta outdir conterá uma lista de palavras fora do vocabulário e uma pasta com arquivos especiais do formato .TextGrid , onde os alinhamentos das ondas são armazenados.
Agora queremos processar esses arquivos de grade de texto para obter a lista de fileiras finais. Aqui você pode achar útil o pacote python TextGrid . Instale -o usando pip install TextGrid . Aqui um exemplo de como usá -lo:
```
 import textgrid
tg = textgrid.TextGrid.fromFile('./outdir/data/text0.TextGrid')
```
Agora tg é o conjunto dois objetos: primeiro contém palavras alinhadas, o segundo contém fonemas alinhados. Você precisa do segundo. Extrair durações (nos quadros! tg tem intervalos em segundos, convertem assim) para o conjunto de dados inteiro, iterando sobre arquivos .TextGrid obtidos e prepare uma lista de fileiras no mesmo formato que eu forneci na pasta filelists .

Encontrei uma visão geral de vários alinhadores. Talvez seja útil. No entanto, eu recomendo que você use o MFA, pois é um dos alinhadores mais precisos, para meu melhor conhecimento.

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-09-14
tamanho 3.65MB
Vindo de Github

Aplicativos Relacionados

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
pytorch image models

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos