Download tying wv and wc - tying wv and wc

tying wv and wc

Código-Fonte de IA

1.0.0

Baixar

Vinculando vetores de palavras e classificadores de palavras: uma estrutura de perda para modelagem de idiomas

Implementação para "vinculando vetores de palavras e classificadores de palavras: uma estrutura de perda para modelagem de idiomas"

Este artigo tenta utilizar a diversidade de significado de palavras para treinar a profunda rede neural.

Resumo do papel

Motivação

Na modelagem de idiomas (previsão da sequência de palavras), queremos expressar a diversidade do significado da palavra.
Por exemplo, ao prever a palavra ao lado de "Banana é deliciosa ___", a resposta é "fruta", mas "doces", "comida" também está ok. Mas o ensino vetorial comum de um quente não é adequado para alcançá-lo. Porque quaisquer palavras semelhantes ignoradas, mas a palavra de resposta exata.

motivação.png

Se pudermos usar não um, mas "distribuição", podemos ensinar essa variedade.

Método

Por isso, usamos "distribuição da palavra" para ensinar o modelo. Esta distribuição adquirida da palavra de resposta e incorporando a matriz de pesquisa.

formulação.png

Se usarmos essa perda de tipo de distribuição, podemos provar a equivalência entre a matriz de incorporação de entrada e projeção de saída.

equivalência.png

Para usar a restrição de equivalência de projeção e projeção de saída do tipo de distribuição e incorporação de entrada, melhora a perplexidade do modelo.

Experimentos

Implementação

Keras: para implementar o modelo
Chazutsu: para baixar o conjunto de dados

Resultado

Execute a época 15 no conjunto de dados da Penn Trebank.
- A pontuação perplexity é grande, eu não poderia confiar em sua implementação. Estou esperando um pedido de puxão!
augmentedmodel funciona melhor que a linha de base ( onehotmodel ) e augmentedmodel_tying supera a linha de base!
Você pode executar este experimento por python train.py

Eu implementei a versão LSTM Stateful. Seu resultado como seguinte.

A perplexidade é melhorada (mas Zaggy), e o método de vinculação perde um pouco seu efeito.
Usar o LSTM com estado em Keras é muito difícil (especialmente reset_states no conjunto de validação), portanto, pode haver algum limite incluído.

Validação adicional

No início do treinamento, a incorporação da matriz para produzir "distribuição de professores" ainda não foi treinada. Portanto, o método proposto tem um pouco de desvantagem no início.
- Mas o atraso do treinamento não foi observado
Aumentar a temperatura (alfa) gradualmente pode melhorar a velocidade de treinamento.
Para usar o vetor de palavras pré-treinado ou fixar o peso da matriz de incorporação para algum intervalo (técnica de destino fixo no aprendizado de reforço (consulte o aprendizado de reforço profundo ) também terá efeito no treinamento.

A propósito, o exemplo de pytorch já usa o método de amarração! Não tenha medo de usá -lo!

Expandir

Informações adicionais