tying wv and wc - tying wv and wc Source Code Download

tying wv and wc

Code Source AI

1.0.0

Télécharger

Lier des vecteurs de mots et des classificateurs de mots: un cadre de perte pour la modélisation du langage

Implémentation pour "Vectors de mots et classificateurs de mots: un cadre de perte pour la modélisation du langage"

Cet article essaie d'utiliser la diversité du sens des mots pour former le réseau neuronal profond.

Résumé du papier

Motivation

Dans la modélisation du langage (prédiction de la séquence de mots), nous voulons exprimer la diversité du sens des mots.
Par exemple, lors de la prévision du mot à côté de "la banane est délicieuse ___", la réponse est "fruit", mais "bonbons", "la nourriture" est également OK. Mais l'enseignement vectoriel ordinaire ne convient pas pour y parvenir. Parce que tous les mots similaires ont ignoré, mais le mot de réponse exact.

Si nous pouvons utiliser non pas un hot mais une «distribution», nous pouvons enseigner cette variété.

Méthode

Nous utilisons donc "la distribution du mot" pour enseigner le modèle. Cette distribution acquise à partir du mot de réponse et de la matrice de recherche d'intégration.

Si nous utilisons cette perte de type de distribution, nous pouvons prouver l'équivalence entre l'intégration d'entrée et la matrice de projection de sortie.

équivalence.png

Pour utiliser le type de distribution, la perte et la restriction de l'équivalence de la projection de la projection d'entrée améliorent la perplexité du modèle.

Expériences

Mise en œuvre

Keras: implémente le modèle
chazutu: télécharger un ensemble de données

Résultat

résultat.png

Exécutez l'époque 15 sur l'ensemble de données de Penn Treebank.
- Le score perplexity est important, je ne pouvais pas avoir confiance en sa mise en œuvre. J'attends la demande de traction!
augmentedmodel fonctionne mieux que la ligne de base ( onehotmodel ), et augmentedmodel_tying surpasse la ligne de base!
Vous pouvez exécuter cette expérience par python train.py

J'ai implémenté la version LSTM avec état. Son résultat comme suit.

La perplexité est améliorée (mais zaggy) et la méthode de liaison perd un peu son effet.
Utiliser le LSTM avec état dans KERAS est trop difficile (en particulier reset_states dans l'ensemble de validation), il peut donc y avoir une limite incluse.

Validation supplémentaire

Au début de la formation, l'intégration de la matrice pour produire de la «distribution des enseignants» n'est pas encore formée. La méthode proposée a donc un peu de handicap au début.
- Mais le retard de la formation n'a pas été observé
L'augmentation de la température (alpha) peut progressivement améliorer la vitesse d'entraînement.
Pour utiliser le vecteur de mots pré-formé, ou fixer le poids de la matrice d'intégration pour un certain intervalle (technique cible fixe à l'apprentissage du renforcement (veuillez référer l'apprentissage en renforcement profond )) aura également un effet à la formation.

Soit dit en passant, l'exemple Pytorch utilise déjà la méthode de liaison! N'ayez pas peur de l'utiliser!

Développer

Informations supplémentaires