tying wv and wc -Download - tying wv and wc -Quellcode Download

tying wv and wc

AI-Quellcode

1.0.0

Herunterladen

Word -Vektoren und Wortklassifizierer binden: Ein Verlust -Framework für die Sprachmodellierung

Implementierung für "Word -Vektoren und Wortklassifizierer: Ein Verlust -Framework für die Sprachmodellierung"

Dieses Papier versucht, die Vielfalt des Wortes zu nutzen, um das tiefe neuronale Netzwerk auszubilden.

Zusammenfassung des Papiers

Motivation

In der Sprachmodellierung (Vorhersage der Wortsequenz) möchten wir die Vielfalt der Wortbedeutung ausdrücken.
Wenn Sie beispielsweise das Wort neben "Banane ist köstlich ___" vorhersagen, lautet die Antwort "Frucht", aber "Süßigkeiten", "Essen" ist auch in Ordnung. Der normale One-Hot-Vektorunterricht ist jedoch nicht geeignet, um dies zu erreichen. Weil ähnliche Wörter ignoriert wurden, aber das genaue Antwortwort.

Wenn wir nicht in One heiß, sondern "Verteilung" verwenden können, können wir diese Sorte unterrichten.

Verfahren

Wir verwenden also "Verteilung des Wortes", um das Modell zu lehren. Diese Verteilung wurde aus dem Antwortwort und der Einbettung der Lookup -Matrix erworben.

Wenn wir diesen Verlust des Verteilertyps verwenden, können wir die Äquivalenz zwischen Eingangseinbettung und Ausgangsprojektionsmatrix nachweisen.

äquivalenz.png

Um den Verlust des Verteilertyps und die Eingangs- und Ausgangsprojektionsäquivalenzbeschränkung zu verwenden, verbessert die Verwirrung des Modells.

Experimente

Durchführung

Keras: Implementieren des Modells
Chazutsu: Dataset herunterladen

Ergebnis

Führen Sie die 15 Epoche auf dem Penn Treebank -Datensatz aus.
- perplexity ist groß, ich konnte kein Vertrauen in seine Umsetzung haben. Ich warte an Pull Anfrage!
augmentedmodel funktioniert besser als die Basislinie ( onehotmodel ), und augmentedmodel_tying übertrifft die Basislinie!
Sie können dieses Experiment von python train.py durchführen

Ich habe eine staatliche LSTM -Version implementiert. Sein Ergebnis wie folgt.

Die Verwirrung wird verbessert (aber zaggy) und die Bindungsmethode verliert ihre Wirkung ein wenig.
Die Verwendung eines staatlichen LSTM in Keras ist zu schwer (insbesondere im Validierungssatz reset_states ), sodass möglicherweise ein gewisses Grenzwert enthalten ist.

Zusätzliche Validierung

Zu Beginn des Trainings ist die Einbettung von Matrix, um "Lehrerverteilung" zu erzeugen, noch nicht geschult. Die vorgeschlagene Methode hat also zunächst ein kleines Handicap.
- Die Verzögerung des Trainings wurde jedoch nicht beobachtet
Das Erhöhen der Temperatur (Alpha) kann die Trainingsgeschwindigkeit allmählich verbessern.
Um den vorgeborenen Wortvektor zu verwenden, oder das Fixieren des Einbettungsmatrixgewichts für ein Intervall (feste Zieltechnik beim Verstärkungslernen (bitte siehe Deep verstärkungsfähig )) hat auch Auswirkungen auf das Training.

Übrigens verwenden Pytorch -Beispiel bereits die Bindungsmethode! Haben Sie keine Angst, es zu benutzen!

Expandieren

Zusätzliche Informationen