Download transformer pointer generator - transformer pointer generator Quellcode Download

transformer pointer generator

Anderer Quellcode

1.0.0

Herunterladen

Eine abstraktive Zusammenfassungsinimpublik mit Transformator und Zeigergenerator

Als ich nach neuronalem Netzwerk zusammenfassen wollte, habe ich viele Möglichkeiten ausprobiert, um eine abstrakte Zusammenfassung zu erzeugen, aber das Ergebnis war nicht gut. Als ich 2018 Byte Cup hörte, fand ich einige Informationen darüber, und die Lösung des Champions zog mich an, aber ich fand einige Websites, wie Github Gitlab, den offiziellen Code nicht, also habe ich mich entschlossen, ihn zu implementieren.

Anforderungen

Python == 3.x (Gehen wir mit Python 3 über, wenn Sie immer noch Python 2 verwenden)
TensorFlow == 1.12.0
tqdm> = 4.28.1
Jieba> = 0,3x
sumeval> = 0.2.0

Modellstruktur

Basierend

Mein Modell basiert auf der Aufmerksamkeit, die Sie brauchen, und kommen Sie auf den Punkt: Zusammenfassung mit Zeigergenerator-Netzwerken

Ändern

Das Modell des Zeigergenerators verfügt über zwei Mechanismen, die Kopiermechanismus und Abdeckungsmechanismus sind. Ich habe einige Materialien gefunden. Sie zeigen, dass der Abdeckungsmechanismus nicht zu einer kurzen Zusammenfassung geeignet ist. Daher habe ich diesen Mechanismus nicht verwendet. Verwenden Sie einfach den ersten.
Das Zeigergeneratormodell hat eine Unzulänglichkeit, die den Verlust zu Nan erlassen kann. Ich habe es einige Male ausprobiert und wollte es reparieren. Das Ergebnis war, dass ich nicht kann. Ich denke, der Grund war bei der Berechnung der endgültigen Logisten, es wird die Vokabellenlänge auf OOV- und Vokabellenlänge erweitern, es wird mehr Nullen erhalten. Daher lösche ich den Mechanismus der Verlängerung der endgültigen Logisten und verwende einfach ihren Deocodes -Mechanismus aus Artikel und Vokab. Es gibt mehr Details, in diesem Modell verwende ich nur Wort als Vocab, diese Idee von Bert.

Struktur

Ausbildung

Schritt 1. Laden Sie den Datensatz herunter.
Schritt 2. Führen Sie den folgenden Befehl aus.

 python train.py

Überprüfen Sie hparams.py um festzustellen, welche Parameter möglich sind. Zum Beispiel,

 python train.py --logdir myLog --batch_size 32 --train myTrain --eval myEval

Mein Code verbessert auch Multi -GPU, um dieses Modell zu trainieren. Wenn Sie mehr als eine GPU haben, laufen Sie einfach so

 python train.py --logdir myLog --batch_size 32 --train myTrain --eval myEval --gpu_nums=myGPUNums

Name	Typ	Detail
vocab_size	int	Wortschatzgröße
Zug	str	Zugdatensatz Dir
bewerten	str	eval Dataset Dir
prüfen	str	Daten für die Berechnung der Rouge -Score
Wortschatz	str	Vokabulardateipfad
batch_size	int	Zug -Batch -Größe
Eval_batch_size	int	Eval -Batch -Größe
lr	schweben	Lernrate
Warmup_Steps	int	Aufwärmschritte durch Lernen von Rate
Logdir	str	Protokollverzeichnis
num_epochs	int	die Anzahl der Zug -Epoche
Evaldir	str	Bewertung Dir
d_model	int	Versteckte Dimension von Encoder/Decoder
d_ff	int	Versteckte Dimension der Feedforward -Schicht
num_blocks	int	Anzahl der Encoder-/Decoderblöcke
num_heads	int	Anzahl der Aufmerksamkeitsköpfe
Maxlen1	int	maximale Länge einer Quellsequenz
Maxlen2	int	maximale Länge einer Zielsequenz
Dropout_rate	schweben	Ausfallrate
Beam_Size	int	Strahlgröße für Decodieren
gpu_nums	int	GPU -Menge, die es ermöglichen kann, wie viele GPU dieses Modell trainieren können ， Standard 1

Notiz

Ändern Sie nicht die Hyperparameter von Transformator util. Sie haben eine gute Lösung, er lässt den Verlust nicht sinken! Wenn Sie eine gute Lösung haben, hoffe ich, dass Sie es mir sagen können.