QANet Download - QANet Source Code Download

QANet

Anderer Quellcode

1.0.0

Herunterladen

Qanet

Eine Tensorflow -Implementierung von Google Qanet (zuvor schnelles Leseverständnis (FRC)) von ICLR2018. (Hinweis: Dies ist keine offizielle Implementierung der Autoren des Papiers)

Ich habe einen Blog -Beitrag über die Implementierung von Qanet geschrieben. Weitere Informationen finden Sie hier!

Trainings- und Vorverarbeitungspipeline wurde von Hkust-KnowComps von R-Net übernommen. Der Demo -Modus funktioniert. Verwenden Sie nach dem Training einfach python config.py --mode demo um einen interaktiven Demo -Server auszuführen.

Aufgrund eines Gedächtnisproblems wird eine Aufmerksamkeit des Kopfprodukts mit einer einzelnen Kopfprodukt im Gegensatz zu einer 8-Kopf-Aufmerksamkeit von 8 Köpfen wie im Originalpapier verwendet. Die versteckte Größe wird aufgrund der Verwendung eines GTX1080 im Vergleich zu einem in der Arbeit verwendeten P100 auch auf 96 reduziert. (8 GB GPU -Speicher ist nicht ausreichend. Wenn Sie eine 12 -GB -Speicher -GPU haben, teilen Sie uns bitte Ihre Trainingsergebnisse mit uns.)

Derzeit erreicht das beste Modell EM/F1 = 70,8/80.1 in 60 km Schritten (6 ~ 8 Stunden). Detaillierte Ergebnisse sind unten aufgeführt.

Alt text

Datensatz

Der für diese Aufgabe verwendete Datensatz ist Stanford Frage, der den Datensatz beantwortet. Vorbereitete Handschuhbettendings, die aus gemeinsamem Kriechen mit 840B -Token erhalten wurden, die für Wörter verwendet werden.

Anforderungen

Python> = 2,7
Numpy
tqdm
Tensorflow> = 1,5
spacy == 2.0.9
Flasche (nur für Demo)

Verwendung

Um die Daten herunterzuladen und vorzuverarbeiten, leiten Sie die Daten aus

 # download SQuAD and Glove
sh download.sh
# preprocess the data
python config.py --mode prepro

Genau wie R-Net von Hkust-KnowComp werden Hyperparameter in config.py gespeichert. Debuggen/Train/Test/Demo, rennen

python config.py --mode debug/train/test/demo

Um das Modell mit dem offiziellen Code zu bewerten, laufen Sie aus

python evaluate-v1.1.py ~ /data/squad/dev-v1.1.json train/{model_name}/answer/answer.json

Das Standardverzeichnis für die Tensorboard -Protokolldatei ist train/{model_name}/event

In Docker Container ausführen (optional)

Um das Docker-Bild zu erstellen (erfordert Nvidia-Docker), laufen Sie

 nvidia-docker build -t tensorflow/qanet .

Stellen Sie die Lautstärkeregereiten und die Portzuordnungen ein (für den Demo -Modus)

 export QANETPATH={/path/to/cloned/QANet}
export CONTAINERWORKDIR=/home/QANet
export HOSTPORT=8080
export CONTAINERPORT=8080

in den Behälter verprügeln

 nvidia-docker run -v $QANETPATH:$CONTAINERWORKDIR -p $HOSTPORT:$CONTAINERPORT -it --rm tensorflow/qanet bash

Befolgen Sie die oben angegebenen Befehle im Container, beginnend mit dem Herunterladen der Datensätze der Kader und des Handschuhs.

Vorbereitetes Modell

Vorübergehende Modellgewichte sind vorübergehend nicht verfügbar.

Detaillierte Implementierung

Das Modell verwendet die Faltungsstufe der Charakterebene - Max Pooling - Highway Network für Eingabedarstellungen, die diesem Artikel von Yoon Kim ähnlich sind.
Der Encoder besteht aus einer positionellen Codierung - tiefen trennbarer Faltung - Selfreids - Vorwärtsstruktur mit der Schichtnorm dazwischen.
Trotz des Originalpapiers unter Verwendung von 200 beobachten wir, dass die Verwendung einer kleineren Zeichendimension zu einer besseren Verallgemeinerung führt.
Zur Regularisierung wird alle 2 Unterschichten und 2 Blöcke ein Ausfall von 0,1 verwendet.
Der stochastische Tiefenabfall wird verwendet, um die verbleibende Verbindung in Bezug auf die zunehmende Tiefe des Netzwerks zu fallen, da dieses Modell stark auf verbleibenden Verbindungen beruht.
Die Aufmerksamkeit von Abfragen zu Kontext wird zusammen mit der Aufmerksamkeit von Kontext-zu-Querien verwendet, was die Leistung mehr zu verbessern scheint als das, was das Papier berichtete. Dies kann auf die mangelnde Vielfalt in der Selbigkeit aufgrund von 1 Kopf (im Gegensatz zu 8 Köpfen) zurückzuführen sein, die sich möglicherweise wiederholende Informationen haben, die die Aufmerksamkeit der Abfrage-zu-Kontext enthält.
Die Lernrate erhöht sich von 0,0 auf 0,001 in den ersten 1000 Schritten in der inversen Exponentialskala und von 1000 Schritten auf 0,001 fest.
Bei Inferenz verwendet dieses Modell Schattenvariablen, die durch den exponentiellen gleitenden Durchschnitt aller globalen Variablen aufrechterhalten werden.
Dieses Modell verwendet eine Trainings- / Test- / Vorverarbeitungspipeline von R-NET für eine verbesserte Effizienz.

Ergebnisse

Hier sind die gesammelten Ergebnisse aus diesem Repository und dem Originalpapier.

Modell	Trainingsschritte	Größe	Aufmerksamkeitsköpfe	Datengröße (August)	Em	F1
Mein Modell	35.000	96	1	87k (nein August)	69.0	78,6
Mein Modell	60.000	96	1	87k (nein August)	70,4	79,6
Mein Modell (gemeldet von @jasonbw)	60.000	128	1	87k (nein August)	70.7	79,8
Mein Modell (gemeldet von @chesterkuo)	60.000	128	8	87k (nein August)	70,8	80.1
Originalpapier	35.000	128	8	87k (nein August)	N / A	77.0
Originalpapier	150.000	128	8	87k (nein August)	73.6	82.7
Originalpapier	340.000	128	8	240k (August)	75.1	83.8

Todo's

Training und Testen des Modells
Fügen Sie der Aufmerksamkeit der Kontext-zu-Quer-Aufmerksamkeit eine trilineare Funktion hinzu
Tragen Sie Ausfall
Aufmerksamkeit der Abfrage zu Kontext
Echtzeit -Demo
Datenvergrößerung durch Paraphrasieren
Zug mit vollständigen Hyperparametern (Augmented -Daten, 8 Köpfe, versteckte Einheiten = 128)

Tensorboard

Führen Sie das Tensorboard zur Visualisierung aus.

$ tensorboard --logdir=./

Expandieren

Zusätzliche Informationen

Version 1.0.0
Typ Anderer Quellcode
Aktualisierungszeit 2025-04-17
Größe 186.37KB
Kommt von Github

Ähnliche Anwendungen

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

QANet

Qanet

Datensatz

Anforderungen

Verwendung

In Docker Container ausführen (optional)

Vorbereitetes Modell

Detaillierte Implementierung

Ergebnisse

Todo's

Tensorboard

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express