Téléchargement de QANet - Téléchargement du code source QANet

QANet

Autre code source

1.0.0

Télécharger

Qanet

Une implémentation TensorFlow de Google de Google (compréhension de lecture auparavant rapide (FRC)) de ICLR2018. (Remarque: ce n'est pas une implémentation officielle des auteurs de l'article)

J'ai écrit un article de blog sur la mise en œuvre de Qanet. Découvrez ici pour plus d'informations!

Un pipeline de formation et de prétraitement a été adopté à partir de R-Net par HKUST-KnowComp. Le mode de démonstration fonctionne. Après la formation, utilisez simplement python config.py --mode demo pour exécuter un serveur de démonstration interactif.

En raison d'un problème de mémoire, une seule attention du produit de point de tête est utilisée par opposition à une attention multiples de 8 têtes comme dans l'article d'origine. La taille cachée est également réduite à 96 par rapport à 128 en raison de l'utilisation d'un GTX1080 par rapport à un P100 utilisé dans le papier. (8 Go de mémoire GPU sont insuffisants. Si vous avez un GPU de mémoire de 12 Go, veuillez partager vos résultats de formation avec nous.)

Actuellement, le meilleur modèle atteint EM / F1 = 70,8 / 80,1 en étapes de 60k (6 ~ 8 heures). Les résultats détaillés sont répertoriés ci-dessous.

Alt text

Ensemble de données

L'ensemble de données utilisé pour cette tâche est Stanford Question répondant à l'ensemble de données. Des incorporations de gants pré-entraînées obtenues à partir de rampes communes avec des jetons 840B utilisés pour les mots.

Exigences

Python> = 2,7
Nombant
tqdm
TensorFlow> = 1,5
spacy == 2.0.9
bouteille (seulement pour la démo)

Usage

Pour télécharger et prétraiter les données, exécuter

 # download SQuAD and Glove
sh download.sh
# preprocess the data
python config.py --mode prepro

Tout comme R-net par HKUST-KnowComp, Hyper Paramètres sont stockés dans config.py. Pour déboguer / former / tester / démo, courir

python config.py --mode debug/train/test/demo

Pour évaluer le modèle avec le code officiel, exécutez

python evaluate-v1.1.py ~ /data/squad/dev-v1.1.json train/{model_name}/answer/answer.json

Le répertoire par défaut pour le fichier journal de Tensorboard est train/{model_name}/event

Exécuter dans Docker Container (Facultatif)

Pour construire l'image docker (nécessite nvidia-docker), exécutez

 nvidia-docker build -t tensorflow/qanet .

Définir les chemins de montage du volume et les mappages de port (pour le mode de démonstration)

 export QANETPATH={/path/to/cloned/QANet}
export CONTAINERWORKDIR=/home/QANet
export HOSTPORT=8080
export CONTAINERPORT=8080

tomber dans le récipient

 nvidia-docker run -v $QANETPATH:$CONTAINERWORKDIR -p $HOSTPORT:$CONTAINERPORT -it --rm tensorflow/qanet bash

Une fois à l'intérieur du conteneur, suivez les commandes fournies ci-dessus en commençant par le téléchargement des ensembles de données d'équipe et de gant.

Modèle pré-entraîné

Les poids du modèle pré-entraîné ne sont temporairement pas disponibles.

Implémentation détaillée

Le modèle adopte la convolution au niveau des caractères - MAX POLING - Réseau routier pour les représentations des entrées similaires à cet article de Yoon Kim.
L'encodeur est constitué d'un codage de position - Convolution séparable dans le sens de la profondeur - Structure de l'attention et de l'attention avec la norme de la couche entre les deux.
Malgré l'article d'origine en utilisant 200, nous observons que l'utilisation d'une dimension de caractère plus petite conduit à une meilleure généralisation.
Pour la régularisation, un abandon de 0,1 est utilisé tous les 2 sous-couches et 2 blocs.
Le décrochage de profondeur stochastique est utilisé pour supprimer la connexion résiduelle par rapport à l'augmentation de la profondeur du réseau, car ce modèle repose fortement sur des connexions résiduelles.
L'attention de la requête au contexte est utilisée avec l'attention du contexte à la question, ce qui semble améliorer les performances plus que ce que le journal a rapporté. Cela peut être dû au manque de diversité de l'attention de soi due à 1 tête (par opposition à 8 têtes) qui peut avoir des informations répétitives que l'attention de la requête au contexte contient.
Le taux d'apprentissage passe de 0,0 à 0,001 dans les 1000 premières étapes de l'échelle exponentielle inverse et fixé à 0,001 à partir de 1000 étapes.
À l'inférence, ce modèle utilise des variables d'ombre maintenues par la moyenne mobile exponentielle de toutes les variables globales.
Ce modèle utilise un pipeline de formation / test / prétraitement à partir de R-Net pour une meilleure efficacité.

Résultats

Voici les résultats collectés de ce référentiel et du papier d'origine.

Modèle	Étapes de formation	Taille	Têtes d'attention	Taille des données (août)	Em	F1
Mon modèle	35 000	96	1	87K (non août)	69.0	78.6
Mon modèle	60 000	96	1	87K (non août)	70.4	79.6
Mon modèle (rapporté par @jasonbw)	60 000	128	1	87K (non août)	70.7	79.8
Mon modèle (rapporté par @chesterkuo)	60 000	128	8	87K (non août)	70.8	80.1
Papier d'origine	35 000	128	8	87K (non août)	N / A	77.0
Papier d'origine	150 000	128	8	87K (non août)	73.6	82.7
Papier d'origine	340 000	128	8	240k (août)	75.1	83.8

Todo

Formation et test du modèle
Ajouter une fonction trilinéaire à l'attention du contexte à la question
Appliquer des décrocheurs + décrocheur de profondeur stochastique
Attention à la requête en contexte
Démo en temps réel
Augmentation des données en paraphrasant
Former avec des hyperparamètres complets (données augmentées, 8 têtes, unités cachées = 128)

Tensorboard

Exécutez Tensorboard pour la visualisation.

$ tensorboard --logdir=./

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2025-04-17
taille 186.37KB
Provenant de Github

Applications connexes

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout