Téléchargement transformer pointer generator - Téléchargement du code source transformer pointer generator Téléchargement

transformer pointer generator

Autre code source

1.0.0

Télécharger

Une implémentation de résumé abstractive avec le transformateur et le générateur de pointeur

Quand je voulais résoudre le réseau neuronal, j'ai essayé de nombreuses façons de générer un résumé abstrait, mais le résultat n'était pas bon. Quand j'ai entendu la Coupe d'octets 2018, j'ai trouvé des informations à ce sujet, et la solution du champion m'a attiré, mais j'ai trouvé des sites Web, comme Github Gitlab, je n'ai pas trouvé le code officiel, alors j'ai décidé de l'implémenter.

Exigences

Python == 3.x (passons à Python 3 si vous utilisez toujours Python 2)
TensorFlow == 1.12.0
tqdm> = 4.28.1
jieba> = 0,3x
SUMEVAL> = 0.2.0

Structure du modèle

Basé

Mon modèle est basé sur l'attention est tout ce dont vous avez besoin et à arriver au point: Résumé avec les réseaux de générateur de pointeur

Changement

Le modèle de générateur de pointeur a deux mécanismes, qui sont un mécanisme de copie et un mécanisme de couverture , j'ai trouvé certains matériaux, ils montrent que le mécanisme de couverture ne convient pas à un court résumé, donc je n'ai pas utilisé ce mécanisme, j'utilise simplement le premier.
Le modèle du générateur de pointeur a une insuffisance, ce qui peut laisser la perte de Nan, j'ai essayé certains fois et je voulais le réparer, mais le résultat était que je ne peux pas, je pense que la raison était que lorsque le calcul des logistes finales, il prolongera la longueur du vocabulaire à la longueur OOV et du vocabulaire, elle obtiendra plus de zéros. Je supprime donc le mécanisme d'étendue des logistes finales, utilise simplement leur mécanisme de déocode de l'article et du vocabulaire. Il y a plus de détails à ce sujet, dans ce modèle, j'utilise simplement Word que Vocab, cette idée est de Bert.

Structure

Entraînement

Étape 1. Téléchargez l'ensemble de données, PWD est AYN6, l'ensemble de données est LCSTS par pré-traitement, donc vous verrez une structure de jeu de données très différente avec des LCST dans le fichier que chaque ligne est abstraite et article, ils se séparent "," , si vous vous inquiétez que la quantité de jeu de données est différente entre les LCST et les LCST, ne vous inquiétez pas, l'amout du jeu de données est le même que les LCST.
Étape 2. Exécutez la commande suivante.

 python train.py

Vérifiez hparams.py pour voir quels paramètres sont possibles. Par exemple,

 python train.py --logdir myLog --batch_size 32 --train myTrain --eval myEval

Mon code améliore également le multi-GPU pour former ce modèle, si vous avez plus d'un GPU, il suffit de courir comme ceci

 python train.py --logdir myLog --batch_size 32 --train myTrain --eval myEval --gpu_nums=myGPUNums

nom	taper	détail
vocab_size	int	taille du vocab
former	Str	Dir de données de datas
évaluer	Str	Évaluation de Dataset Dir
test	Str	Données pour calculer le score Rouge
vocab	Str	Chemin de fichier de vocabulaire
batch_size	int	Taille du lot de train
EVAL_BATCH_SIZE	int	Taille du lot d'évaluation
LR	flotter	taux d'apprentissage
Warmup_steps	int	étapes d'échauffement en apprenant le taux
logdir	Str	répertoire de journal
num_pochs	int	Le nombre d'époches de train
évaluer	Str	Évaluation Dir
d_model	int	Dimension cachée du codeur / décodeur
d_ff	int	dimension cachée de la couche
num_blocks	int	Nombre de blocs d'encodeur / décodeur
num_heads	int	Nombre de têtes d'attention
maxlen1	int	longueur maximale d'une séquence source
maxlen2	int	longueur maximale d'une séquence cible
dropout_rate	flotter	taux d'abandon
Beam_size	int	Taille du faisceau pour Decode
GPU_NUMS	int	Montant du GPU, qui peut permettre au nombre de GPU de former ce modèle ， par défaut 1

Note

Ne changez pas les hyper-paramètres de Transformer Util Vous avez une bonne solution, cela permettra à la perte ne puisse pas tomber! Si vous avez une bonne solution, j'espère que vous pourrez me le dire.