Descarga transformer pointer generator - Descargar el código fuente transformer pointer generator

transformer pointer generator

Otro código fuente

1.0.0

Descargar

Una implementación de resumen abstracta con Transformer y Pointer-Generator

Cuando quería obtener un resumen de Neural Network, intenté muchas formas de generar resumen abstracto, pero el resultado no fue bueno. Cuando escuché la Copa Byte 2018, encontré información al respecto, y la solución del campeón me atrajo, pero encontré algunos sitios web, como GitHub Gitlab, no encontré el código oficial, así que decidí implementarlo.

Requisitos

Python == 3.x (Pasemos a Python 3 si todavía usas Python 2)
TensorFlow == 1.12.0
tqdm> = 4.28.1
jieba> = 0.3x
Sumeval> = 0.2.0

Estructura modelo

Basado

Mi modelo se basa en la atención es todo lo que necesitas y llega al punto: resumen con redes de Generator Pointer

Cambiar

El modelo de Generador de puntero tiene dos mecanismos, que son mecanismo de copia y mecanismo de cobertura , encontré algunos materiales, muestran que el mecanismo de cobertura no se adapta a un resumen corto, por lo que no utilicé este mecanismo, solo usé el primero.
El modelo de generador de puntero tiene una insuficiencia, lo que puede dejar que la pérdida se haya vuelto a nan, lo intenté algunas veces y quería solucionarlo, pero el resultado fue que no puedo, creo que la razón fue que cuando calcule logistas finales, extenderá la longitud de vocabulario al OOV y la longitud de vocabulario, obtendrá más ceros. Así que elimino el mecanismo de extender logistas finales, solo uso su mecanismo de Deocode de Artículo y Vocabe. Hay más detalles al respecto, en este modelo, solo uso Word que Vocab, esta idea es de Bert.

Estructura

Capacitación

Paso 1. Descargue el conjunto de datos, PWD es Ayn6, el conjunto de datos es LCST por preprocesado, por lo que verá una estructura de conjunto de datos muy diferente con LCSTS en el archivo Cada línea es abstracta y artículo, dividido por "," , si se preocupa, la cantidad de datos es diferente entre mis y LCST, no se preocupe, el DataSet es igual que los LCST.
Paso 2. Ejecute el siguiente comando.

 python train.py

Compruebe hparams.py para ver qué parámetros son posibles. Por ejemplo,

 python train.py --logdir myLog --batch_size 32 --train myTrain --eval myEval

Mi código también mejora la GPU múltiple para entrenar este modelo, si tiene más de una GPU, solo ejecuta así

 python train.py --logdir myLog --batch_size 32 --train myTrain --eval myEval --gpu_nums=myGPUNums

nombre	tipo	detalle
VOCAB_SIZE	intencionalmente	tamaño de vocabul
tren	stri	Director de datos de tren
evaluación	stri	Eval de datos Dir.
prueba	stri	Datos para calcular la puntuación Rouge
vocabulario	stri	ruta del archivo de vocabulario
lote_size	intencionalmente	Tamaño de lote de tren
eval_batch_size	intencionalmente	Tamaño de lote de evaluación
LR	flotar	tasa de aprendizaje
Warmup_steps	intencionalmente	Pasos de calentamiento por tasa de aprendizaje
logdir	stri	directorio de registro
num_epochs	intencionalmente	el número de época de trenes
Evaldir	stri	dirección de evaluación
d_modelo	intencionalmente	Dimensión oculta del codificador/decodificador
d_ff	intencionalmente	Dimensión oculta de la capa de avance
num_blocks	intencionalmente	Número de bloques de codificadores/decodificadores
num_heads	intencionalmente	Número de cabezas de atención
Maxlen1	intencionalmente	Longitud máxima de una secuencia fuente
Maxlen2	intencionalmente	Longitud máxima de una secuencia objetivo
abandono	flotar	tasa de deserción
beam_size	intencionalmente	Tamaño del haz para la decodificación
gpu_nums	intencionalmente	Cantidad de la GPU, que puede permitir cuántos GPU capacitan este modelo, predeterminado 1

Nota

No cambie los hiperparametros de Transformer Util, tiene una buena solución, ¡dejará que la pérdida no pueda disminuir! Si tienes una buena solución, espero que puedas decirme.