Descarga de QANet - Descarga del código fuente QANet

QANet

Otro código fuente

1.0.0

Descargar

Cántido

Una implementación de TensorFlow de Qanet de Google (previamente comprensión de lectura rápida (FRC)) de ICLR2018. (Nota: esta no es una implementación oficial de los autores del documento)

Escribí una publicación de blog sobre la implementación de Qanet. ¡Mira aquí para obtener más información!

La tubería de capacitación y preprocesamiento ha sido adoptada de R-NET por Hkust-Knowcomp. El modo de demostración está funcionando. Después del entrenamiento, solo use python config.py --mode demo para ejecutar un servidor de demostración interactivo.

Debido a un problema de memoria, se usa una atención de producto de punto único se usa en oposición a una atención múltiple de 8 cabezas como en el documento original. El tamaño oculto también se reduce a 96 de 128 debido al uso de un GTX1080 en comparación con un P100 utilizado en el papel. (8 GB de memoria GPU es insuficiente. Si tiene una GPU de memoria de 12 GB, comparta sus resultados de capacitación con nosotros).

Actualmente, el mejor modelo llega a EM/F1 = 70.8/80.1 en 60k pasos (6 ~ 8 horas). Los resultados detallados se enumeran a continuación.

Alt text

Conjunto de datos

El conjunto de datos utilizado para esta tarea es el conjunto de datos de respuesta a la pregunta de Stanford. Incrustos de guantes previos a la aparición obtenida de un rastreo común con tokens 840B utilizados para palabras.

Requisitos

Python> = 2.7
Numpy
TQDM
Tensorflow> = 1.5
Spacy == 2.0.9
botella (solo para demostración)

Uso

Para descargar y preprocesar los datos, ejecutar

 # download SQuAD and Glove
sh download.sh
# preprocess the data
python config.py --mode prepro

Al igual que R-Net por Hkust-KnowComp, los hiper parámetros se almacenan en config.py. Para depurar/trenes/test/demo, ejecutar

python config.py --mode debug/train/test/demo

Para evaluar el modelo con el código oficial, ejecute

python evaluate-v1.1.py ~ /data/squad/dev-v1.1.json train/{model_name}/answer/answer.json

El directorio predeterminado para el archivo de registro de TensorBoard es train/{model_name}/event

Ejecutar en Docker Container (opcional)

Para construir la imagen de Docker (requiere nvidia-docker), ejecutar

 nvidia-docker build -t tensorflow/qanet .

Establezca rutas de montaje de volumen y asignaciones de puerto (para modo de demostración)

 export QANETPATH={/path/to/cloned/QANet}
export CONTAINERWORKDIR=/home/QANet
export HOSTPORT=8080
export CONTAINERPORT=8080

atacar en el contenedor

 nvidia-docker run -v $QANETPATH:$CONTAINERWORKDIR -p $HOSTPORT:$CONTAINERPORT -it --rm tensorflow/qanet bash

Una vez dentro del contenedor, siga los comandos proporcionados anteriormente, comenzando con la descarga de los conjuntos de datos del escuadrón y el guante.

Modelo previamente

Los pesos del modelo previamente no están disponibles temporalmente.

Implementación detallada

El modelo adopta la convolución a nivel de caracteres - Agrupación máxima - Red de carreteras para representaciones de entrada similares a este documento por Yoon Kim.
El codificador consiste en la codificación posicional (convolución separable de profundidad (autodenencia - Estructura de alimentación hacia adelante con norma de capa en el medio.
A pesar del documento original que usa 200, observamos que el uso de una dimensión de carácter más pequeña conduce a una mejor generalización.
Para la regularización, se usa un abandono de 0.1 cada 2 subcapacia y 2 bloques.
La deserción de profundidad estocástica se usa para soltar la conexión residual con respecto al aumento de la profundidad de la red, ya que este modelo depende en gran medida de las conexiones residuales.
La atención de consulta a contexto se usa junto con la atención de contexto a cuidante, lo que parece mejorar el rendimiento más de lo que informó el documento. Esto puede deberse a la falta de diversidad en la atención propia debido a 1 cabeza (a diferencia de 8 cabezas) que puede tener información repetitiva que contiene la atención de consulta a contexto.
La tasa de aprendizaje aumenta de 0.0 a 0.001 en los primeros 1000 pasos en escala exponencial inversa y se fijó a 0.001 de 1000 pasos.
En inferencia, este modelo utiliza variables de sombra mantenidas por el promedio móvil exponencial de todas las variables globales.
Este modelo utiliza una tubería de entrenamiento / prueba / preprocesamiento de R-NET para mejorar la eficiencia.

Resultados

Aquí están los resultados recopilados de este repositorio y el artículo original.

Modelo	Pasos de entrenamiento	Tamaño	Cabezas de atención	Tamaño de datos (agosto)	Em	F1
Mi modelo	35,000	96	1	87k (sin agosto)	69.0	78.6
Mi modelo	60,000	96	1	87k (sin agosto)	70.4	79.6
Mi modelo (reportado por @jasonbw)	60,000	128	1	87k (sin agosto)	70.7	79.8
Mi modelo (reportado por @chesterkuo)	60,000	128	8	87k (sin agosto)	70.8	80.1
Papel original	35,000	128	8	87k (sin agosto)	N / A	77.0
Papel original	150,000	128	8	87k (sin agosto)	73.6	82.7
Papel original	340,000	128	8	240k (agosto)	75.1	83.8

TODO's

Entrenamiento y prueba del modelo
Agregue la función trilineal a la atención contextual a cuidante
Aplicar abandonos + abandono de profundidad estocástica
Atención de consulta a contexto
Demostración de tiempo real
Aumento de datos por parafraseo
Entrena con hiperparámetros completos (datos aumentados, 8 cabezas, unidades ocultas = 128)

Tabla tensor

Ejecute TensorBoard para la visualización.

$ tensorboard --logdir=./

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-04-17
tamaño 186.37KB
Proviene de Github

Aplicaciones relacionadas

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo