Download QANet - Download do código -fonte QANet

QANet

Outro código-fonte

1.0.0

Baixar

Qanet

Uma implementação do TensorFlow do QANET do Google (compreensão anterior de leitura rápida (FRC)) do ICLR2018. (Nota: Esta não é uma implementação oficial dos autores do artigo)

Eu escrevi um post sobre a implementação da Qanet. Confira aqui para obter mais informações!

O pipeline de treinamento e pré-processamento foi adotado da R-Net pelo HKUST-KnowComp. O modo de demonstração está funcionando. Após o treinamento, basta usar python config.py --mode demo para executar um servidor de demonstração interativo.

Devido a um problema de memória, é usada uma atenção de um único número de pontos de cabeça em oposição a uma atenção de 8 cabeças de várias cabeças, como no artigo original. O tamanho oculto também é reduzido para 96 de 128 devido ao uso de um GTX1080 em comparação com um P100 usado no papel. (8 GB de memória GPU é insuficiente. Se você tiver uma GPU de memória de 12 GB, compartilhe seus resultados de treinamento conosco.)

Atualmente, o melhor modelo atinge em/f1 = 70,8/80,1 em 60k etapas (6 ~ 8 horas). Resultados detalhados estão listados abaixo.

Alt text

Conjunto de dados

O conjunto de dados usado para esta tarefa é o conjunto de dados Stanford Question. Incorporações de luvas pré -gravadas obtidas de rastreamento comum com 840b tokens usados para palavras.

Requisitos

Python> = 2.7
Numpy
TQDM
Tensorflow> = 1.5
spacy == 2.0.9
garrafa (apenas para demonstração)

Uso

Para baixar e pré -processar os dados, execute

 # download SQuAD and Glove
sh download.sh
# preprocess the data
python config.py --mode prepro

Assim como o R-Net do HKUST-KnowComp, os parâmetros hiper são armazenados em config.py. Para depurar/trem/test/demonstração, execute

python config.py --mode debug/train/test/demo

Para avaliar o modelo com o código oficial, execute

python evaluate-v1.1.py ~ /data/squad/dev-v1.1.json train/{model_name}/answer/answer.json

O diretório padrão do arquivo de log do Tensorboard é train/{model_name}/event

Execute no Docker Container (Opcional)

Para construir a imagem do Docker (requer Nvidia-Docker), execute

 nvidia-docker build -t tensorflow/qanet .

Defina caminhos de montagem de volume e mapeamentos de porta (para o modo de demonstração)

 export QANETPATH={/path/to/cloned/QANet}
export CONTAINERWORKDIR=/home/QANet
export HOSTPORT=8080
export CONTAINERPORT=8080

BASH no recipiente

 nvidia-docker run -v $QANETPATH:$CONTAINERWORKDIR -p $HOSTPORT:$CONTAINERPORT -it --rm tensorflow/qanet bash

Uma vez dentro do contêiner, siga os comandos fornecidos acima, começando com o download dos conjuntos de dados de esquadrão e luvas.

Modelo pré -terenciado

Os pesos do modelo pré -ridículo não estão temporariamente disponíveis.

Implementação detalhada

O modelo adota a convolução do nível do caractere - Pooling máximo - rede de rodovias para representações de entrada semelhantes a este artigo de Yoon Kim.
O codificador consiste em codificação posicional - convolução separável em profundidade - auto -atenção - alimente a estrutura avançada com norma de camada intermediária.
Apesar do artigo original usando 200, observamos que o uso de uma dimensão menor de caracteres leva a uma melhor generalização.
Para regularização, um abandono de 0,1 é usado a cada 2 sub-camadas e 2 blocos.
O abandono da profundidade estocástico é usado para soltar a conexão residual em relação ao aumento da profundidade da rede, pois esse modelo depende fortemente de conexões residuais.
A atenção da consulta a contexto é usada juntamente com a atenção de contexto a quadro, o que parece melhorar o desempenho mais do que o artigo relatado. Isso pode ser devido à falta de diversidade de atenção devido a uma cabeça (em oposição a 8 cabeças), que podem ter informações repetitivas que a atenção da consulta a contexto contém.
A taxa de aprendizado aumenta de 0,0 para 0,001 nas primeiras 1000 etapas em escala exponencial inversa e fixada a 0,001 a partir de 1000 etapas.
Na inferência, esse modelo usa variáveis de sombra mantidas pela média móvel exponencial de todas as variáveis globais.
Este modelo usa um pipeline de treinamento / teste / pré-processamento da R-Net para melhorar a eficiência.

Resultados

Aqui estão os resultados coletados deste repositório e do artigo original.

Modelo	Etapas de treinamento	Tamanho	Cabeças de atenção	Tamanho dos dados (agosto)	Em	F1
Meu modelo	35.000	96	1	87k (sem agosto)	69.0	78.6
Meu modelo	60.000	96	1	87k (sem agosto)	70.4	79.6
Meu modelo (relatado por @jasonbw)	60.000	128	1	87k (sem agosto)	70.7	79.8
Meu modelo (relatado por @chesterkuo)	60.000	128	8	87k (sem agosto)	70.8	80.1
Papel original	35.000	128	8	87k (sem agosto)	N / D	77.0
Papel original	150.000	128	8	87k (sem agosto)	73.6	82.7
Papel original	340.000	128	8	240K (agosto)	75.1	83.8

TODO

Treinando e testando o modelo
Adicione a função trilinear à atenção de contexto a quadro
Aplicar desistências + abandono de profundidade estocástica
Atenção de consulta a contexto
Demonstração em tempo real
Aumento de dados por parafrasear
Treine com hiperparâmetros completos (dados aumentados, 8 cabeças, unidades ocultas = 128)

Tensorboard

Execute o Tensorboard para visualização.

$ tensorboard --logdir=./

Expandir

Informações adicionais

Versão 1.0.0
Tipo Outro código-fonte
Data da Última Atualização 2025-04-17
tamanho 186.37KB
Vindo de Github

Aplicativos Relacionados

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos