Download pytorch attentive lm - pytorch attentive lm

pytorch attentive lm

Código-Fonte de IA

1.0.0

Baixar

pytorch-attentive-lm

Este repositório é uma implementação de um modelo RNN atencioso para a tarefa de modelagem de idiomas.

A modelagem de idiomas é feita nos conjuntos de dados PennTreeBank e Wikitext-02. Os arquivos são analisados de modo que cada exemplo de treinamento consiste em uma frase do corpus, acolchoada a um comprimento máximo de 35 anos. As frases mais longas são cortadas. Isso é feito para gerenciar a atenção e atender apenas a palavras na frase (antes do timestep t, se no timestep t).

A Rede Neural RNN-LM (rede neural recorrente baseada em atenção para modelagem de idiomas) foi originalmente proposta em diálogo coerente com modelos de linguagem baseados em atenção (Hongyuan Mei et al. 2016, Link) e em modelos de linguagem atenciosos (Salton et al. 2017, link).

O modelo consiste em executar um mecanismo de atenção tradicional nos estados ocultos anteriores da (s) camada (s) do codificador RNN para codificar um vetor de contexto que é então combinado com o último estado oculto codificado, a fim de prever a próxima palavra na sequência.

Instalação e uso

Dependências:

python=3.7
torch>=1.0.0
nltk
matplotlib
tensorboardX

Instale todas as dependências e execute python main.py

Os conjuntos de dados serão baixados e pré-processados automaticamente.

Várias opções para execução são possíveis python main.py --help para lista completa.

 usage: main.py [-h] [--batch-size N] [--epochs N] [--lr LR] [--patience P]
               [--seed S] [--log-interval N] [--dataset [{wiki-02,ptb}]]
               [--embedding-size N] [--n-layers N] [--hidden-size N]
               [--positioning-embedding N] [--input-dropout D]
               [--rnn-dropout D] [--decoder-dropout D] [--clip N]
               [--optim [{sgd,adam,asgd}]] [--salton-lr-schedule]
               [--early-stopping-patience P] [--attention]
               [--no-positional-attention] [--tie-weights]
               [--file-name FILE_NAME] [--parallel]

PyTorch Attentive RNN Language Modeling

optional arguments:
  -h, --help            show this help message and exit
  --batch-size N        input batch size for training (default: 64)
  --epochs N            number of epochs to train (default: 40)
  --lr LR               learning rate (default: 30.0)
  --patience P          patience for lr decrease (default: 5)
  --seed S              random seed (default: 123)
  --log-interval N      how many batches to wait before logging training
                        status (default 10)
  --dataset [{wiki-02,ptb}]
                        Select which dataset (default: ptb)
  --embedding-size N    embedding size for embedding layer (default: 20)
  --n-layers N          layer size for RNN encoder (default: 1)
  --hidden-size N       hidden size for RNN encoder (default: 20)
  --positioning-embedding N
                        hidden size for positioning generator (default: 20)
  --input-dropout D     input dropout (default: 0.5)
  --rnn-dropout D       rnn dropout (default: 0.0)
  --decoder-dropout D   decoder dropout (default: 0.5)
  --clip N              value at which to clip the norm of gradients (default:
                        0.25)
  --optim [{sgd,adam,asgd}]
                        Select which optimizer (default: sgd)
  --salton-lr-schedule  Enables same training schedule as Salton et al. 2017
                        (default: False)
  --early-stopping-patience P
                        early stopping patience (default: 25)
  --attention           Enable standard attention (default: False)
  --no-positional-attention
                        Disable positional attention (default: False)
  --tie-weights         Tie embedding and decoder weights (default: False)
  --file-name FILE_NAME
                        Specific filename to save under (default: uses params
                        to generate)
  --parallel            Enable using GPUs in parallel (default: False)

Resultados

Resultados no PTB:

Modelo	Número de parâmetros	Perplexidade de validação	Teste perplexidade
Linha de base LSTM (Merity et al., 2017)	7,86m	66.77	64.96
LM atencioso (Salton et al. 2017)	7.06m	79.09	76.56
Lm atencioso posicional	6,9m	72.69	70.92

Resultados no Wikitext-02:

Modelo	Número de parâmetros	Perplexidade de validação	Teste perplexidade
Linha de base LSTM (Merity et al., 2017)	7,86m	72.43	68,50
LM atencioso (Salton et al. 2017)	7.06m	78.43	74.37
Lm atencioso posicional	6,9m	74.39	70.73

Reproduzindo resultados:

Você pode executar novamente todos os modelos que geraram as tabelas acima simplesmente executando:

python test.py

No entanto, observe que alguns desses modelos levam mais de 8 horas para convergir em uma única GPU de 1080, para que o tempo total de execução do experimento possa ser de aproximadamente 2 dias.

O suporte multi-GPU é desativado por padrão, pois demonstrou ter um impacto negativo nos resultados. Além disso, uma vez que os lotes são pequenos na prática, não é realmente muito mais rápido, pois é gasto muito tempo enviando os tensores para as respectivas GPUs.

Comparando as atenções

Aqui são mostrados, lado a lado das duas distribuições de atenção em um exemplo:

As palavras no eixo x são as entradas a cada etapa do tempo e as palavras no eixo y são os alvos. Ambos os modelos foram treinados no conjunto de dados Wikitext-02 até a convergência.

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-09-10
tamanho 18.12KB
Vindo de Github

Aplicativos Relacionados

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
pytorch image models

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
LM produção de página de confissão on-line PHP código-fonte versão embelezada versão oficial

2022-11-01

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos