lmtool fwp Download - lmtool fwp Download de código fonte

lmtool fwp

Código-Fonte de IA

1.0.0

Baixar

Kit de ferramentas de modelagem de idiomas Pytorch (para programadores de peso rápido)

Este repositório contém o código oficial usado para experimentos de modelagem de idiomas no (s) artigo (s):

Transformadores lineares são programadores secretamente rápidos de peso (ICML 2021)
Indo além dos transformadores lineares com programadores de peso rápido recorrente
...

De maneira mais geral, isso pode ser usado como um kit de ferramentas de modelagem de idiomas em Pytorch para experimentar:

Transformadores padrão
Transformer-xl
Programadores rápidos de peso com diferentes regras de atualização e funções de atenção linear :
- Regras de atualização: "soma" e nossa regra "delta" (conforme proposto em nosso artigo; seção 4.2)
- Funções de atenção lineares: "baseado em eluas" atenção linear "," favor+"," projeção determinística livre de parâmetros (DPFP) "
por exemplo, algumas combinações resultam em modelos conhecidos:
- Transformadores lineares = regra de atualização "soma" + "atenção linear baseada em elu"
- Artistas = "soma" regra de atualização + "favor +"

Implementações de peso rápido

Esta repositoria contém duas implementações de pesos rápidos.

Kernel CUDA CUDA (ver Utils/fast_fast_weight e utils/cuda_fast_weight_layer.py)
torch.autograd.Function personalizada.autograd.function (consulte Utils/fast_weight.py)

Enquanto usamos apenas a implementação do CUDA para todas as nossas experiências finais (utilização de GPU mais rápida/muito melhor), a versão torch.autograd.Function pode ser útil para uma prototipagem rápida com novas extensões.

Requisitos

Este kit de ferramentas requer pytorch torch e ninja Ninja (para compilar os kernels Cuda).

As experiências para o artigo foram realizadas com Python 3.6 e Pytorch 1.4.0 (nota em 24 de agosto de 2023: o código também funciona com Python 3.11 e Pytorch 2.0.1+Cu117).

As versões mais recentes do Pytorch ainda não são bem suportadas por este kit de ferramentas que ainda usa torch.nn.DataParallel para treinamento multi-GPU. Se você realmente precisar usar uma versão mais recente do Pytorch, verifique a documentação para usar torch.nn.parallel.DistributedDataParallel . Esperamos consertar isso em breve, mas não podemos dizer exatamente quando.

O kit de ferramentas suporta pesos e preconceitos para monitorar trabalhos. Se você o usar, também instale wandb .

Agradecimentos

Essa reposidade contém muitas linhas de código tiradas e adaptadas das seguintes fontes:

Essa reposidade foi originalmente bifurcada a partir da implementação oficial do transformador-xl Kimiyoung/Transformer-XL. O código dos modelos Transformer-XL e do transformador padrão, bem como a funcionalidade básica necessária para a modelagem de idiomas (incluindo entrada adaptativa e incorporação de saída) e preparação de dados (Wikitext-103, Enwik8, ...) é do repositório correspondente.
Para os artistas, são usadas funções auxiliares de Lucidrains/Performer-Pytorch.
Para implementações de CUDA de nossos programadores de peso rápido com a regra Delta:
- O código do IDIAP/Fast Transformers é usado com pequenas alterações na regra de atualização da soma.
- Nós o modificamos para implementar nossa regra de atualização. Veja os comentários no código para obter locais e modificações exatas.

Instruções gerais

Verifique os arquivos em example_scripts para obter instruções e exemplos gerais para treinar e avaliar modelos.

Bibtex

 @inproceedings{schlag2021linear,
      title={Linear Transformers Are Secretly Fast Weight Programmers}, 
      author={Imanol Schlag and Kazuki Irie and J"urgen Schmidhuber},
      booktitle={Proc. Int. Conf. on Machine Learning (ICML)},
      address = {Virtual only},
      month = jul,
      year={2021}
}

 @article{irie2021going,
      title={Going Beyond Linear Transformers with Recurrent Fast Weight Programmers}, 
      author={Kazuki Irie and Imanol Schlag and R'obert Csord'as and J"urgen Schmidhuber},
      journal={Preprint arXiv:2106.06295},
      year={2021}
}

Links

O código para experimentos de recuperação sintética no artigo "Transformadores lineares são secretamente programadores de peso rápido" (ICML 2021) pode ser encontrado em Ischlag/Fast-Weight-Transformadores.
O repositório completo para o artigo "Indo além dos transformadores lineares com programadores de peso rápido recorrente" pode ser encontrado em: Idsia/Recorrente-FWP
Postagem de blog da AI de Jürgen Schmidhuber sobre programadores de peso rápido (26 de março de 2021).

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-09-07
tamanho 147.08KB
Vindo de Github

Aplicativos Relacionados

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub actions/download artifact

2024-11-01

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos