lmtool fwp下載-LMTool lmtool fwp源代碼下載

lmtool fwp

Ai源碼

1.0.0

下載

Pytorch語言建模工具包（適用於快速重量程序員）

該存儲庫包含本文中用於語言建模實驗的官方代碼：

線性變壓器是秘密的快速重量程序員（ICML 2021）
超越線性變壓器，具有復發的快速重量程序員
...

更一般而言，這可以用作Pytorch中的語言建模工具包來實驗：

標準變壓器
變壓器-XL
具有不同更新規則和線性注意功能的快速權重程序員：
- 更新規則：“ sum”和我們的“ delta”規則（如我們的論文中提出的；第4.2節）
- 線性注意函數：“基於ELU的“線性注意”，“ favor+”，“確定性參數的無參數投影（DPFP）”
例如，某些組合導致眾所周知的模型：
- 線性變形金剛=“ sum”更新規則 +“基於ELU的”線性注意
- performer =“ sum”更新規則 +“ favor +”

快速體重實現

此存儲量包含兩個快速權重的實現。

自定義CUDA內核（請參閱utils/fast_fast_weight and utils/cuda_fast_weight_layer.py）
自定義torch.autograd.Function （請參閱utils/fast_weight.py）

雖然我們僅在所有最終實驗（更快/更好的GPU利用率）中使用CUDA實現，但torch.autograd.Function版本對於使用新擴展的快速原型製作很有用。

要求

該工具包需要Pytorch torch和忍者ninja （以編譯CUDA內核）。

該論文的實驗是用Python 3.6和Pytorch 1.4.0進行的（2023年8月24日註：該代碼還可以與Python 3.11和Pytorch 2.0.1+Cu117一起使用。

該工具包仍未使用torch.nn.DataParallel進行多GPU培訓的最新版本的Pytorch版本。如果您確實需要使用最新版本的Pytorch，請檢查文檔以使用torch.nn.parallel.DistributedDataParallel 。我們希望盡快解決此問題，但是我們無法確切地分辨何時。

該工具包支持用於監視工作的權重和偏見。如果使用它，還要安裝wandb 。

致謝

該股票包含從以下來源採集和改編的許多代碼行：

這種股票最初是從變形金剛XL Kimiyoung/Transformer-XL的正式實施中分配的。變壓器-XL和標準變壓器模型的代碼以及語言建模所需的基本功能（包括自適應輸入和輸出嵌入）和數據準備（Wikitext-103，enwik8，...）來自相應的存儲庫。
對於表演者，使用Lucidrains/Performer-Pytorch的輔助功能。
對於使用Delta規則的CUDA實施，我們的快速權重程序員：
- IDIAP/Fast-Transformer的代碼用於總和更新規則的較小更改。
- 我們修改了它以實現我們的更新規則。有關確切位置和修改，請參見代碼中的評論。

一般說明

請在example_scripts下檢查文件，以獲取訓練和評估模型的一般說明和示例。

Bibtex

 @inproceedings{schlag2021linear,
      title={Linear Transformers Are Secretly Fast Weight Programmers}, 
      author={Imanol Schlag and Kazuki Irie and J"urgen Schmidhuber},
      booktitle={Proc. Int. Conf. on Machine Learning (ICML)},
      address = {Virtual only},
      month = jul,
      year={2021}
}

 @article{irie2021going,
      title={Going Beyond Linear Transformers with Recurrent Fast Weight Programmers}, 
      author={Kazuki Irie and Imanol Schlag and R'obert Csord'as and J"urgen Schmidhuber},
      journal={Preprint arXiv:2106.06295},
      year={2021}
}