lmtool fwp下载-LMTool lmtool fwp源代码下载

lmtool fwp

Ai源码

1.0.0

下载

Pytorch语言建模工具包（适用于快速重量程序员）

该存储库包含本文中用于语言建模实验的官方代码：

线性变压器是秘密的快速重量程序员（ICML 2021）
超越线性变压器，具有复发的快速重量程序员
...

更一般而言，这可以用作Pytorch中的语言建模工具包来实验：

标准变压器
变压器-XL
具有不同更新规则和线性注意功能的快速权重程序员：
- 更新规则：“ sum”和我们的“ delta”规则（如我们的论文中提出的；第4.2节）
- 线性注意函数：“基于ELU的“线性注意”，“ favor+”，“确定性参数的无参数投影（DPFP）”
例如，某些组合导致众所周知的模型：
- 线性变形金刚=“ sum”更新规则 +“基于ELU的”线性注意
- performer =“ sum”更新规则 +“ favor +”

快速体重实现

此存储量包含两个快速权重的实现。

自定义CUDA内核（请参阅utils/fast_fast_weight and utils/cuda_fast_weight_layer.py）
自定义torch.autograd.Function （请参阅utils/fast_weight.py）

虽然我们仅在所有最终实验（更快/更好的GPU利用率）中使用CUDA实现，但torch.autograd.Function版本对于使用新扩展的快速原型制作很有用。

要求

该工具包需要Pytorch torch和忍者ninja （以编译CUDA内核）。

该论文的实验是用Python 3.6和Pytorch 1.4.0进行的（2023年8月24日注：该代码还可以与Python 3.11和Pytorch 2.0.1+Cu117一起使用。

该工具包仍未使用torch.nn.DataParallel进行多GPU培训的最新版本的Pytorch版本。如果您确实需要使用最新版本的Pytorch，请检查文档以使用torch.nn.parallel.DistributedDataParallel 。我们希望尽快解决此问题，但是我们无法确切地分辨何时。

该工具包支持用于监视工作的权重和偏见。如果使用它，还要安装wandb 。

致谢

该股票包含从以下来源采集和改编的许多代码行：

这种股票最初是从变形金刚XL Kimiyoung/Transformer-XL的正式实施中分配的。变压器-XL和标准变压器模型的代码以及语言建模所需的基本功能（包括自适应输入和输出嵌入）和数据准备（Wikitext-103，enwik8，...）来自相应的存储库。
对于表演者，使用Lucidrains/Performer-Pytorch的辅助功能。
对于使用Delta规则的CUDA实施，我们的快速权重程序员：
- IDIAP/Fast-Transformer的代码用于总和更新规则的较小更改。
- 我们修改了它以实现我们的更新规则。有关确切位置和修改，请参见代码中的评论。

一般说明

请在example_scripts下检查文件，以获取训练和评估模型的一般说明和示例。

Bibtex

 @inproceedings{schlag2021linear,
      title={Linear Transformers Are Secretly Fast Weight Programmers}, 
      author={Imanol Schlag and Kazuki Irie and J"urgen Schmidhuber},
      booktitle={Proc. Int. Conf. on Machine Learning (ICML)},
      address = {Virtual only},
      month = jul,
      year={2021}
}

 @article{irie2021going,
      title={Going Beyond Linear Transformers with Recurrent Fast Weight Programmers}, 
      author={Kazuki Irie and Imanol Schlag and R'obert Csord'as and J"urgen Schmidhuber},
      journal={Preprint arXiv:2106.06295},
      year={2021}
}