lmtool fwpダウンロード-LMTOOL lmtool fwpソースコードダウンロード

lmtool fwp

AI ソースコード

1.0.0

ダウンロード

pytorch言語モデリングツールキット（高速プログラマー用）

このリポジトリには、論文の言語モデリング実験に使用される公式コードが含まれています。

線形変圧器は密かに速い体重プログラマーです（ICML 2021）
再発性の高速重量プログラマーを使用して、線形トランスを超えて進みます
...

より一般的には、これはPytorchの言語モデリングツールキットとして使用して、以下を実験できます。

標準変圧器
トランス-XL
さまざまな更新ルールと線形注意機能を備えた高速体重プログラマー：
- ルールの更新：「sum」と「delta」ルール（私たちの論文で提案されているように、秒4.2）
- 線形注意機能：「ELUベースの「線形注意」、好意+」、「決定論的なパラメーターのない投影（DPFP）」
たとえば、いくつかの組み合わせにより、よく知られているモデルが得られます。
- 線形トランス= "sum"更新ルール + "eluベースの"線形注意
- パフォーマー= "sum"更新ルール + "fave +"

高速の実装

このリポジションには、高速の2つの実装が含まれています。

カスタムcudaカーネル（utils/fast_fast_weight and utils/cuda_fast_weight_layer.pyを参照）
Custom torch.autograd.Function （utils/fast_weight.pyを参照）

すべての最終実験（より速く/はるかに優れたGPU使用率）にCUDA実装のみを使用しましたが、 torch.autograd.Functionバージョンは、新しい拡張機能を備えた迅速なプロトタイピングに役立ちます。

要件

このツールキットには、Pytorch torchとNinja ninja （Cuda Kernelsをコンパイルするため）が必要です。

論文の実験は、Python 3.6およびPytorch 1.4.0で実施されました（2023年8月24日に注：このコードは、Python 3.11およびPytorch 2.0.1+Cu117でも動作します）。

Pytorchのより最近のバージョンは、マルチGPUトレーニングにまだtorch.nn.DataParallel使用しているこのツールキットによってまだ十分にサポートされていません。 Pytorchの最新バージョンを本当に使用する必要がある場合は、代わりにtorch.nn.parallel.DistributedDataParallelを使用するためにドキュメントを確認してください。これをすぐに修正することを願っていますが、いつ正確にはわかりません。

ツールキットは、ジョブを監視するためのウェイトとバイアスをサポートしています。使用する場合は、 wandbもインストールします。

謝辞

この繰り返しには、以下のソースから採取および適応された多くのコード行が含まれています。

この繰り返しはもともと、Transformer-XL Kimiyoung/Transformer-XLの公式実装から分岐していました。トランス-XLおよび標準トランスモデルのコード、および言語モデリング（適応型入力および出力埋め込みを含む）およびデータ準備（Wikitext-103、ENWIK8、...）に必要な基本的な機能は、対応するリポジトリからのものです。
パフォーマーには、Lucidrains/Performer-Pytorchのヘルパー機能が使用されます。
Deltaルールを使用した高速体重プログラマーのCUDA実装について：
- IDIAP/ファーストトランスフォーマーのコードは、SUM更新ルールの小さな変更で使用されます。
- 更新ルールを実装するように変更しました。正確な場所と変更については、コードのコメントを参照してください。

一般的な指示

モデルをトレーニングおよび評価するための一般的な指示と例については、 example_scriptsの下のファイルを確認してください。

bibtex

 @inproceedings{schlag2021linear,
      title={Linear Transformers Are Secretly Fast Weight Programmers}, 
      author={Imanol Schlag and Kazuki Irie and J"urgen Schmidhuber},
      booktitle={Proc. Int. Conf. on Machine Learning (ICML)},
      address = {Virtual only},
      month = jul,
      year={2021}
}

 @article{irie2021going,
      title={Going Beyond Linear Transformers with Recurrent Fast Weight Programmers}, 
      author={Kazuki Irie and Imanol Schlag and R'obert Csord'as and J"urgen Schmidhuber},
      journal={Preprint arXiv:2106.06295},
      year={2021}
}

リンク

論文「線形変圧器は密かに速い体重プログラマー」（ICML 2021）の合成検索実験のためのコードは、iSchlag/fast-weight-transformersで見つけることができます。
「再発性の高速重量プログラマーを備えた線形変圧器を超えて」という論文の完全なリポジトリは、IDSIA/Recurrent-FWPにあります
JürgenSchmidhuberのAIブログ投稿Fast Weight Progranmers（2021年3月26日）。

拡大する

追加情報