unit scaling demo
1.0.0
論文のコード:ユニットスケーリング:すぐに使用できる低精度トレーニング。
初期化時に、ウェイト、アクティベーション、グラデーションがすべてユニットのバリケーションになりたいと思います。これを達成するために、フォワードパスのアクティベーションと後方パスの勾配について、個別のスケーリング係数を導入します。
このリポジトリには、キャラクターレベルの言語モデリングに関する実験用の実験コードとデモノートが含まれています。
概要:
構造:
参照:
このコードは、Poplar SDK 3.1.0+1205でテストされています。
python3 -m venv .venv
# Append to .venv/bin/activate:
# source PATH/TO/POPLAR_SDK/enable
source .venv/bin/activate
pip install wheel
pip install $POPLAR_SDK_ENABLED /../tensorflow-2.6.3+gc3.1.0+246224+2b7af067dae+amd_znver1-cp38-cp38-linux_x86_64.whl
pip install $POPLAR_SDK_ENABLED /../keras-2.6.0+gc3.1.0+246230+88e2debf-py2.py3-none-any.whl
pip install -r requirements.txt
python run_experiment.pyテスト結果スイープはrun_sweep.pyによって説明されています。デフォルトではtrain.txtデータvalid.txt test.txt )の下にある/home/research-datasets/wikitext103_rawがあり、ユーザーがwandbにログインしていると想定しています。
python run_sweep.pyCopyright(c)2023 GraphCore Ltd. MITライセンスに基づいてライセンス。
付属のコードは、MITライセンスの下でリリースされます(ライセンスを参照)。
私たちの依存関係は次のとおりです。
| 成分 | について | ライセンス |
|---|---|---|
| wandb | WANDBサーバーへのオプションのロギング用のウェイトとバイアスクライアントライブラリ(Webサイト) | mit |
また、開発/テストに追加のPython依存関係を使用します(要件-dev.txtを参照)。
Wikitext-103データセットは、Creative Commons Attribution-Sharealikeライセンスの下でライセンスされています。