unit scaling demo
1.0.0
紙張代碼:單位縮放:開箱即用的低精度培訓。
我們希望重量,激活和梯度都在初始化時都是單位變化。為了實現這一目標,我們將引入單獨的縮放因素,以在前傳遞中激活和向後通過的梯度。
該存儲庫包含我們的實驗代碼,以實驗字符級語言建模和演示筆記本。
概述:
結構:
參見:
該代碼已在Poplar SDK 3.1.0+1205上進行了測試。
python3 -m venv .venv
# Append to .venv/bin/activate:
# source PATH/TO/POPLAR_SDK/enable
source .venv/bin/activate
pip install wheel
pip install $POPLAR_SDK_ENABLED /../tensorflow-2.6.3+gc3.1.0+246224+2b7af067dae+amd_znver1-cp38-cp38-linux_x86_64.whl
pip install $POPLAR_SDK_ENABLED /../keras-2.6.0+gc3.1.0+246230+88e2debf-py2.py3-none-any.whl
pip install -r requirements.txt
python run_experiment.py我們的測試結果掃描由run_sweep.py描述。默認valid.txt下,該數據假設數據test.txt /home/research-datasets/wikitext103_raw(train.txt,valive.txt,test.txt train.txt ,並且用戶已登錄到wandb。
python run_sweep.py版權所有(C)2023 Graphcore Ltd.獲得了MIT許可證的許可。
隨附的代碼是根據MIT許可證發布的(請參閱許可證)。
我們的依賴性是:
| 成分 | 關於 | 執照 |
|---|---|---|
| Wandb | 權重和偏見客戶庫(網站),可選登錄Wandb服務器 | 麻省理工學院 |
我們還使用其他python依賴性進行開發/測試(請參閱incoundy-dev.txt)。
Wikitext-103數據集已在創意共享屬性共享許可下獲得許可。