unit scaling demo
1.0.0
纸张代码:单位缩放:开箱即用的低精度培训。
我们希望重量,激活和梯度都在初始化时都是单位变化。为了实现这一目标,我们将引入单独的缩放因素,以在前传递中激活和向后通过的梯度。
该存储库包含我们的实验代码,以实验字符级语言建模和演示笔记本。
概述:
结构:
参见:
该代码已在Poplar SDK 3.1.0+1205上进行了测试。
python3 -m venv .venv
# Append to .venv/bin/activate:
# source PATH/TO/POPLAR_SDK/enable
source .venv/bin/activate
pip install wheel
pip install $POPLAR_SDK_ENABLED /../tensorflow-2.6.3+gc3.1.0+246224+2b7af067dae+amd_znver1-cp38-cp38-linux_x86_64.whl
pip install $POPLAR_SDK_ENABLED /../keras-2.6.0+gc3.1.0+246230+88e2debf-py2.py3-none-any.whl
pip install -r requirements.txt
python run_experiment.py我们的测试结果扫描由run_sweep.py描述。默认valid.txt下,该数据假设数据test.txt /home/research-datasets/wikitext103_raw(train.txt,valive.txt,test.txt train.txt ,并且用户已登录到wandb。
python run_sweep.py版权所有(C)2023 Graphcore Ltd.获得了MIT许可证的许可。
随附的代码是根据MIT许可证发布的(请参阅许可证)。
我们的依赖性是:
| 成分 | 关于 | 执照 |
|---|---|---|
| Wandb | 权重和偏见客户库(网站),可选登录Wandb服务器 | 麻省理工学院 |
我们还使用其他python依赖性进行开发/测试(请参阅incoundy-dev.txt)。
Wikitext-103数据集已在创意共享属性共享许可下获得许可。