Kode untuk makalah: Unit penskalaan: Pelatihan presisi rendah di luar kotak.
Kami ingin bobot, aktivasi & gradien semuanya menjadi unit-varians pada inisialisasi. Untuk mencapai hal ini, kami akan memperkenalkan faktor penskalaan terpisah untuk aktivasi di lulus ke depan dan untuk gradien di pass mundur.
Repositori ini berisi kode eksperimen kami untuk eksperimen pada pemodelan bahasa tingkat karakter, dan notebook demo.
Ringkasan:
Struktur:
Lihat juga:
Kode ini telah diuji pada poplar SDK 3.1.0+1205.
python3 -m venv .venv
# Append to .venv/bin/activate:
# source PATH/TO/POPLAR_SDK/enable
source .venv/bin/activate
pip install wheel
pip install $POPLAR_SDK_ENABLED /../tensorflow-2.6.3+gc3.1.0+246224+2b7af067dae+amd_znver1-cp38-cp38-linux_x86_64.whl
pip install $POPLAR_SDK_ENABLED /../keras-2.6.0+gc3.1.0+246230+88e2debf-py2.py3-none-any.whl
pip install -r requirements.txt
python run_experiment.py Sapu hasil tes kami dijelaskan oleh run_sweep.py . Secara default, ini mengasumsikan data di bawah/home/riset-datasets/wikutsext103_raw ( train.txt , valid.txt , test.txt ) dan bahwa pengguna masuk ke wandb.
python run_sweep.pyHak Cipta (C) 2023 Graphcore Ltd. dilisensikan di bawah lisensi MIT.
Kode yang disertakan dirilis di bawah lisensi MIT (lihat lisensi).
Ketergantungan kami adalah:
| Komponen | Tentang | Lisensi |
|---|---|---|
| Wandb | Bobot dan Bias Perpustakaan Klien (Situs Web), untuk logging opsional ke server Wandb | Mit |
Kami juga menggunakan dependensi Python tambahan untuk pengembangan/pengujian (lihat persyaratan-dev.txt).
Dataset Wikuxt-103 dilisensikan di bawah lisensi Creative Commons Attribution-ShareAceike.