Code für das Papier: Einheit Skalierung: Out-of-the-Box-Training mit niedrigem Vorverfahren.
Wir möchten, dass Gewichte, Aktivierungen und Gradienten bei der Initialisierung eine Einheit-Varianz sind. Um dies zu erreichen, werden wir separate Skalierungsfaktoren für Aktivierungen im Stürmerpass und für Gradienten im Rückwärtspass einführen.
Dieses Repository enthält unseren Experimentierungscode für Experimente zur Sprachmodellierung auf Zeichenebene und ein Demo-Notizbuch.
Überblick:
Struktur:
Siehe auch:
Dieser Code wurde auf Poplar SDK 3.1.0+1205 getestet.
python3 -m venv .venv
# Append to .venv/bin/activate:
# source PATH/TO/POPLAR_SDK/enable
source .venv/bin/activate
pip install wheel
pip install $POPLAR_SDK_ENABLED /../tensorflow-2.6.3+gc3.1.0+246224+2b7af067dae+amd_znver1-cp38-cp38-linux_x86_64.whl
pip install $POPLAR_SDK_ENABLED /../keras-2.6.0+gc3.1.0+246230+88e2debf-py2.py3-none-any.whl
pip install -r requirements.txt
python run_experiment.py Unsere Testergebnisse werden von run_sweep.py beschrieben. Standardmäßig wird davon ausgegangen, dass die Daten unter/home/research-datasets/wikitext103_raw ( train.txt , valid.txt , test.txt ) sind und dass der Benutzer in WANDB angemeldet ist.
python run_sweep.pyCopyright (C) 2023 Graphcore Ltd. Lizenziert unter der MIT -Lizenz.
Der mitgelieferte Code wird unter einer MIT -Lizenz veröffentlicht (siehe Lizenz).
Unsere Abhängigkeiten sind:
| Komponente | Um | Lizenz |
|---|---|---|
| Wandb | Gewichte und Vorurteile Client Library (Website) für optionale Protokollierung auf Wandb -Servern | MIT |
Wir verwenden auch zusätzliche Python-Abhängigkeiten für Entwicklung/Test (siehe Anforderungen dev.txt).
Der Wikitext-103-Datensatz ist unter der Creative Commons Attribution-Sharealike-Lizenz lizenziert.