Código para el documento: Escala de la unidad: entrenamiento de baja precisión de baja caja.
Nos gustaría pesas, activaciones y gradientes, todos para ser unidades de varianza en la inicialización. Para lograr esto, introduciremos factores de escala separados para las activaciones en los avances y para los gradientes en el pase hacia atrás.
Este repositorio contiene nuestro código de experimentación para experimentos sobre el modelado de lenguaje a nivel de personaje y un cuaderno de demostración.
Descripción general:
Estructura:
Ver también:
Este código ha sido probado en Poplar SDK 3.1.0+1205.
python3 -m venv .venv
# Append to .venv/bin/activate:
# source PATH/TO/POPLAR_SDK/enable
source .venv/bin/activate
pip install wheel
pip install $POPLAR_SDK_ENABLED /../tensorflow-2.6.3+gc3.1.0+246224+2b7af067dae+amd_znver1-cp38-cp38-linux_x86_64.whl
pip install $POPLAR_SDK_ENABLED /../keras-2.6.0+gc3.1.0+246230+88e2debf-py2.py3-none-any.whl
pip install -r requirements.txt
python run_experiment.py Nuestros barridos de resultados de prueba se describen por run_sweep.py . Por defecto, esto supone que los datos están en/Home/Research-Datasets/Wikitext103_raw ( train.txt , valid.txt , test.txt ) y que el usuario se inicia en Wandb.
python run_sweep.pyCopyright (c) 2023 Graphcore Ltd. licenciado bajo la licencia MIT.
El código incluido se publica bajo una licencia MIT (ver licencia).
Nuestras dependencias son:
| Componente | Acerca de | Licencia |
|---|---|---|
| Wandb | Biblioteca de clientes de pesas y sesgos (sitio web), para registro opcional a servidores Wandb | MIT |
También utilizamos dependencias de Python adicionales para el desarrollo/prueba (ver requisitos-dev.txt).
El conjunto de datos Wikitext-103 tiene licencia bajo la licencia Creative Commons Attribution-Sharealike.