Код для статьи: Масштаб Единицы: Обучение с низким уровнем определения.
Мы хотели бы, чтобы веса, активации и градиенты были подходящими для инициализацией. Чтобы достичь этого, мы введем отдельные факторы масштабирования для активаций в проходе вперед и для градиентов в обратном проходе.
Этот репозиторий содержит наш код экспериментов для экспериментов по моделированию языка на уровне символов, а также демонстрационную записную книжку.
Обзор:
Структура:
Смотрите также:
Этот код был протестирован на Poplar SDK 3.1.0+1205.
python3 -m venv .venv
# Append to .venv/bin/activate:
# source PATH/TO/POPLAR_SDK/enable
source .venv/bin/activate
pip install wheel
pip install $POPLAR_SDK_ENABLED /../tensorflow-2.6.3+gc3.1.0+246224+2b7af067dae+amd_znver1-cp38-cp38-linux_x86_64.whl
pip install $POPLAR_SDK_ENABLED /../keras-2.6.0+gc3.1.0+246230+88e2debf-py2.py3-none-any.whl
pip install -r requirements.txt
python run_experiment.py Наши результаты теста описаны run_sweep.py . По умолчанию это предполагает, что данные находятся под/home/research-datasets/wikitext103_raw ( train.txt , valid.txt , test.txt ) и что пользователь вошел в Wandb.
python run_sweep.pyCopyright (C) 2023 Graphcore Ltd. Лицензировано по лицензии MIT.
Включенный код выпускается по лицензии MIT (см. Лицензию).
Наши зависимости:
| Компонент | О | Лицензия |
|---|---|---|
| Вандб | Вес и смещения клиентской библиотеки (веб -сайт), для дополнительной ведения журнала на серверах Wandb | Грань |
Мы также используем дополнительные зависимости от питона для разработки/тестирования (см. Tedds-dev.txt).
Набор данных Wikitext-103 лицензирован по лицензии Creative Commons Attribution-Sharealik.