unit scaling demo
1.0.0
논문 코드 : 단위 스케일링 : 기본 저렴한 저렴한 교육.
우리는 가중치, 활성화 및 그라디언트가 모두 초기화시 단위 분산이되기를 원합니다. 이를 달성하기 위해, 우리는 순방향 패스의 활성화 및 뒤로 패스의 그라디언트에 대해 별도의 스케일링 계수를 소개합니다.
이 저장소에는 문자 수준 언어 모델링 실험 실험 코드와 데모 노트북이 포함되어 있습니다.
개요 :
구조:
또한 참조 :
이 코드는 Poplar SDK 3.1.0+1205에서 테스트되었습니다.
python3 -m venv .venv
# Append to .venv/bin/activate:
# source PATH/TO/POPLAR_SDK/enable
source .venv/bin/activate
pip install wheel
pip install $POPLAR_SDK_ENABLED /../tensorflow-2.6.3+gc3.1.0+246224+2b7af067dae+amd_znver1-cp38-cp38-linux_x86_64.whl
pip install $POPLAR_SDK_ENABLED /../keras-2.6.0+gc3.1.0+246230+88e2debf-py2.py3-none-any.whl
pip install -r requirements.txt
python run_experiment.py 우리의 테스트 결과 스윕은 run_sweep.py 에 의해 설명됩니다. 기본적으로 이것은 데이터가/home/research-datasets/wikitext103_raw ( train.txt , valid.txt , test.txt )라고 가정하고 사용자가 WANDB에 로그인한다고 가정합니다.
python run_sweep.pyCopyright (C) 2023 Graphcore Ltd. MIT 라이센스에 따라 라이센스가 부여됩니다.
포함 된 코드는 MIT 라이센스에 따라 해제됩니다 (라이센스 참조).
우리의 의존성은 다음과 같습니다.
| 요소 | 에 대한 | 특허 |
|---|---|---|
| wandb | wandb 서버에 대한 선택적 로깅을위한 가중치 및 바이어스 클라이언트 라이브러리 (웹 사이트) | MIT |
또한 개발/테스트에 추가 파이썬 종속성을 사용합니다 (요구 사항 DEV.TXT 참조).
Wikitext-103 데이터 세트는 Creative Commons Attribution-Sharealike 라이센스에 따라 라이센스가 부여됩니다.