Download de unit scaling demo - unit scaling demo do Download de código -fonte

unit scaling demo

Código-Fonte de IA

1.0.0

Baixar

Demoção de escala da unidade

Código para o artigo: Escala de unidade: Treinamento pronta para baixo da caixa de baixa precisão.

Gostaríamos que pesos, ativações e gradientes seja variação unitária na inicialização. Para conseguir isso, introduziremos fatores de escala separados para ativações no passe para frente e para gradientes no passe para trás.

Este repositório contém nosso código de experimentação para experimentos sobre modelagem de idiomas no nível do caractere e um caderno de demonstração.

Visão geral:

Técnica - Escala de unidade
Tarefa - Modelagem de Linguagem de Personagem
DataSet - Wikitext -103 (Raw)
Framework - TF2/Keras, Poplar SDK
Registro - wandb

Estrutura:

run_experiment.py - Configuração e ponto de entrada para um único experimento
run_sweep.py - lógica de varredura e configuração
SCMM/ - Pacote Python Core e implementação de linha de base
- Scmm/ USCALE/ - Implementação de escala de unidade
- Adaptadores específicos de plataforma SCMM/ Pedal/ -
Dev - Script de lançamento da tarefa de desenvolvimento (testes, fiapos, etc)
Dados
pytorch-notebook/unit-scaling-notebook.ipynb

Veja também:

pytorch-notebook/unit-scaling-notebook.ipynb-demonstração independente de pytorch
Filial: 2023-01 Paper-Materiais de suporte adicionais para o papel

Uso

Este código foi testado no Poplar SDK 3.1.0+1205.

python3 -m venv .venv
# Append to .venv/bin/activate:
# source PATH/TO/POPLAR_SDK/enable
source .venv/bin/activate
pip install wheel
pip install $POPLAR_SDK_ENABLED /../tensorflow-2.6.3+gc3.1.0+246224+2b7af067dae+amd_znver1-cp38-cp38-linux_x86_64.whl
pip install $POPLAR_SDK_ENABLED /../keras-2.6.0+gc3.1.0+246230+88e2debf-py2.py3-none-any.whl
pip install -r requirements.txt

python run_experiment.py

Para reproduzir

Nossas varreduras de resultado do teste são descritas por run_sweep.py . Por padrão, isso pressupõe que os dados estejam em/home/pesquisa-Datasets/wikitext103_raw ( train.txt , valid.txt , test.txt ) e que o usuário está conectado ao wandb.