Descarga staged training - Descargar el código fuente staged training

staged training

Código Fuente de IA

1.0.0

Descargar

capacitación escenificada

En nuestro documento , la capacitación en organización de modelos de lenguaje de transformadores , proponemos una configuración de entrenamiento en etapas que comienza con un modelo pequeño y aumenta incrementalmente la cantidad de cómputo utilizado para la capacitación mediante la aplicación de un "operador de crecimiento" para aumentar la profundidad y el ancho del modelo. Al inicializar cada etapa con la salida del anterior, el proceso de entrenamiento reutiliza efectivamente el cálculo de las etapas anteriores y se vuelve más eficiente.

Lanzamos el código reproducible para el operador de crecimiento y los scripts de evaluación aquí.

Configuración

Los scripts en este repositorio requieren Python 3.7 o más nuevo. Una vez que tenga un entorno de Python adecuado, primero instale Pytorch V1.9.0 según las instrucciones oficiales. Luego corre

 pip install -r requirements.txt

Operador de crecimiento

Nuestros operadores de crecimiento (ancho/profundidad) toman cada uno como entrada todo el estado de capacitación (incluidos los parámetros del modelo, el estado del optimizador, el horario de tarifas de aprendizaje, etc.) y emiten un nuevo estado de capacitación desde el cual continúa la capacitación.

Consulte los scripts/cheatsheet.txt para obtener más ejemplos sobre cómo usar los scripts correspondientes.

Por ejemplo, puede aplicar el operador de ancho con:

 CUDA_VISIBLE_DEVICES=0,1,2,3 python scripts/gpt_pretrain.py 
  --save_prefix final_gpt2_large_div2_width_check_bs512_lr0.0020_warmup3k_seqlen1024_debug 
  --gpu_count -1 
  --model gpt2  
  --tokenizer gpt2 
  --batch_size 4 
  --grad_accum 32  
  --lr 0.002006911598778545  
  --warmup_steps 3000   
  --train_steps 250000  
  --val_every 50  
  --val_batches 50 
  --fp16 
  --seqlen 1024 
  --log_rate 10 
  --num_workers 4 
  --size GPT2_large_div2_width 
  --random 
  --resume final_runs/final_gpt2_large_div2_width_check_bs512_lr0.0021_warmup3k_seqlen1024_debug/checkpoint-xxx.ckpt 
  --doubling weights

O el operador de profundidad con:

 CUDA_VISIBLE_DEVICES=0,1,2,3 python scripts/gpt_pretrain.py 
  --save_prefix final_gpt2_large_div2_depthx2_check_bs512_lr0.0020_warmup3k_seqlen1024_debug 
  --gpu_count -1 
  --model gpt2  
  --tokenizer gpt2 
  --batch_size 4 
  --grad_accum 32 
  --lr 0.002006911598778545 
  --warmup_steps 3000 
  --train_steps 250000 
  --val_every 50 
  --val_batches 50 
  --fp16 
  --seqlen 1024 
  --log_rate 10 
  --num_workers 4 
  --size GPT2_large_div2_depth 
  --random 
  --resume final_runs/final_gpt2_large_div2_depth_check_bs512_lr0.0020_warmup3k_seqlen1024_debug/checkpoint-epoch=0-step=6499.ckpt 
  --doubling layers

Evaluación

Use evaluation/eval_wikitext.py o evaluation/eval_lambada.py para evaluar GPT-2 en uno de los conjuntos de datos compatibles. Por ejemplo:

python evaluation/eval_wikitext.py

O usando Docker:

docker build -t evaluation:latest .
docker run --rm --gpus all evaluation:latest evaluation/eval_wikitext.py

Referencia

Si utiliza capacitación escenificada en su investigación o desea consultar los resultados de referencia publicados aquí, utilice la siguiente entrada de Bibtex.

 @misc{shen2022staged,
    title={Staged Training for Transformer Language Models},
    author={Sheng Shen and Pete Walsh and Kurt Keutzer and Jesse Dodge and Matthew Peters and Iz Beltagy},
    year={2022},
    eprint={2203.06211},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-09-10
tamaño 247KB
Proviene de Github

Aplicaciones relacionadas

GitHub sgrebnov/cordova plugin background download

2024-11-05
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Juego de aplicación de entrenamiento cerebral TBT (Brain Training)

2023-12-06
Entrenamiento de reacción de pateador de pared

2023-11-01
Entrenamiento del Idol Dream Festival

2023-08-15
Entrenamiento de conjunto

2023-08-15

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo