Téléchargement staged training - Téléchargement du code source staged training en scène

staged training

Code Source AI

1.0.0

Télécharger

mise en scène

Dans notre formation mise en scène en document pour les modèles de langue des transformateurs , nous proposons une configuration de formation mise en scène qui commence par un petit modèle et augmente progressivement la quantité de calcul utilisé pour la formation en appliquant un "opérateur de croissance" pour augmenter la profondeur et la largeur du modèle. En initialisant chaque étape avec la sortie de la précédente, le processus de formation réutilise efficacement le calcul à partir des étapes antérieures et devient plus efficace.

Nous libérons le code reproductible pour l'opérateur de croissance et les scripts d'évaluation ici.

Installation

Les scripts de ce référentiel nécessitent Python 3.7 ou plus récent. Une fois que vous avez un environnement Python approprié, installez d'abord Pytorch v1.9.0 selon les instructions officielles. Puis courez

 pip install -r requirements.txt

Opérateur de croissance

Nos opérateurs de croissance (largeur / profondeur) prennent chacun en entrée dans l'ensemble de l'état de formation (y compris les paramètres du modèle, l'état d'optimiseur, le calendrier des taux d'apprentissage, etc.) et produisent un nouvel état de formation à partir duquel la formation se poursuit.

Veuillez consulter les scripts/cheatsheet.txt pour plus d'exemples sur la façon d'utiliser les scripts correspondants.

Par exemple, vous pouvez appliquer l'opérateur de largeur avec:

 CUDA_VISIBLE_DEVICES=0,1,2,3 python scripts/gpt_pretrain.py 
  --save_prefix final_gpt2_large_div2_width_check_bs512_lr0.0020_warmup3k_seqlen1024_debug 
  --gpu_count -1 
  --model gpt2  
  --tokenizer gpt2 
  --batch_size 4 
  --grad_accum 32  
  --lr 0.002006911598778545  
  --warmup_steps 3000   
  --train_steps 250000  
  --val_every 50  
  --val_batches 50 
  --fp16 
  --seqlen 1024 
  --log_rate 10 
  --num_workers 4 
  --size GPT2_large_div2_width 
  --random 
  --resume final_runs/final_gpt2_large_div2_width_check_bs512_lr0.0021_warmup3k_seqlen1024_debug/checkpoint-xxx.ckpt 
  --doubling weights

Ou l'opérateur de profondeur avec:

 CUDA_VISIBLE_DEVICES=0,1,2,3 python scripts/gpt_pretrain.py 
  --save_prefix final_gpt2_large_div2_depthx2_check_bs512_lr0.0020_warmup3k_seqlen1024_debug 
  --gpu_count -1 
  --model gpt2  
  --tokenizer gpt2 
  --batch_size 4 
  --grad_accum 32 
  --lr 0.002006911598778545 
  --warmup_steps 3000 
  --train_steps 250000 
  --val_every 50 
  --val_batches 50 
  --fp16 
  --seqlen 1024 
  --log_rate 10 
  --num_workers 4 
  --size GPT2_large_div2_depth 
  --random 
  --resume final_runs/final_gpt2_large_div2_depth_check_bs512_lr0.0020_warmup3k_seqlen1024_debug/checkpoint-epoch=0-step=6499.ckpt 
  --doubling layers

Évaluation

Utilisez evaluation/eval_wikitext.py ou evaluation/eval_lambada.py pour évaluer GPT-2 sur l'un des ensembles de données pris en charge. Par exemple:

python evaluation/eval_wikitext.py

Ou en utilisant Docker:

docker build -t evaluation:latest .
docker run --rm --gpus all evaluation:latest evaluation/eval_wikitext.py

Référence

Si vous utilisez une formation mise en scène dans vos recherches ou si vous souhaitez vous référer aux résultats de référence publiés ici, veuillez utiliser l'entrée Bibtex suivante.

 @misc{shen2022staged,
    title={Staged Training for Transformer Language Models},
    author={Sheng Shen and Pete Walsh and Kurt Keutzer and Jesse Dodge and Matthew Peters and Iz Beltagy},
    year={2022},
    eprint={2203.06211},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2025-09-10
taille 247KB
Provenant de Github

Applications connexes

GitHub sgrebnov/cordova plugin background download

2024-11-05
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Jeu APP d'entraînement cérébral TBT (entraînement cérébral)

2023-12-06
Entraînement à la réaction des kickers muraux

2023-11-01
Formation au festival de rêve d'idole

2023-08-15
Formation d'ensemble

2023-08-15

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout