تنزيل staged training - تنزيل رمز مصدر staged training

staged training

كود الذكاء الاصطناعي

1.0.0

تنزيل

التدريب على مرحلة

في تدريبنا على الورق على نماذج لغة المحولات ، نقترح إعداد تدريب مرحاة يبدأ بنموذج صغير ويزيد بشكل تدريجي من مقدار الحساب المستخدم للتدريب من خلال تطبيق "مشغل النمو" لزيادة عمق النموذج وعرضه. من خلال تهيئة كل مرحلة مع إخراج المرحلة السابقة ، تعيد عملية التدريب بشكل فعال استخدام الحساب من المراحل السابقة وتصبح أكثر كفاءة.

نقوم بإصدار الكود القابل للتكرار لمشغل النمو والبرامج النصية للتقييم هنا.

يثبت

تتطلب البرامج النصية في هذا المستودع Python 3.7 أو الأحدث. بمجرد حصولك على بيئة Python مناسبة ، قم أولاً بتثبيت Pytorch v1.9.0 وفقًا للإرشادات الرسمية. ثم ركض

 pip install -r requirements.txt

مشغل النمو

يأخذ كل من مشغلي النمو لدينا (العرض/العمق) كإدخال الحالة التدريبية بأكملها (بما في ذلك معلمات النموذج ، وحالة المحسّن ، وجدول معدل التعلم ، وما إلى ذلك) وإخراج حالة تدريب جديدة يستمر التدريب منها.

يرجى الاطلاع على scripts/cheatsheet.txt لمزيد من الأمثلة حول كيفية استخدام البرامج النصية المقابلة.

على سبيل المثال ، يمكنك تطبيق مشغل العرض مع:

 CUDA_VISIBLE_DEVICES=0,1,2,3 python scripts/gpt_pretrain.py 
  --save_prefix final_gpt2_large_div2_width_check_bs512_lr0.0020_warmup3k_seqlen1024_debug 
  --gpu_count -1 
  --model gpt2  
  --tokenizer gpt2 
  --batch_size 4 
  --grad_accum 32  
  --lr 0.002006911598778545  
  --warmup_steps 3000   
  --train_steps 250000  
  --val_every 50  
  --val_batches 50 
  --fp16 
  --seqlen 1024 
  --log_rate 10 
  --num_workers 4 
  --size GPT2_large_div2_width 
  --random 
  --resume final_runs/final_gpt2_large_div2_width_check_bs512_lr0.0021_warmup3k_seqlen1024_debug/checkpoint-xxx.ckpt 
  --doubling weights

أو عامل العمق مع:

 CUDA_VISIBLE_DEVICES=0,1,2,3 python scripts/gpt_pretrain.py 
  --save_prefix final_gpt2_large_div2_depthx2_check_bs512_lr0.0020_warmup3k_seqlen1024_debug 
  --gpu_count -1 
  --model gpt2  
  --tokenizer gpt2 
  --batch_size 4 
  --grad_accum 32 
  --lr 0.002006911598778545 
  --warmup_steps 3000 
  --train_steps 250000 
  --val_every 50 
  --val_batches 50 
  --fp16 
  --seqlen 1024 
  --log_rate 10 
  --num_workers 4 
  --size GPT2_large_div2_depth 
  --random 
  --resume final_runs/final_gpt2_large_div2_depth_check_bs512_lr0.0020_warmup3k_seqlen1024_debug/checkpoint-epoch=0-step=6499.ckpt 
  --doubling layers

تقييم

استخدم evaluation/eval_wikitext.py أو evaluation/eval_lambada.py لتقييم GPT-2 على واحدة من مجموعات البيانات المدعومة. على سبيل المثال:

python evaluation/eval_wikitext.py

أو باستخدام Docker:

docker build -t evaluation:latest .
docker run --rm --gpus all evaluation:latest evaluation/eval_wikitext.py

مرجع

إذا كنت تستخدم التدريب المرحلي في بحثك أو ترغب في الرجوع إلى نتائج خط الأساس المنشورة هنا ، فيرجى استخدام إدخال Bibtex التالي.

 @misc{shen2022staged,
    title={Staged Training for Transformer Language Models},
    author={Sheng Shen and Pete Walsh and Kurt Keutzer and Jesse Dodge and Matthew Peters and Iz Beltagy},
    year={2022},
    eprint={2203.06211},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع كود الذكاء الاصطناعي
وقت التحديث 2025-09-10
الحجم 247KB
من Github

تطبيقات ذات صلة

GitHub sgrebnov/cordova plugin background download

2024-11-05
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
لعبة تطبيق تدريب الدماغ TBT (تدريب الدماغ)

2023-12-06
التدريب على رد فعل جدار كيكر

2023-11-01
تدريب مهرجان آيدول دريم

2023-08-15
تدريب الفرقة

2023-08-15

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
ML stack

كود الذكاء الاصطناعي

1.0.0
awesome free chatgpt

كود الذكاء الاصطناعي

1.0.0
pywin_contextmenu

كود الذكاء الاصطناعي

Version update
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل