تنزيل llama trl - تنزيل رمز المصدر llama trl

llama trl

شفرة المصدر الأخرى

1.0.0

تنزيل

Llama-TRL

صقل لاما مع PPO و Lora

تنفيذ PPO (تحسين السياسة القريبة) مع TRL (تعلم تعزيز المحولات)
قم بتنفيذ LORA (التكيف المنخفض الرتبة لنماذج اللغة الكبيرة) مع PEFT (صقل دقيق للمعلمة)
جمع بيانات تتبع التعليمات من هذا repo GPT-4-LLM

يثبت

تثبيت التبعيات

 pip install -r requirements.txt

كيف تستخدم؟

الخطوة 1 - صقل خاضع للإشراف

 torchrun --nnodes 1 --nproc_per_node 8 supervised_finetuning.py 
    --base_model 'decapoda-research/llama-7b-hf' 
    --dataset_name './data/alpaca_gpt4_data.json' 
    --streaming 
    --lr_scheduler_type 'cosine' 
    --learning_rate 1e-5 
    --max_steps 4000 
    --output_dir './checkpoints/supervised_llama/'

أو الوزن الكامل الخاضع للإشراف مع مرحلة العميق 3 (تفريغ)

 pip install deepspeed
torchrun --nnodes 1 --nproc_per_node 8 supervised_finetuning_full_weight.py 
    --base_model 'decapoda-research/llama-7b-hf' 
    --dataset_name './data/alpaca_gpt4_data.json' 
    --streaming 
    --lr_scheduler_type 'cosine' 
    --learning_rate 2e-5 
    --weight_decay 0. 
    --warmup_ratio 0.03 
    --seq_length 1024 
    --batch_size 4 
    --gradient_accumulation_steps 8 
    --eval_freq 2000 
    --save_freq 2000 
    --max_steps 4000 
    --save_total_limit 1 
    --deepspeed "./configs/default_offload_opt_param.json" 
    --run_name 'llama-7b-sft-full-weight' 
    --output_dir './checkpoints/supervised_llama_full_weight/'

الخطوة 2 - نموذج مكافأة التدريب

 torchrun --nnodes 1 --nproc_per_node 8 training_reward_model.py 
    --model_name 'decapoda-research/llama-7b-hf' 
    --dataset_name './data/comparison_data.json' 
    --output_dir './checkpoints/training_reward_model/'

الخطوة 3 - ضبط LM مع PPO

 accelerate launch --multi_gpu --num_machines 1  --num_processes 8 
    tuning_lm_with_rl.py 
    --log_with wandb 
    --model_name <LLAMA_FINETUNED_MODEL> 
    --reward_model_name <LLAMA_RM_MODEL> 
    --adafactor False 
    --tokenizer_name <LLAMA_TOKENIZER> 
    --save_freq 100 
    --output_max_length 128 
    --batch_size 8 
    --gradient_accumulation_steps 8 
    --batched_gen True 
    --ppo_epochs 4 
    --learning_rate 1.4e-5 
    --early_stopping True 
    --output_dir './checkpoints/tuning_llama_rl/'

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع شفرة المصدر الأخرى
وقت التحديث 2025-02-28
الحجم 66.86MB
من Github

تطبيقات ذات صلة

node llama cpp

2024-11-11
llama models

2024-11-10
LLaMA Factory

2024-11-02
كود لاما

2023-10-30
كود لاما موديل كبير

2023-08-25
اللاما 2

2023-08-17

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

شفرة المصدر الأخرى

1.0.0
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

شفرة المصدر الأخرى

1.0.0

أخبار ذات صلة الكل