LoRA Torch Download - تنزيل رمز المصدر LoRA Torch

LoRA Torch

كود الذكاء الاصطناعي

1.0.0

تنزيل

لورا تورش

يعيد هذا قاعدة قواعد الكود لورا: التكيف المنخفض للمرور لنماذج اللغة الكبيرة (ICLR 2022) ويتم إعادة بنائها على أساس loralib.

سمات

تطبيقات loratorch و loralib مختلفة تمامًا. نأخذ nn.Linear كمثال على النحو التالي.

ل loralib ، $ h = x w_0^ top + frac { alpha} {r} x (ba)^ top ، $

أين $ x in mathbb {r}^{k times n} $ هي مصفوفة الإدخال ، $ w_0 in mathbb {r}^{m times n} $ هي مصفوفة الوزن المسبق ، $ r $ هو رتبة لورا المحددة مسبقا ، $ b in mathbb {r}^{m times r} $ و $ a in mathbb {r}^{r times n} $ هي مصفوفات لورا ، و $ alpha $ هو معلمة مفرطة.

loratorch ، $ h = x (w_0 + frac { alpha} {r} ba)^ top. $

loralib حسابات $ xw_0^ Top $ و $ x (ba)^ top $ على التوالي ثم دمج النتائج. بينما يدمج loratorch الوزن المدرب مسبقًا $ w_0 $ ووزن لورا $ ba $ ثم يحسب النتائج ببساطة عن طريق استخدام nn.Linear.forward() . لا يوجد فرق بين loralib و loratorch في الطبقات الخطية. لكن في بعض الطبقات غير الخطية أو المعقدة ، لسنا متأكدين مما إذا كانت هذه الطبقة ترضي $ l (x ، w_0)+l (x ، ba) = l (x ، w_0+ba) $ . وبالتالي ، من الصعب تمديد Lora إلى بعض الطبقات المعقدة باستخدام loralib . على العكس من ذلك ، فإن فكرة دمج الأوزان أولاً في loratorch هي أكثر عمومية وقابلة للتمديد. يمكنك فقط الاتصال merge_lora_param() في loratorch لدمج الأوزان ثم الاتصال forward() في الطبقة الأصلية لحساب النتائج. بمساعدة loratorch ، يمكنك بسهولة تطبيق Lora على أي نوع من طبقة torch.nn .

الطبقات المدعومة

	`loralib`	`loratorch`
`nn.Linear`	✓	✓	Linear.ipynb
`nn.Embedding`	✓	✓	التضمين
`nn.Conv1d`	✓	✓
`nn.Conv2d`	✓	✓
`nn.Conv3d`	✓	✓
`nn.MultiheadAttention`	✘	✓
`MergedLinear`	✓ (خطأ)	✓	mergedlinar.ipynb
$ cdots $	من الصعب تمديد	من السهل تمديده

قارنا نتائج loralib و loratorch في أمثلة لإظهار صحة التنفيذ في loratorch .

بداية سريعة

استخدام loratorch هو نفس loralib .

تثبيت loratorch .

pip install git+https://github.com/Baijiong-Lin/LoRA-Torch
# Alternatively for developers
# git clone https://github.com/Baijiong-Lin/LoRA-Torch
# cd LoRA-Torch
# pip install -e .

استبدل الطبقات التي ترغب في استخدام Lora باستخدام loratorch .

 # ===== Before =====
# layer = nn.Linear(in_features, out_features)

# ===== After ======
import loratorch as lora
# Add a pair of low-rank adaptation matrices with rank r=16 and alpha=32
layer = lora . Linear ( in_features , out_features , r = 16 , lora_alpha = 32 )

مارك فقط معلمات لورا كما قابلة للتدريب قبل حلقة التدريب.

 model = Model ()
# (!!!) This sets requires_grad to False for all parameters without the string "lora_" in their names
lora . mark_only_lora_as_trainable ( model )

optimizer = torch . optim . SGD ( model . parameters (), lr = 0.1 )
# Training loop
for batch in dataloader :
    model . train ()
    # forward process
    loss = forward_fun ( model , batch )
    # backward process
    optimizer . zero_grad ()
    loss . backward ()
    optimizer . step ()
    # (!!!) reregister model param to ensure they are in model.state_dict() and model.parameters()
    # (!!!) Without this line, the performance does not be affected but you will find that some weights are missing in model.state_dict() and model.parameters()
    lora . register_model_param_after_backward ( model )

حفظ طراز Lora (سيتم حفظ مصفوفات Lora فقط).

 # ===== Before =====
# torch.save(model.state_dict(), checkpoint_path)
# ===== After =====
torch . save ( lora . lora_state_dict ( model ), checkpoint_path )

تحميل نموذج Lora (بحاجة إلى تحميل النموذج الذي تم تدريبه مسبقًا أولاً).

 # Load the pre-trained checkpoint first
model . load_state_dict ( torch . load ( 'ckpt_pretrained.pt' ), strict = False )
# Then load the LoRA checkpoint
model . load_state_dict ( torch . load ( 'ckpt_lora.pt' ), strict = False )

مساهم

تم تطوير loratorch وصيانته بواسطة Baijiong Lin.

اتصل بنا

إذا كان لديك أي سؤال أو اقتراح ، فلا تتردد في الاتصال بنا من خلال إثارة مشكلة أو إرسال بريد إلكتروني إلى [email protected] .

شكر وتقدير

يعتمد loratorch اعتمادًا كبيرًا على loralib . نشكر مؤلفيها على قاعدة كودهم الرائعة والمفتوحة.

اقتباس

إذا وجدت loratorch مفيدًا لبحثك أو تطويرك ، فيرجى الاستشهاد بما يلي:

 @inproceedings { hu2022lora ,
title = { Lo{RA}: Low-Rank Adaptation of Large Language Models } ,
author = { Edward J Hu and Yelong Shen and Phillip Wallis and Zeyuan Allen-Zhu and Yuanzhi Li and Shean Wang and Lu Wang and Weizhu Chen } ,
booktitle = { International Conference on Learning Representations } ,
year = { 2022 } ,
}

@software { lin2023loratorch ,
  author = { Baijiong Lin } ,
  title = { {LoRA-Torch}: {PyTorch} Reimplementation of {LoRA} } ,
  url = { https://github.com/Baijiong-Lin/LoRA-Torch } ,
  year = { 2023 }
}