انخفاض الموتر رتبة تكيف مع نماذج اللغة الكبيرة
هذا المستودع هو التنفيذ الأصلي لـ LOTR (ARXIV: 2402.01376) ، وهو نهج جديد لضبط LLMs المفعول للكفاءة في المعلمات والذي يمثل تحديثًا متدرجًا للمعلمات في شكل من أشكال تحلل الموتر. يتم إنشاء محول منخفض الرتبة لكل طبقة كمنتج من ثلاث مصفوفات ، وينشأ بنية الموتر من مشاركة مضاعفات هذا المنتج اليسرى واليسرى بين الطبقات. يتيح الضغط المتزامن لتسلسل الطبقات ذات التمثيل المنخفض للموتر من LOTR أرشفة كفاءة معلمة أفضل ثم LORA خاصة بالنسبة للنماذج العميقة. علاوة على ذلك ، لا يعتمد الموتر الأساسي على البعد الأصلي للوزن ويمكن أن يكون صغيرًا تعسفيًا ، مما يتيح صقلًا رخيصًا للغاية وسريعًا.
@misc { bershatsky2024lotr ,
title = { {LoTR}: Low Tensor Rank Weight Adaptation } ,
author = { Daniel Bershatsky and Daria Cherniuk and Talgat Daulbaev and Aleksandr Mikhalev and Ivan Oseledets } ,
year = { 2024 } ,
eprint = { 2402.01376 } ,
archivePrefix = { arXiv } ,
primaryClass = { cs.CL }
} نحن نفترض أن جميع نتائج التجربة الخام (أي ملفات تسجيل ، أولاً وقبل كل شيء) موجودة في دليل log . يجب أن يعكس بنية هذا الدليل عالية المستوى الإعداد التجريبي. لذلك يجب أن يكون للمسار بالنسبة إلى هذا الدليل بنية على النحو التالي.
<dataset>/<model>/<method>/<param1>/<param2>/.../<seed>/<tfevents-file>
يسبق مقطع النموذج قطاع مسار الطريقة لأن عدد نماذج الاختلاف عادة ما يكون أصغر أن عدد الأساليب وخط أنابيب التدريب عادة ما يتم تحديده بواسطة النموذج ثم بالطريقة. يجب استخدام جميع معلمات النقطة العائمة في الترميز العلمي لضمان عدم فقدان أرقام مهمة. دليل LAT هو بذرة عشوائية تستخدم لتشغيل تجربة.
لاحظ أن المتطلبات المذكورة أعلاه غير طوعية نظرًا لعدم وجود برنامج لإدارة تجربة التعلم الآلي الكامل.
Tensorboard tfvents -file هي ملفات كبيرة جدًا تستغرق وقتًا طويلاً بشكل ملحوظ للقراءة والتحميل. لذلك نقوم بتحويل tfevents -files إلى parquet -files مع الأمر التالي.
python -m lotr.tb2parquet log/glue data/glue.parquet
--names model method task lr rank seed الآن ، يمكن للمرء قراءة parquet واحدة مع جميع السلاسل الزمنية على النحو التالي.
import pandas as pd
df = pd . read_parquet ( 'data/glue.parquet' ) لكي تكون أكثر تحديداً ، يتم تحويل 20 ميجابايت من tfevents -file إلى 200 كيلو بايت من parquet -file.