تنزيل mat - تنزيل رمز المصدر mat

mat

كود الذكاء الاصطناعي

1.0.0

تنزيل

القفز إلى الاستنتاجات: محولات قص مختصرة مع التحولات الخطية

هذا هو مستودع الكود المستخدم في الورقة:

ألكساندر يوم دين ، تايلين كاردي ، ليشم تشوشين ، مور جيفا. 2023. القفز إلى الاستنتاجات: محولات قطع مخطئة مع التحولات الخطية. (Arxiv: 2303.09435)

يرجى الاستشهاد بالورقة على النحو التالي:

 @article { din2023jump ,
      title = { Jump to Conclusions: Short-Cutting Transformers With Linear Transformations } ,
      author = { Yom Din, Alexander and Karidi, Taelin and Choshen, Leshem and Geva, Mor } ,
      journal = { arXiv preprint arXiv:2303.09435 } ,
      year = { 2023 } ,
}

تشغيل الرمز

لإنتاج مخططات لجمل gpt2 و Wikipedia ، قم بتشغيل ما يلي ، بالترتيب المكتوب:

get_wikipedia_sentences.py
(ينتج ./experiment/sentences/wikipedia_20K-sentences.pickle
add_tokenization.py
./experiment/gpt2/wikipedia_tokenized_val.pickle تنتج ./experiment/gpt2/wikipedia_tokenized_train.pickle
add_linreg.py
(تنتج ./linreg/gpt2/wikipedia/i_j.pickle حيث $ 0 leq i & lt ؛ J leq 12 $ ، تحتوي على المصفوفة $ a_ {j ، i} $ (كحرف torch.tensor) المستخدمة للتخطي من الطبقة $ i $ إلى طبقة $ j $ )
add_plot_r2.py
(تنتج ./experiment/gpt2/wikipedia_r2_scores.pickle المحتوى $ r^2 $ درجات ل $ texttt {mat} $ و $ texttt {id} $ ، وينتج أيضًا ./experiments/gpt2/plots/wikipedia/r2_scores_12.pdf $ r^2 $ درجات)
add_linreg_submodules.py
(تنتج ./linreg/gpt2/wikipedia/pi_a_b.pickle حيث $ 0 leq i & lt ؛ 12 دولار و $ 0 leq a & lt ؛ 6 دولارات و $ b = a + 1 $ ؛ هذه تحتوي على مصفوفات (كحقيقية. $ i+1 $ بالنظر إلى مدخلاتها. $ b = 1 $ يتوافق مع تطبيع الطبقة الأولى ، $ b = 2 $ يتوافق الانتباه ، $ b = 3 $ يتوافق مع أول اتصال متبقي ، $ B = 4 $ CorreSpodns إلى تطبيع الطبقة الثانية ، $ b = 5 $ يتوافق مع طبقة شبكة التغذية إلى الأمام و $ b = 6 $ يتوافق مع الاتصال المتبقي الثاني)
add_results.py
(ينتج ./experiment/gpt2/wikipedia_results.pickle $ texttt {mat} $ و $ texttt {id} $ (لقيم مختلفة من $ lambda $ )))
plot_results.py
(ينتج بعض المؤامرات في ./experiment/gpt2/plots/wikipedia/ بناءً على النتائج في إخراج الملف السابق)

لإنتاج مخططات لجمل bert-base-uncased و Wikipedia ، قم بتشغيل ما يلي ، بالترتيب المكتوب:

get_wikipedia_sentences.py
(كما هو الحال بالنسبة gpt2 أعلاه ، لا حاجة لإعادة تشغيل)
bert_add_reps.py
./experiment/bert-base-uncased_mask/wikipedia_val.pickle ينتج ./experiment/bert-base-uncased_mask/wikipedia_train.pickle مواقف الرمز المميز وتمثيل الرمز العشوائي المقنع في جميع الطبقات للجمل 3000 التالية)
bert_add_linreg.py
./linreg/bert-base-uncased_mask/wikipedia/i_j.pickle ينتج $ 0 leq i & lt ؛ J leq 12 $ ، تحتوي على المصفوفة $ a_ {j ، i} $ (كحرف torch.tensor) المستخدمة للتخطي من الطبقة $ i $ إلى طبقة $ j $ )
BERT_ADD_PLOT_R2.PY
(ينتج ./experiment/bert-base-uncased_mask/wikipedia_r2_scores.pickle $ r^2 $ درجات ل $ texttt {mat} $ و $ texttt {id} $ ، وينتج أيضًا ./experiments/bert-base-uncased_mask/plots/wikipedia/r2_scores_12.pdf $ r^2 $ درجات)
bert_add_results.py
(المنتج ./experiment/bert-base-uncased_mask/wikipedia_results.pickle $ texttt {mat} $ و $ texttt {id} $ ، في كل طبقة ؛ وأيضًا يحتوي على أفضل 10 رموز وعدد من الطبقات التي تمت معالجتها عند الاستغناء المبكر واستخدام التعيينات $ texttt {mat} $ و $ texttt {id} $ (لقيم مختلفة من $ lambda $ )))
plot_results.py (تغيير model_folder_name='bert-base-uncased_mask' و plot_parts = False )
(ينتج بعض المؤامرات في ./experiment/bert-base-uncased_mask/plots/wikipedia/

أنتجنا أيضًا مخططات لـ gpt2-medium و gpt2-large و gpt2-xl و bert-large-uncased . للقيام بذلك ، ينبغي للمرء أن يعدل ، بطريقة متطورة نسبيا ، المتغيرات الموجودة على رأس كل نص في التسلسل.

متطلبات

تم تشغيل الرمز مع Python 3.10.4 وإصدارات الحزمة التالية:

 torch.__version__ = 1.13.1+cu117
transformers.__version__ = 4.20.1
sklearn.__version__ = 1.2.0
pickle.format_version = 4.0
datasets.__version__ = 2.5.2  # used only to fetch Wikipedia sentences
spacy.__version__ = 3.5.0  # used only to fetch Wikipedia sentences