Awesome Parametric Knowledge in LLMs - Awesome Parametric Knowledge in LLMs تنزيل رمز المصدر

Awesome Parametric Knowledge in LLMs

كود الذكاء الاصطناعي

1.0.0

تنزيل

معرفة حدودية رهيبة في LLMS

يتضمن هذا الريبو أوراقًا حول المعرفة البارامترية في LLMS ، والآن لدينا اكتشاف المعرفة البارامترية وتطبيق المعرفة البارامترية هاتين الفئتين الرئيسيتين!؟

نعتقد أن المعرفة البارامترية في LLMS لا تزال منطقة غير مستكشفة إلى حد كبير ، ونأمل أن يوفر لك هذا المستودع بعض الأفكار القيمة!؟ ‍؟ ️؟

الكشف عن المعرفة prametric

المعرفة في النموذج القائم على المحولات--تحليل؟

2025

فك تشفير الخلايا العصبية المتخصصة في LLMS مع طبقة الإسقاط النهائية
[عدسة Logits ، تحليل الاستعلام الخلايا العصبية]

2024

ما علاقة أطروحة الخلايا العصبية المعرفة بالمعرفة؟
Jingcheng Niu ، Andrew Liu ، Zhining Zhu ، Gerald Penn. ICLR'24 (الأضواء)
آليات المعرفة في نماذج اللغة الكبيرة: مسح ومنظور
Mengru Wang ، Yunzhi Yao ، Ziwen Xu ، Shuofei Qiao ، Shumin Deng ، Peng Wang ، Xiang Chen ، Jia-Chen Gu ، Yong Jiang ، Pengjun Xie ، Fei Huang ، Huajun Chen ، Ningyu Zhang. نتائج EMNLP'24
تفكيك الذاكرة وقدرة التفكير في نماذج اللغة الكبيرة
Mingyu Jin ، Weidi Luo ، Sitao Cheng ، Xinyi Wang ، Wenyue Hua ، Ruixiang Tang ، William Yang Wang ، Yongfeng Zhang. preprint'24
الانهيار اللغوي: الانهيار العصبي في نماذج اللغة (الكبيرة)
روبرت وو ، فاردان بابين. Nips'24
فهم التفاعل بين المعرفة البارامترية والسياقية لنماذج اللغة الكبيرة
Sitao Cheng ، Liangming Pan ، Xunjian Yin ، Xinyi Wang ، William Yang Wang. preprint'24
تقييم الانصهار المعرفة الخارجية والبرامترية لنماذج اللغة الكبيرة
Hao Zhang ، Yuyang Zhang ، Xiaoguang Li ، Wenxuan Shi ، Haonan Xu ، Huanshuo Liu ، Yasheng Wang ، Lifeng Shang ، Qun Liu ، Yong Liu ، Ruiming Tang. preprint'24
الحرباء التكيفي أو الكسل العنيد: الكشف عن سلوك نماذج اللغة الكبيرة في تعارضات المعرفة
جيان شي ، كاي تشانغ ، جيانججي تشن ، رينز لو ، يو سو. ICLR'24 Spotlight
المعرفة الانتباه الانحلال خلال نموذج اللغة قبل أن يعيق عملية الاستحواذ على المعرفة الجديدة
جيون كيم ، هيونجي لي ، هايوون تشو ، جويل جانج ، هيونبين هوانج ، سونغبيل وون ، يوبن آهن ، دوهينج لي ، مينجون سيو. preprint'24
عندما يؤدي السياق ولكن الذاكرة البارامترية تتبع في نماذج اللغة الكبيرة
Yufei Tao ، Adam Hiatt ، Erik Haake ، Antonie J. Jetter ، Ameeta Agrawal. emnlp'24
إسناد المعرفة على مستوى الخلايا العصبية في نماذج اللغة الكبيرة
Zeping Yu ، Sophia Ananiadou. emnlp'24
تشريح الاستدعاء للجمعيات الواقعية في نماذج اللغات التلقائية للعبور [رمز]
Mor Geva ، Jasmijn Bastings ، Katja Filippova ، Amir Globerson. emnlp'23

2021

طبقات التغذية المحولات هي ذكريات القيمة الرئيسية
مور جيفا ، روي شوستر ، جوناثان بيرانت ، عمر ليفي. emnlp'21

المعرفة في النموذج القائم على المحولات--تتبع العظم؟

هل توطين المعرفة صحيح؟ الاختلافات المدهشة بين الكيان ووجهات نظر العلاقة في نماذج اللغة
Yifan Wei ، Xiaoyan Yu ، Yixuan Weng ، Huanhuan MA ، Yuanzhe Zhang ، Jun Zhao ، Kang Liu. Cikm'24

2022

تحديد وتحرير الجمعيات الواقعية في GPT
كيفن منغ ، ديفيد باو ، أليكس أندونيان ، يوناتان بيلينكوف. Nips'22

2024

المعرفة في النموذج القائم على المحولات--إسناد الدرجات؟

تحديد الخلايا العصبية ذات الصلة بالاستعلام في نماذج لغة كبيرة لنصوص طويلة الشكل
Lihu Chen ، Adam Dejl ، Francesca Toni. preprint'24
الكشف عن المعرفة البارامترية لنماذج اللغة: إطار موحد لطرق الإسناد
Haeun Yu ، Pepa Atanasova ، Isabelle Augenstein. ACL'24
هل يحتوي نموذج اللغة الكبيرة على الخلايا العصبية الخاصة بالمهمة.
ران أغنية ، Shizhu HE ، أغلق جيانغ ، يانتوان شيان ، شنغكسيانغ غاو ، كانغ ليو ، وتشينجتو يو. emnlp'24
رحلة إلى مركز الخلايا العصبية المعرفة: اكتشافات الخلايا العصبية المعرفة المستقلة عن اللغة والخلايا العصبية المعرفة المتدهورة
Yuheng Chen ، Pengfei Cao ، Yubo Chen ، Kang Liu ، Jun Zhao. aaai'24

2022

الخلايا العصبية المعرفة في المحولات المسبق
Damai Dai ، Li Dong ، Yaru Hao ، Zhifang Sui ، Baobao Chang ، Furu Wei. ACL'22

المعرفة في النموذج القائم على المحولات--التنشيط؟

2024

فصل اللسان عن الفكر: تصحيح التنشيط يكشف عن تمثيلات مفهوم اللغات في المحولات في المحولات
Clément Dumas ، Chris Wendler ، Veniamin Veselovsky ، Giovanni Monea ، Robert West. ICLR'24 Spotlight
من رجال نعم إلى رواد الحقيقة الذين يتناولون sycophancy في نماذج اللغة الكبيرة مع ضبط نقطة محددة
Wei Chen ، Zhen Huang ، Liang Xie ، Binbin Lin ، Houqiang Li ، Le Lu ، Xinmei Tian ، Deng Cai ، Yonggang Zhang ، Wenxiao Wang ، Xu Shen ، Jieping Ye. ICML'24
الخلايا العصبية الخاصة باللغة: مفتاح القدرات متعددة اللغات في نماذج اللغة الكبيرة.
Tianyi Tang ، Wenyang Luo ، Haoyang Huang ، Dongdong Zhang ، Xiaolei Wang ، Xin Zhao ، Furu Wei ، Ji-Rong Wen. ACL'24
التوجيه متعدد الممتلكات لنماذج اللغة الكبيرة مع تكوين التنشيط الديناميكي
دانييل سكالينا ، غابرييل سارتي ، مالفينا نيسيم. ACL'24 Workshop Blackboxnlp
استكشاف الاستفادة من تباين التنشيط في ما قبل التدريب
[MOE ، تباين التنشيط ، نمط التنشيط ، تسريع الاستدلال] Zhengyan Zhang ، Chaojun Xiao ، Qiujieli Qin ، Yankai Lin ، Zhiyuan Zeng ، Xu Han ، Zhiyuan Liu ، Ruobing Xie ، Maosong Sun ، Jie Zhou. ICML'24

2023

إضافة التنشيط: نماذج لغة التوجيه بدون تحسين
ألكساندر مات تيرنر ، ليزا ثييرغارت ، غافن ليتش ، ديفيد أوديل ، خوان ج. فازكويز ، أوليس ميني ، مونتي ماكديارميد. preprint'23
Deja VU: التباين السياقي في LLMs الفعالة في وقت الاستدلال
[SPARSITY ، ENDECTION SPECKER] Zichang Liu ، Jue Wang ، Tri Dao ، Tianyi Zhou ، Binhang Yuan ، Zhao Song ، Anshumali Shrivastava ، Ce Zhang ، Yuandong Tian ، Christopher Re ، Beidi Chen. ICML'23

تطبيق المعرفة حدودي

تحرير المعرفة؟ ‍⚕

2024

دراسة شاملة لتحرير المعرفة لنماذج اللغة الكبيرة
Ningyu Zhang ، Yunzhi Yao ، Bozhong Tian ، Peng Wang ، Shumin Deng ، Mengru Wang ، Zekun Xi ، Shengyu Mao ، Jintian Zhang ، Yuansheng Ni ، Siyu Cheng ، Ziwen Xu ، Xin Xu ، Jiia Gu ، ليانغ ، Zhiqiang Zhang ، Xiaowei Zhu ، Jun Zhou ، Huajun Chen. preprint'24
الشهرة: نحو موديل متعدد المهام ، تحرير Li Zeng ، Yingyu Shan ، Zeming Liu ، Jiashu Yao ، Yuhang Guo. emnlp'24
أن تنسى أم لا؟ نحو المعرفة العملية غير المعرفة لنماذج اللغة الكبيرة
Bozhong Tian ، Xiaozhuan Liang ، Siyuan Cheng ، Qingbin Liu ، Mengru Wang ، Dianbo Sui ، Xi Chen ، Huajun Chen ، Ningyu Zhang. نتائج EMNLP'24
فهم انهيار LLMS في تحرير النماذج
Wanli Yang ، Fei Sun ، Jiajun Tan ، Xinyu MA ، Du Su ، Dawei Yin ، Huawei Shen. نتائج EMNLP'24
هل من الممكن تحرير نماذج اللغة الكبيرة بقوة؟
Xinbei Ma ، Tianjie Ju ، Jiyang Qiu ، Zhuosheng Zhang ، Hai Zhao ، Lifeng Liu ، Yulong Wang. preprint'24
تحرير المعرفة المحسّنة بالاسترجاع في نماذج اللغة للإجابة على أسئلة متعددة القوانين
Yucheng Shi ، Qiaoyu Tan ، Xuansheng Wu ، Shaochen Zhong ، Kaixiong Zhou ، Ninghao Liu. Cikm'24
إعادة الصياغة الكامنة: الاضطراب على الطبقات يحسن حقن المعرفة في نماذج اللغة
Minki Kang ، Sung Ju Hwang ، Gibbeum Lee ، Jaewoong Cho. Nips'24
تعلم التعديل: محاذاة LLMs مع تحرير المعرفة
Yuxin Jiang ، Yufei Wang ، Chuhan Wu ، Wanjun Zhong ، Xingshan Zeng ، Jiahui Gao ، Liangyou Li ، Xin Jiang ، Lifeng Shang ، Ruiming Tang ، Qun Liu ، Wei Wang. ACL'24
تفتيش وتحرير تمثيل المعرفة في نماذج اللغة
إيفان هيرنانديز ، بيليندا ز. لي ، يعقوب أندرياس. Colm'24
النسيان قبل التعلم: استخدام الحساب البارامترية لتحديث المعرفة في نماذج اللغة الكبيرة
Shiwen Ni ، Dingwei Chen ، Chengming Li ، Xiping Hu ، Ruifeng Xu ، Min Yang. ACL'24
الروح: تصحيح نماذج اللغة في مساحة المعلمة المتعامدة
[السمية/التحيز غير المؤلم ، SVD ، تحليل المعرفة البارامترية ، متجه المهام]]
نتائج NAACL'24

2023

تحرير نماذج اللغة الكبيرة: المشاكل والأساليب والفرص
Yunzhi Yao ، Peng Wang ، Bozhong Tian ، Siyuan Cheng ، Zhoubo Li ، Shumin Deng ، Huajun Chen ، Ningyu Zhang. emnlp'23

2022

تحديد وتحرير الجمعيات الواقعية في GPT
كيفن منغ ، ديفيد باو ، أليكس أندونيان ، يوناتان بيلينكوف. Nips'22
تحرير النموذج القائم على الذاكرة على نطاق واسع
إريك ميتشل ، تشارلز لين ، أنطوان بوسلوت ، كريستوفر مانينغ ، تشيلسي فين. ICLR'22

2021

تحرير المعرفة الواقعية في نماذج اللغة
نيكولا دي تساو ، ويلكر عزيز ، إيفان تيتوف. emnlp'21

2020

شبكات عصبية قابلة للتحرير.
أنطون سينتينسين ، فسيفولود بلوكوتنيوك ، ديمتري بيركين ، سيرجي بوبوف ، أرتيم بابينكو. ICLR'20

نقل المعرفة؟ ‍♀

2024

البحث عن شذرات عصبية: نقل المعرفة في نماذج لغة كبيرة من منظور حدودي

Ming Zhong ، Chenxin AN ، Weizhu Chen ، Jiawei Han ، Pengcheng HE. ICLR'24

تهيئة النماذج مع أكبر النماذج
Zhiqiu Xu ، Yanjie Chen ، Kirill Vishniakov ، Yida Yin ، Zhiqiang Shen ، Trevor Darrell ، Lingjie Liu ، Zhuang Liu. ICLR'24 Spotlight
التحكم عبر النموذج: تحسين نماذج لغة كبيرة متعددة في التدريب لمرة واحدة
Jiayi Wu ، Hao Sun ، Hengyi Cai ، Lixin SU ، Shuaiqiang Wang ، Dawei Yin ، Xiang Li ، Ming Gao. Nips'24
الانصهار المعرفة لنماذج اللغة الكبيرة
Fanqi Wan ، Xinting Huang ، Deng Cai ، Xiaojun Quan ، Wei Bi ، Shuming Shi. ICLR'24
توليف نماذج لغة بالوكالة
أليسا ليو ، Xiaochuang Han ، Yizhong Wang ، Yulia Tsvetkov ، Yejin Choi ، Noah A. Smith. Colm'24
متجه الدردشة: نهج بسيط لتجهيز LLMs مع تعليمات متابعة ومحاذاة النموذج بلغات جديدة
[متجه المهمة ، المعرفة البارامترية ، نقل المعرفة]
ACL'24
FedMKT: نقل المعرفة المتبادلة الموحدة لنماذج اللغة الكبيرة والصغيرة
[التعلم الفدرالي ، نقل المعرفة ، محاذاة رمزية غير متجانسة]
Coling'25
ناقلات الوظائف في نماذج اللغة الكبيرة
[متجه الوظيفة ، الوساطة السببية ، تفسير الآلية]
ICLR'24
صقل نموذج اللغة الكبير بشكل دقيق عبر متجه التعليمات
[نسيان كارثي ، ناقل الوظيفة ، الوساطة السببية]
preprint'24
KLF: توطين المعرفة والانصهار لنموذج اللغة التعلم المستمر
[نسيان كارثي ، التعلم المستمر ، الموقع القائم على الحواس]]
ACL'24
نماذج اللغة هي سوبر ماريو: امتصاص القدرات من النماذج المتماثلة كغداء مجاني
[نقل المعرفة ، دمج النموذج ، مهارة فعالة] ICML'24
ما وراء متجهات المهمة: حساب انتقائي للمهمة على أساس مقاييس الأهمية
[متجه المهام ، درجة الأهمية القائمة على الحواس ، دمج النموذج] preprint'24

2023

تعزيز متبادل لنماذج اللغة الكبيرة والصغيرة مع نقل المعرفة عبر السيلو
Yongheng Deng ، Ziqing Qiao ، Ju Ren ، Yang Liu ، Yaoxue Zhang. preprint'23
تعلم تنمية نماذج ما قبل التدريب للتدريب الفعال للمحولات
Peihao Wang ، Rameswar Panda ، Lucas Torroba Hennigen ، Philip Greengard ، Leonid Karlinsky ، Rogerio Feris ، David D. Cox ، Zhangyang Wang ، Yoon Kim. ICLR'23
نقل المعرفة القائم على الاسترجاع: نهج فعال لضغط نموذج اللغة الكبير المتطرف
جيدوان ليو ، جياهو ليو ، إيفان وانغ ، جينغانغ وانغ ، شونليانغ كاي ، دونجيان تشاو ، ران لوسيان وانغ ، روي يان. نتائج EMNLP'23
تحرير النماذج مع حساب المهمة
[Task Vecotr ، المعرفة البارامترية ، نقل المعرفة ، التعلم متعدد المهام]
ICLR'23
توطين مهارات خاص بالمهمة في نماذج اللغة الدقيقة
[نقل المعرفة ، طعم النموذج ، توطين معلمات المهارة]
ICML'23
تكوين الوحدات النمطية الموفرة للمعلمة مع العمليات الحسابية
[PEFT ، متجه المهام ، دمج النموذج]
Nips'23
Dataless المعرفة الانصهار عن طريق دمج أوزان نماذج اللغة
[دمج النموذج]
ICLR'23

2021

تقطير الوزن: نقل المعرفة في معلمات الشبكة العصبية
Ye Lin ، Yanyang Li ، Ziyang Wang ، Bei Li ، Quan Du ، Tong Xiao ، Jingbo Zhu. ACL'21

توجيه التنشيط

2024

التوجيه متعدد الممتلكات لنماذج اللغة الكبيرة مع تكوين التنشيط الديناميكي
دانييل سكالينا ، غابرييل سارتي ، مالفينا نيسيم. ACL'24 Workshop Blackboxnlp
تضمينات الكلمات هي مقودات لنماذج اللغة
[توجيه تضمين الكلمات ، السيطرة على الجيل] ACL'24

2023

إضافة التنشيط: نماذج لغة التوجيه بدون تحسين

ألكساندر مات تيرنر ، ليزا ثييرغارت ، غافن ليتش ، ديفيد أوديل ، خوان ج. فازكويز ، أوليس ميني ، مونتي ماكديارميد. preprint'23

تقطير المعرفة

2024

orderkd: تقطير المعرفة الصديقة للطلاب لنماذج اللغة التوليدية عبر ضبط موجه (ملاحظة: غير حدودي)
Gyeongman Kim ، Doohyuk Jang ، Eunho Yang. نتائج EMNLP'24
من التدريب على المثيل إلى تعلم التعليم: محولات المهام توليد من التعليمات
Huanxuan Liao ، Yao Xu ، Shizhu He ، Yuanzhe Zhang ، Yanchao Hao ، Shengping Liu ، Kang Liu ، Jun Zhao. Nips'24
عندما يقوم الأطفال بتدريس الأطفال: هل يمكن لمشاركة المعرفة الطلاب التخلص من التقطير الموجهة للمعلم على مجموعات البيانات الصغيرة؟
Srikrishna Iyer. ورشة عمل emnlp'24 conll

كمية pramatric

2024

Onebit: نحو نماذج لغة كبيرة منخفضة البت للغاية
Yuzhuang Xu ، Xu Han ، Zonghan Yang ، Shuo Wang ، Qingfu Zhu ، Zhiyuan Liu ، Weidong Liu ، Wanxiang Che. Nips'24

2023

تكلفة الضغط: التحقيق في تأثير الضغط على المعرفة البارامترية في نماذج اللغة
Satya Sai Srinath Namburi ، Makeh Sreedhar ، Srinath Srinivasan ، Frederic Sala. نتائج EMNLP'23

حقن المعرفة

2024

الجيل المعزز للنقاء: تعلم إيقاظ المعرفة الداخلية لنماذج اللغة الكبيرة للإجابة على الأسئلة
[Hypernet ، خرقة ، ضغط السياق]
Huanxuan Liao ، Shizhu He ، Yao Xu ، Yuanzhe Zhang ، Kang Liu ، Shengping Liu ، Jun Zhao. aaai'25

2023

حقن الذاكرة: تصحيح حالات فشل التفكير متعددة القوانين أثناء الاستدلال في نماذج اللغة القائمة على المحولات
Mansi Sakarvadia ، Aswathy Ajith ، Arham Khan ، Daniel Grzenda ، Nathaniel Hudson ، André Bauer ، Kyle Chard ، Ian Foster. عرض شفهي في ورشة Blackboxnlp في EMNLP'23
تفسير المعرفة من المعلمات لنمذجة لغة التوصيل والتشغيل
شين تشنغ ، يانكاي لين ، Xiuying Chen ، Dongyan Zhao ، Rui Yan. نتائج ACL'23
حقن المعرفة في المعلمة: دمج المعلومات السياقية المؤقتة في معلمات النموذج
تم تقديمه إلى ICLR'25

2022

Kformer: حقن المعرفة في طبقات التغذية المحول إلى الأمام
Yunzhi Yao ، Shaohan Huang ، Li Dong ، Furu Wei ، Huajun Chen ، Ningyu Zhang. NLPCC'22

المعلمة-النقل الدقيق (PEFT)

2024

KASA: التكيف الفريد ذو القيمة الفردية لنماذج اللغة الكبيرة
[المعرفة الوعرة لورا ، SVD]
Fan Wang ، Juyong Jiang ، Chansung Park ، Sunghun Kim ، Jing Tang. preprint'24
Corda: تكييف التحلل الموجهة نحو السياق لنماذج اللغة الكبيرة للضغط الدقيق على المعلمة المهمة
[المعرفة الوعرة لورا ، SVD]
Yibo Yang ، Xiaojie Li ، Zhongzhu Zhou ، Shuaiwen Leon Song ، Jianlong Wu ، Liqiang Nie ، Bernard Ghanem. Nips'24
درة: التكيف المنخفض الرتبة المتنافس على الوزن
[LORA DECOPSEDED LORA ، SVD ، تحليل FT و LORA] Shih-Yang Liu ، Chien-Yi Wang ، Hongxu Yin ، Pavlo Molchanov ، Yu-Chiang Frank Wang ، Kwang-Ting Cheng ، Min-Hung Chen. ICML'24 عن طريق الفم
التكيف منخفض الرتبة مع تعزيز الميزات ذات الصلة بالمهمة لنماذج لغة صقلها
[مهام الوعرة لورا ، تعزيز التمثيل الخفي] ورشة عمل Aaai'25 Colorai

التعلم المستمر

2024

تعرف على المزيد ، ولكن عناء أقل: المعلمة فعالة التعلم المستمر
[التعلم المستمر ، معلمة فعالة ، نقل المعرفة] nips'24
ماذا سينسى نموذجي؟ التنبؤ الأمثلة المنسية في صقل نموذج اللغة
[النسيان الكارثي ، التنبؤ النسيان ، التحليل] ICML'24 الأضواء

خرقة

2024

XRAG: ضغط السياق الشديد للجيل المسبق مع الرمز المميز
[ضغط السياق ، الخرقة ، الانصهار متعدد الوسائط] NIPS'24

سياق طويل يمتد

2024

Longembed: تمديد نماذج التضمين لاسترجاع السياق الطويل
[السياق الطويل ، نموذج التضمين ، المعيار] EMNLP'24
LLM ربما LongLM: نافذة سياق LLM Self
[تمديد السياق الطويل ، طريقة التوصيل والتشغيل] ICML'24 الأضواء
ضربت الحجارة طير واحد: ترميز الموضعي في بيل
[تمتد السياق الطويل ، PE + المطلق PE ، PLE ، التوصيل والتشغيل ولكن الطريقة القائمة على التدريب] ICML'24

2023

الغزل: امتداد نافذة سياق فعال لنماذج اللغة الكبيرة [http://arxiv.org/abs/2309.00071]
[تمتد السياق الطويل ، تباين الحبل] ICLR'24

2022

تدريب قصير ، اختبار طويل: الانتباه مع التحيزات الخطية يتيح استقراء طول الإدخال
[alibi ، استقراء السياق الطويل ، الطريقة القائمة على التدريب] iclr'22