我们认为,LLMS中的参数知识仍然是一个未开发的领域,我们希望该存储库能为您提供一些有价值的见解!??️?
最终投影层的LLM中解码专用特征神经元
[logitts镜头,查询神经元的分析]
知识神经论文与知识有什么关系?
Jingcheng Niu,Andrew Liu,Zining Zhu,Gerald Penn。 ICLR'24(聚光灯)
大语言模型中的知识机制:调查和观点
Mengru Wang,Yunzhi Yao,Ziwen Xu,Shuofei Qiao,Shumin Deng,Peng Wang,Xiang Chen,Jia-Chen Gu,Yong Jiang,Pengjun Xie,Fei Huang,Huajun,Huajun,Huajun Chen,Ningyyu Zhang。 EMNLP'24调查结果
在大语言模型中删除记忆和推理能力
Mingyu Jin,Weidi Luo,Sitao Cheng,Xinyi Wang,Wenyue Hua,Ruixiang Tang,William Yang Wang,Yongfeng Zhang。 Preprint'24
语言崩溃:(大)语言模型中的神经崩溃
罗伯特·吴(Robert Wu),瓦丹·帕皮(Vardan Papyan)。 nips'24
了解大语言模型的参数和上下文知识之间的相互作用
Sitao Cheng,Liangming Pan,Xunjian Yin,Xinyi Wang,William Yang Wang。 Preprint'24
评估大语言模型的外部和参数知识融合
Hao Zhang,Yuyang Zhang,Xiaoguang Li,Wenxuan Shi,Haonan Xu,Huanshuo Liu,Yasheng Wang,Lifeng Shang,Qun Liu,Yong Liu,Yong Liu,Ruiming Tang。 Preprint'24
自适应变色龙或顽固的懒惰:在知识冲突中揭示大语言模型的行为
Jian Xie,Kai Zhang,Jiangjie Chen,Renze Lou,Yu Su。 ICLR'24聚光灯
在预测语言模型期间,知识熵衰减阻碍了新知识的获取
Jiyeon Kim,Hyunji Lee,Hyowon Cho,Joel Jang,Hyeonbin Hwang,Seungpil Won,Youbin Ahn,Dohaeng Lee,Minjoon Seo。 Preprint'24
当上下文引导但参数记忆以大语言模型遵循
Yufei Tao,Adam Hiatt,Erik Haake,Antonie J. Jetter,Ameeta Agrawal。 Emnlp'24
大语言模型中的神经元级知识归因
Zeping Yu,Sophia Ananiadou。 Emnlp'24
解剖自动回归语言模型中事实关联的召回[代码]
Mor Geva,Jasmijn Bastings,Katja Filippova,Amir Globerson。 Emnlp'23
变压器进纸层是钥匙值记忆
Mor Geva,Roei Schuster,Jonathan Berant,Omer Levy。 Emnlp'21
知识本地化是否正确?语言模型中实体和关系观点之间的惊人差异
Yifan Wei,Xiaoyan Yu,Yixuan Weng,Huanhuan MA,Yuanzhe Zhang,Jun Zhao,Kang Liu。 CIKM'24
在GPT中找到和编辑事实协会
凯文·孟(Kevin Meng),大卫·鲍(David Bau),亚历克斯·安东尼(Alex Andonian),Yonatan Belinkov。 nips'22
在大型文本的大语言模型中识别与查询相关的神经元
Lihu Chen,Adam Dejl,Francesca Toni。 Preprint'24
揭示语言模型的参数知识:归因方法的统一框架
Haeun Yu,Pepa Atanasova,Isabelle Augenstein。 ACL'24
大语言模型是否包含特定于任务的神经元。
播放歌曲,Shizhu He,关闭江,Yantuan Xian,Shengxiang Gao,Kang Liu和Zhengtao Yu。 Emnlp'24
知识神经元中心的旅程:独立语言知识的发现神经元和退化知识神经元
Yuheng Chen,Pengfei Cao,Yubo Chen,Kang Liu,Jun Zhao。 AAAI'24
验证的变压器中的知识神经元
Damai Dai,Li Dong,Yaru Hao,Zhifang Sui,Baobao Chang,Furu Wei。 ACL'22
将舌头与思想分开:激活补丁揭示了变形金刚中的语言敏捷概念表示
ClémentDumas,Chris Wendler,Veniamin Veselovsky,Giovanni Monea,Robert West。 ICLR'24聚光灯
从Yes-Men到Truth Tellers,通过精确调整在大语言模型中解决粘糊糊的人
Wei Chen,Zhen Huang,Liang Xie,Binbin Lin,Houqiang Li,Le Lu,Xinmei Tian,Deng Cai,Yonggang Zhang,Wenxiao Wang,Xu Shen,Jieping Ye。 ICML'24
语言特定的神经元:大语言模型中多语言能力的关键。
Tianyi Tang,Wenyang Luo,Haoyang Huang,Dongdong Zhang,Siaolei Wang,Xin Zhao,Furu Wei,Ji-Rong Wen。 ACL'24
具有动态激活构图的大语言模型的多型转向
Daniel Scalena,Gabriele Sarti,Malvina Nissim。 ACL'24 BlackBoxNLP研讨会
探索激活稀疏性在预训练中的好处
[MOE,激活稀疏性,激活模式,推理加速] Zhengyan Zhang,Chaojun Xiao,Qiujieli Qin,Yankai Lin,Zhiyuan Zeng,Xu Han,Zhiyuan Liu,Ruobing Xie,Maosong Sun,Maosong Sun,Jie Zhou。 ICML'24
激活加法:转向语言模型而无需优化
亚历山大·马特·特纳(Alexander Matt Turner),丽莎·蒂尔加特(Lisa Thiergart),加文·里奇(Gavin Leech),大卫·乌德尔(David Udell),胡安·J·瓦兹克斯(Juan J. Preprint'23
DEJA VU:推理时有效LLM的上下文稀疏性
[稀疏,推理加速] ICML'23
大语模型的知识编辑的全面研究
Ningyu Zhang, Yunzhi Yao, Bozhong Tian, Peng Wang, Shumin Deng, Mengru Wang, Zekun Xi, Shengyu Mao, Jintian Zhang, Yuansheng Ni, Siyuan Cheng, Ziwen Xu, Xin Xu, Jia-Chen Gu, Yong Jiang, Pengjun Xie, Fei Huang, Lei Liang,Zhiqiang Zhang,Xiaowei Zhu,Jun Zhou,Huajun Chen。 Preprint'24
名望:迈向事实多任务模型编辑李Zen,Yingyu Shan,Zeming Liu,Jiashu Yao,Yuhang Guo。 Emnlp'24
忘记还是不忘记?迈向大型语言模型的实践知识
Bozhong Tian,Xiaozhuan Liang,Siyuan Cheng,Qingbin Liu,Mengru Wang,Dianbo Sui,Xi Chen,Huajun Chen,Ningyu Zhang。 EMNLP'24调查结果
了解LLM在模型编辑中的崩溃
Wanli Yang,Fei Sun,Jiajun Tan,Xinyu MA,Du Su,Dawei Yin,Huawei Shen。 EMNLP'24调查结果
是否可以牢固地编辑大型语言模型?
Xinbei MA,Tianjie JU,Jiyang Qiu,Zhusheng Zhang,Hai Zhao,Lifen liun,Yulong Wang。 Preprint'24
在多跳问题的语言模型中检索增强知识编辑回答
Yucheng Shi,Qiaoyu Tan,Xuansheng Wu,Shaochen Zhong,Kaixiong Zhou,ningha liu。 CIKM'24
潜在释义:层上的扰动改善语言模型中的知识注入
Minki Kang,Sung Ju Hwang,Gibbeum Lee,Jaewoong Cho。 nips'24
学习编辑:将LLM与知识编辑保持一致
Yuxin Jiang,Yufei Wang,Chuhan Wu,Wanjun Zhong,Xingshan Zeng,Jiahui Gao,Liangyou Li,Xin Jiang,Lifeng Shang,Ruiming Tang,Qun Liu,Wei Wang。 ACL'24
在语言模型中检查和编辑知识表示
埃文·埃尔南德斯(Evan Hernandez),贝琳达·Z(Belinda Z. Li),雅各布·安德里亚斯(Jacob Andreas)。科尔姆24
在学习之前忘记:利用参数算术在大型语言模型中进行知识更新
Shiwen Ni,Dingwei Chen,Chengming Li,Xiping Hu,Ruifeng Xu,Min Yang。 ACL'24
精神:正交参数空间中的语言模型
[有毒/偏见,学历,SVD,参数知识的分析,任务矢量]
Naacl'24发现
编辑大型语言模型:问题,方法和机会
Yunzhi Yao,Peng Wang,Bozhong Tian,Siyuan Cheng,Zhoubo Li,Shumin Deng,Huajun Chen,Ningyu Zhang。 Emnlp'23
在GPT中找到和编辑事实协会
凯文·孟(Kevin Meng),大卫·鲍(David Bau),亚历克斯·安东尼(Alex Andonian),Yonatan Belinkov。 nips'22
基于内存的模型编辑
埃里克·米切尔(Eric Mitchell),查尔斯·林(Charles Lin),安托万(Antoine Bosselut),克里斯托弗·D·曼宁(Christopher D. Manning),切尔西·芬恩(Chelsea Finn)。 ICLR'22
在语言模型中编辑事实知识
Nicola de Cao,Wilker Aziz,Ivan Titov。 Emnlp'21
可编辑的神经网络。
Anton Sinitsin,Vsevolod Plokhotnyuk,Dmitriy Pyrkin,Sergei Popov,Artem Babenko。 ICLR'20
明·宗,钦xinan,魏兹·陈,贾维·汉,彭昌。 ICLR'24
用较大的模型初始化模型
Zhiqiu Xu,Yanjie Chen,Kirill Vishniakov,Yida Yin,Zhiqiang Shen,Trevor Darrell,Lingjie Liu,Zhuang Liu。 ICLR'24聚光灯
跨模型控制:在一次性培训中改善多种大型语言模型
Jiayi Wu,Hao Sun,Hengyi Cai,Lixin SU,Shuaiqiang Wang,Dawei Yin,Xiang Li,Ming Gao。 nips'24
大型语言模型的知识融合
Fanqi Wan,Xinting Huang,Deng Cai,Xiaojun Quan,Wei Bi,Shuming Shi。 ICLR'24
通过代理调整语言模型
Alisa Liu,Xioochuang Han,Yizhong Wang,Yulia Tsvetkov,Yejin Choi,Noah A. Smith。科尔姆24
聊天矢量:一种简单的方法,用于配备LLM的指令以下和模型对齐方式
[任务向量,参数知识,知识转移]
ACL'24
FEDMKT:大型和小语言模型的联合相互知识转移
[联合学习,知识转移,异质令牌比对]
Coling'25
大语言模型中的功能向量
[功能矢量,因果关系,机制解释]
ICLR'24
通过教学向量来完善大型语言模型微调
[灾难性遗忘,功能矢量,因果关系]
Preprint'24
KLF:语言模型的知识本地化和融合持续学习
[灾难性遗忘,持续学习,基于感觉的位置]
ACL'24
语言模型是超级马里奥:从同源模型中吸收能力作为免费午餐
[知识转移,模型合并,高效技能] ICML'24
超越任务向量:基于重要性指标的选择性任务算术
[任务向量,基于感觉的重要性得分,模型合并] Preprint'24
具有交叉知识转移的大型和小语言模型的相互增强
Yongheng Deng,Ziqing Qiao,Ju Ren,Yang Liu,Yaoxue Zhang。 Preprint'23
学习成长预贴模型以进行有效的变压器培训
Peihao Wang,Rameswar Panda,Lucas Torroba Hennigen,Philip Greengard,Leonid Karlinsky,Rogerio Feris,David D. Cox,Zhangyang Wang,Yoon Kim。 ICLR'23
基于检索的知识转移:极端大语言模型压缩的有效方法
Jiduan Liu,Jiahao Liu,Qifan Wang,Jingang Wang,Xunliang Cai,Dongyan Zhao,Ran Lucien Wang,Rui Yan。 EMNLP'23发现
用任务算术编辑模型
[任务Vecotr,参数知识,知识转移,多任务学习]
ICLR'23
在精细语言模型中特定于任务的技能本地化
[知识转移,模型移植,技能参数定位]
ICML'23
用算术操作组成参数有效模块
[PEFT,任务向量,模型合并]
nips'23
通过合并语言模型的权重来数据素材知识融合
[模型合并]
ICLR'23
重量蒸馏:转移神经网络参数的知识
Ye Lin,Yanyang Li,Ziyang Wang,Bei Li,Quan du,Tong Xiao,Jingbo Zhu。 ACL'21
具有动态激活构图的大语言模型的多型转向
Daniel Scalena,Gabriele Sarti,Malvina Nissim。 ACL'24 BlackBoxNLP研讨会
单词嵌入是语言模型的转向
[嵌入转向,生成控制] ACL'24
亚历山大·马特·特纳(Alexander Matt Turner),丽莎·蒂尔加特(Lisa Thiergart),加文·里奇(Gavin Leech),大卫·乌德尔(David Udell),胡安·J·瓦兹克斯(Juan J. Preprint'23
提示:通过及时调整将学生友好的知识蒸馏成生成语言模型(注意:不是参数)
Gyeongman Kim,Doohyuk Jang,Eunho Yang。 EMNLP'24调查结果
从实例培训到教学学习:从说明中生成任务适配器
Huanxuan Liao,Yao Xu,Shizhu He,Yuanzhe Zhang,Yanchao Hao,Shengping Liu,Kang Liu,Jun Zhao。 nips'24
当婴儿教婴儿时:学生知识可以在小数据集上共享优于教师指导的蒸馏吗?
Srikrishna Iyer。 Emnlp'24 Conll研讨会
Onebit:迈向极低的大型语言模型
Yuzhuang Xu,Xu Han,Zonghan Yang,Shuo Wang,Qingfu Zhu,Zhiyuan Liu,Weidong Liu,Wanxiang Che。 nips'24
压缩成本:调查压缩对语言模型中参数知识的影响
Satya Sai Srinath Namburi,Makesh Sreedhar,Srinath Srinivasan,Frederic Sala。 EMNLP'23发现
唤醒增强一代:学习唤醒大语模型的内部知识以回答
[Hypernet,抹布,上下文压缩]
Huanxuan Liao,Shizhu He,Yao Xu,Yuanzhe Zhang,Kang Liu,Shengping Liu,Jun Zhao。 AAAI'25
内存注射:基于变压器的语言模型推断期间的多跳推理故障
Mansi Sakarvadia,Aswathy Ajith,Arham Khan,Daniel Grzenda,Nathaniel Hudson,AndréBauer,Kyle Chard,Ian Foster。在BlackBoxNLP研讨会上的口头演示,emnlp'23
将知识与插件语言建模的参数分解
Xin Cheng,Yankai Lin,Xiuying Chen,Dongyan Zhao,Rui Yan。 ACL'23发现
参数知识注入:将临时上下文信息整合到模型参数中
提交给ICLR'25
Kformer:变压器进料层中的知识注入
Yunzhi Yao,Shaohan Huang,Li Dong,Furu Wei,Huajun Chen,Ningyu Zhang。 NLPCC'22
KASA:知识吸引的大语言模型的奇异价值改编
[知识感知洛拉,SVD]
Fan Wang,Juyong Jiang,Chansung Park,Sunghun Kim,Jing Tang。 Preprint'24
CORDA:大型语言模型的面向上下文的分解适应任务感知参数有效的微调
[知识感知洛拉,SVD]
Yibo Yang,Xiaojie Li,Zhongzhu Zhou,Shuaiwen Leon Song,Jianlong Wu,Liqiang Nie,Bernard Ghanem。 nips'24
朵拉:重量分解的低级适应
[体重化的Lora,SVD,FT和Lora的分析] Shih-Yang Liu,Chien-Yi Wang,Hongxu Yin,Pavlo Molchanov,Yu-Chiang Frank Wang,Kwang-ting Cheng,Min-Hung Chen。 ICML'24口服
低级适应与任务相关的功能增强,以增强微调语言模型
[任务感知洛拉,隐藏表示增强] AAAI'25 Colorai Workshop
了解更多,但要少一些:参数有效持续学习
[持续学习,参数有效,知识转移] NIPS'24
我的模特会忘记什么?在语言模型完善中预测被遗忘的例子
[灾难性遗忘,预测遗忘,分析] ICML'24聚光灯
XRAG:一个令牌的极端上下文压缩,用于检索的一代
[上下文压缩,抹布,多模式融合] NIPS'24
长期安装:扩展长上下文检索的嵌入模型
[长上下文,嵌入模型,基准] Emnlp'24
LLM也许Longlm:自我扩展LLM上下文窗口而无需调整
[长上下文扩展,插件方法] ICML'24 Spotlight
两块石头击中一只鸟:双杆位置编码以提高长度的外推
[长上下文扩展,绝对的PE +相对PE,插件,但基于训练的方法] ICML'24
纱线:有效的上下文窗口扩展大语模型[http://arxiv.org/abs/2309.00071]
[长上下文扩展,绳索的变化] ICLR'24
训练短,测试长:线性偏见的注意力可实现输入长度外推
[alibi,长篇小说推断,基于培训的方法] ICLR'22
roformer:增强的变压器,具有旋转位置嵌入。
[旋转位置嵌入,经典]