我們認為,LLMS中的參數知識仍然是一個未開發的領域,我們希望該存儲庫能為您提供一些有價值的見解! ? ? ️?
最終投影層的LLM中解碼專用特徵神經元
[logitts鏡頭,查詢神經元的分析]
知識神經論文與知識有什麼關係?
Jingcheng Niu,Andrew Liu,Zining Zhu,Gerald Penn。 ICLR'24(聚光燈)
大語言模型中的知識機制:調查和觀點
Mengru Wang,Yunzhi Yao,Ziwen Xu,Shuofei Qiao,Shumin Deng,Peng Wang,Xiang Chen,Jia-Chen Gu,Yong Jiang,Pengjun Xie,Fei Huang,Huajun,Huajun,Huajun Chen,Ningyyu Zhang。 EMNLP'24調查結果
在大語言模型中刪除記憶和推理能力
Mingyu Jin,Weidi Luo,Sitao Cheng,Xinyi Wang,Wenyue Hua,Ruixiang Tang,William Yang Wang,Yongfeng Zhang。 Preprint'24
語言崩潰:(大)語言模型中的神經崩潰
羅伯特·吳(Robert Wu),瓦丹·帕皮(Vardan Papyan)。 nips'24
了解大語言模型的參數和上下文知識之間的相互作用
Sitao Cheng,Liangming Pan,Xunjian Yin,Xinyi Wang,William Yang Wang。 Preprint'24
評估大語言模型的外部和參數知識融合
Hao Zhang,Yuyang Zhang,Xiaoguang Li,Wenxuan Shi,Haonan Xu,Huanshuo Liu,Yasheng Wang,Lifeng Shang,Qun Liu,Yong Liu,Yong Liu,Ruiming Tang。 Preprint'24
自適應變色龍或頑固的懶惰:在知識衝突中揭示大語言模型的行為
Jian Xie,Kai Zhang,Jiangjie Chen,Renze Lou,Yu Su。 ICLR'24聚光燈
在預測語言模型期間,知識熵衰減阻礙了新知識的獲取
Jiyeon Kim,Hyunji Lee,Hyowon Cho,Joel Jang,Hyeonbin Hwang,Seungpil Won,Youbin Ahn,Dohaeng Lee,Minjoon Seo。 Preprint'24
當上下文引導但參數記憶以大語言模型遵循
Yufei Tao,Adam Hiatt,Erik Haake,Antonie J. Jetter,Ameeta Agrawal。 Emnlp'24
大語言模型中的神經元級知識歸因
Zeping Yu,Sophia Ananiadou。 Emnlp'24
解剖自動回歸語言模型中事實關聯的召回[代碼]
Mor Geva,Jasmijn Bastings,Katja Filippova,Amir Globerson。 Emnlp'23
變壓器進紙層是鑰匙值記憶
Mor Geva,Roei Schuster,Jonathan Berant,Omer Levy。 Emnlp'21
知識本地化是否正確?語言模型中實體和關係觀點之間的驚人差異
Yifan Wei,Xiaoyan Yu,Yixuan Weng,Huanhuan MA,Yuanzhe Zhang,Jun Zhao,Kang Liu。 CIKM'24
在GPT中找到和編輯事實協會
凱文·孟(Kevin Meng),大衛·鮑(David Bau),亞歷克斯·安東尼(Alex Andonian),Yonatan Belinkov。 nips'22
在大型文本的大語言模型中識別與查詢相關的神經元
Lihu Chen,Adam Dejl,Francesca Toni。 Preprint'24
揭示語言模型的參數知識:歸因方法的統一框架
Haeun Yu,Pepa Atanasova,Isabelle Augenstein。 ACL'24
大語言模型是否包含特定於任務的神經元。
播放歌曲,Shizhu He,關閉江,Yantuan Xian,Shengxiang Gao,Kang Liu和Zhengtao Yu。 Emnlp'24
知識神經元中心的旅程:獨立語言知識的發現神經元和退化知識神經元
Yuheng Chen,Pengfei Cao,Yubo Chen,Kang Liu,Jun Zhao。 AAAI'24
驗證的變壓器中的知識神經元
Damai Dai,Li Dong,Yaru Hao,Zhifang Sui,Baobao Chang,Furu Wei。 ACL'22
將舌頭與思想分開:激活補丁揭示了變形金剛中的語言敏捷概念表示
ClémentDumas,Chris Wendler,Veniamin Veselovsky,Giovanni Monea,Robert West。 ICLR'24聚光燈
從Yes-Men到Truth Tellers,通過精確調整在大語言模型中解決粘糊糊的人
Wei Chen,Zhen Huang,Liang Xie,Binbin Lin,Houqiang Li,Le Lu,Xinmei Tian,Deng Cai,Yonggang Zhang,Wenxiao Wang,Xu Shen,Jieping Ye。 ICML'24
語言特定的神經元:大語言模型中多語言能力的關鍵。
Tianyi Tang,Wenyang Luo,Haoyang Huang,Dongdong Zhang,Siaolei Wang,Xin Zhao,Furu Wei,Ji-Rong Wen。 ACL'24
具有動態激活構圖的大語言模型的多型轉向
Daniel Scalena,Gabriele Sarti,Malvina Nissim。 ACL'24 BlackBoxNLP研討會
探索激活稀疏性在預訓練中的好處
[MOE,激活稀疏性,激活模式,推理加速] Zhengyan Zhang,Chaojun Xiao,Qiujieli Qin,Yankai Lin,Zhiyuan Zeng,Xu Han,Zhiyuan Liu,Ruobing Xie,Maosong Sun,Maosong Sun,Jie Zhou。 ICML'24
激活加法:轉向語言模型而無需優化
亞歷山大·馬特·特納(Alexander Matt Turner),麗莎·蒂爾加特(Lisa Thiergart),加文·里奇(Gavin Leech),大衛·烏德爾(David Udell),胡安·J·瓦茲克斯(Juan J. Preprint'23
DEJA VU:推理時有效LLM的上下文稀疏性
[稀疏,推理加速] ICML'23
大語模型的知識編輯的全面研究
Ningyu Zhang, Yunzhi Yao, Bozhong Tian, Peng Wang, Shumin Deng, Mengru Wang, Zekun Xi, Shengyu Mao, Jintian Zhang, Yuansheng Ni, Siyuan Cheng, Ziwen Xu, Xin Xu, Jia-Chen Gu, Yong Jiang, Pengjun Xie, Fei Huang, Lei Liang,Zhiqiang Zhang,Xiaowei Zhu,Jun Zhou,Huajun Chen。 Preprint'24
名望:邁向事實多任務模型編輯李Zen,Yingyu Shan,Zeming Liu,Jiashu Yao,Yuhang Guo。 Emnlp'24
忘記還是不忘記?邁向大型語言模型的實踐知識
Bozhong Tian,Xiaozhuan Liang,Siyuan Cheng,Qingbin Liu,Mengru Wang,Dianbo Sui,Xi Chen,Huajun Chen,Ningyu Zhang。 EMNLP'24調查結果
了解LLM在模型編輯中的崩潰
Wanli Yang,Fei Sun,Jiajun Tan,Xinyu MA,Du Su,Dawei Yin,Huawei Shen。 EMNLP'24調查結果
是否可以牢固地編輯大型語言模型?
Xinbei MA,Tianjie JU,Jiyang Qiu,Zhusheng Zhang,Hai Zhao,Lifen liun,Yulong Wang。 Preprint'24
在多跳問題的語言模型中檢索增強知識編輯回答
Yucheng Shi,Qiaoyu Tan,Xuansheng Wu,Shaochen Zhong,Kaixiong Zhou,ningha liu。 CIKM'24
潛在釋義:層上的擾動改善語言模型中的知識注入
Minki Kang,Sung Ju Hwang,Gibbeum Lee,Jaewoong Cho。 nips'24
學習編輯:將LLM與知識編輯保持一致
Yuxin Jiang,Yufei Wang,Chuhan Wu,Wanjun Zhong,Xingshan Zeng,Jiahui Gao,Liangyou Li,Xin Jiang,Lifeng Shang,Ruiming Tang,Qun Liu,Wei Wang。 ACL'24
在語言模型中檢查和編輯知識表示
埃文·埃爾南德斯(Evan Hernandez),貝琳達·Z(Belinda Z. Li),雅各布·安德里亞斯(Jacob Andreas)。科爾姆24
在學習之前忘記:利用參數算術在大型語言模型中進行知識更新
Shiwen Ni,Dingwei Chen,Chengming Li,Xiping Hu,Ruifeng Xu,Min Yang。 ACL'24
精神:正交參數空間中的語言模型
[有毒/偏見,學歷,SVD,參數知識的分析,任務矢量]
Naacl'24發現
編輯大型語言模型:問題,方法和機會
Yunzhi Yao,Peng Wang,Bozhong Tian,Siyuan Cheng,Zhoubo Li,Shumin Deng,Huajun Chen,Ningyu Zhang。 Emnlp'23
在GPT中找到和編輯事實協會
凱文·孟(Kevin Meng),大衛·鮑(David Bau),亞歷克斯·安東尼(Alex Andonian),Yonatan Belinkov。 nips'22
基於內存的模型編輯
埃里克·米切爾(Eric Mitchell),查爾斯·林(Charles Lin),安托萬(Antoine Bosselut),克里斯托弗·D·曼寧(Christopher D. Manning),切爾西·芬恩(Chelsea Finn)。 ICLR'22
在語言模型中編輯事實知識
Nicola de Cao,Wilker Aziz,Ivan Titov。 Emnlp'21
可編輯的神經網絡。
Anton Sinitsin,Vsevolod Plokhotnyuk,Dmitriy Pyrkin,Sergei Popov,Artem Babenko。 ICLR'20
明·宗,欽xinan,魏茲·陳,賈維·漢,彭昌。 ICLR'24
用較大的模型初始化模型
Zhiqiu Xu,Yanjie Chen,Kirill Vishniakov,Yida Yin,Zhiqiang Shen,Trevor Darrell,Lingjie Liu,Zhuang Liu。 ICLR'24聚光燈
跨模型控制:在一次性培訓中改善多種大型語言模型
Jiayi Wu,Hao Sun,Hengyi Cai,Lixin SU,Shuaiqiang Wang,Dawei Yin,Xiang Li,Ming Gao。 nips'24
大型語言模型的知識融合
Fanqi Wan,Xinting Huang,Deng Cai,Xiaojun Quan,Wei Bi,Shuming Shi。 ICLR'24
通過代理調整語言模型
Alisa Liu,Xioochuang Han,Yizhong Wang,Yulia Tsvetkov,Yejin Choi,Noah A. Smith。科爾姆24
聊天矢量:一種簡單的方法,用於配備LLM的指令以下和模型對齊方式
[任務向量,參數知識,知識轉移]
ACL'24
FEDMKT:大型和小語言模型的聯合相互知識轉移
[聯合學習,知識轉移,異質令牌比對]
Coling'25
大語言模型中的功能向量
[功能矢量,因果關係,機制解釋]
ICLR'24
通過教學向量來完善大型語言模型微調
[災難性遺忘,功能矢量,因果關係]
Preprint'24
KLF:語言模型的知識本地化和融合持續學習
[災難性遺忘,持續學習,基於感覺的位置]
ACL'24
語言模型是超級馬里奧:從同源模型中吸收能力作為免費午餐
[知識轉移,模型合併,高效技能] ICML'24
超越任務向量:基於重要性指標的選擇性任務算術
[任務向量,基於感覺的重要性得分,模型合併] Preprint'24
具有交叉知識轉移的大型和小語言模型的相互增強
Yongheng Deng,Ziqing Qiao,Ju Ren,Yang Liu,Yaoxue Zhang。 Preprint'23
學習成長預貼模型以進行有效的變壓器培訓
Peihao Wang,Rameswar Panda,Lucas Torroba Hennigen,Philip Greengard,Leonid Karlinsky,Rogerio Feris,David D. Cox,Zhangyang Wang,Yoon Kim。 ICLR'23
基於檢索的知識轉移:極端大語言模型壓縮的有效方法
Jiduan Liu,Jiahao Liu,Qifan Wang,Jingang Wang,Xunliang Cai,Dongyan Zhao,Ran Lucien Wang,Rui Yan。 EMNLP'23發現
用任務算術編輯模型
[任務Vecotr,參數知識,知識轉移,多任務學習]
ICLR'23
在精細語言模型中特定於任務的技能本地化
[知識轉移,模型移植,技能參數定位]
ICML'23
用算術操作組成參數有效模塊
[PEFT,任務向量,模型合併]
nips'23
通過合併語言模型的權重來數據素材知識融合
[模型合併]
ICLR'23
重量蒸餾:轉移神經網絡參數的知識
Ye Lin,Yanyang Li,Ziyang Wang,Bei Li,Quan du,Tong Xiao,Jingbo Zhu。 ACL'21
具有動態激活構圖的大語言模型的多型轉向
Daniel Scalena,Gabriele Sarti,Malvina Nissim。 ACL'24 BlackBoxNLP研討會
單詞嵌入是語言模型的轉向
[嵌入轉向,生成控制] ACL'24
亞歷山大·馬特·特納(Alexander Matt Turner),麗莎·蒂爾加特(Lisa Thiergart),加文·里奇(Gavin Leech),大衛·烏德爾(David Udell),胡安·J·瓦茲克斯(Juan J. Preprint'23
提示:通過及時調整將學生友好的知識蒸餾成生成語言模型(注意:不是參數)
Gyeongman Kim,Doohyuk Jang,Eunho Yang。 EMNLP'24調查結果
從實例培訓到教學學習:從說明中生成任務適配器
Huanxuan Liao,Yao Xu,Shizhu He,Yuanzhe Zhang,Yanchao Hao,Shengping Liu,Kang Liu,Jun Zhao。 nips'24
當嬰兒教嬰兒時:學生知識可以在小數據集上共享優於教師指導的蒸餾嗎?
Srikrishna Iyer。 Emnlp'24 Conll研討會
Onebit:邁向極低的大型語言模型
Yuzhuang Xu,Xu Han,Zonghan Yang,Shuo Wang,Qingfu Zhu,Zhiyuan Liu,Weidong Liu,Wanxiang Che。 nips'24
壓縮成本:調查壓縮對語言模型中參數知識的影響
Satya Sai Srinath Namburi,Makesh Sreedhar,Srinath Srinivasan,Frederic Sala。 EMNLP'23發現
喚醒增強一代:學習喚醒大語模型的內部知識以回答
[Hypernet,抹布,上下文壓縮]
Huanxuan Liao,Shizhu He,Yao Xu,Yuanzhe Zhang,Kang Liu,Shengping Liu,Jun Zhao。 AAAI'25
內存注射:基於變壓器的語言模型推斷期間的多跳推理故障
Mansi Sakarvadia,Aswathy Ajith,Arham Khan,Daniel Grzenda,Nathaniel Hudson,AndréBauer,Kyle Chard,Ian Foster。在BlackBoxNLP研討會上的口頭演示,emnlp'23
將知識與插件語言建模的參數分解
Xin Cheng,Yankai Lin,Xiuying Chen,Dongyan Zhao,Rui Yan。 ACL'23發現
參數知識注入:將臨時上下文信息整合到模型參數中
提交給ICLR'25
Kformer:變壓器進料層中的知識注入
Yunzhi Yao,Shaohan Huang,Li Dong,Furu Wei,Huajun Chen,Ningyu Zhang。 NLPCC'22
KASA:知識吸引的大語言模型的奇異價值改編
[知識感知洛拉,SVD]
Fan Wang,Juyong Jiang,Chansung Park,Sunghun Kim,Jing Tang。 Preprint'24
CORDA:大型語言模型的面向上下文的分解適應任務感知參數有效的微調
[知識感知洛拉,SVD]
Yibo Yang,Xiaojie Li,Zhongzhu Zhou,Shuaiwen Leon Song,Jianlong Wu,Liqiang Nie,Bernard Ghanem。 nips'24
朵拉:重量分解的低級適應
[體重化的Lora,SVD,FT和Lora的分析] Shih-Yang Liu,Chien-Yi Wang,Hongxu Yin,Pavlo Molchanov,Yu-Chiang Frank Wang,Kwang-ting Cheng,Min-Hung Chen。 ICML'24口服
低級適應與任務相關的功能增強,以增強微調語言模型
[任務感知洛拉,隱藏表示增強] AAAI'25 Colorai Workshop
了解更多,但要少一些:參數有效持續學習
[持續學習,參數有效,知識轉移] NIPS'24
我的模特會忘記什麼?在語言模型完善中預測被遺忘的例子
[災難性遺忘,預測遺忘,分析] ICML'24聚光燈
XRAG:一個令牌的極端上下文壓縮,用於檢索的一代
[上下文壓縮,抹布,多模式融合] NIPS'24
長期安裝:擴展長上下文檢索的嵌入模型
[長上下文,嵌入模型,基準] Emnlp'24
LLM也許Longlm:自我擴展LLM上下文窗口而無需調整
[長上下文擴展,插件方法] ICML'24 Spotlight
兩塊石頭擊中一隻鳥:雙杆位置編碼以提高長度的外推
[長上下文擴展,絕對的PE +相對PE,插件,但基於訓練的方法] ICML'24
紗線:有效的上下文窗口擴展大語模型[http://arxiv.org/abs/2309.00071]
[長上下文擴展,繩索的變化] ICLR'24
訓練短,測試長:線性偏見的注意力可實現輸入長度外推
[alibi,長篇小說推斷,基於培訓的方法] ICLR'22
roformer:增強的變壓器,具有旋轉位置嵌入。
[旋轉位置嵌入,經典]