Kami percaya bahwa pengetahuan parametrik di LLMS masih merupakan area yang sebagian besar belum dijelajahi, dan kami berharap repositori ini akan memberi Anda beberapa wawasan yang berharga !? ? ️
Decoding fitur khusus neuron di LLMS dengan lapisan proyeksi akhir
[Logit Lens, Analisis Neuron Kueri]
Apa hubungan tesis neuron pengetahuan dengan pengetahuan?
Jingcheng Niu, Andrew Liu, Zining Zhu, Gerald Penn. Iclr'24 (Spotlight)
Mekanisme Pengetahuan dalam Model Bahasa Besar: Survei dan Perspektif
Mengru Wang, Yunzhi Yao, Ziwen Xu, Shuofei Qiao, Shumin Deng, Peng Wang, Xiang Chen, Jia-Chen Gu, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen, NingyU Zhang. Temuan emnlp'24
Mengurai memori dan kemampuan penalaran dalam model bahasa besar
Mingyu Jin, Weidi Luo, Sitao Cheng, Xinyi Wang, Wenyue Hua, Ruixiang Tang, William Yang Wang, Yongfeng Zhang. pracrint'24
Runtuhnya linguistik: keruntuhan saraf pada model bahasa (besar)
Robert Wu, Vardan Papyan. Nips'24
Memahami interaksi antara pengetahuan parametrik dan kontekstual untuk model bahasa besar
Sitao Cheng, Pan Liangming, Xunjian Yin, Xinyi Wang, William Yang Wang. Pracrint'24
Mengevaluasi perpaduan pengetahuan eksternal dan parametrik dari model bahasa besar
Hao Zhang, Yuyang Zhang, Xiaoguang Li, Wenxuan Shi, Haonan Xu, Huanshuo Liu, Yasheng Wang, Lifeng Shang, Qun Liu, Yong Liu, Ruiming Tang. Pracrint'24
Bunglon adaptif atau kemalasan yang keras kepala: mengungkapkan perilaku model bahasa besar dalam konflik pengetahuan
Jian Xie, Kai Zhang, Jiangjie Chen, Renze Lou, Yu Su. ICLR'24 Spotlight
Pembusukan entropi pengetahuan selama model bahasa pretraining menghambat akuisisi pengetahuan baru
Jiyeon Kim, Hyunji Lee, Hyowon Cho, Joel Jang, Hyeonbin Hwang, Seungpil Won, YouBin Ahn, Dohaeng Lee, Minjoon Seo. Pracrint'24
Saat konteks mengarah tetapi memori parametrik mengikuti dalam model bahasa besar
Yufei Tao, Adam Hiatt, Erik Haake, Antonie J. Jetter, Ameeta Agrawal. Emnlp'24
Atribusi pengetahuan tingkat neuron dalam model bahasa besar
Zeping Yu, Sophia Ananiadou. Emnlp'24
Membedah penarikan asosiasi faktual dalam model bahasa otomatis [kode]
Mor Geva, Jasmijn Bastings, Katja Filippova, Amir Globerson. Emnlp'23
Lapisan feed-forward transformer adalah kenangan bernilai kunci
Mor Geva, Roei Schuster, Jonathan Berant, Omer Levy. Emnlp'21
Apakah lokalisasi pengetahuan berlaku? Perbedaan mengejutkan antara entitas dan perspektif hubungan dalam model bahasa
Yifan Wei, Xiaoyan Yu, Yixuan Weng, Huanhuan MA, Yuanzhe Zhang, Jun Zhao, Kang Liu. Cikm'24
Menemukan dan mengedit asosiasi faktual di GPT
Kevin Meng, David Bau, Alex Andonian, Yonatan Belinkov. Nips'22
Mengidentifikasi neuron yang relevan dengan kueri dalam model bahasa besar untuk teks panjang
Lihu Chen, Adam Dejl, Francesca Toni. Pracrint'24
Mengungkap Pengetahuan Parametrik Model Bahasa: Kerangka Kerja Terpadu untuk Metode Atribusi
Haeun Yu, Pepa Atanasova, Isabelle Augenstein. Acl'24
Apakah model bahasa besar mengandung neuron khusus tugas.
Ran Song, Shizhu He, menutup Jiang, Yantuan Xian, Shengxiang Gao, Kang Liu, dan Zhengtao Yu. Emnlp'24
Perjalanan ke Pusat Neuron Pengetahuan: Penemuan Neuron Pengetahuan-Pengetahuan-Independen dan Neuron Pengetahuan yang merosot
Yuheng Chen, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao. Aaai'24
Neuron Pengetahuan dalam Transformer Pretrained
Damai Dai, Li Dong, Yaru Hao, Zhifang Sui, Baobao Chang, Furu Wei. Acl'22
Memisahkan lidah dari pemikiran: penambalan aktivasi mengungkapkan representasi konsep agnostik bahasa dalam transformer
Clément Dumas, Chris Wendler, Veniamin Veselovsky, Giovanni Monea, Robert West. ICLR'24 Spotlight
Dari Yes-Men hingga Tellers Truth yang menangani Sycophancy dalam model bahasa besar dengan tuning tepat
Wei Chen, Zhen Huang, Liang Xie, Binbin Lin, Houqiang Li, Le Lu, Xinmei Tian, Deng Cai, Yonggang Zhang, Wenxiao Wang, Xu Shen, Jieping Ye. Icml'24
Neuron khusus bahasa: Kunci kemampuan multibahasa dalam model bahasa besar.
Tianyi Tang, Wenyang Luo, Haoyang Huang, Dongdong Zhang, Xiaolei Wang, Xin Zhao, Furu Wei, Ji-Rong Wen. Acl'24
Kemudi multi-properti dari model bahasa besar dengan komposisi aktivasi dinamis
Daniel Scalena, Gabriele Sarti, Malvina Nissim. ACL'24 BlackBoxNLP Workshop
Menjelajahi manfaat sparsity aktivasi dalam pra-pelatihan
[MOE, Sparsity Aktivasi, Pola Aktivasi, Inferensi Speedup] Zhengyan Zhang, Chaojun Xiao, QiUJieli Qin, Yankai Lin, Zhiyuan Zeng, Xu Han, Zhiyuan Liu, Ruobing Xie, Maosong Sun, Jie Zhou. Icml'24
Penambahan Aktivasi: Model Bahasa Kemudi tanpa Optimalisasi
Alexander Matt Turner, Lisa Thiergart, Gavin Leech, David Udell, Juan J. Vazquez, Ulisse Mini, Monte MacDiarmid. Pracrint'23
Deja Vu: Sparsity kontekstual untuk LLM yang efisien pada waktu inferensi
[Sparsity, Inference Speedup] Zichang Liu, Jue Wang, Tri Dao, Tianyi Zhou, Binhang Yuan, Lagu Zhao, Anshumali Shrivastava, Ce Zhang, Yuandong Tian, Christopher RE, Beidi Chen. Icml'23
Studi komprehensif tentang pengeditan pengetahuan untuk model bahasa besar
Ningyu Zhang, Yunzhi Yao, Bozhong Tian, Peng Wang, Shumin Deng, Mengru Wang, Zekun Xi, Shengyu Mao, Jintian Zhang, Yuansheng Ni, Siyuan Cheng, Ziwen Xu, Xin Xu, Jia-Chen Gu, Yong Jiang, Pengjun Xie, Fei Huang, Lei Liang, Zhiqiang Zhang, Xiaowei Zhu, Jun Zhou, Huajun Chen. Pracrint'24
Ketenaran: Menuju Model Multi-Task Factual Editing Li Zeng, Yingyu Shan, Zeming Liu, Jiashu Yao, Yuhang Guo. Emnlp'24
Lupa atau tidak? Menuju Pengetahuan Praktis yang Tidak Ditugaskan untuk Model Bahasa Besar
Bozhong Tian, Xiaozhuan Liang, Siyuan Cheng, Qingbin Liu, Mengru Wang, Dianbo Sui, Xi Chen, Huajun Chen, Ningyu Zhang. Temuan emnlp'24
Memahami runtuhnya LLM dalam pengeditan model
Wanli Yang, Fei Sun, Jiajun Tan, Xinyu MA, Du Su, Dawei Yin, Huawei Shen. Temuan emnlp'24
Apakah mungkin untuk mengedit model bahasa besar dengan kuat?
Xinbei MA, Tianjie Ju, Jiyang Qiu, Zhuosheng Zhang, Hai Zhao, Lifeng Liu, Yulong Wang. Pracrint'24
Pengeditan Pengetahuan yang Ditingkatkan dalam Pengambilan dalam Model Bahasa untuk Jawaban Multi-Hop
Yucheng Shi, Qiaoyu Tan, Xuansheng Wu, Shaochen Zhong, Kaixiong Zhou, Ninghao Liu. Cikm'24
Parafrase Laten: Gangguan pada Lapisan Meningkatkan Injeksi Pengetahuan dalam Model Bahasa
Minki Kang, Sung Ju Hwang, Gibbeum Lee, Jaewoong Cho. Nips'24
Belajar Mengedit: Menyelaraskan LLM dengan Pengeditan Pengetahuan
Yuxin Jiang, Yufei Wang, Chuhan Wu, Wanjun Zhong, Xingshan Zeng, Jiahui Gao, Liangyou Li, Xin Jiang, Lifeng Shang, Ruiming Tang, Qun Liu, Wei Wang. Acl'24
Memeriksa dan mengedit representasi pengetahuan dalam model bahasa
Evan Hernandez, Belinda Z. Li, Jacob Andreas. Colm'24
Lupa sebelum belajar: Memanfaatkan aritmatika parametrik untuk pembaruan pengetahuan dalam model bahasa besar
Shiwen Ni, Dingwei Chen, Chengming LI, Xiping Hu, Ruifeng Xu, Min Yang. Acl'24
Etos: Model Bahasa Perbaikan dalam Ruang Parameter Orthogonal
[Toksika/Bias Unlearning, SVD, Analisis Pengetahuan Parametrik, Vektor Tugas]
Temuan naacl'24
Mengedit Model Bahasa Besar: Masalah, Metode, dan Peluang
Yunzhi Yao, Peng Wang, Bozhong Tian, Siyuan Cheng, Zhoubo Li, Shumin Deng, Huajun Chen, Ningyu Zhang. Emnlp'23
Menemukan dan mengedit asosiasi faktual di GPT
Kevin Meng, David Bau, Alex Andonian, Yonatan Belinkov. Nips'22
Pengeditan model berbasis memori dalam skala
Eric Mitchell, Charles Lin, Antoine Bosselut, Christopher D. Manning, Chelsea Finn. Iclr'22
Mengedit Pengetahuan Faktual dalam Model Bahasa
Nicola de Cao, Wilker Aziz, Ivan Titov. Emnlp'21
Jaringan saraf yang dapat diedit.
Anton Sinitsin, Vsevolod Plokhotnyuk, Dmitriy Pyrkin, Sergei Popov, Artem Babenko. Iclr'20
Ming Zhong, Chenxin An, Weizhu Chen, Jiawei Han, Pengcheng He. Iclr'24
Menginisialisasi model dengan yang lebih besar
Zhiqiu Xu, Yanjie Chen, Kirill Vishniakov, Yida Yin, Zhiqiang Shen, Trevor Darrell, Lingjie Liu, Zhuang Liu. ICLR'24 Spotlight
Kontrol Model Cross: Meningkatkan beberapa model bahasa besar dalam pelatihan satu kali
Jiayi Wu, Hao Sun, Hengyi Cai, Lixin Su, Shuaiqiang Wang, Dawei Yin, Xiang Li, Ming Gao. Nips'24
Fusi Pengetahuan Model Bahasa Besar
Fanqi Wan, Xinting Huang, Deng Cai, Xiaojun Quan, Wei Bi, Shuming Shi. Iclr'24
Tuning Model Bahasa oleh Proxy
Alisa Liu, Xiaochuang Han, Yizhong Wang, Yulia Tsvetkov, Yejin Choi, Noah A. Smith. Colm'24
Vektor obrolan: Pendekatan sederhana untuk melengkapi LLMS dengan pengikut instruksi dan penyelarasan model dalam bahasa baru
[Vektor tugas, pengetahuan parametrik, transfer pengetahuan]
Acl'24
Fedmkt: Transfer Pengetahuan Saling Federasi untuk Model Bahasa Besar dan Kecil
[Pembelajaran Federasi, Transfer Pengetahuan, Penyelarasan Token Heterogen]
Coling'25
Vektor fungsi dalam model bahasa besar
[Vektor fungsi, mediasi kausal, interpretasi mekanisme]
Iclr'24
Perbaiki fine-tuning model bahasa besar melalui vektor instruksi
[Catastrophic Forgetting, Function Vector, Mediasi Kausal]
Pracrint'24
KLF: Lokalisasi Pengetahuan dan Fusi untuk Model Bahasa Pembelajaran Berkelanjutan
[Catastrophic Forgetting, Continual Learning, Lokasi Berbasis Sensetitas]
Acl'24
Model Bahasa Adalah Super Mario: Kemampuan Menyerap dari Model Homolog sebagai Makan Siang Gratis
[Transfer Pengetahuan, Penggabungan Model, Keterampilan Efisien] ICML'24
Beyond Task Vectors: Aritmatika Tugas Selektif Berdasarkan Metrik Penting
[Vektor tugas, skor penting berbasis sensetivitas, penggabungan model] preprint'24
Saling Peningkatan Model Bahasa Besar dan Kecil dengan Transfer Pengetahuan Cross-Silo
Yongheng Deng, Ziqing Qiao, Ju Ren, Yang Liu, Yaoxue Zhang. Pracrint'23
Belajar menumbuhkan model pretrained untuk pelatihan transformator yang efisien
Peihao Wang, Rameswar Panda, Lucas Torroba Hennigen, Philip Greengard, Leonid Karlinsky, Rogerio Feris, David D. Cox, Zhangyang Wang, Yoon Kim. Iclr'23
Transfer Pengetahuan Berbasis Pengambilan: Pendekatan yang Efektif untuk Kompresi Model Bahasa yang Ekstrem
Jiduan Liu, JiaHao Liu, Qifan Wang, Jingang Wang, Xunliang Cai, Dongyan Zhao, Ran Lucien Wang, Rui Yan. Temuan emnlp'23
Mengedit model dengan aritmatika tugas
[Tugas Vecotr, Pengetahuan Parametrik, Transfer Pengetahuan, Pembelajaran Multi-Task]
Iclr'23
Lokalisasi keterampilan khusus tugas dalam model bahasa yang disempurnakan
[Transfer Pengetahuan, Cangkok Model, Lokalisasi Parameter Keterampilan]
Icml'23
Menyusun modul parameter-efisien dengan operasi aritmatika
[Peft, vektor tugas, penggabungan model]
Nips'23
Fusi pengetahuan dataless dengan menggabungkan bobot model bahasa
[Model gabungan]
Iclr'23
Distilasi Berat: Mentransfer Pengetahuan dalam Parameter Jaringan Saraf
Ye Lin, Yanyang Li, Ziyang Wang, Bei Li, Quan du, Tong Xiao, Jingbo Zhu. Acl'21
Kemudi multi-properti dari model bahasa besar dengan komposisi aktivasi dinamis
Daniel Scalena, Gabriele Sarti, Malvina Nissim. ACL'24 BlackBoxNLP Workshop
Embeddings kata adalah sapi jantan untuk model bahasa
[Word Embedding Steering, Generation Control] ACL'24
Alexander Matt Turner, Lisa Thiergart, Gavin Leech, David Udell, Juan J. Vazquez, Ulisse Mini, Monte MacDiarmid. Pracrint'23
PromptKD: Distilling Siswa-Friendly Knowledge untuk Model Bahasa Generatif Melalui Tuning Prompt (Catatan: Bukan Parametrik)
Gyeongman Kim, Doohyuk Jang, Eunho Yang. Temuan emnlp'24
Dari pelatihan instance hingga pembelajaran instruksi: pembuatan adaptor tugas dari instruksi
Huanxuan Liao, Yao Xu, Shizhu He, Yuanzhe Zhang, Yanchao Hao, Shengping Liu, Kang Liu, Jun Zhao. Nips'24
Ketika Bayi Mengajar Bayi: Dapatkah Pengetahuan Siswa Berbagi Mengungguli Distilasi yang Dipandu Guru pada Dataset Kecil?
Srikrishna Iyer. EMNLP'24 CONLL Workshop
OneBit: Menuju model bahasa besar yang sangat rendah
Yuzhuang Xu, Xu Han, Zonghan Yang, Shuo Wang, Qingfu Zhu, Zhiyuan Liu, Weidong Liu, Wanxiang Che. Nips'24
Biaya kompresi: menyelidiki dampak kompresi pada pengetahuan parametrik dalam model bahasa
Satya Sai Srinath Namburi, Makesh Sreedhar, Srinath Srinivasan, Frederic Sala. Temuan emnlp'23
Awakening Augmented Generation: Belajar Membangkitkan Pengetahuan Internal Model Bahasa Besar Untuk Jawaban Pertanyaan
[Hypernet, Rag, Kompresi Konteks]
Huanxuan Liao, Shizhu He, Yao Xu, Yuanzhe Zhang, Kang Liu, Shengping Liu, Jun Zhao. Aaai'25
Suntikan Memori: Mengoreksi kegagalan penalaran multi-hop selama inferensi dalam model bahasa berbasis transformator
Mansi Sakarvadia, Aswathy Ajith, Arham Khan, Daniel Grzenda, Nathaniel Hudson, André Bauer, Kyle Chard, Ian Foster. Presentasi Oral di BlackBoxNLP Workshop di EMNLP'23
Pengetahuan Decouple dari Parameter untuk Pemodelan Bahasa Plug-and-Play
Xin Cheng, Yankai Lin, Xiuying Chen, Dongyan Zhao, Rui Yan. Temuan ACL'23
Injeksi pengetahuan dalam parameter: Mengintegrasikan informasi kontekstual sementara ke dalam parameter model
Dikirim ke ICLR'25
Kformer: Injeksi Pengetahuan di Lapisan Umpan-Maju Transformer
Yunzhi Yao, Shaohan Huang, Li Dong, Furu Wei, Huajun Chen, Ningyu Zhang. Nlpcc'22
KASA: Adaptasi Nilai Singular-Singular Pengetahuan dari Model Bahasa Besar
[Pengetahuan-sadar Lora, SVD]
Fan Wang, Juyong Jiang, Taman Chansung, Sunghun Kim, Jing Tang. Pracrint'24
Corda: Adaptasi dekomposisi yang berorientasi pada konteks dari model bahasa besar untuk fine-tuning efisien parameter yang sadar tugas
[Pengetahuan-sadar Lora, SVD]
Yibo Yang, Xiaojie Li, Zhongzhu Zhou, lagu Shuaiwen Leon, Jianlong Wu, Liqiang Nie, Bernard Ghanem. Nips'24
Dora: Adaptasi peringkat rendah yang sudah dikomposisi dengan berat badan
[Lora yang didekomposisi berat badan, SVD, analisis ft dan lora] Shih-Yang Liu, Chien-Yi Wang, Hongxu Yin, Pavlo Molchanov, Yu-Chiang Frank Wang, Kwang-Ping Cheng, Min-Hung Chen. Icml'24 oral
Adaptasi rendah dengan peningkatan fitur yang relevan dengan tugas untuk model bahasa yang menyempurnakan
[Tugas-Aware Lora, Peningkatan Representasi Tersembunyi] AAAI'25 Colorai Workshop
Pelajari lebih lanjut, tetapi lebih sedikit repot -repot: Parameter yang efisien pembelajaran berkelanjutan
[Pembelajaran berkelanjutan, efisien parameter, transfer pengetahuan] NIPS'24
Apa yang akan dilupakan oleh model saya? Peramalan contoh yang terlupakan dalam penyempurnaan model bahasa
[Catastrophic Forgetting, Forecasting Forgetting, Analisis] ICML'24 Spotlight
XRAG: Kompresi Konteks Ekstrim untuk Generasi Pengambilan-Pengambilan dengan Satu Token
[Kompresi Konteks, Rag, Fusion Multimodal] NIPS'24
Longembed: Memperluas model penyematan untuk pengambilan konteks panjang
[Konteks Panjang, Model Embedding, Benchmark] EMNLP'24
LLM MUNGKIN LONGLM: Jendela konteks LLM LLM tanpa tuning
[Konteks Panjang Perpanjangan, Metode Plug-and-Play] ICML'24 Spotlight
Dua batu menabrak satu burung: pengkodean posisi bilevel untuk ekstrapolasi panjang yang lebih baik
[Konteks Panjang Perluas, PE + Relatif Mutlak, Metode Plug-and-Play tetapi Berbasis Pelatihan] ICML'24
Benang: Perpanjangan Jendela Konteks Efisien dari Model Bahasa Besar [http://arxiv.org/abs/2309.00071]
[Konteks Panjang Perluas, Variasi Tali] ICLR'24
Latih pendek, uji panjang: Perhatian dengan bias linier memungkinkan ekstrapolasi panjang input
[Alibi, Konteks Panjang Extrapolate, Metode Berbasis Pelatihan] ICLR'22
Roformer: Peningkatan transformator dengan embedding posisi putar.
[Posisi Rotary Embedding, klasik]