우리는 LLM의 매개 변수 지식이 여전히 크게 탐구되지 않은 영역이라고 생각하며,이 저장소가 귀중한 통찰력을 제공하기를 바랍니다!
최종 프로젝션 층으로 LLM의 특수 기능 뉴런 디코딩
[로짓 렌즈, 쿼리 뉴런 분석]
지식 뉴런 논문은 지식과 어떤 관련이 있습니까?
Jingcheng Niu, Andrew Liu, Zining Zhu, Gerald Penn. ICLR'24 (스포트라이트)
큰 언어 모델의 지식 메커니즘 : 설문 조사 및 관점
Mengru Wang, Yunzhi Yao, Ziwen Xu, Shuofei Qiao, Shumin Deng, Peng Wang, Xiang Chen, Jia-Chen Gu, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen, Ningyu Zhang. EMNLP'24 결과
큰 언어 모델에서 기억력과 추론 능력을 분리합니다
Mingyu Jin, Weidi Luo, Sitao Cheng, Xinyi Wang, Wenyue Hua, Ruixiang Tang, William Yang Wang, Yongfeng Zhang. preprint'24
언어 붕괴 : (큰) 언어 모델의 신경 붕괴
Robert Wu, Vardan Papyan. NIPS'24
큰 언어 모델에 대한 매개 변수와 상황에 맞는 지식 사이의 상호 작용 이해
Sitao Cheng, Liangming Pan, Xunjian Yin, Xinyi Wang, William Yang Wang. preprint'24
대형 언어 모델의 외부 및 파라 메트릭 지식 융합 평가
Hao Zhang, Yuyang Zhang, Xiaoguang Li, Wenxuan Shi, Haonan Xu, Huanshuo Liu, Yasheng Wang, Lifeng Shang, Qun Liu, Yong Liu, Ruiming Tang. preprint'24
적응 형 카멜레온 또는 완고한 나무 늘보 : 지식 충돌에서 큰 언어 모델의 행동 공개
Jian Xie, Kai Zhang, Jiangjie Chen, Renze Lou, Yu Su. ICLR'24 스포트라이트
언어 모델시기 지식 엔트로피 붕괴 사전 여지가 새로운 지식 습득을 방해합니다.
Jiyeon Kim, Hyunji Lee, Hyowon Cho, Joel Jang, Heyeonbin Hwang, Seungpil Win, Youbin Ahn, Dohaeng Lee, Minjoon Seo. preprint'24
큰 언어 모델에서 컨텍스트가 이어지지 만 매개 변수 메모리가 뒤 따르는 경우
Yufei Tao, Adam Hiatt, Erik Haake, Antonie J. Jetter, Ameeta Agrawal. emnlp'24
대형 언어 모델의 뉴런 수준의 지식 속성
Zeping Yu, Sophia Ananiadou. emnlp'24
자동 반복 언어 모델에서 사실 연관성의 리콜을 해부 [코드]
Mor Geva, Jasmijn Bastings, Katja Filippova, Amir Globerson. emnlp'23
변압기 피드 포워드 레이어는 핵심 값 메모리입니다
Mor Geva, Roei Schuster, Jonathan Berant, Omer Levy. emnlp'21
지식 현지화가 사실입니까? 언어 모델의 엔티티와 관계 관점의 놀라운 차이점
Yifan Wei, Xiaoyan Yu, Yixuan Weng, Huanhuan MA, Yuanzhe Zhang, Jun Zhao, Kang Liu. cikm'24
GPT에서 사실 연관성 찾기 및 편집
Kevin Meng, David Bau, Alex Andonian, Yonatan Belinkov. NIPS'22
긴 형식 텍스트를위한 대형 언어 모델에서 쿼리 관련 뉴런 식별
Lihu Chen, Adam Dejl, Francesca Toni. preprint'24
언어 모델의 매개 변수 지식 공개 : 귀속 방법을위한 통합 프레임 워크
Haeun Yu, Pepa Atanasova, Isabelle Augenstein. ACL'24
큰 언어 모델에는 작업 별 뉴런이 포함되어 있습니까?
노래, Shizhu HE, Jiang, Yantuan Xian, Shengxiang Gao, Kang Liu 및 Zhengtao Yu를 닫았습니다. emnlp'24
지식 뉴런의 중심으로의 여정 : 언어 독립적 지식 뉴런 및 변성 지식 뉴런의 발견
Yuheng Chen, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao. aaai'24
사전 배치 된 변압기의 지식 뉴런
Damai Dai, Li Dong, Yaru Hao, Zhifang Sui, Baobao Chang, Furu Wei. ACL'22
생각과 혀 분리 : 활성화 패치는 변압기에서 언어-공감 성 개념 표현을 보여줍니다.
Clément Dumas, Chris Wendler, Veniamin Veselovsky, Giovanni Monea, Robert West. ICLR'24 스포트라이트
핀 포인트 튜닝으로 대형 언어 모델에서 Sycophancy를 다루는 예의에서 진실대까지
Wei Chen, Zhen Huang, Liang Xie, Binbin Lin, Houqiang Li, Le Lu, Xinmei Tian, Deng Cai, Yonggang Zhang, Wenxiao Wang, Xu Shen, Jieping Ye. ICML'24
언어 별 뉴런 : 대형 언어 모델에서 다국어 기능의 열쇠.
Tianyi Tang, Wenyang Luo, Haoyang Huang, Dongdong Zhang, Xiaolei Wang, Xin Zhao, Furu Wei, Ji-Rong Wen. ACL'24
동적 활성화 구성을 가진 대형 언어 모델의 다중 프로티 스티어링
Daniel Scalena, Gabriele Sarti, Malvina Nissim. ACL'24 BlackBoxNLP 워크숍
사전 훈련에서 활성화 범위의 이점을 탐색합니다
[Moe, 활성화 희소, 활성화 패턴, 추론 속도 업] Zhengyan Zhang, Chaojun Xiao, Qiujieli Qin, Yankai Lin, Zhiyuan Zeng, Xu Han, Zhiyuan Liu, Ruobing Xie, Maosong Sun, Jie Zhou. ICML'24
활성화 첨가 : 최적화가없는 스티어링 언어 모델
Alexander Matt Turner, Lisa Thiergart, Gavin Leech, David Udell, Juan J. Vazquez, Ulisse Mini, Monte MacDiarmid. preprint'23
Deja vu : 추론 시간에 효율적인 LLM에 대한 상황에 맞는 희소성
[희소성, 추론 속도 업] Zichang Liu, Jue Wang, Tri Dao, Tianyi Zhou, Binhang Yuan, Zhao Song, Anshumali Shrivastava, CE Zhang, Yuandong Tian, Christopher Re, Beidi Chen. ICML'23
대형 언어 모델에 대한 지식 편집에 대한 포괄적 인 연구
Ningyu Zhang, Yunzhi Yao, Bozhong Tian, Peng Wang, Shumin Deng, Mengru Wang, Zekun XI, Shengyu Mao, Jintian Zhang, Yuansheng NI, Siyuan Cheng, Ziwen Xu, Xin Xu, Jia-Chen Gu, Yong Jang, Pengjun xie, lei, lei. Liang, Zhiqiang Zhang, Xiaowei Zhu, Jun Zhou, Huajun Chen. preprint'24
명성 : Li Zeng, Yingyu Shan, Zeming Liu, Jiashu Yao, Yuhang Guo 편집 사실 멀티 태스킹 모델 편집 . emnlp'24
잊어 버리 겠지? 큰 언어 모델에 대한 실용적인 지식을 배우기 위해
Bozhong Tian, Xiaozhuan Liang, Siyuan Cheng, Qingbin Liu, Mengru Wang, Dianbo Sui, Xi Chen, Huajun Chen, Ningyu Zhang. EMNLP'24 결과
모델 편집에서 LLM의 붕괴 이해
Wanli Yang, Fei Sun, Jiajun Tan, Xinyu MA, Du Su, Dawei Yin, Huawei Shen. EMNLP'24 결과
큰 언어 모델을 강력하게 편집 할 수 있습니까?
Xinbei MA, Tianjie JU, Jiyang Qiu, Zhuosheng Zhang, Hai Zhao, Lifeng Liu, Yulong Wang. preprint'24
멀티 홉 질문 응답을위한 언어 모델에서 검색 된 지식 편집
Yucheng Shi, Qiaoyu Tan, Xuansheng Wu, Shaochen Zhong, Kaixiong Zhou, Ninghao Liu. cikm'24
잠재적 인 역설 : 층에 대한 섭동은 언어 모델의 지식 주입을 향상시킵니다.
Minki Kang, Sung Ju Hwang, Gibbeum Lee, Jaewoong Cho. NIPS'24
편집 학습 : LLM을 지식 편집과 정렬합니다
Yuxin Jiang, Yufei Wang, Chuhan Wu, Wanjun Zhong, Xingshan Zeng, Jiahui Gao, Liangyou Li, Xin Jiang, Lifeng Shang, Ruiming Tang, Qun Liu, Wei Wang. ACL'24
언어 모델에서 지식 표현 검사 및 편집
Evan Hernandez, Belinda Z. Li, Jacob Andreas. Colm'24
학습 전 잊어
Shiwen Ni, Dingwei Chen, Chengming Li, Xiping Hu, Ruifeng Xu, Min Yang. ACL'24
정신 : 직교 매개 변수 공간에서 언어 모델 수정
[독성/편견 무등, SVD, 파라 메트릭 지식 분석, 작업 벡터]
NAACL'24 발견
큰 언어 모델 편집 : 문제, 방법 및 기회
Yunzhi Yao, Peng Wang, Bozhong Tian, Siyuan Cheng, Zhoubo Li, Shumin Deng, Huajun Chen, Ningyu Zhang. emnlp'23
GPT에서 사실 연관성 찾기 및 편집
Kevin Meng, David Bau, Alex Andonian, Yonatan Belinkov. NIPS'22
메모리 기반 모델 편집
Eric Mitchell, Charles Lin, Antoine Bosselut, Christopher D. Manning, Chelsea Finn. ICLR'22
언어 모델의 사실 지식 편집
Nicola de Cao, Wilker Aziz, Ivan Titov. emnlp'21
편집 가능한 신경망.
Anton Sinitsin, Vsevolod Plokhotnyuk, Dmitriy Pyrkin, Sergei Popov, Artem Babenko. ICLR'20
Ming Zhong, Chenxin An, Weizhu Chen, Jiawei Han, Pengcheng HE. ICLR'24
더 큰 모델로 모델을 초기화합니다
Zhiqiu Xu, Yanjie Chen, Kirill Vishniakov, Yida Yin, Zhiqiang Shen, Trevor Darrell, Lingjie Liu, Zhuang Liu. ICLR'24 스포트라이트
크로스 모델 제어 : 일회성 교육에서 여러 대형 언어 모델 향상
Jiayi Wu, Hao Sun, Hengyi Cai, Lixin Su, Shuaiqiang Wang, Dawei Yin, Xiang Li, Ming Gao. NIPS'24
큰 언어 모델의 지식 융합
Fanqi Wan, Xinting Huang, Deng Cai, Xiaojun Quan, Wei Bi, Shiving Shi. ICLR'24
프록시로 언어 모델을 조정합니다
Alisa Liu, Xiaochuang Han, Yizhong Wang, Yulia Tsvetkov, Yejin Choi, Noah A. Smith. Colm'24
채팅 벡터 : 새로운 언어로 된 지시 및 모델 정렬을 LLM을 장비하는 간단한 접근
[작업 벡터, 파라 메트릭 지식, 지식 전달]
ACL'24
FEDMKT : 크고 작은 언어 모델에 대한 Federated 상호 지식 전달
[연합 학습, 지식 전달, 이종 토큰 정렬]
Coling'25
대형 언어 모델의 기능 벡터
[기능 벡터, 인과 적 중재, 메커니즘 해석]
ICLR'24
지시 벡터를 통해 큰 언어 모델 미세 조정을 개선하십시오
[치명적인 잊어 버림, 기능 벡터, 인과 적 중재]
preprint'24
KLF : 언어 모델을위한 지식 현지화 및 융합 지속적인 학습
[치명적인 잊어 버린, 지속적인 학습, 감각 기반 위치]
ACL'24
언어 모델은 슈퍼 마리오입니다 : 무료 점심으로 상 동성 모델의 능력 흡수
[지식 이전, 모델 병합, 효율적인 기술] ICML'24
작업 벡터 이외 : 중요성 메트릭을 기반으로 한 선택적 작업 산술
[작업 벡터, 감각 기반 중요도 점수, 모델 병합] preprint'24
크로스 실로 지식 전달을 가진 크고 작은 언어 모델의 상호 향상
Yongheng Deng, Ziqing Qiao, Ju Ren, Yang Liu, Yaoxue Zhang. preprint'23
효율적인 변압기 훈련을위한 사전 취사 모델을 성장시키는 법을 배우는 학습
Peihao Wang, Rameswar Panda, Lucas Torroba Hennigen, Philip Greengard, Leonid Karlinsky, Rogerio Feris, David D. Cox, Zhangyang Wang, Yoon Kim. ICLR'23
검색 기반 지식 전달 : 극도의 대형 언어 모델 압축에 대한 효과적인 접근
Jiduan Liu, Jiahao Liu, Qifan Wang, Jingang Wang, Xunliang Cai, Dongyan Zhao, Ran Lucien Wang, Rui Yan. EMNLP'23 발견
작업 산술로 모델 편집
[작업 vecotr, 파라 메트릭 지식, 지식 전달, 멀티 태스킹 학습]
ICLR'23
미세 조정 된 언어 모델의 작업 별 기술 현지화
[지식 전송, 모델 이식, 기술 매개 변수 현지화]
ICML'23
산술 작업으로 매개 변수 효율적인 모듈을 구성합니다
[PEFT, 작업 벡터, 모델 병합]
NIPS'23
언어 모델의 가중치를 병합하여 Dataless 지식 융합
[모델 병합]
ICLR'23
웨이트 증류 : 신경망 매개 변수에서 지식을 전송합니다
Ye Lin, Yanyang Li, Ziyang Wang, Bei Li, Quan du, Tong Xiao, Jingbo Zhu. ACL'21
동적 활성화 구성을 가진 대형 언어 모델의 다중 프로티 스티어링
Daniel Scalena, Gabriele Sarti, Malvina Nissim. ACL'24 BlackBoxNLP 워크숍
단어 임베딩은 언어 모델의 조향입니다
[단어 임베딩 조향, 세대 제어] ACL'24
Alexander Matt Turner, Lisa Thiergart, Gavin Leech, David Udell, Juan J. Vazquez, Ulisse Mini, Monte MacDiarmid. preprint'23
PRMESTKD : 프롬프트 튜닝을 통한 생성 언어 모델에 대한 학생 친화적 인 지식 증류 (참고 : 파라 메트릭이 아님)
Gyeongman Kim, Doohyuk Jang, Eunho Yang. EMNLP'24 결과
인스턴스 교육에서 교육 학습에 이르기까지 : 지침에서 작업 어댑터 생성
Huanxuan Liao, Yao Xu, Shizhu HE, Yuanzhe Zhang, Yanchao Hao, Shengping Liu, Kang Liu, Jun Zhao. NIPS'24
아기가 아기를 가르 칠 때 : 학생 지식을 공유하는 것이 소규모 데이터 세트에서 선생님 유도 증류를 능가 할 수 있습니까?
Srikrishna Iyer. Emnlp'24 Conll 워크샵
Onebit : 매우 낮은 비트 대형 언어 모델을 향해
Yuzhuang Xu, Xu Han, Zonghan Yang, Shuo Wang, Qingfu Zhu, Zhiyuan Liu, Weidong Liu, Wanxiang Che. NIPS'24
압축 비용 : 언어 모델의 파라 메트릭 지식에 대한 압축의 영향 조사
SATYA SAI SRINATH NAMBURI, Modh Sreedhar, Srinath Srinivasan, Frederic Sala. EMNLP'23 발견
Awakening Augmented Generation : 질문 답변을위한 큰 언어 모델에 대한 내부 지식을 깨우는 법을 배우는 학습
[하이퍼 넷, 헝겊, 컨텍스트 압축]
Huanxuan Liao, Shizhu HE, Yao Xu, Yuanzhe Zhang, Kang Liu, Shengping Liu, Jun Zhao. aaai'25
메모리 주입 : 변압기 기반 언어 모델에서 추론하는 동안 멀티 홉 추론 실패 수정
Mansi Sakarvadia, Aswathy Ajith, Arham Khan, Daniel Grzenda, Nathaniel Hudson, André Bauer, Kyle Chard, Ian Foster. EMNLP'23의 BlackBoxNLP 워크숍에서 구두 프레젠테이션
플러그 앤 플레이어 모델링의 매개 변수에서 지식을 해체합니다
Xin Cheng, Yankai Lin, Xiuying Chen, Dongyan Zhao, Rui Yan. ACL'23 결과
파라미터 내 지식 주입 : 임시 상황에 맞는 정보를 모델 매개 변수에 통합
ICLR'25에 제출
KFORMER : 변압기 피드 포워드 층의 지식 주입
Yunzhi Yao, Shaohan Huang, Li Dong, Furu Wei, Huajun Chen, Ningyu Zhang. NLPCC'22
KASA : 대형 언어 모델의 지식 인식 특이 가치 적응
[지식 인식 로라, SVD]
Fan Wang, Juyong Jiang, Chansung Park, Sunghun Kim, Jing Tang. preprint'24
Corda : 작업 인식 매개 변수 효율적인 미세 조정을위한 대형 언어 모델의 컨텍스트 지향 분해 적응
[지식 인식 로라, SVD]
Yibo Yang, Xiaojie Li, Zhongzhu Zhou, Shuaiwen Leon Song, Jianlong Wu, Liqiang Nie, Bernard Ghanem. NIPS'24
DORA : 체중 감량 저급 적응
[체중 감량 Lora, SVD, FT 및 Lora 분석] Shih-Yang Liu, Chien-Yi Wang, Hongxu Yin, Pavlo Molchanov, Yu-Chiang Frank Wang, Kwang-Ting Cheng, Min-Hung Chen. ICML'24 구강
미세 조정 언어 모델에 대한 작업 관련 기능 향상을 통한 저 순위 적응
[작업 인식 로라, 숨겨진 표현 강화] AAAI'25 COLORAI 워크숍
더 많은 것을 배우지 만 덜 귀찮게하십시오 : 매개 변수 효율적인 지속적인 학습
[지속적인 학습, 매개 변수 효율성, 지식 전달] NIPS'24
내 모델은 무엇을 잊을 수 있습니까? 언어 모델 개선에서 잊혀진 예를 예측합니다
[치명적인 잊어 버린, 잊어 버리기, 분석] ICML'24 스포트라이트
XRAG : 하나의 토큰으로 검색 된 생성을위한 극단적 인 컨텍스트 압축
[컨텍스트 압축, 헝겊, 복합 융합] NIPS'24
Longembed : 긴 상황 검색을 위해 임베딩 모델 확장
[긴 컨텍스트, 임베딩 모델, 벤치 마크] EMNLP'24
LLM 아마도 longlm : 튜닝없이 LLM 컨텍스트 창
[긴 컨텍스트 확장, 플러그 앤 플레이 방법] ICML'24 스포트라이트
두 개의 돌이 한 마리의 새를 쳤다 : 더 나은 길이의 외삽을위한 이끼 위치 인코딩
[긴 컨텍스트 확장, 절대 PE + 상대 PE, 플러그 앤 플레이이지만 훈련 기반 방법] ICML'24
원사 : 대형 언어 모델의 효율적인 컨텍스트 창 확장 [http://arxiv.org/abs/2309.00071]
[긴 맥락 확장, 로프의 변형] ICLR'24
짧게, 테스트 긴 트레이닝 : 선형 바이어스를 사용한 주의력은 입력 길이 외삽을 가능하게합니다.
[알리바이, 긴 맥락 외삽, 훈련 기반 방법] ICLR'22
ROFORMER : 로터리 위치 임베딩이있는 향상된 변압기.
[로타리 위치 임베딩, 클래식]