Awesome Efficient LLM
1.0.0
효율적인 대형 언어 모델을 위한 선별 된 목록
논문을 포함 시키려고하거나 회의 정보 또는 코드 URL과 같은 세부 정보를 업데이트 해야하는 경우 풀 요청을 제출하십시오. generate_item.py 의 정보를 작성하여 python generate_item.py 실행하여 각 용지에 필요한 Markdown 형식을 생성 할 수 있습니다. 이 목록에 대한 귀하의 공헌에 감사드립니다. 또는 논문 및 코드에 대한 링크로 이메일을 보내 주시면 최초의 편의시기에 종이를 목록에 추가하겠습니다.
각 주제에 대해, 우리는 많은 Github 스타 또는 인용을 얻은 권장 논문 목록을 기획했습니다.
| 제목 및 저자 | 소개 | 모래밭 |
|---|---|---|
sparsegpt : 대규모 언어 모델은 원샷에서 정확하게 가지 치기 할 수 있습니다. Elias Frantar, Dan Alistarh | ![]() | Github 종이 |
LLM-Pruner : 대형 언어 모델의 구조적 가지 치기 Xinyin MA, Gongfan Fang, Xinchao Wang | ![]() | Github 종이 |
대형 언어 모델에 대한 간단하고 효과적인 가지 치기 접근법 Mingjie Sun, Zhuang Liu, Anna Bair, J. Zico Kolter | ![]() | github 종이 |
전단 라마 : 구조화 된 가지 치기를 통한 가속 언어 모델 사전 훈련 Mengzhou Xia, Tianyu Gao, Zhiyuan Zeng, Danqi Chen | ![]() | github 종이 |
| 동적 입력 가지 치기 및 캐시 인식 마스킹을 사용한 효율적인 LLM 추론 Marco Federici, Davide Belli, Mart Van Baalen, Amir Jalalirad, Andrii Skliar, Bence Major, Markus Nagel, Paul Whatmough | 종이 | |
| 퍼즐 : 추론에 최적화 된 LLM의 증류 기반 NAS Akhiad Bercovich, Tomer Ronen, Talor Abramovich, Nir Ailon, Nave Assaf, Mohammad Dabbah et al. | 종이 | |
LLM의 레이어 가지 치기 재평가 : 새로운 통찰력 및 방법 Yao Lu, Hao Cheng, Yujie Fang, Zeyu Wang, Jiaheng Wei, Dongwei Xu, Qi Xuan, Xiaoniu Yang, Zhaowei Zhu | ![]() | github 종이 |
| 향상된 활성화 분산-스파티시를 통해 큰 언어 모델에서의 층 중요성 및 환각 분석 Zichen Song, Sitan Huang, Yuxin Wu, Zhongfeng Kang | 종이 | |
Amoeballm : 효율적이고 즉각적인 배포를위한 모든 형태의 대형 언어 모델 구성 Yonggan Fu, Zhongzhi Yu, Junwei Li, Jiayi Qian, Yongan Zhang, Xiangchi Yuan, Dachuan Shi, Roman Yakunin, Yingyan Celine Lin | github 종이 | |
| 모델 가지 치기 후 교육 후 훈련을위한 법률 Xiaodong Chen, Yuxuan Hu, Jing Zhang, Xiaokang Zhang, Cuiping Li, Hong Chen | 종이 | |
DRPRONING : 분포 적으로 강력한 최적화를 통한 효율적인 대형 언어 모델 가지 치기 Hexuan Deng, Wenxiang Jiao, Xuebo Liu, Min Zhang, Zhaopeng TU | ![]() | github 종이 |
Sparsing Law : 활성화가 큰 큰 언어 모델로 Yuqi Luo, Chenyang Song, Xu Han, Yingfa Chen, Chaojun Xiao, Zhiyuan Liu, Maosong Sun | ![]() | github 종이 |
| AVSS : 활성화 분산-스파티시 분석을 통한 대형 언어 모델의 계층 중요성 평가 Zichen Song, Yuxin Wu, Sitan Huang, Zhongfeng Kang | 종이 | |
| 맞춤법 Danyal Aftab, Steven Davy | 종이 | |
LLMCBENCH : 효율적인 배포를위한 대형 언어 모델 압축 벤치마킹 GE YANG, Changyi HE, Jinyang Guo, Jianyu Wu, Yifu Ding, Aishan Liu, Haotong Qin, Pengliang JI, Xianglong Liu | ![]() | github 종이 |
| 2 : 4 너머 : 탐색 v : n : m GPU의 효율적인 변압기 추론을위한 m 희소성 Kang Zhao, Tao Yuan, Han Bao, Zhenfeng SU, Chang Gao, Zhaofeng Sun, Zichen Liang, Liping Jing, Jianfei Chen | 종이 | |
Evopress : 진화론 검색을 통한 최적의 동적 모델 압축을 향해 Oliver Sieberling, Denis Kuznedelev, Eldar Kurtic, Dan Alistarh | ![]() | github 종이 |
| FedSpallm : 대형 언어 모델의 Federated 가지 치기 Guangji Bai, Yijiang Li, Zilinghan Li, Liang Zhao, Kibaek Kim | 종이 | |
재교육없이 높은 정확도를위한 가지 치기 기초 모델 Pu Zhao, Fei Sun, Xuan Shen, Pinrui Yu, Zhenglun Kong, Yanzhi Wang, Xue Lin | github 종이 | |
| 언어 모델 양자화 및 가지 치기에 대한 자기 교체 Miles Williams, George Chrysostomou, Nikolaos Aletras | 종이 | |
| 대형 언어 모델을 가지 치기에 대한 교정 데이터를 조심하십시오 Yixin JI, Yang Xiang, Juntao Li, Qingrong Xia, Ping Li, Xinyu Duan, Zhefeng Wang, Min Zhang | 종이 | |
알파 크기 : 대형 언어 모델의 개선 된 레이어 별 가지 치기를위한 중간 꼬리 자체 정규화 이론 사용 Haiquan Lu, Yefan Zhou, Shiwei Liu, Zhangyang Wang, Michael W. Mahoney, Yaoqing Yang | github 종이 | |
| 선형 근사기를 넘어서 :주의 매트릭스를위한 새로운 가지 치기 접근법 Yingyu Liang, Jiangxuan Long, Zhenmei Shi, Zhao Song, Yufa Zhou | 종이 | |
disp-llm : 대형 언어 모델에 대한 차원 독립적 구조적 가지 치기 Shangqian Gao, Chi-Heng Lin, Ting Hua, Tang Zheng, Yilin Shen, Hongxia Jin, Yen-Chang Hsu | 종이 | |
가지 치기 된 대형 언어 모델에서 품질을 복구하기위한 자기 데이터 증류 Vithursan Thangarasa, Ganesh Venkatesh, Nish Sinnadurai, Sean Lie | 종이 | |
| llm-rank : 큰 언어 모델을 가지 치기에 대한 그래프 이론적 접근 David Hoffmann, Kailash Budhathoki, Matthaeus Kleindessner | 종이 | |
C4 데이터 세트가 가지 치기에 최적입니까? LLM 가지 치기에 대한 교정 데이터의 조사 Abhinav Bandari, Lu Yin, Cheng-Yu Hsieh, Ajay Kumar Jaiswal, Tianlong Chen, Li Shen, Ranjay Krishna, Shiwei Liu | github 종이 | |
| 뉴런 가지 치기를 통한 텍스트 내 학습에서 복사 편향을 완화합니다 Ameen Ali, Lior Wolf, Ivan Titov | ![]() | 종이 |
SQFT : 저렴한 스파 스 파운데이션 모델에서 저비용 모델 적응 Juan Pablo Munoz, Jinjie Yuan, Nilesh Jain | ![]() | github 종이 |
Maskllm : 대형 언어 모델에 대한 학습 가능한 반 구조적 희소성 Gongfan Fang, Hongxu Yin, Saurav Muralidharan, Greg Heinrich, Jeff Pool, Jan Kautz, Pavlo Molchanov, Xinchao Wang | ![]() | github 종이 |
효율적인 대형 언어 모델을 검색하십시오 Xuan Shen, Pu Zhao, Yifan Gong, Zhenglun Kong, Zheng Zhan, Yushu Wu, Ming Lin, Chao Wu, Xue Lin, Yanzhi Wang | 종이 | |
CFSP : 거칠게 활성화 된 활성화 정보를 가진 LLM에 대한 효율적인 구조화 된 가지 치기 프레임 워크 Yuxin Wang, Minghua MA, Zekun Wang, Jingchang Chen, Huiming Fan, Liping Shan, Qing Yang, Dongliang Xu, Ming Liu, Bing Qin | github 종이 | |
| 귀리 : 희소하고 낮은 순위 분해를 통한 이상치 인식 가지 치기 Stephen Zhang, Vardan Papyan | 종이 | |
| KVPruner : 더 빠르고 메모리 효율적인 대형 언어 모델을위한 구조적 가지 치기 Bo LV, Quan Zhou, Xuanang Ding, Yan Wang, Zeming MA | 종이 | |
| 대형 언어 모델의 작업 별 성능에 대한 압축 기술의 영향 평가 Bishwash Khanal, Jeffery M. Capone | 종이 | |
| 스턴 : 확장 가능한 MOE 가지 치기를위한 구조화되지 않은 구조적 가지 치기 Jaeseong Lee, Seung-Won Hwang, Aurick Qiao, Daniel F Campos, Zhewei Yao, Yuxiong HE | 종이 | |
PAT : 대형 언어 모델에 대한 가지 치기 인식 조정 Yijiang Liu, Huanrui Yang, Youxin Chen, Rongyu Zhang, Miao Wang, Yuan du, Li du | ![]() | github 종이 |
| 제목 및 저자 | 소개 | 모래밭 |
|---|---|---|
| 큰 언어 모델의 지식 증류 Yuxian Gu, Li Dong, Furu Wei, Minlie Huang | ![]() | github 종이 |
| 피드백 중심 증류를 통한 소규모 언어 모델의 수학적 추론 능력 향상 Xunyu Zhu, Jian Li, Can Ma, Weiping Wang | 종이 | |
생성 컨텍스트 증류 Haebin Shin, Lei JI, Yeyun Gong, Shangdong Kim, Eunbi Choi, Minjoon Seo | ![]() | github 종이 |
| 스위치 : 대형 언어 모델의 지식 증류를 위해 교사와 공부 Jahyun Koo, Yerin Hwang, Yongil Kim, Taegwan Kang, Hyunkyung Bae, Kyomin Jung | ![]() | 종이 |
자가 회귀 너머 : 시간이 지남에 따라 자기 방해를 통한 빠른 LLM Justin Deschenaux, Caglar Gulcehre | github 종이 | |
| 대형 언어 모델의 사전 훈련 증류 : 설계 공간 탐색 Hao Peng, Xin LV, Yushi Bai, Zijun Yao, Jiajie Zhang, Lei Hou, Juanzi Li | 종이 | |
Miniplm : 사전 훈련 언어 모델에 대한 지식 증류 Yuxian Gu, Hao Zhou, Fandong Meng, Jie Zhou, Minlie Huang | ![]() | github 종이 |
| 투기 지식 증류 : 인터리브 샘플링을 통한 교사 학생 간격 브리징 Wenda Xu, Rujun Han, Zifeng Wang, Long T. Le, Dhruv Madeka, Lei Li, William Yang Wang, Rishabh Agarwal, Chen-Yu Lee, Tomas Pfister | 종이 | |
| 언어 모델 정렬에 대한 진화 적 대비 증류 Julian Katz-Samuels, Zheng Li, Hyokun Yun, Priyanka Nigam, Yi Xu, Vaclav Petricek, Bing Yin, Trishul Chilimbi | 종이 | |
| BABLILAMA-2 : 앙상블-배열 모델은 교사를 제한된 데이터로 꾸준히 성능이 우수합니다 Jean-Loup Tastet, Inar Timiryasov | 종이 | |
| Echoatt : 참석, 복사,보다 효율적인 대형 언어 모델에 맞게 조정하십시오. Hossein Rajabzadeh, Aref Jafari, Aman Sharma, Benyamin Jami, Hyock Ju Kwon, Ali Ghodsi, Boxing Chen, Mehdi Rezagholizadeh | 종이 | |
Skintern : 더 나은 COT 기능을 작은 언어 모델로 증류하기위한 상징적 지식 내부화 Huanxuan Liao, Shizhu HE, Yupu Hao, Xiang Li, Yuanzhe Zhang, Kang Liu, Jun Zhao | github 종이 | |
LLMR : 큰 언어 모델로 인한 보상을 가진 지식 증류 Dongheng Li, Yongchang Hao, Lili Mou | ![]() | github 종이 |
| 자가 회귀 언어 모델에 대한 지식 증류에서의 분포 전달을 탐색하고 향상 Jun Rao, Xuebo Liu, Zepeng Lin, Liang Ding, Jing Li, Dacheng Tao | 종이 | |
| 효율적인 지식 증류 : 교사 모델 통찰력으로 소규모 언어 모델에 힘을 실어줍니다. Mohamad Ballout, Ulf Krumnack, Gunther Heidemann, Kai-Uwe Kühnberger | 종이 | |
라마의 맘바 : 증류 및 가속 하이브리드 모델 Junxiong Wang, Daniele Paliotta, Avner May, Alexander M. Rush, Tri Dao | github 종이 |
| 제목 및 저자 | 소개 | 모래밭 |
|---|---|---|
GPTQ : 생성 사전 훈련 된 변압기에 대한 정확한 훈련 후 양자화 Elias Frantar, Saleh Ashkboos, Torsten Hoefler, Dan Alistarh | ![]() | github 종이 |
SmoothQuant : 대형 언어 모델에 대한 정확하고 효율적인 사후 훈련 양자화 Guangxuan Xiao, Ji Lin, Mickael Seznec, Hao Wu, Julien Demouth, Song Han | ![]() | github 종이 |
AWQ : LLM 압축 및 가속을위한 활성화 인식 중량 양자화 Ji Lin, Jiagming Tang, Haotian Tang, Shang Yang, Xingyu Dang, Song Han | ![]() | github 종이 |
전능 한 : 대형 언어 모델에 대한 전 방향 교정 양자화 Wenqi Shao, Mengzhao Chen, Zhaoyang Zhang, Peng Xu, Lirui Zhao, Zhiqian Li, Kaipeng Zhang, Peng Gao, Yu Qiao, Ping Luo | ![]() | github 종이 |
| 탈지 : 훈련 후 양자화의 한계를 추진하는 모든 비트 양자화 Runsheng Bai, Qiang Liu, Bo Liu | 종이 | |
| CPTQUANT- 큰 언어 모델을위한 새로운 혼합 정밀도 후 훈련 양자화 기술 Amitash Nanda, Sree Bhargavi Balija, Debashis Sahoo | 종이 | |
ANDA : 가변 길이 그룹화 활성화 데이터 형식으로 효율적인 LLM 추론 잠금 해제 Chao Fang, Man Shi, Robin Geens, Arne Symons, Zhongfeng Wang, Marian Verhelst | 종이 | |
| Mixpe : 효율적인 LLM 추론을위한 양자화 및 하드웨어 공동 디자인 Yu Zhang, Mingzi Wang, Lancheng Zou, Wulong Liu, Hui-Ling Zhen, Mingxuan Yuan, Bei Yu | 종이 | |
비트 모드 : 비트-서식 혼합-다타 타입 LLM 가속도 Yuzong Chen, Ahmed F. Abouelhamayed, Xilai Dai, Yang Wang, Marta Andronic, George A. Constantinides, Mohamed S. Abdelfattah | github 종이 | |
| AMXFP4 : 4 비트 LLM 추론을위한 비대칭 현미경 부동 소수점을 갖는 길들이기 활성화 특이점 Janghwan Lee, Jiwoong Park, Jinseok Kim, Yongjik Kim, Jungju Oh, Jinwook Oh, Jungwook Choi | ![]() | 종이 |
| BI-MAMBA : 정확한 1 비트 상태 공간 모델을 향해 Shengkun Tang, Liqun MA, Haonan Li, Mingjie Sun, Zhiqiang Shen | 종이 | |
| "나에게 BF16을 주거나 죽음을 줘"? LLM 양자화의 정확도-성능 상충 Eldar Kurtic, Alexandre Marques, Shubhra Pandit, Mark Kurtz, Dan Alistarh | 종이 | |
| GWQ : 대형 언어 모델에 대한 기울기 인식 중량 양자화 Yihua Shao, Siyu Liang, Xiaolin Lin, Zijian Ling, Zixian Zhu et al. | 종이 | |
| 대형 언어 모델을위한 양자화 기술에 대한 포괄적 인 연구 Jiedong Lang, Zhehao Guo, Shuyu Huang | 종이 | |
| 1 비트 LLM에 대한 비트 넷 A4.8 : 4 비트 활성화 Hongyu Wang, MA, Furu Wei | 종이 | |
Tesseraq : 블록 재구성을 통한 Ultra Low Bit LLM 사후 훈련 양자화 Yuhang Li, Priyadarshini Panda | ![]() | github 종이 |
비트 스택 : 가변 메모리 환경에서 압축 된 대형 언어 모델에 대한 세밀한 크기 제어 Xinghao Wang, Pengyu Wang, Bo Wang, Dong Zhang, Yunhua Zhou, Xipeng Qiu | ![]() | github 종이 |
| LLM의 편견에 대한 추론 가속 전략의 영향 Elisabeth Kirsten, Ivan Habernal, Vedant Nanda, Muhammad Bilal Zafar | 종이 | |
| 대형 언어 모델의 저주파 후 훈련 후 양자화의 어려움 이해 Zifei Xu, Sayeh Sharify, Wanzin Yazar, Tristan Webb, Xin Wang | 종이 | |
1 비트 AI 인프라 : 1.1 부, 빠르고 무손실 비트넷 B1.58 CPU의 추론 Jinheng Wang, Hansong Zhou, Ting Song, Shaoguang Mao, Ma, Hongyu Wang, Yan Xia, Furu Wei | github 종이 | |
| Quailora : Lora의 양자 인식 초기화 Neal Lawton, Aishwarya Padmakumar, Judith Gaspers, Jack Fitzgerald, Anoop Kumar, Greg Ver Steeg, Aram Galstyan | 종이 | |
| 저주적 언어 벤치 마크에서 코드 생성을위한 양자화 된 대형 언어 모델 평가 Enkhbold Nyamsuren | 종이 | |
squeezellm : 조밀 한 뿌리 다 양자 Sehoon Kim, Coleman Hooper, Amir Gholami, Zhen Dong, Xiuyu Li, Sheng Shen, Michael W. Mahoney, Kurt Keutzer | ![]() | github 종이 |
| LLM에 대한 피라미드 벡터 양자화 Tycho Fa van der Ouderaa, Maximilian L. Croci, Agrin Hilmkil, James Hensman | 종이 | |
| SEEDLM : 의사 랜덤 생성기의 씨앗으로 LLM 무게를 압축합니다 Rasoul Shafipour, David Harrison, Maxwell Horton, Jeffrey Marker, Houman Bedayat, Sachin Mehta, Mohammad Rastegari, Mahyar Najibi, Saman Naderiparizi | 종이 | |
평면 : LLM 양자화의 경우 평평성이 중요합니다 Yuxuan Sun, Ruikang Liu, Haoli Bai, Han Bao, Kang Zhao, Yuening Li, Jiaxin Hu, Xianzhi Yu, Lu Hou, Chun Yuan, Xin Jiang, Wulong Liu, Jun Yao | github 종이 | |
슬림 : 원샷 양자화 된 스파 스 플러스 LLM의 저 순위 근사 모하마드 모자파리, 메리 암 메리 데 나비 | github 종이 | |
| 훈련 후 양자화 된 대형 언어 모델에 대한 법률 Zifei Xu, Alexander Lan, Wanzin Yazar, Tristan Webb, Sayeh Sharify, Xin Wang | 종이 | |
| LLM의 양자화 인식 교육을위한 지속적인 근사치 그는 Li, Jianhang Hong, Yuanzhuo Wu, Snehal Adbol, Zonglin Li | 종이 | |
DAQ : LLM에 대한 밀도 인식 후 훈련 후 중량 전용 양자화 Yingsong Luo, Ling Chen | github 종이 | |
Quamba : 선택적 상태 공간 모델을위한 훈련 후 양자화 레시피 Hung-Yueh Chiang, Chi-Chih Chang, Natalia Frumkin, Kai-Chiang Wu, Diana Marculescu | github 종이 | |
| ASYMKV : 레이어 별 비대칭 양자화 구성으로 KV 캐시의 1 비트 양자화 활성화 Qian Tao, Wenyuan Yu, Jingren Zhou | 종이 | |
| 대형 언어 모델에 대한 채널 별 혼합-정화 양자화 Zihan Chen, 자전거 Xie, Jundong Li, Cong Shen | 종이 | |
| 효율적인 LLM 추론을위한 점진적 혼합-----------------------------------------프레임 디코딩 Hao Mark Chen, Fuwen Tan, Alexandros Kouris, Royson Lee, Hongxiang Fan, Stylianos I. Venieris | 종이 | |
EXAQ : LLMS 가속도에 대한 지수 인식 양자화 Moran Shkolnik, Maxim Fishman, Brian Chmiel, Hilla Ben-Yaacov, Ron Banner, Kfir Yehuda Levy | ![]() | github 종이 |
접두사 : 정적 양자화는 LLM의 접두사를 통해 역동적 인 비트 동적입니다. Mengzhao Chen, Yi Liu, Jiahao Wang, Yi Bin, Wenqi Shao, Ping Luo | github 종이 | |
첨가제 양자화를 통한 대형 언어 모델의 극단적 인 압축 Vage Egiazarian, Andrei Panferov, Denis Kuznedelev, Elias Frantar, Artem Babenko, Dan Alistarh | ![]() | github 종이 |
| 대형 언어 모델에서 혼합 양자화에 대한 법률 Zeyu Cao, Cheng Zhang, Pedro Gimenes, Jianqiao Lu, Jianyi Cheng, Yiren Zhao | ![]() | 종이 |
| Palmbench : 모바일 플랫폼에서 압축 된 대형 언어 모델의 포괄적 인 벤치 마크 Yilong Li, Jingyu Liu, Hao Zhang, M Badri Narayanan, Utkarsh Sharma, Shuai Zhang, Pan Hu, Yijing Zeng, Jayaram Raghuram, Suman Banerjee | ![]() | 종이 |
| 크로스 Quant : 정밀한 큰 언어 모델 압축을위한 작은 양자화 커널을 갖는 훈련 후 양자화 방법 Wenyuan Liu, Xindian MA, Peng Zhang, Yan Wang | 종이 | |
| sageattention : 플러그 앤 플레이 추론 가속을위한 정확한 8 비트주의 Jintao Zhang, Jia Wei, Pengle Zhang, Jun Zhu, Jianfei Chen | 종이 | |
| 에너지 효율적인 언어 모델에는 추가가 추가됩니다 Hongyin Luo, Wei Sun | 종이 | |
VPTQ : 대형 언어 모델에 대한 극도의 저 비트 벡터 후 훈련 양자화 Yifei Liu, Jicheng Wen, Yang Wang, Shengyu Ye, Li Lyna Zhang, Ting Cao, Cheng Li, Mao Yang | ![]() | github 종이 |
int-flashattention : int8 Quantization에 대한 플래시 주의력을 활성화합니다 Shimao Chen, Zirui Liu, Zhiying Wu, CE Zheng, Peizhuang Cong, Zihan Jiang, Yuhan Wu, Lei Su, Tong Yang | github 종이 | |
| 적합기 인식 후 훈련 후 양자화 Ian Colbert, Fabian Grob, Giuseppe Franco, Jinjie Zhang, Rayan Saab | 종이 | |
duquant : 이중 변환을 통해 특이 치를 배포하면 더 강력한 양자화 된 LLM이 있습니다. Haokun Lin, Haobo Xu, Yichen Wu, Jingzhi Cui, Yingtao Zhang, Linzhan Mou, Linqi Song, Zhenan Sun, Ying Wei | ![]() | github 종이 |
| 양자화 된 교육 조정 대형 언어 모델의 포괄적 인 평가 : 최대 405b의 실험 분석 Jemin Lee, Sihyyong Park, Jinse Kwon, Jihun Oh, Yongin Kwon | 종이 | |
| 채널 당 양자화를 통한 LLAMA3-70B의 독창성 : 경험적 연구 Minghai Qin | 종이 |
| 제목 및 저자 | 소개 | 모래밭 |
|---|---|---|
Deja vu : 추론 시간에 효율적인 LLM에 대한 상황에 맞는 희소성 Zichang Liu, Jue Wang, Tri Dao, Tianyi Zhou, Binhang Yuan, Zhao Song, Anshumali Shrivastava, CE Zhang, Yuandong Tian, Christopher RE, Beidi Chen | ![]() | github 종이 |
Specinfer : 투기 추론 및 토큰 트리 검증으로 제공되는 생성 LLM 가속화 Xupeng Miao, Gabriele Oliaro, Zhihao Zhang, Xinhao Cheng, Zeyu Wang, Rae Ying Yee Wong, Zhuoming Chen, Daiyaan Arfeen, Reyna Abhyankar, Zhihao Jia | ![]() | github 종이 |
주의 싱크가있는 효율적인 스트리밍 언어 모델 Guangxuan Xiao, Yuandong Tian, Beidi Chen, Song Han, Mike Lewis | ![]() | github 종이 |
독수리 : 기능 외삽 법에 의한 LLM 디코딩의 무손실 가속 Yuhui Li, Chao Zhang 및 Hongyang Zhang | ![]() | github 블로그 |
MEDUSA : 다중 디코딩 헤드가있는 간단한 LLM 추론 가속 프레임 워크 Tianle Cai, Yuhong Li, Zhengyang Geng, Hongwu Peng, Jason D. Lee, Deming Chen, Tri Dao | github 종이 | |
| LLM 추론 가속을위한 CTC 기반 드래프트 모델로 투기 디코딩 Zhuofan Wen, Shangtong Gui, Yang Feng | 종이 | |
| PLD+: 언어 모델 아티팩트를 활용하여 LLM 추론 가속 Shwetha Somasundaram, Anirudh Phukan, Apoorv Saxena | 종이 | |
FastDraft : 드래프트를 훈련시키는 방법 Ofir Zafrir, Igor Margulis, Dorin Shteyman, Guy Boudoukh | 종이 | |
SMOA : 드문 혼합 에이전트가있는 다중 에이전트 대형 언어 모델 향상 Dawei Li, Zhen Tan, Peijia Qian, Yifan Li, Kumar Satvik Chaudhary, Lijie Hu, Jiayi Shen | ![]() | github 종이 |
| N-Grammys : 학습이없는 배치 투기와의자가 회귀 추론을 가속화합니다 로렌스 스튜어트, Matthew Trager, Sujan Kumar Gonugondla, Stefano Soatto | 종이 | |
| 동적 실행 방법을 통한 AI 추론 가속 Haim Barad, Jascha Achterberg, Tien Pei Chou, Jean Yu | 종이 | |
| 접미사 코딩 : 큰 언어 모델 추론 속도를 높이는 모델이없는 접근 가브리엘 올리 아로, Zhihao Jia, Daniel Campos, Aurick Qiao | 종이 | |
| 대형 언어 모델로 효율적인 질문에 대한 동적 전략 계획 Tanmay Parekh, Pradyot Prakash, Alexander Radovic, Akshay Shekher, Denis Savenkov | 종이 | |
MagicPig : 효율적인 LLM 생성을위한 LSH 샘플링 Zhuoming Chen, Ranajoy Sadhukhan, Zihao Ye, Yang Zhou, Jianyu Zhang, Niklas Nolte, Yuandong Tian, Matthijs Douze, Leon Bottou, Zhihao Jia, Beidi Chen | github 종이 | |
| 텐서 분해를 사용하여 더 나은 다중 점화 예측으로 더 빠른 언어 모델 Artem Basharin, Andrei Chertkov, Ivan Oseledets | ![]() | 종이 |
| 증강 된 대형 언어 모델에 대한 효율적인 추론 Rana Shahout, Cong Liang, Shiji Xin, Qianru Lao, Yong Cui, Minlan Yu, Michael Mitzenmacher | 종이 | |
초기 Exit LLM의 동적 어휘 가지 치기 Jort Vincenti, Karim Abdel Sadek, Joan Velja, Matteo Nulli, Metod Jazbec | ![]() | github 종이 |
Coreinfer : 의미론에서 영감을 얻은 적응 형 스파 스 활성화와의 대형 언어 모델 추론 가속화 Qinsi Wang, Saeed Vahidian, Hancheng Ye, Jianyang Gu, Jianyi Zhang, Yiran Chen | github 종이 | |
공상 : 검색 및 스트리밍 헤드와의 효율적인 장거리 텍스트 LLM 추론 Guangxuan Xiao, Jiagming Tang, Jingwei Zuo, Junxian Guo, Shang Yang, Haotian Tang, Yao Fu, Song Han | ![]() | github 종이 |
| DYSPEC : 동적 토큰 트리 구조로 더 빠른 투기 디코딩 Yunfan Xiong, Ruoyu Zhang, Yanzeng Li, Tianhao Wu, Lei Zou | 종이 | |
| QSPEC : 상보 적 양자화 체계로 투기 디코딩 Juntao Zhao, Wenhao Lu, Sheng Wang, Lingpeng Kong, Chuan Wu | 종이 | |
| Tidaldecode : 위치가 지속되는 빠르고 정확한 LLM 디코딩 지속적인 드문 드문주의 Lijie Yang, Zhihao Zhang, Zhuofu Chen, Zikun Li, Zhihao Jia | 종이 | |
| ParallelSpec : 효율적인 투기 디코딩을위한 병렬 드래프터 Zilin Xiao, Hongming Zhang, Tao GE, Siru Ouyang, Vicente Ordonez, Dong Yu | 종이 | |
SWIFT : LLM 추론 가속을위한 현대 자기 형성 디코딩 Heming Xia, Yongqi Li, Jun Zhang, Cunxiao du, Wenjie Li | ![]() | github 종이 |
TURBORAG : 덩어리 텍스트를위한 미리 계산 된 KV 캐시를 사용하여 검색 방지 생성 가속화 Songshuo Lu, Hua Wang, Yutian Rong, Zhi Chen, Yaohua Tang | ![]() | github 종이 |
| 약간 먼 길을 간다 : 효율적인 긴 맥락 훈련 및 부분적인 맥락과의 추론 Suyu GE, Xihui Lin, Yunan Zhang, Jiawei Han, Hao Peng | 종이 | |
| MNEMOSYNE : 수백만 컨텍스트 길이 LLM 추론 요청을 효율적으로 제공하기위한 병렬화 전략 근사치 Amey Agrawal, Junda Chen, íñigo Goiri, Ramachandran Ramjee, Chaojie Zhang, Alexey Tumanov, Esha Choukse | 종이 | |
초기 레이어에서 보석 발견 : 1000 배의 입력 토큰 감소로 장거리 텍스트 LLM 가속화 Zhenmei Shi, Yifei Ming, Xuan-Phi Nguyen, Yingyu Liang, Shafiq Joty | github 종이 | |
| 효율적인 LLM 추론을위한 동적 폭 추측 빔 디코딩 Zongyue Qin, Zifan HE, Neha Prakriya, Jason Cong, Yizhou Sun | 종이 | |
CRITIPREFILL : LLMS의 가속을 프리 플릴링하기위한 세그먼트 별 중요도 기반 접근 Junlin LV, Yuan Feng, Xike Xie, Xin Jia, Qirong Peng, Guiming Xie | github 종이 | |
| 검색 : 벡터 검색을 통한 장기 텍스트 LLM 추론 가속 Di Liu, Meng Chen, Baotong Lu, Huiqiang Jiang, Zhenhua Han, Qianxi Zhang, Qi Chen, Chengruidong Zhang, Bailu Ding, Kai Zhang, Chen Chen, Fan Yang, Yuqing Yang, Lili Qiu | 종이 | |
시리우스 : 효율적인 LLM에 대한 교정으로 맥락 적 희소성 Yang Zhou, Zhuoming Chen, Zhaozhuo Xu, Victoria Lin, Beidi Chen | github 종이 | |
Onegen : 효율적인 1 패스 통합 생성 및 LLM에 대한 검색 Jintian Zhang, Cheng Peng, Mengshu Sun, Xiang Chen, Lei Liang, Zhiqiang Zhang, Jun Zhou, Huajun Chen, Ningyu Zhang | ![]() | github 종이 |
| PATH-일관성 : LLM에서 효율적인 추론을위한 접두사 향상 Jiace Zhu, Yingtao Shen, Jie Zhao, Zou | 종이 | |
| 기능 샘플링 및 부분 정렬 증류를 통한 무손실 투기 디코딩 강화 Lujun Gui, Bin Xiao, Lei Su, Weipeng Chen | 종이 |
| 제목 및 저자 | 소개 | 모래밭 |
|---|---|---|
오프로드와 함께 언어 모델의 혼합 언어 모델의 빠른 추론 Artyom Eliseev, Denis Mazur | ![]() | github 종이 |
응축, 단지 가지지 마십시오 : MOE 레이어 가지 치기의 효율성과 성능 향상 Mingyu Cao, Gen Li, Jie Ji, Jiaqi Zhang, Xiaolong MA, Shiwei Liu, Lu Yin | github 종이 | |
| 효율적인 모바일 장치 추론을위한 캐시 조건 전문가의 혼합 Andrii Skliar, Ties van Rozendaal, Romain Lepert, Todor Boinovski, Mart Van Baalen, Markus Nagel, Paul Whatmough, Babak Ehteshami Bejnordi | 종이 | |
MONTA : 네트워크 트래픽 인식 병렬 최적화를 통한 믹스 터트 교육 가속화 Jingming Guo, Yan Liu, Yu Meng, Zhiwei Tao, Banglan Liu, Gang Chen, Xiang Li | github 종이 | |
MOE-I2 : 엑스퍼트 간략한 가지 치기 및 expert 저 순위 분해를 통한 전문가 모델의 혼합 압축 청 | github 종이 | |
| 호빗 : 빠른 MOE 추론을위한 혼합 정밀 전문가 오프로드 시스템 Peng Tang, Jiacheng Liu, Xiaofeng Hou, Yifei PU, Jing Wang, Pheng-Ann Heng, Chao Li, Minyi Guo | 종이 | |
| Promoe : 사전 캐싱을 사용하여 빠른 Moe 기반 LLM 서빙 Xiaoniu Song, Zihang Zhong, Rong Chen | 종이 | |
| Expertflow : 효율적인 혼합 경험을위한 최적화 된 전문가 활성화 및 토큰 할당 Xin HE, Shunkang Zhang, Yuxin Wang, Haiyan Yin, Zihao Zeng, Shaohuai Shi, Zhenheng Tang, Xiaowen Chu, Ivor Tsang, Ong Yew 곧 곧 | 종이 | |
| EPS-MOE : 비용 효율적인 MOE 추론을위한 전문가 파이프 라인 스케줄러 Yulei Qian, Fengcun Li, Xiangyang JI, Xiaoyu Zhao, Jianchao Tan, Kefeng Zhang, Xunliang Cai | 종이 | |
MC-MOE : 혼합 Experts LLMS를위한 혼합 압축기가 더 많이 얻어집니다 Wei Huang, Yue Liao, Jianhui Liu, Ruifei HE, Haoru Tan, Shiming Zhang, Hongsheng Li, Si Liu, Xiaojuan Qi | ![]() | github 종이 |
| 제목 및 저자 | 소개 | 모래밭 |
|---|---|---|
Mobillama : 정확하고 가벼운 완전히 투명한 GPT를 향해 Omkar Thawakar, Ashmal Vayani, Salman Khan, Hisham Cholakal, Rao M. Anwer, Michael Felsberg, Tim Baldwin, Eric P. Xing, Fahad Shahbaz Khan | ![]() | github 종이 모델 |
Megalodon : 효율적인 LLM 사전 여과 및 무제한 컨텍스트 길이에 대한 추론 Xuezhe MA, Xiaomeng Yang, Wenhan Xiong, Beidi Chen, Lili Yu, Hao Zhang, Jonathan May, Luke Zettlemoyer, Omer Levy, Chunting Zhou | ![]() | github 종이 |
| Taipan : 선택적인 관심을 가진 효율적이고 표현적인 상태 우주 언어 모델 Chien Van Nguyen, Huy Huu Nguyen, Thang M. Pham, Ruiyi Zhang, Hanieh Deilamsalehy, Puneet Mathur, Ryan A. Rossi, Trung Bui, Viet Dac Lai, Franck Dernoncourt, Thien Huuu Nguyen | 종이 | |
Seerattention : LLM에서 본질적인 스파 스주의를 배우십시오 Yizhao Gao, Zhichen Zeng, Dayou du, Shijie Cao, Hayden Kwok-Hay So, Ting Cao, Fan Yang, Mao Yang | github 종이 | |
기본 공유 : 큰 언어 모델 압축에 대한 크로스 레이어 매개 변수 공유 Jingcun Wang, Yu-Guang Chen, Ing-Chao Lin, Bing Li, Grace Li Zhang | github 종이 | |
| Rodimus*: 효율적인 관심으로 정확도 효율성 트레이드 오프를 깨뜨립니다 Zhihao HE, Hang Yu, Zi Gong, Shizhan Liu, Jianguo Li, Weiyao Lin | 종이 |
| 제목 및 저자 | 소개 | 모래밭 |
|---|---|---|
| 모델을 버릴 내용을 알려줍니다 : LLM에 대한 적응 형 KV 캐시 압축 Suyu GE, Yunan Zhang, Liyuan Liu, Minjia Zhang, Jiawei Han, Jianfeng Gao | ![]() | 종이 |
| ClusterKV : 리콜 가능 압축을위한 의미 론적 공간에서 LLM KV 캐시 조작 광다 리우, 청와이 리, Jieru Zhao, Chenqi Zhang, Minyi Guo | 종이 | |
| Leandkv로 대형 언어 모델에 대한 KV 캐시 압축 통합 Yanqi Zhang, Yuwei Hu, Runyuan Zhao, John CS Lui, Haibo Chen | 종이 | |
| 장거리 텍스트 LLM을위한 KV 캐시 압축 Da Ma, Lu Chen, Sitoo Zhang, Yuxun Miao, Su Zhu, Zhi Chen, Hongshen Xu, Hanqi Li, Shuai Fan, Lei Pan, Kai Yu | 종이 | |
| MINIKV : 2 비트 층 차별 KV 캐시를 통해 LLM 추론의 한계 밀기 Akshat Sharma, Hangliang Ding, Jianping Li, Neel Dani, Minjia Zhang | 종이 | |
| Tokenselect : 동적 토큰 수준 KV 캐시 선택을 통한 LLM에 대한 효율적인 장거리 텍스트 추론 및 길이 외삽 법 Wei Wu, Zhuoshi Pan, Chao Wang, Liyi Chen, Yunchu Bai, Kun Fu, Zheng Wang, Hui Xiong | 종이 | |
모든 헤드가 중요하지는 않습니다 : 통합 검색 및 추론이있는 헤드 레벨 KV 캐시 압축 방법 Yu Fu, Zefan Cai, Abedelkadir Asi, Wayne Xiong, Yue Dong, Wen Xiao | ![]() | github 종이 |
버즈 : 효율적인 LLM 추론을위한 세그먼트로 된 무거운 타자가있는 Beehive Structive Sparse KV 캐시 Junqi Zhao, Zhijin Fang, Shu Li, Shaohui Yang, Shichao | github 종이 | |
효율적인 LLM 추론을위한 크로스 레이어 KV 공유에 대한 체계적인 연구 Wu, Haoyi Wu, Kewei tu | ![]() | github 종이 |
| 무손실 KV 캐시 압축에서 2% Zhen Yang, Jnhan, Kan Wu, Ruobing Xie, Anwang, Xingwu Sun, Zhanhui Kang | 종이 | |
| Matryoshkakv : 훈련 가능한 직교 투영을 통한 적응 형 KV 압축 Bokai Lin, Zihao Zeng, Zipeng Xiao, Siqi Kou, Tianqi Hou, Xiaofeng Gao, Hao Zhang, Zhijie Deng | 종이 | |
큰 언어 모델에서 KV 캐시 압축에 대한 잔류 벡터 양자화 안쿠 쿠마르 | github 종이 | |
KVSHARER : 계층 별 비 유사한 KV 캐시 공유를 통한 효율적인 추론 Yifei Yang, Zouying Cao, Qiguang Chen, Libo Qin, Dongjie Yang, Hai Zhao, Zhi Chen | ![]() | github 종이 |
| LORC : 점진적인 압축 전략을 사용한 LLMS KV 캐시의 저급 압축 Rongzhi Zhang, Kuang Wang, Liyuan Liu, Shuohang Wang, Hao Cheng, Chao Zhang, Yelong Shen | ![]() | 종이 |
| SWIFTKV : 지식 보존 모델 변환과의 빠른 프리 필드 최적화 추론 Aurick Qiao, Zhewei Yao, Samyam Rajbhandari, Yuxiong HE | 종이 | |
동적 메모리 압축 : 가속화 된 추론을위한 LLM을 개조합니다 Piotr Nawrot, Adrian łańcucki, Marcin Choochowski, David Tarjan, Edoardo M. Ponti | ![]() | 종이 |
| KV 코프트 :주의 헤드 당 가변 압축 속도로 PAGED KV-CACHE 압축 아이작 레그 | 종이 | |
ADA-KV : 효율적인 LLM 추론을위한 적응 예산 할당으로 KV 캐시 퇴거 최적화 Yuan Feng, Junlin LV, Yukun Cao, Xike Xie, S. Kevin Zhou | ![]() | github 종이 |
AlignedKV : 정밀 정렬 양자화로 KV-Cache의 메모리 액세스 감소 Yifan Tan, Haoze Wang, Chao Yan, Yangdong Deng | github 종이 | |
| CSKV : 장거리 텍스트 시나리오에서 KV 캐시에 대한 교육 효율적인 채널 수축 Luning Wang, Shiyao Li, Xuefei Ning, Zhihang Yuan, Shengen Yan, Guohao Dai, Yu Wang | 종이 | |
| KV 누출에 대한 효율적이고 안전한 ON-DEVICE LLM 추론에 대한 첫 번째 모습 Huan Yang, Deyu Zhang, Yudong Zhao, Yuanchun Li, Yunxin Liu | 종이 |
| 제목 및 저자 | 소개 | 모래밭 |
|---|---|---|
llmlingua : 큰 언어 모델의 가속화 된 추론을위한 프롬프트 압축 Huiqiang Jiang, Qianhui Wu, Chin-Yew Lin, Yuqing Yang, Lili Qiu | ![]() | github 종이 |
longllmlingua : 프롬프트 압축을 통한 긴 컨텍스트 시나리오에서 LLM을 가속화하고 향상시킵니다. Huiqiang Jiang, Qianhui Wu, Xufang Luo, Dongsheng Li, Chin-Yew Lin, Yuqing Yang, Lili Qiu | ![]() | github 종이 |
| JPPO : 가속화 된 대형 언어 모델 서비스에 대한 공동 전력 및 프롬프트 최적화 Feiran You, Hongyang Du, Kaibin Huang, Abbas Jamalipour | 종이 | |
생성 컨텍스트 증류 Haebin Shin, Lei JI, Yeyun Gong, Shangdong Kim, Eunbi Choi, Minjoon Seo | ![]() | github 종이 |
Multitok : LZW 압축에서 조정 된 효율적인 LLM에 대한 가변 길이 토큰 화 Noel Elias, Homa Esfahanizadeh, Kaan Kale, Sriram Vishwanath, Muriel Medard | github 종이 | |
선택 -P : 신실함과 전달성을위한 자체 감독 작업에 대한 프롬프트 압축 TSZ Ting Chung, Leyang Cui, Lemao Liu, Xinting Huang, Shiving Shi, Dit-Yan Yeung | 종이 | |
읽기에서 압축까지 : 신속한 압축을 위해 다중 문서 리더 탐색 Eunseong Choi, Sunkyung Lee, Minjin Choi, June Park, Jongwuk Lee | 종이 | |
| 인식 압축기 : 긴 맥락 시나리오에서 훈련이없는 프롬프트 압축 방법 Jiwei Tang, Jin Xu, Tingwei Lu, Hai Lin, Yiming Zhao, Hai-tao Zheng | 종이 | |
Finezip : 실용적인 무손실 텍스트 압축을 위해 대형 언어 모델의 한계를 강요 Fazal Mittu, Yihuan Bu, Akshat Gupta, Ashok Devireddy, Alp Eren Ozdarendeli, Anant Singh, Gopala Anumanchipalli | github 종이 | |
트리가 LLM 프롬프트 압축을 안내합니다 Wenhao Mao, Chengbin Hou, Tianyu Zhang, Xinyu Lin, Ke Tang, Hairong LV | github 종이 | |
Alphazip : 신경망이 강화 된 무손실 텍스트 압축 Swathi Shree Narashiman, Nitin Chandrachoodan | github 종이 | |
| TACO-RL : 강화 학습을 통한 작업 인식 신속한 압축 최적화 Shivam Shandilya, Menglin Xia, Supriyo Ghosh, Huiqiang Jiang, Jue Zhang, Qianhui Wu, Victor Rühle | 종이 | |
| 효율적인 LLM 컨텍스트 증류 Rajesh Upadhayayaya, Zachary Smith, Chritopher Kottmyer, Manish Raj Osti | 종이 | |
교육 인식 상황 압축을 통해 대형 언어 모델 향상 및 가속화 Haowen Hou, Fei MA, Binwen Bai, Xinxin Zhu, Fei Yu | github 종이 |
| 제목 및 저자 | 소개 | 모래밭 |
|---|---|---|
자연스럽게 : 메모리 효율적인 LLM 훈련 및 미세 조정을위한 가속화 Arijit Das | github 종이 | |
| 소형 : 메모리 효율적인 LLM 훈련을위한 압축 활성화 Yara Shamshoum, Nitzan Hodos, Yuval Sieradzki, Assaf Schuster | 종이 | |
ESPACE : 모델 압축에 대한 활성화의 차원 감소 Charbel Sakr, Brucek Khailany | ![]() | 종이 |
| 제목 및 저자 | 소개 | 모래밭 |
|---|---|---|
| Fastswitch : 공정성 인식 대형 언어 모델 서빙의 컨텍스트 전환 효율 최적화 Ao Shen, Zhiyao Li, Mingyu Gao | 종이 | |
| CE-COLLM : 클라우드 에지 공동 작업을 통한 효율적이고 적응 형 대형 언어 모델 Hongpeng Jin, Yanzhao Wu | 종이 | |
| Ripple : 상관 관계를 인식하여 스마트 폰에서 LLM 추론 가속화 Tuowei Wang, Ruwen Fan, Minxing Huang, Zixu Hao, Kun Li, Ting Cao, Youyou Lu, Yaoxue Zhang, Ju Ren | 종이 | |
ALISE: Accelerating Large Language Model Serving with Speculative Scheduling Youpeng Zhao, Jun Wang | 종이 | |
| EPIC: Efficient Position-Independent Context Caching for Serving Large Language Models Junhao Hu, Wenrui Huang, Haoyi Wang, Weidong Wang, Tiancheng Hu, Qin Zhang, Hao Feng, Xusheng Chen, Yizhou Shan, Tao Xie | 종이 | |
SDP4Bit: Toward 4-bit Communication Quantization in Sharded Data Parallelism for LLM Training Jinda Jia, Cong Xie, Hanlin Lu, Daoce Wang, Hao Feng, Chengming Zhang, Baixi Sun, Haibin Lin, Zhi Zhang, Xin Liu, Dingwen Tao | 종이 | |
| FastAttention: Extend FlashAttention2 to NPUs and Low-resource GPUs Haoran Lin, Xianzhi Yu, Kang Zhao, Lu Hou, Zongyuan Zhan et al | 종이 | |
| POD-Attention: Unlocking Full Prefill-Decode Overlap for Faster LLM Inference Aditya K Kamath, Ramya Prabhu, Jayashree Mohan, Simon Peter, Ramachandran Ramjee, Ashish Panwar | 종이 | |
TPI-LLM: Serving 70B-scale LLMs Efficiently on Low-resource Edge Devices Zonghang Li, Wenjiao Feng, Mohsen Guizani, Hongfang Yu | github 종이 | |
Efficient Arbitrary Precision Acceleration for Large Language Models on GPU Tensor Cores Shaobo Ma, Chao Fang, Haikuo Shao, Zhongfeng Wang | 종이 | |
OPAL: Outlier-Preserved Microscaling Quantization A ccelerator for Generative Large Language Models Jahyun Koo, Dahoon Park, Sangwoo Jung, Jaeha Kung | 종이 | |
| Accelerating Large Language Model Training with Hybrid GPU-based Compression Lang Xu, Quentin Anthony, Qinghua Zhou, Nawras Alnaasan, Radha R. Gulhane, Aamir Shafi, Hari Subramoni, Dhabaleswar K. Panda | 종이 |
| Title & Authors | 소개 | 모래밭 |
|---|---|---|
| HELENE: Hessian Layer-wise Clipping and Gradient Annealing for Accelerating Fine-tuning LLM with Zeroth-order Optimization Huaqin Zhao, Jiaxi Li, Yi Pan, Shizhe Liang, Xiaofeng Yang, Wei Liu, Xiang Li, Fei Dou, Tianming Liu, Jin Lu | 종이 | |
Robust and Efficient Fine-tuning of LLMs with Bayesian Reparameterization of Low-Rank Adaptation Ayan Sengupta, Vaibhav Seth, Arinjay Pathak, Natraj Raman, Sriram Gopalakrishnan, Tanmoy Chakraborty | github 종이 | |
MiLoRA: Efficient Mixture of Low-Rank Adaptation for Large Language Models Fine-tuning Jingfan Zhang, Yi Zhao, Dan Chen, Xing Tian, Huanran Zheng, Wei Zhu | 종이 | |
RoCoFT: Efficient Finetuning of Large Language Models with Row-Column Updates Md Kowsher, Tara Esmaeilbeig, Chun-Nam Yu, Mojtaba Soltanalian, Niloofar Yousefi | ![]() | github 종이 |
Layer-wise Importance Matters: Less Memory for Better Performance in Parameter-efficient Fine-tuning of Large Language Models Kai Yao, Penlei Gao, Lichun Li, Yuan Zhao, Xiaofeng Wang, Wei Wang, Jianke Zhu | github 종이 | |
Parameter-Efficient Fine-Tuning of Large Language Models using Semantic Knowledge Tuning Nusrat Jahan Prottasha, Asif Mahmud, Md. Shohanur Islam Sobuj, Prakash Bhat, Md Kowsher, Niloofar Yousefi, Ozlem Ozmen Garibay | 종이 | |
QEFT: Quantization for Efficient Fine-Tuning of LLMs Changhun Lee, Jun-gyu Jin, Younghyun Cho, Eunhyeok Park | github 종이 | |
BIPEFT: Budget-Guided Iterative Search for Parameter Efficient Fine-Tuning of Large Pretrained Language Models Aofei Chang, Jiaqi Wang, Han Liu, Parminder Bhatia, Cao Xiao, Ting Wang, Fenglong Ma | github 종이 | |
SparseGrad: A Selective Method for Efficient Fine-tuning of MLP Layers Viktoriia Chekalina, Anna Rudenko, Gleb Mezentsev, Alexander Mikhalev, Alexander Panchenko, Ivan Oseledets | github 종이 | |
| SpaLLM: Unified Compressive Adaptation of Large Language Models with Sketching Tianyi Zhang, Junda Su, Oscar Wu, Zhaozhuo Xu, Anshumali Shrivastava | 종이 | |
Bone: Block Affine Transformation as Parameter Efficient Fine-tuning Methods for Large Language Models Jiale Kang | github 종이 | |
| Enabling Resource-Efficient On-Device Fine-Tuning of LLMs Using Only Inference Engines Lei Gao, Amir Ziashahabi, Yue Niu, Salman Avestimehr, Murali Annavaram | ![]() | 종이 |
| Title & Authors | 소개 | 모래밭 |
|---|---|---|
| AutoMixQ: Self-Adjusting Quantization for High Performance Memory-Efficient Fine-Tuning Changhai Zhou, Shiyang Zhang, Yuhua Zhou, Zekai Liu, Shichao Weng | ![]() | 종이 |
Scalable Efficient Training of Large Language Models with Low-dimensional Projected Attention Xingtai Lv, Ning Ding, Kaiyan Zhang, Ermo Hua, Ganqu Cui, Bowen Zhou | github 종이 | |
| Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs Yifei Zhang, Hao Zhu, Aiwei Liu, Han Yu, Piotr Koniusz, Irwin King | 종이 | |
COAT: Compressing Optimizer states and Activation for Memory-Efficient FP8 Training Haocheng Xi, Han Cai, Ligeng Zhu, Yao Lu, Kurt Keutzer, Jianfei Chen, Song Han | ![]() | github 종이 |
BitPipe: Bidirectional Interleaved Pipeline Parallelism for Accelerating Large Models Training Houming Wu, Ling Chen, Wenjie Yu | ![]() | github 종이 |
| Title & Authors | 소개 | 모래밭 |
|---|---|---|
| Closer Look at Efficient Inference Methods: A Survey of Speculative Decoding Hyun Ryu, Eric Kim | 종이 | |
LLM-Inference-Bench: Inference Benchmarking of Large Language Models on AI Accelerators Krishna Teja Chitty-Venkata, Siddhisanket Raskar, Bharat Kale, Farah Ferdaus et al | github 종이 | |
Prompt Compression for Large Language Models: A Survey Zongqian Li, Yinhong Liu, Yixuan Su, Nigel Collier | github 종이 | |
| Large Language Model Inference Acceleration: A Comprehensive Hardware Perspective Jinhao Li, Jiaming Xu, Shan Huang, Yonghua Chen, Wen Li, Jun Liu, Yaoxiu Lian, Jiayi Pan, Li Ding, Hao Zhou, Guohao Dai | 종이 | |
| A Survey of Low-bit Large Language Models: Basics, Systems, and Algorithms Ruihao Gong, Yifu Ding, Zining Wang, Chengtao Lv, Xingyu Zheng, Jinyang Du, Haotong Qin, Jinyang Guo, Michele Magno, Xianglong Liu | 종이 | |
Contextual Compression in Retrieval-Augmented Generation for Large Language Models: A Survey Sourav Verma | ![]() | github 종이 |
| Art and Science of Quantizing Large-Scale Models: A Comprehensive Overview Yanshu Wang, Tong Yang, Xiyan Liang, Guoan Wang, Hanning Lu, Xu Zhe, Yaoming Li, Li Weitao | 종이 | |
| Hardware Acceleration of LLMs: A comprehensive survey and comparison Nikoletta Koilia, Christoforos Kachris | 종이 | |
| A Survey on Symbolic Knowledge Distillation of Large Language Models Kamal Acharya, Alvaro Velasquez, Houbing Herbert Song | 종이 |