Awesome Efficient LLM
1.0.0
Daftar yang dikuratori untuk model bahasa besar yang efisien
Jika Anda ingin memasukkan makalah Anda, atau perlu memperbarui detail seperti informasi konferensi atau URL kode, jangan ragu untuk mengirimkan permintaan tarik. Anda dapat menghasilkan format markdown yang diperlukan untuk setiap kertas dengan mengisi informasi di generate_item.py dan menjalankan python generate_item.py . Kami sangat menghargai kontribusi Anda untuk daftar ini. Atau, Anda dapat mengirimi saya email dengan tautan ke kertas dan kode Anda, dan saya akan menambahkan kertas Anda ke daftar secepat mungkin.
Untuk setiap topik, kami telah mengkuratori daftar makalah yang direkomendasikan yang telah mengumpulkan banyak bintang atau kutipan GitHub.
| Judul & Penulis | Perkenalan | Tautan |
|---|---|---|
Sparsegpt: Model bahasa masif dapat dipangkas secara akurat dalam satu-shot Elias Frantar, Dan Alistarh | ![]() | Kertas GitHub |
LLM-PRUNER: Tentang pemangkasan struktural model bahasa besar Xinyin MA, Gongfan Fang, Xinchao Wang | ![]() | Kertas GitHub |
Pendekatan pemangkasan yang sederhana dan efektif untuk model bahasa besar Mingjie Sun, Zhuang Liu, Anna Bair, J. Zico Kolter | ![]() | GitHub Kertas |
Llama Sheared: Model Bahasa yang Mempercepat Pra-Pelatihan Melalui Pemangkasan Struktur Mengzhou Xia, Tianyu Gao, Zhiyuan Zeng, Danqi Chen | ![]() | GitHub Kertas |
| Inferensi LLM yang efisien menggunakan pemangkasan input dinamis dan masking yang sadar cache Marco Federici, Davide Belli, Mart Van Baalen, Amir Jalalirad, Andrii Skliar, Bence Mayor, Markus Nagel, Paul Whatmough | Kertas | |
| Teka-teki: NAS berbasis distilasi untuk LLMS yang dioptimalkan inferensi Akhiad Bercovich, Tomer Ronen, Talor Abramovich, Nir Ailon, Nave Assaf, Mohammad Dabbah et al | Kertas | |
Menurut -turut pemangkasan lapisan di LLMS: wawasan dan metode baru Yao Lu, Hao Cheng, Yujie Fang, Zeyu Wang, Jiaheng Wei, Dongwei Xu, Qi Xuan, Xiaoniu Yang, Zhaowei Zhu | ![]() | GitHub Kertas |
| Lapisan pentingnya dan analisis halusinasi dalam model bahasa besar melalui peningkatan varians-sparsity aktivasi Lagu Zichen, Sitis Huang, Yuxin Wu, Zhongfeng Kang | Kertas | |
Amubeballm: Membangun model bahasa besar bentuk apa pun untuk penyebaran yang efisien dan instan Yonggan Fu, Zhongzhi Yu, Junwei Li, Jiayi Qian, Yongan Zhang, Xiangchi Yuan, Dachuan Shi, Romawi Yakunin, Yingyan Celine Lin Lin Lin | GitHub Kertas | |
| Hukum penskalaan untuk pasca-pelatihan setelah pemangkasan model Xiaodong Chen, Yuxuan Hu, Jing Zhang, Xiaokang Zhang, Cuiping Li, Hong Chen | Kertas | |
DRPRUNING: Model bahasa besar yang efisien memangkas melalui optimasi yang kuat secara distribusi Hexuan Deng, Wenxiang Jiao, Xuebo Liu, Min Zhang, Zhaopeng Tu | ![]() | GitHub Kertas |
Hukum yang Berbagai Hukum: Menuju Model Bahasa Besar dengan Sparsity Aktivasi yang Lebih Besar Yuqi Luo, Lagu Chenyang, Xu Han, Yingfa Chen, Chaojun Xiao, Zhiyuan Liu, Maosong Sun | ![]() | GitHub Kertas |
| AVSS: Evaluasi Lapisan Penting dalam Model Bahasa Besar Melalui Analisis Varians-Sparsity Aktivasi Lagu Zichen, Yuxin Wu, Sitis Huang, Zhongfeng Kang | Kertas | |
| Disesuaikan-llama: Mengoptimalkan pembelajaran beberapa tembakan dalam model Llama yang dipangkas dengan petunjuk khusus tugas Danyal Aftab, Steven Davy | Kertas | |
LLMCBENCH: Benchmarking Kompresi model bahasa besar untuk penyebaran yang efisien Ge Yang, Changyi He, Jinyang Guo, Jianyu Wu, Yifu Ding, Aishan Liu, Haotong Qin, Pengliang JI, Xianglong Liu | ![]() | GitHub Kertas |
| Beyond 2: 4: Menjelajahi V: N: M sparsity untuk inferensi transformator yang efisien pada GPU Kang Zhao, Tao Yuan, Han Bao, Zhenfeng Su, Chang Gao, Zhaofeng Sun, Zichen Liang, Liping Jing, Jianfei Chen | Kertas | |
Evopress: Menuju Kompresi Model Dinamis Optimal melalui Pencarian Evolusioner Oliver Sieberling, Denis Kuznedelev, Eldar Kurtic, Dan Alistarh | ![]() | GitHub Kertas |
| FedSpallm: Pemangkasan Federasi Model Bahasa Besar Guangji Bai, Yijiang Li, Zilinghan Li, Liang Zhao, Kibaek Kim | Kertas | |
Model fondasi pemangkasan untuk akurasi tinggi tanpa pelatihan ulang Pu Zhao, Fei Sun, Xuan Shen, Pinrui Yu, Zhenglun Kong, Yanzhi Wang, Xue Lin | GitHub Kertas | |
| Kalibrasi diri untuk kuantisasi dan pemangkasan model bahasa Miles Williams, George Chrysostomou, Nikolaos Aletras | Kertas | |
| Waspadalah terhadap data kalibrasi untuk memangkas model bahasa besar Yixin JI, Yang Xiang, Juntao Li, Qingrong Xia, Ping Li, Xinyu Duan, Zhefeng Wang, Min Zhang | Kertas | |
Alphapruning: Menggunakan teori regularisasi diri ekor berat untuk meningkatkan pemangkasan model bahasa besar yang lebih baik Haiquan Lu, Yefan Zhou, Shiwei Liu, Zhangyang Wang, Michael W. Mahoney, Yaoqing Yang | GitHub Kertas | |
| Di luar perkiraan linier: pendekatan pemangkasan baru untuk matriks perhatian Yingyu Liang, Jiangxuan Long, Zhenmei Shi, Lagu Zhao, Yufa Zhou | Kertas | |
Disp-llm: Pemangkasan struktural dimensi-independen untuk model bahasa besar Shangqian Gao, Chi-Heng Lin, Ting Hua, Tang Zheng, Yilin Shen, Hongxia Jin, Yen-Chang Hsu | Kertas | |
Distilasi Data Mandiri untuk Memulihkan Kualitas dalam Model Bahasa Besar yang Dipangkang Vithursan Thangarasa, Ganesh Venkatesh, Nish Sinnadurai, Sean Lie | Kertas | |
| LLM-Rank: Pendekatan teoretis grafik untuk memangkas model bahasa besar David Hoffmann, Kailash Budhathoki, Matthaeus Kleindessner | Kertas | |
Apakah dataset C4 optimal untuk pemangkasan? Investigasi data kalibrasi untuk pemangkasan LLM Abhinav Bandari, Lu Yin, Cheng-yu Hsieh, Ajay Kumar Jaiswal, Tianlong Chen, Li Shen, Ranjay Krishna, Shiwei Liu | GitHub Kertas | |
| Mengurangi bias salinan dalam pembelajaran dalam konteks melalui pemangkasan neuron Ameen Ali, Lior Wolf, Ivan Titov | ![]() | Kertas |
SQFT: Adaptasi model berbiaya rendah dalam model fondasi jarang presisi rendah Juan Pablo Munoz, Jinjie Yuan, Nilesh Jain | ![]() | GitHub Kertas |
Maskllm: Sparsity semi-terstruktur yang dapat dipelajari untuk model bahasa besar Gongfan Fang, Hongxu Yin, Saurav Muralidharan, Greg Heinrich, Jeff Pool, Jan Kautz, Pavlo Molchanov, Xinchao Wang | ![]() | GitHub Kertas |
Cari model bahasa besar yang efisien Xuan Shen, Pu Zhao, Yifan Gong, Zhenglun Kong, Zheng Zhan, Yushu Wu, Ming Lin, Chao Wu, Xue Lin, Yanzhi Wang | Kertas | |
CFSP: Kerangka pemangkasan terstruktur yang efisien untuk LLM dengan informasi aktivasi kasar-ke-halus Yuxin Wang, Minghua MA, Zekun Wang, Jingchang Chen, penggemar berat, Liping Shan, Qing Yang, Dongliang Xu, Ming Liu, Bing Qin | GitHub Kertas | |
| Oats: pemangkasan outlier-sadar melalui dekomposisi peringkat rendah dan peringkat rendah Stephen Zhang, Vardan Papyan | Kertas | |
| KVPruner: Pemangkasan Struktural untuk model bahasa besar yang lebih cepat dan efisien memori Bo LV, Quan Zhou, Xuanang Ding, Yan Wang, Zeming MA | Kertas | |
| Mengevaluasi dampak teknik kompresi pada kinerja khusus tugas model bahasa besar Bishwash Khanal, Jeffery M. Capone | Kertas | |
| Stun: Pemangkasan terstruktur terstruktur untuk pemangkasan MOE yang dapat diskalakan Jaeseong Lee, Seung-Won Hwang, Aurick Qiao, Daniel F Campos, Zhewei Yao, Yuxiong HE | Kertas | |
Pat: Tuning yang sadar pemangkasan untuk model bahasa besar Yijiang Liu, Huanrui Yang, Youxin Chen, Rongyu Zhang, Miao Wang, Yuan Du, Li Du | ![]() | GitHub Kertas |
| Judul & Penulis | Perkenalan | Tautan |
|---|---|---|
| Distilasi pengetahuan model bahasa besar Yuxian Gu, Li Dong, Furu Wei, Minlie Huang | ![]() | GitHub Kertas |
| Meningkatkan kemampuan penalaran matematika dari model bahasa kecil melalui distilasi yang digerakkan oleh umpan balik Xunyu Zhu, Jian Li, Can Ma, Weiping Wang | Kertas | |
Distilasi Konteks Generatif Haebin Shin, Lei Ji, Yeyun Gong, Sungdong Kim, Eunbi Choi, Minjoon Seo | ![]() | GitHub Kertas |
| Switch: Belajar dengan guru untuk distilasi pengetahuan model bahasa besar Jahyun Koo, Yerin Hwang, Yongil Kim, Taegwan Kang, Hyunkyung Bae, Kyomin Jung | ![]() | Kertas |
Beyond Autoregresi: llms cepat melalui distilasi diri melalui waktu Justin Deschenaux, Caglar Gulcehre | GitHub Kertas | |
| Distilasi Pra-Pelatihan untuk Model Bahasa Besar: Eksplorasi Ruang Desain Hao Peng, Xin LV, Yushi Bai, Zijun Yao, Jiajie Zhang, Lei Hou, Juanzi LI | Kertas | |
Miniplm: Distilasi Pengetahuan untuk Model Bahasa Pra-Pelatihan Yuxian Gu, Hao Zhou, Fandong Meng, Jie Zhou, Minlie Huang | ![]() | GitHub Kertas |
| Distilasi Pengetahuan Spekulatif: Menjembatani Kesenjangan Guru-Sidang melalui Pengambilan Sampel Interleaved Wenda Xu, Rujun Han, Zifeng Wang, Long T. Le, Dhruv Madeka, Lei Li, William Yang Wang, Rishabh Agarwal, Chen-Yu Lee, Tomas Pfister | Kertas | |
| Distilasi kontras evolusi untuk penyelarasan model bahasa Julian Katz-Samuels, Zheng Li, Hyokun Yun, Priyanka Nigam, Yi Xu, Vaclav Petricek, Bing Yin, Trishul Chilimbi | Kertas | |
| Babyllama-2: Model Distilled Ensemble secara konsisten mengungguli guru dengan data terbatas Jean-Loup Tastet, Inar Timiryasov | Kertas | |
| Echoatt: hadir, salin, lalu sesuaikan dengan model bahasa besar yang lebih efisien Hossein Rajabzadeh, Aref Jafari, Aman Sharma, Benyamin Jami, Hyock Ju Kwon, Ali Ghodsi, Boxing Chen, Mehdi Rezagholizadeh | Kertas | |
Skintern: Menginternalisasi pengetahuan simbolik untuk menyaring kemampuan COT yang lebih baik menjadi model bahasa kecil Huanxuan Liao, Shizhu He, Yupu Hao, Xiang Li, Yuanzhe Zhang, Kang Liu, Jun Zhao | GitHub Kertas | |
LLMR: Distilasi Pengetahuan dengan Hadiah yang Diinduksi Model Bahasa Dongheng Li, Yongchang Hao, Lili Mou | ![]() | GitHub Kertas |
| Menjelajahi dan Meningkatkan Transfer Distribusi dalam Distilasi Pengetahuan untuk Model Bahasa Autoregresif Jun Rao, Xuebo Liu, Zepeng Lin, Liang Ding, Jing LI, Dacheng Tao | Kertas | |
| Distilasi Pengetahuan yang Efisien: Memberdayakan Model Bahasa Kecil Dengan Wawasan Model Guru Ballout Mohamad, Ulf Krumnack, Gunther Heidemann, Kai-Uwe Kühnberger | Kertas | |
The Mamba in the Llama: Model Hibrida Distilling and Accelerating Junxiong Wang, Daniele Paliotta, Avner May, Alexander M. Rush, Tri Dao | GitHub Kertas |
| Judul & Penulis | Perkenalan | Tautan |
|---|---|---|
GPTQ: Kuantisasi pasca-pelatihan yang akurat untuk transformator pra-terlatih generatif Elias Frantar, Saleh Ashkboos, Torsten Hoefler, Dan Alistarh | ![]() | GitHub Kertas |
Smoothquant: Kuantisasi pasca-pelatihan yang akurat dan efisien untuk model bahasa besar Xiao Guangxuan, Ji Lin, Mickael Seznec, Hao Wu, Julien Demouth, Song Han | ![]() | GitHub Kertas |
AWQ: kuantisasi berat badan aktivasi untuk kompresi dan akselerasi LLM Ji Lin, Jiaming Tang, Haotian Tang, Shang Yang, Xingyu Dang, Song Han | ![]() | GitHub Kertas |
Omniquant: kuantisasi yang dikalibrasi secara omnidireksi untuk model bahasa besar Wenqi Shao, Mengzhao Chen, Zhaoyang Zhang, Peng Xu, Lirui Zhao, Zhiqian LI, Kaipeng Zhang, Peng Gao, Yu Qiao, Ping Luo | ![]() | GitHub Kertas |
| Skim: kuantisasi apa pun yang mendorong batas kuantisasi pasca-pelatihan Runsheng Bai, Qiang Liu, Bo Liu | Kertas | |
| CPTQUANT-Teknik kuantisasi pasca-pelatihan presisi campuran baru untuk model bahasa besar Amitash Nanda, Sree Bhargavi Balija, Debashis Sahoo | Kertas | |
Anda: Membuka inferensi LLM yang efisien dengan format data aktivasi yang dikelompokkan dengan panjang variabel Chao Fang, Man Shi, Robin Geens, Arne Symons, Zhongfeng Wang, Marian Verhelst | Kertas | |
| Mixpe: Kuantisasi dan Perangkat Keras Hardware untuk Inferensi LLM yang efisien Yu Zhang, Mingzi Wang, Lancheng Zou, Wulong Liu, Hui-Ling Zhen, Mingxuan Yuan, Bei Yu | Kertas | |
Bitmod: Campuran Bit-Serial Akselerasi LLM Datatype Yuzong Chen, Ahmed F. Abouelhamayed, Xilai Dai, Yang Wang, Marta Andronic, George A. Constantinides, Mohamed S. Abdelfattah | GitHub Kertas | |
| AMXFP4: Pencilan aktivasi menjinakkan dengan titik mengambang mikroskal asimetris untuk inferensi LLM 4-bit Janghwan Lee, Taman Jiwoong, Jinseok Kim, Yongjik Kim, Jungju OH, Jinwook OH, Jungwook Choi | ![]() | Kertas |
| Bi-Mamba: Menuju Model Ruang Negara 1-Bit yang Akurat Shengkun Tang, Liqun MA, Haonan LI, Mingjie Sun, Zhiqiang Shen | Kertas | |
| "Beri aku bf16 atau beri aku kematian"? Akurasi-kinerja pertukaran dalam kuantisasi LLM Eldar Kurtic, Alexandre Marques, Shubhra Pandit, Mark Kurtz, Dan Alistarh | Kertas | |
| GWQ: Kuantisasi Berat Badan yang Berhasil Gradien Untuk Model Bahasa Besar Yihua Shao, Siyu Liang, Xiaolin Lin, Zijian Ling, Zixian Zhu et al | Kertas | |
| Studi komprehensif tentang teknik kuantisasi untuk model bahasa besar Jiedong Lang, Zhehao Guo, Shuyu Huang | Kertas | |
| Bitnet A4.8: Aktivasi 4-bit untuk LLM 1-bit Hongyu Wang, Shuming Ma, Furu Wei | Kertas | |
Tesseraq: Kuantisasi pasca-pelatihan LLM ultra rendah dengan rekonstruksi blok Yuhang Li, Priyadarshini Panda | ![]() | GitHub Kertas |
BitStack: Kontrol ukuran berbutir halus untuk model bahasa besar terkompresi di lingkungan memori variabel Xinghao Wang, Pengyu Wang, Bo Wang, Dong Zhang, Yunhua Zhou, Xipeng Qiu | ![]() | GitHub Kertas |
| Dampak strategi percepatan inferensi pada bias LLMS Elisabeth Kirsten, Ivan Habernal, Vedant Nanda, Muhammad Bilal Zafar | Kertas | |
| Memahami kesulitan kuantisasi pasca-pelatihan presisi rendah dari model bahasa besar Zifei Xu, Sayeh Sharify, Wanzin Yazar, Tristan Webb, Xin Wang | Kertas | |
Infra AI 1-bit: Bagian 1.1, Bitnet B1.58 Inferensi Cepat dan Lossless pada CPU Jinheng Wang, Hansong Zhou, Lagu Ting, Shaoguang Mao, Shuming MA, Hongyu Wang, Yan Xia, Furu Wei | GitHub Kertas | |
| Quailora: Inisialisasi Awari Kuantisasi untuk Lora Neal Lawton, Aishwarya Padmakumar, Judith Gaspers, Jack Fitzgerald, Anoop Kumar, Greg Ver Steeg, Aram Galstyan | Kertas | |
| Mengevaluasi model bahasa besar yang diukur untuk pembuatan kode pada tolok ukur bahasa rendah sumber daya Enkhbold Nyamsuren | Kertas | |
Squeezellm: kuantisasi padat dan sparkse Sehoon Kim, Coleman Hooper, Amir Gholami, Zhen Dong, Xiuyu LI, Sheng Shen, Michael W. Mahoney, Kurt Keutzer | ![]() | GitHub Kertas |
| Kuantisasi vektor piramida untuk LLMS Tycho fa van der Ouderaa, Maximilian L. Croci, Agrin Hilmkil, James Hensman | Kertas | |
| Bibit: Mengompresi bobot llm menjadi biji generator pseudo-acak Rasoul Shafipour, David Harrison, Maxwell Horton, Jeffrey Marker, Houman Bedayat, Sachin Mehta, Mohammad Rastegari, Mahyar Najib, Saman Naderiparizi | Kertas | |
Flatquant: KETEGATAN PENGUBAHAN UNTUK LLM Kuantisasi Yuxuan Sun, Ruikang Liu, Haoli Bai, Han Bao, Kang Zhao, Yuening Li, Jiaxin Hu, Xianzhi Yu, Lu Hou, Chun Yuan, Xin Jiang, Wulong Liu, Jun Yao | GitHub Kertas | |
Slim: One-Shot Cuantized Sparse Plus Low Rank Approximation of LLMS Mohammad Mozaffari, Maryam Mehri Dehnavi | GitHub Kertas | |
| Penskalaan Hukum untuk Model Bahasa Besar Terkuantisasi Pasca-Pelatihan Zifei Xu, Alexander Lan, Wanzin Yazar, Tristan Webb, Sayeh Sharify, Xin Wang | Kertas | |
| Perkiraan Berkelanjutan untuk Meningkatkan Pelatihan Sadar Kuantisasi LLMS Dia Li, Jianhang Hong, Yuanzhuo Wu, Snehal Adbol, Zonglin LI | Kertas | |
DAQ: Kuantisasi berat hanya pasca-pelatihan kepadatan untuk LLMS Yingsong Luo, Ling Chen | GitHub Kertas | |
Quamba: Resep kuantisasi pasca-pelatihan untuk model ruang negara bagian selektif Hung-Yueh Chiang, Chi-Chih Chang, Natalia Frumkin, Kai-Chiang Wu, Diana Marculescu | GitHub Kertas | |
| Asimkv: Mengaktifkan kuantisasi 1-bit cache KV dengan konfigurasi kuantisasi asimetris lapisan bijaksana Qian Tao, Wenyuan Yu, Jingren Zhou | Kertas | |
| Kuantisasi presisi campuran saluran-bijaksana untuk model bahasa besar Zihan Chen, Bike Xie, Jundong Li, Cong Shen | Kertas | |
| Decoding presisi campuran progresif untuk inferensi LLM yang efisien Hao Mark Chen, Fuwen Tan, Alexandros Kouris, Royson Lee, penggemar Hongxiang, Stylianos I. Venieris | Kertas | |
EXAQ: Kuantisasi Penghargaan Eksponen untuk Akselerasi LLMS Moran Shkolnik, Maxim Fishman, Brian Chmiel, Hilla Ben-Yaacov, Ron Banner, Kfir Yehuda Levy | ![]() | GitHub Kertas |
Awalan: Kuantisasi statis mengalahkan dinamis melalui outlier yang diawali di LLMS Mengzhao Chen, Yi Liu, JiaHao Wang, Yi bin, Wenqi Shao, Ping Luo | GitHub Kertas | |
Kompresi ekstrem model bahasa besar melalui kuantisasi aditif Vage Egiazarian, Andrei Panferov, Denis Kuznedelev, Elias Frantar, Artem Babenko, Dan Alistarh | ![]() | GitHub Kertas |
| Hukum penskalaan untuk kuantisasi campuran dalam model bahasa besar Zeyu Cao, Cheng Zhang, Pedro Gimenes, Jianqiao Lu, Jianyi Cheng, Yiren Zhao | ![]() | Kertas |
| Palmbench: Tolok ukur komprehensif model bahasa besar terkompresi di platform seluler Yilong Li, Jingyu Liu, Hao Zhang, M Badri Narayanan, Utkarsh Sharma, Shuai Zhang, Pan Hu, Yijing Zeng, Jayaram Raghuram, Suman Banerjee | ![]() | Kertas |
| Crossquant: Metode kuantisasi pasca-pelatihan dengan kernel kuantisasi yang lebih kecil untuk kompresi model bahasa besar yang tepat Wenyuan Liu, Xindian MA, Peng Zhang, Yan Wang | Kertas | |
| SageatTention: Perhatian 8-bit yang akurat untuk percepatan inferensi plug-and-play Jintao Zhang, Jia Wei, Pengle Zhang, Jun Zhu, Jianfei Chen | Kertas | |
| Penambahan adalah semua yang Anda butuhkan untuk model bahasa hemat energi Hongyin Luo, Wei Sun | Kertas | |
VPTQ: Kuantisasi pasca-pelatihan vektor rendah ekstrem untuk model bahasa besar Yifei Liu, Jicheng Wen, Yang Wang, Shengyu Ye, Li Lyna Zhang, Ting Cao, Cheng Li, Mao Yang | ![]() | GitHub Kertas |
Int-Flastattention: Mengaktifkan perhatian flash untuk kuantisasi int8 Shimao Chen, Zirui Liu, Zhiying Wu, Ce Zheng, Peizhuang Cong, Zihan Jiang, Yuhan Wu, Lei Su, Tong Yang | GitHub Kertas | |
| Kuantisasi pasca-pelatihan akumulator-sadar Ian Colbert, Fabian Grob, Giuseppe Franco, Jinjie Zhang, Rayan Saab | Kertas | |
Duquant: Mendistribusikan outlier melalui transformasi ganda membuat LLMS kuantisasi yang lebih kuat Haokun Lin, Haobo Xu, Yichen Wu, Jingzhi Cui, Yingtao Zhang, Linzhan Mou, Linqi Song, Zhenan Sun, Ying Wei | ![]() | GitHub Kertas |
| Evaluasi komprehensif model bahasa besar yang disesuaikan dengan instruksi yang dikuantisasi: analisis eksperimental hingga 405b Jemin Lee, Taman Sihyeong, Jinse Kwon, Jihun Oh, Yongin Kwon | Kertas | |
| Keunikan LLAMA3-70B dengan kuantisasi per-saluran: studi empiris Minghai Qin | Kertas |
| Judul & Penulis | Perkenalan | Tautan |
|---|---|---|
Deja Vu: Sparsity kontekstual untuk LLM yang efisien pada waktu inferensi Zichang Liu, Jue Wang, Tri Dao, Tianyi Zhou, Binhang Yuan, Lagu Zhao, Anshumali Shrivastava, Ce Zhang, Yuandong Tian, Christopher RE, Beidi Chen | ![]() | GitHub Kertas |
Specinfer: Accelerating Generative LLM Melayani dengan inferensi spekulatif dan verifikasi pohon token Xupeng Miao, Gabriele Oliaro, Zhihao Zhang, Xinhao Cheng, Zeyu Wang, Rae Ying Yee Wong, Zhuoming Chen, Daiyaan Arfeen, Reyna Abhyankar, Zhihao Jia | ![]() | GitHub kertas |
Model bahasa streaming yang efisien dengan wastafel perhatian Xiao Guangxuan, Yuandong Tian, Beidi Chen, Song Han, Mike Lewis | ![]() | GitHub Kertas |
Eagle: akselerasi decoding LLM lossless dengan fitur ekstrapolasi Yuhui Li, Chao Zhang, dan Hongyang Zhang | ![]() | GitHub Blog |
Medusa: Kerangka kerja akselerasi inferensi LLM sederhana dengan beberapa kepala decoding Tianle Cai, Yuhong Li, Zhengyang Geng, Hongwu Peng, Jason D. Lee, Deming Chen, Tri Dao | GitHub Kertas | |
| Decoding spekulatif dengan model draf berbasis CTC untuk akselerasi inferensi LLM Zhuofan Wen, Shangtong Gui, Yang Feng | Kertas | |
| PLD+: Akselerasi inferensi LLM dengan memanfaatkan artefak model bahasa Shwetha Somasundaram, Anirudh Phukan, Apoorv Saxena | Kertas | |
Fastdraft: Cara Melatih Draf Anda Ofir Zafrir, Igor Margulis, Dorin Shteyman, Guy Boudoukh | Kertas | |
SMOA: Meningkatkan model bahasa multi-agen besar dengan campuran agen yang jarang Dawei Li, Zhen Tan, Peijia Qian, Yifan Li, Kumar Satvik Chaudhary, Lijie Hu, Jiayi Shen | ![]() | GitHub Kertas |
| N-Grammy: Akselerasi Inferensi Autoregresif dengan Spekulasi Batched-Free Batched Lawrence Stewart, Matthew Trager, Sujan Kumar Gonugondla, Stefano Soatto | Kertas | |
| Inferensi AI yang dipercepat melalui metode eksekusi dinamis Haim Barad, Jascha Achterberg, Tien Pei Chou, Jean Yu | Kertas | |
| SuffixDecoding: Pendekatan bebas model untuk mempercepat inferensi model bahasa besar Gabriele Oliaro, Zhihao Jia, Daniel Campos, Aurick Qiao | Kertas | |
| Perencanaan strategi dinamis untuk menjawab pertanyaan yang efisien dengan model bahasa besar Tanmay Parekh, Pradyot Prakash, Alexander Radovic, Akshay Shekher, Denis Savenkov | Kertas | |
MagicPig: LSH Sampling untuk generasi LLM yang efisien Zhuoming Chen, Ranajoy Sadhukhan, Zihao Ye, Yang Zhou, Jianyu Zhang, Niklas Nolte, Yuandong Tian, Matthijs Douze, Leon Bottou, Zhihao Jia, Beidi Chen | GitHub Kertas | |
| Model bahasa yang lebih cepat dengan prediksi multi-token yang lebih baik menggunakan dekomposisi tensor Artem Basharin, Andrei Chertkov, Ivan Oseledets | ![]() | Kertas |
| Inferensi yang efisien untuk model bahasa besar augmented Rana Shahout, Cong Liang, Shiji Xin, Qianru Lao, Yong Cui, Minlan Yu, Michael Mitzenmacher | Kertas | |
Pemangkasan kosakata dinamis di LLMS ENDER-EXIT Jort Vincenti, Karim Abdel Sadek, Joan Velja, Matteo Nulli, Metod Jazbec | ![]() | GitHub Kertas |
CoreInfer: Mempercepat inferensi model bahasa besar dengan aktivasi jarang adaptif yang terinspirasi semantik Qinsi Wang, Saeed Vahidian, Hancheng Ye, Jianyang Gu, Jianyi Zhang, Yiran Chen | GitHub Kertas | |
Duoattention: Inferensi LLM Long Context Efisien dengan Pengambilan dan Kepala Streaming Xiao Guangxuan, Jiaming Tang, Jingwei Zuo, Junxian Guo, Shang Yang, Haotian Tang, Yao Fu, Song Han | ![]() | GitHub Kertas |
| DYSPEC: Decoding spekulatif lebih cepat dengan struktur pohon token dinamis Yunfan Xiong, Ruoyu Zhang, Yanzeng Li, Tianhao Wu, Lei Zou | Kertas | |
| QSPEC: Decoding spekulatif dengan skema kuantisasi komplementer Juntao Zhao, Wenhao Lu, Sheng Wang, Lingpeng Kong, Chuan Wu | Kertas | |
| Tidaldecode: decoding llm cepat dan akurat dengan posisi perhatian jarang persisten LiJie Yang, Zhihao Zhang, Zhuofu Chen, Zikun Li, Zhihao Jia | Kertas | |
| Parallelspec: Drafter paralel untuk decoding spekulatif yang efisien Zilin Xiao, Hongming Zhang, Tao GE, Siru Ouyang, Vicente Ordonez, Dong Yu | Kertas | |
SWIFT: Dekode spekulatif mandiri on-the-fly untuk akselerasi inferensi LLM Heming Xia, Yongqi Li, Jun Zhang, Cunxiao Du, Wenjie LI | ![]() | GitHub Kertas |
Turborag: Generasi Accelerating Retrieval-Agusted dengan cache KV yang telah dikomputasi untuk teks chunked Songshuo Lu, Hua Wang, Yutian Rong, Zhi Chen, Yaohua Tang | ![]() | GitHub Kertas |
| Sedikit berjalan jauh: pelatihan konteks panjang yang efisien dan inferensi dengan konteks parsial Suyu Ge, Xihui Lin, Yunan Zhang, Jiawei Han, Hao Peng | Kertas | |
| Mnemosyne: Strategi Paralelisasi untuk Melayani Efisien Multi-Juta Konteks Panjang LLM Permintaan Inferensi Tanpa Perkiraan Amey Agrawal, Junda Chen, íñigo Goiri, Ramachandran Ramjee, Chaojie Zhang, Alexey Tumanov, Esha Choukse | Kertas | |
Menemukan Permata di Lapisan Awal: Mempercepat LLMS Context Long dengan 1000x Input Token Reduction Zhenmei Shi, Yifei Ming, Xuan-Phi Nguyen, Yingyu Liang, Shafiq Joty | GitHub Kertas | |
| Decoding balok spekulatif lebar dinamis untuk inferensi LLM yang efisien Zongyue Qin, Zifan He, Neha Prakriya, Jason Cong, Yizhou Sun | Kertas | |
Critiprefill: Pendekatan berbasis kritis segi segmen untuk mempercepat percepatan di LLMS Junlin LV, Yuan Feng, Xike Xie, Xin Jia, Qirong Peng, Guiming Xie | GitHub Kertas | |
| Pengambilan: Mempercepat Inferensi LLM Long-Context Melalui Pengambilan Vektor Di Liu, Meng Chen, Baotong Lu, Huiqiang Jiang, Zhenhua Han, Qianxi Zhang, Qi Chen, Chengruidong Zhang, Bailu Ding, Kai Zhang, Chen Chen, Fan Yang, Yuqing Yang, Lili Qiu, Chen, Fan Yang, Yuqing Yang, Lili Qiu, Chen, Fan Yang, Yuqing Yang, Lili Qiu Qiu, Chen, Fan Yang, Yuqing, Lili Qiu qiu Qiu Qiu Qiu Qiu Qiu Qiu Qiu Qiu Qiu Qiu Qiu, Chen, Fan Yang, Yang, Lili Qiu, Lili Qiu, Lili Qiu, Chen, | Kertas | |
Sirius: Sparsity kontekstual dengan koreksi untuk LLM yang efisien Yang Zhou, Zhuoming Chen, Zhaozhuo Xu, Victoria Lin, Beidi Chen | GitHub Kertas | |
OneGen: Generasi dan Pengambilan Terpadu One-Pass yang Efisien untuk LLMS Jintian Zhang, Cheng Peng, Mengshu Sun, Xiang Chen, Lei Liang, Zhiqiang Zhang, Jun Zhou, Huajun Chen, Ningyu Zhang | ![]() | GitHub Kertas |
| Konsistensi jalur: Peningkatan awalan untuk inferensi yang efisien di LLM Jiace Zhu, Yingtao Shen, Jie Zhao, An Zou | Kertas | |
| Meningkatkan decoding spekulatif lossless melalui pengambilan sampel fitur dan distilasi penyelarasan parsial Lujun Gui, bin Xiao, Lei Su, Weipeng Chen | Kertas |
| Judul & Penulis | Perkenalan | Tautan |
|---|---|---|
Inferensi cepat model bahasa campuran dengan pembongkaran Artyom Eliseev, Denis Mazur | ![]() | GitHub Kertas |
Kondensasi, jangan hanya memangkas: meningkatkan efisiensi dan kinerja dalam pemangkasan lapisan MOE Mingyu Cao, Jenderal Li, Jie Ji, Jiaqi Zhang, Xiaolong MA, Shiwei Liu, Lu Yin | GitHub Kertas | |
| Campuran Pakar Kondisional cache untuk inferensi perangkat seluler yang efisien Andrii Skliar, Ties Van Rozendaal, Romain Lepert, Todor Boinovski, Mart Van Baalen, Markus Nagel, Paul Whatmough, Babak Ehteshami Bejnordi | Kertas | |
Monta: Pelatihan Campuran Pengawas Akselerasi dengan Optimasi Paralel Network-Traffc-Aware Parallel Jingming Guo, Yan Liu, Yu Meng, Zhiwei Tao, Banglan Liu, Gang Chen, Xiang Li | GitHub Kertas | |
MOE-I2: Campuran Model Pakar Mengompres melalui pemangkasan antar-ekspert dan dekomposisi peringkat rendah Cheng Yang, Yang Sui, Jinqi Xiao, Lingyi Huang, Yu Gong, Yuanlin Duan, Wenqi Jia, Miao Yin, Yu Cheng, Bo Yuan | GitHub Kertas | |
| Hobbit: Sistem Offloading Pakar Presisi Campuran untuk Inferensi MOE Cepat Peng Tang, Jiacheng Liu, Xiaofeng Hou, Yifei PU, Jing Wang, Pheng-Ann Heng, Chao Li, Minyi Guo | Kertas | |
| Promoe: LLM berbasis MOE cepat melayani menggunakan caching proaktif Lagu Xiaoniu, Zihang Zhong, Rong Chen | Kertas | |
| Firstflow: Aktivasi ahli yang dioptimalkan dan alokasi token untuk inferensi campuran-eksperta yang efisien Xin He, Shunkang Zhang, Yuxin Wang, Haiyan Yin, Zihao Zeng, Shaohuai Shi, Zhenheng Tang, Xiaowen Chu, Ivor Tsang, Ong Yew Segera | Kertas | |
| EPS-MOE: Penjadwal Pipa Pakar untuk Inferensi MOE yang hemat biaya Yulei Qian, Fengcun Li, Xiangyang JI, Xiaoyu Zhao, Jianchao Tan, Kefeng Zhang, Xunliang Cai | Kertas | |
MC-Moe: Kompresor campuran untuk campuran LLMS memperoleh lebih banyak Wei Huang, Yue Liao, Jianhui Liu, Ruifei He, Haoru Tan, Shiming Zhang, Hongsheng Li, Si Liu, XiaoJuan Qi | ![]() | GitHub Kertas |
| Judul & Penulis | Perkenalan | Tautan |
|---|---|---|
Mobillama: Menuju GPT yang akurat dan ringan dan ringan Omkar Thawakar, Ashmal Vayani, Salman Khan, Hisham Cholakal, Rao M. Anwer, Michael Felsberg, Tim Baldwin, Eric P. Xing, Fahad Shahbaz Khan | ![]() | GitHub Kertas Model |
Megalodon: pretraining dan inferensi LLM yang efisien dengan panjang konteks yang tidak terbatas Xuezhe Ma, Xiaomeng Yang, Wenhan Xiong, Beidi Chen, Lili Yu, Hao Zhang, Jonathan May, Luke Zettlemoyer, Omer Levy, Chunting Zhou | ![]() | GitHub Kertas |
| Taipan: Model bahasa ruang angkasa yang efisien dan ekspresif dengan perhatian selektif Chien Van Nguyen, Huy Huu Nguyen, Thang M. Pham, Ruiyi Zhang, Hanieh Deilamsalehy, Puneet Mathur, Ryan A. Rossi, Trung Bui, Viet Dac, Franck Dernoncourt, Thien Huu Nguyen | Kertas | |
Seerattention: Belajar perhatian intrinsik jarang di LLMS Anda Yizhao Gao, Zhichen Zeng, Dayou Du, Shijie Cao, Hayden Kwok-Hay So, Ting Cao, Fan Yang, Mao Yang | GitHub Kertas | |
Berbagi Dasar: Berbagi Parameter Lintas Laut untuk Kompresi Model Bahasa Besar Jingcun Wang, Yu-Guang Chen, ing-chao Lin, Bing Li, Grace Li Zhang | GitHub Kertas | |
| Rodimus*: melanggar trade-off akurasi-efisiensi dengan perhatian yang efisien Zhihao he, hang yu, zi gong, shizhan liu, jianguo li, weiyao lin | Kertas |
| Judul & Penulis | Perkenalan | Tautan |
|---|---|---|
| Model memberi tahu Anda apa yang harus dibuang: Kompresi cache KV adaptif untuk LLMS Suyu GE, Yunan Zhang, Liyuan Liu, Minjia Zhang, Jiawei Han, Jianfeng Gao | ![]() | Kertas |
| Clusterkv: memanipulasi cache llm kv di ruang semantik untuk kompresi yang dapat ditarik kembali Guangda Liu, Chengwei LI, Jieru Zhao, Chenqi Zhang, Minyi Guo | Kertas | |
| Menyatukan kompresi cache kv untuk model bahasa besar dengan leankv Yanqi Zhang, Yuwei Hu, Runyuan Zhao, John CS Lui, Haibo Chen | Kertas | |
| Cache KV mengompresi untuk inferensi LLM Long Context dengan kesamaan perhatian antar-lapis Da Ma, Lu Chen, Situo Zhang, Yuxun Miao, Su Zhu, Zhi Chen, Hongshen Xu, Hanqi LI, kipas Shuai, Lei Pan, Kai Yu | Kertas | |
| Minikv: Mendorong batas inferensi LLM melalui cache KV-diskriminatif 2-bit Akshat Sharma, Hangliang Ding, Jianping Li, Neel Dani, Minjia Zhang | Kertas | |
| Tokenselect: inferensi konteks panjang yang efisien dan ekstrapolasi panjang untuk LLMS melalui pemilihan cache KV tingkat token dinamis Wei Wu, Zhuoshi Pan, Chao Wang, Liyi Chen, Yunchu Bai, Kun Fu, Zheng Wang, Hui Xiong | Kertas | |
Tidak semua Heads Matter: Metode kompresi cache KV tingkat head dengan pengambilan dan penalaran terintegrasi Yu Fu, Zefan Cai, Abedelkadir Asi, Wayne Xiong, Yue Dong, Wen Xiao | ![]() | GitHub Kertas |
Buzz: cache KV jarang terstruktur dengan sarang lebah dengan pemukul berat tersegmentasi untuk inferensi LLM yang efisien Junqi Zhao, Zhijin Fang, Shu Li, Shaohui Yang, Shichao He | GitHub Kertas | |
Studi sistematis berbagi kV lintas-lapisan untuk inferensi LLM yang efisien Kamu wu, haoyi wu, kewei tu | ![]() | GitHub Kertas |
| Kompresi cache KV lossless menjadi 2% Zhen Yang, Jnhan, Kan Wu, Ruobing Xie, An Wang, Xingwu Sun, Zhanhui Kang | Kertas | |
| Matryoshkakv: Kompresi KV adaptif melalui proyeksi ortogonal yang dapat dilatih Bokai Lin, Zihao Zeng, Zipeng Xiao, Siqi Kou, Tianqi Hou, Xiaofeng Gao, Hao Zhang, Zhijie Deng | Kertas | |
Kuantisasi vektor residual untuk kompresi cache kV dalam model bahasa besar Ankur Kumar | GitHub Kertas | |
Kvsharer: Inferensi yang efisien melalui Berbagi cache KV yang berbeda-beda Yifei Yang, Zouiing Cao, Qiguang Chen, Libo Qin, Dongjie Yang, Hai Zhao, Zhi Chen | ![]() | GitHub Kertas |
| LORC: Kompresi peringkat rendah untuk cache LLMS KV dengan strategi kompresi progresif Rongzhi Zhang, Kuang Wang, Liyuan Liu, Shuohang Wang, Hao Cheng, Chao Zhang, Yelong Shen | ![]() | Kertas |
| SWIFTKV: Inferensi yang dioptimalkan dengan prefill cepat dengan transformasi model pemeliharaan pengetahuan Aurick Qiao, Zhewei Yao, Samyam Rajbhandari, Yuxiong HE | Kertas | |
Kompresi memori dinamis: retrofitting llms untuk inferensi yang dipercepat Piotr Nawrot, Adrian łańcucki, Marcin Chochowski, David Tarjan, Edoardo M. Ponti | ![]() | Kertas |
| KV-Compress: Paged KV-Cache Compression dengan tingkat kompresi variabel per kepala perhatian Isaac Rehg | Kertas | |
ADA-KV: Mengoptimalkan penggusuran cache KV dengan alokasi anggaran adaptif untuk inferensi LLM yang efisien Yuan Feng, Junlin LV, Yukun Cao, Xike Xie, S. Kevin Zhou | ![]() | GitHub Kertas |
AlignedKv: Mengurangi akses memori cache KV dengan kuantisasi yang diselesaikan dengan presisi Yifan Tan, Haoze Wang, Chao Yan, Yangdong Deng | GitHub Kertas | |
| CSKV: Saluran hemat pelatihan menyusut untuk cache KV dalam skenario konteks panjang Luning Wang, Shiyao Li, Xuefei Ning, Zhihang Yuan, Shengen Yan, Guohao Dai, Yu Wang | Kertas | |
| Pandangan pertama pada inferensi LLM di perangkat yang efisien dan aman terhadap kebocoran KV Huan Yang, Deyu Zhang, Yudong Zhao, Yuanchun Li, Yunxin Liu | Kertas |
| Judul & Penulis | Perkenalan | Tautan |
|---|---|---|
Llmlingua: compressing prompts untuk inferensi yang dipercepat dari model bahasa besar Huiqiang Jiang, Qianhui Wu, Chin-Yew Lin, Yuqing Yang, Lili Qiu | ![]() | GitHub Kertas |
Longllmlingua: mempercepat dan meningkatkan LLM dalam skenario konteks panjang melalui kompresi yang cepat Huiqiang Jiang, Qianhui Wu, Xufang Luo, Dongsheng Li, Chin-Yew Lin, Yuqing Yang, Lili Qiu | ![]() | GitHub Kertas |
| JPPO: Daya Gabungan dan Optimalisasi Segera untuk Layanan Model Bahasa Besar yang Dipercepat Feiran You, Hongyang Du, Kaibin Huang, Abbas Jamalipour | Kertas | |
Distilasi Konteks Generatif Haebin Shin, Lei Ji, Yeyun Gong, Sungdong Kim, Eunbi Choi, Minjoon Seo | ![]() | GitHub Kertas |
MULTITOK: Tokenisasi panjang variabel untuk LLM yang efisien diadaptasi dari kompresi LZW Noel Elias, Homa Esfahanizadeh, Kaan Kale, Sriram Vishwanath, Muriel Medard | GitHub Kertas | |
Selection-P: Kompresi cepat agnostik-agnostik yang di-swadaya untuk kesetiaan dan transferabilitas Tsz Ting Chung, Leyang Cui, Lemao Liu, Xinting Huang, Shuming Shi, Dit-Yan Yeung | Kertas | |
Dari Membaca hingga Mengompresi: Menjelajahi Pembaca Multi-Dokumen untuk Kompresi Segera Eunseong Choi, Suncyung Lee, Minjin Choi, June Park, Jongwuk Lee | Kertas | |
| Kompresor Persepsi: Metode kompresi cepat bebas pelatihan dalam skenario konteks panjang Jiwei Tang, Jin Xu, Tingwei Lu, Hai Lin, Yiming Zhao, Hai-Tao Zheng | Kertas | |
Finezip: Mendorong batas model bahasa besar untuk kompresi teks lossless praktis Fazal Mittu, Yihuan Bu, Akshat Gupta, Ashok Devireddy, Alp Eren Ozdarendeli, Anant Singh, Gopala Anumanchipalli | GitHub Kertas | |
Parse Trees Dipandu LLM Compress Compression Wenhao Mao, Chengbin Hou, Tianyu Zhang, Xinyu Lin, Ke Tang, Hairong LV | GitHub Kertas | |
Alphazip: Kompresi teks lossless yang ditingkatkan jaringan saraf Swathi Shree Narashiman, Nitin Chandrachoodan | GitHub Kertas | |
| Taco-RL: Tugas sadar optimasi kompresi cepat dengan pembelajaran penguatan Shivam Shandilya, Mengglin Xia, Supriyo Ghosh, Huiqiang Jiang, Jue Zhang, Qianhui Wu, Victor Rühle | Kertas | |
| Distilasi konteks LLM yang efisien Rajesh Upadhayayaya, Zachary Smith, Chritopher Kottmyer, Manish Raj Osti | Kertas | |
Meningkatkan dan mempercepat model bahasa besar melalui kompresi kontekstual yang sadar instruksi Haowen Hou, Fei MA, Binwen Bai, Xinxin Zhu, Fei Yu | GitHub Kertas |
| Judul & Penulis | Perkenalan | Tautan |
|---|---|---|
Galore Alami: Galore yang mempercepat untuk pelatihan dan penyempurnaan LLM yang efisien memori Arijit Das | GitHub Kertas | |
| Compact: Aktivasi terkompresi untuk pelatihan LLM yang hemat memori Yara Shamshoum, Nitzan Hodos, Yuval Sieradzki, Assaf Schuster | Kertas | |
ESPACE: Dimensionality Reduction of Activations for Model Compression Charbel Sakr, Brucek Khailany | ![]() | Kertas |
| Title & Authors | Perkenalan | Tautan |
|---|---|---|
| FastSwitch: Optimizing Context Switching Efficiency in Fairness-aware Large Language Model Serving Ao Shen, Zhiyao Li, Mingyu Gao | Kertas | |
| CE-CoLLM: Efficient and Adaptive Large Language Models Through Cloud-Edge Collaboration Hongpeng Jin, Yanzhao Wu | Kertas | |
| Ripple: Accelerating LLM Inference on Smartphones with Correlation-Aware Neuron Management Tuowei Wang, Ruwen Fan, Minxing Huang, Zixu Hao, Kun Li, Ting Cao, Youyou Lu, Yaoxue Zhang, Ju Ren | Kertas | |
ALISE: Accelerating Large Language Model Serving with Speculative Scheduling Youpeng Zhao, Jun Wang | Kertas | |
| EPIC: Efficient Position-Independent Context Caching for Serving Large Language Models Junhao Hu, Wenrui Huang, Haoyi Wang, Weidong Wang, Tiancheng Hu, Qin Zhang, Hao Feng, Xusheng Chen, Yizhou Shan, Tao Xie | Kertas | |
SDP4Bit: Toward 4-bit Communication Quantization in Sharded Data Parallelism for LLM Training Jinda Jia, Cong Xie, Hanlin Lu, Daoce Wang, Hao Feng, Chengming Zhang, Baixi Sun, Haibin Lin, Zhi Zhang, Xin Liu, Dingwen Tao | Kertas | |
| FastAttention: Extend FlashAttention2 to NPUs and Low-resource GPUs Haoran Lin, Xianzhi Yu, Kang Zhao, Lu Hou, Zongyuan Zhan et al | Kertas | |
| POD-Attention: Unlocking Full Prefill-Decode Overlap for Faster LLM Inference Aditya K Kamath, Ramya Prabhu, Jayashree Mohan, Simon Peter, Ramachandran Ramjee, Ashish Panwar | Kertas | |
TPI-LLM: Serving 70B-scale LLMs Efficiently on Low-resource Edge Devices Zonghang Li, Wenjiao Feng, Mohsen Guizani, Hongfang Yu | Github Kertas | |
Efficient Arbitrary Precision Acceleration for Large Language Models on GPU Tensor Cores Shaobo Ma, Chao Fang, Haikuo Shao, Zhongfeng Wang | Kertas | |
OPAL: Outlier-Preserved Microscaling Quantization A ccelerator for Generative Large Language Models Jahyun Koo, Dahoon Park, Sangwoo Jung, Jaeha Kung | Kertas | |
| Accelerating Large Language Model Training with Hybrid GPU-based Compression Lang Xu, Quentin Anthony, Qinghua Zhou, Nawras Alnaasan, Radha R. Gulhane, Aamir Shafi, Hari Subramoni, Dhabaleswar K. Panda | Kertas |
| Title & Authors | Perkenalan | Tautan |
|---|---|---|
| HELENE: Hessian Layer-wise Clipping and Gradient Annealing for Accelerating Fine-tuning LLM with Zeroth-order Optimization Huaqin Zhao, Jiaxi Li, Yi Pan, Shizhe Liang, Xiaofeng Yang, Wei Liu, Xiang Li, Fei Dou, Tianming Liu, Jin Lu | Kertas | |
Robust and Efficient Fine-tuning of LLMs with Bayesian Reparameterization of Low-Rank Adaptation Ayan Sengupta, Vaibhav Seth, Arinjay Pathak, Natraj Raman, Sriram Gopalakrishnan, Tanmoy Chakraborty | Github Kertas | |
MiLoRA: Efficient Mixture of Low-Rank Adaptation for Large Language Models Fine-tuning Jingfan Zhang, Yi Zhao, Dan Chen, Xing Tian, Huanran Zheng, Wei Zhu | Kertas | |
RoCoFT: Efficient Finetuning of Large Language Models with Row-Column Updates Md Kowsher, Tara Esmaeilbeig, Chun-Nam Yu, Mojtaba Soltanalian, Niloofar Yousefi | ![]() | Github Kertas |
Layer-wise Importance Matters: Less Memory for Better Performance in Parameter-efficient Fine-tuning of Large Language Models Kai Yao, Penlei Gao, Lichun Li, Yuan Zhao, Xiaofeng Wang, Wei Wang, Jianke Zhu | Github Kertas | |
Parameter-Efficient Fine-Tuning of Large Language Models using Semantic Knowledge Tuning Nusrat Jahan Prottasha, Asif Mahmud, Md. Shohanur Islam Sobuj, Prakash Bhat, Md Kowsher, Niloofar Yousefi, Ozlem Ozmen Garibay | Kertas | |
QEFT: Quantization for Efficient Fine-Tuning of LLMs Changhun Lee, Jun-gyu Jin, Younghyun Cho, Eunhyeok Park | Github Kertas | |
BIPEFT: Budget-Guided Iterative Search for Parameter Efficient Fine-Tuning of Large Pretrained Language Models Aofei Chang, Jiaqi Wang, Han Liu, Parminder Bhatia, Cao Xiao, Ting Wang, Fenglong Ma | Github Kertas | |
SparseGrad: A Selective Method for Efficient Fine-tuning of MLP Layers Viktoriia Chekalina, Anna Rudenko, Gleb Mezentsev, Alexander Mikhalev, Alexander Panchenko, Ivan Oseledets | Github Kertas | |
| SpaLLM: Unified Compressive Adaptation of Large Language Models with Sketching Tianyi Zhang, Junda Su, Oscar Wu, Zhaozhuo Xu, Anshumali Shrivastava | Kertas | |
Bone: Block Affine Transformation as Parameter Efficient Fine-tuning Methods for Large Language Models Jiale Kang | Github Kertas | |
| Enabling Resource-Efficient On-Device Fine-Tuning of LLMs Using Only Inference Engines Lei Gao, Amir Ziashahabi, Yue Niu, Salman Avestimehr, Murali Annavaram | ![]() | Kertas |
| Title & Authors | Perkenalan | Tautan |
|---|---|---|
| AutoMixQ: Self-Adjusting Quantization for High Performance Memory-Efficient Fine-Tuning Changhai Zhou, Shiyang Zhang, Yuhua Zhou, Zekai Liu, Shichao Weng | ![]() | Kertas |
Scalable Efficient Training of Large Language Models with Low-dimensional Projected Attention Xingtai Lv, Ning Ding, Kaiyan Zhang, Ermo Hua, Ganqu Cui, Bowen Zhou | Github Kertas | |
| Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs Yifei Zhang, Hao Zhu, Aiwei Liu, Han Yu, Piotr Koniusz, Irwin King | Kertas | |
COAT: Compressing Optimizer states and Activation for Memory-Efficient FP8 Training Haocheng Xi, Han Cai, Ligeng Zhu, Yao Lu, Kurt Keutzer, Jianfei Chen, Song Han | ![]() | Github Kertas |
BitPipe: Bidirectional Interleaved Pipeline Parallelism for Accelerating Large Models Training Houming Wu, Ling Chen, Wenjie Yu | ![]() | Github Kertas |
| Title & Authors | Perkenalan | Tautan |
|---|---|---|
| Closer Look at Efficient Inference Methods: A Survey of Speculative Decoding Hyun Ryu, Eric Kim | Kertas | |
LLM-Inference-Bench: Inference Benchmarking of Large Language Models on AI Accelerators Krishna Teja Chitty-Venkata, Siddhisanket Raskar, Bharat Kale, Farah Ferdaus et al | Github Kertas | |
Prompt Compression for Large Language Models: A Survey Zongqian Li, Yinhong Liu, Yixuan Su, Nigel Collier | Github Kertas | |
| Large Language Model Inference Acceleration: A Comprehensive Hardware Perspective Jinhao Li, Jiaming Xu, Shan Huang, Yonghua Chen, Wen Li, Jun Liu, Yaoxiu Lian, Jiayi Pan, Li Ding, Hao Zhou, Guohao Dai | Kertas | |
| A Survey of Low-bit Large Language Models: Basics, Systems, and Algorithms Ruihao Gong, Yifu Ding, Zining Wang, Chengtao Lv, Xingyu Zheng, Jinyang Du, Haotong Qin, Jinyang Guo, Michele Magno, Xianglong Liu | Kertas | |
Contextual Compression in Retrieval-Augmented Generation for Large Language Models: A Survey Sourav Verma | ![]() | Github Kertas |
| Art and Science of Quantizing Large-Scale Models: A Comprehensive Overview Yanshu Wang, Tong Yang, Xiyan Liang, Guoan Wang, Hanning Lu, Xu Zhe, Yaoming Li, Li Weitao | Kertas | |
| Hardware Acceleration of LLMs: A comprehensive survey and comparison Nikoletta Koilia, Christoforos Kachris | Kertas | |
| A Survey on Symbolic Knowledge Distillation of Large Language Models Kamal Acharya, Alvaro Velasquez, Houbing Herbert Song | Kertas |