Une liste organisée pour des modèles efficaces de grande langue
Si vous souhaitez inclure votre article ou devez mettre à jour les détails tels que les informations de conférence ou les URL de code, n'hésitez pas à soumettre une demande de traction. Vous pouvez générer le format Markdown requis pour chaque article en remplissant les informations dans generate_item.py et exécuter python generate_item.py . Nous apprécions chaleureusement vos contributions à cette liste. Alternativement, vous pouvez m'envoyer un e-mail avec les liens vers votre article et votre code, et j'ajouterais votre papier à la liste dans ma première commodité.
Pour chaque sujet, nous avons organisé une liste des articles recommandés qui ont recueilli beaucoup d'étoiles ou de citations de Github.
| Titre et auteurs | Introduction | Links |
|---|---|---|
Sparsegpt: les modèles de langage massifs peuvent être élagués avec précision en un seul coup Elias Frantar, Dan Alistarh | ![]() | Papier github |
LLM-PRUNER: Sur l'élagage structurel des modèles de gros langues Xinyin MA, Gongfan Fang, Xinchao Wang | ![]() | Papier github |
Une approche d'élagage simple et efficace pour les modèles de grandes langues Mingjie Sun, Zhuang Liu, Anna Bair, J. Zico Kolter | ![]() | Github Papier |
Llama cisaillé: accélération du modèle de langue pré-formation via l'élagage structuré Mengzhou Xia, Tianyu Gao, Zhiyuan Zeng, Danqi Chen | ![]() | Github Papier |
| Inférence LLM efficace en utilisant l'élagage d'entrée dynamique et le masquage conscient du cache Marco Federici, Davide Belli, Mart Van Baalen, Amir Jalalirad, Andrii Skliar, Bence Major, Markus Nagel, Paul Whatmough | Papier | |
| Puzzle: NAS basé sur la distillation pour les LLMs optimisés dans l'inférence Akhiad Bercovich, Tomer Ronen, Talor Abramovich, Nir Ailon, Nave Assaf, Mohammad Dabbah et al | Papier | |
Réévaluer l'élagage de la couche dans les LLM: nouvelles idées et méthodes Yao Lu, Hao Cheng, Yujie Fang, Zeyu Wang, Jiaheng Wei, Dongwei Xu, Qi Xuan, Xiaoniu Yang, Zhaowei Zhu | ![]() | Github Papier |
| Importance de la couche et analyse d'hallucination dans des modèles de grande langue via une augmentation de la variance d'activation Song Zichen, Sitan Huang, Yuxin Wu, Zhongfeng Kang | Papier | |
AMOBALLM: Construire des modèles de grande langue de toute forme pour un déploiement efficace et instantané Yonggan Fu, Zhongzhi Yu, Junwei Li, Jiayi Qian, Yongan Zhang, Xiangchi Yuan, Dachuan Shi, Roman Yakunin, Yingyan Celine Lin | Github Papier | |
| Échelle de la loi pour la formation après la formation après l'élagage du modèle Xiaodong Chen, Yuxuan Hu, Jing Zhang, Xiaokang Zhang, Cuiping Li, Hong Chen | Papier | |
DRPUNING: élagage efficace du modèle de grande langue grâce à une optimisation robuste distributionnelle Hexuan Deng, Wenxiang Jiao, Xuebo Liu, Min Zhang, Zhaopeng Tu | ![]() | Github Papier |
LOI SPARSE: Vers des modèles de grandes langues avec une plus grande rareté d'activation Yuqi Luo, Chenyang Song, Xu Han, Yingfa Chen, Chaojun Xiao, Zhiyuan Liu, Maosong Sun | ![]() | Github Papier |
| AVSS: Évaluation de l'importance de la couche dans les modèles de grands langues via une analyse de la variance de l'activation Zichen Song, Yuxin Wu, Sitan Huang, Zhongfeng Kang | Papier | |
| Tailored-Llama: Optimisation de l'apprentissage à quelques tirs dans des modèles Llama élagués avec des invites spécifiques Danyal Aftab, Steven Davy | Papier | |
LLMCBench: compression de modèle de grande langue pour un déploiement efficace pour un déploiement efficace Ge Yang, Changyi He, Jinyang Guo, Jianyu Wu, Yifu Ding, Aishan Liu, Haotong Qin, Pengliang Ji, Xianglong Liu | ![]() | Github Papier |
| Au-delà de 2: 4: Explorer V: N: M SPARSITÉ D'UNE INFÉRENCE ENFORME DE TRANSFORME SUR LES GPUS Kang Zhao, Tao Yuan, Han Bao, Zhenfeng Su, Chang Gao, Zhaofeng Sun, Zichen Liang, Liping Jing, Jianfei Chen | Papier | |
Evopress: Vers une compression de modèle dynamique optimale via une recherche évolutive Oliver Sieberling, Denis Kuznedelev, Eldar Kurtic, Dan Alistarh | ![]() | Github Papier |
| FedSpallm: élagage fédéré de modèles de grandes langues Guangji Bai, Yijiang LI, Zilinghan Li, Liang Zhao, Kibaek Kim | Papier | |
Modèles de fondation de l'élagage pour une grande précision sans recyclage Pu Zhao, Fei Sun, Xuan Shen, Pinrui Yu, Zhenglun Kong, Yanzhi Wang, Xue Lin | Github Papier | |
| Auto-étalibration pour la quantification et l'élagage du modèle de langue Miles Williams, George Chrysostomou, Nikolaos Aletras | Papier | |
| Méfiez-vous des données d'étalonnage pour l'élagage de grands modèles de langue Yixin Ji, Yang Xiang, Juntao Li, Qingrong Xia, Ping Li, Xinyu Duan, Zhefeng Wang, Min Zhang | Papier | |
Alphapruning: Utilisation de la théorie de la régularisation de soi de plus en plus lourde pour une élagage améliorée par couche de grands modèles de langue Haiquan Lu, Yefan Zhou, Shiwei Liu, Zhangyang Wang, Michael W. Mahoney, Yaoqing Yang | Github Papier | |
| Au-delà des approximations linéaires: une nouvelle approche d'élagage pour la matrice d'attention Yingyu Liang, Jiangxuan Long, Zhenmei Shi, Zhao Song, Yufa Zhou | Papier | |
Disp-llm: élagage structurel indépendant des dimensions pour les modèles de grande langue Shangqian Gao, Chi-Heng Lin, Ting Hua, Tang Zheng, Yilin Shen, Hongxia Jin, Yen-Chang Hsu | Papier | |
Distillation de l'auto-data pour récupérer la qualité dans les modèles de grande langue taillés Vithursan Thangarasa, Ganesh Venkatesh, Nish Sinnadurai, Sean Lie | Papier | |
| LLM-Rank: une approche théorique du graphique pour élagage de grands modèles de langue David Hoffmann, Kailash Budhathoki, Matthaeus Kleindessner | Papier | |
L'ensemble de données C4 est-il optimal pour l'élagage? Une enquête sur les données d'étalonnage pour l'élagage LLM Abhinav Bandari, Lu Yin, Cheng-Yu Hsieh, Ajay Kumar Jaiswal, Tianlong Chen, Li Shen, Ranjay Krishna, Shiwei Liu | Github Papier | |
| ATTENTION POSION DE COPIE DANS L'APPRENTISSAGE EN CONTATE-CONTEXT via l'élagage des neurones Ameen Ali, Lior Wolf, Ivan Titov | ![]() | Papier |
SQFT: Adaptation du modèle à faible coût dans les modèles de fondation clairsemés à faible précision Juan Pablo Munoz, Jinjie Yuan, Nilesh Jain | ![]() | Github Papier |
Maskllm: La rareté semi-structurée apprenable pour les modèles de gros langues Gongfan Fang, Hongxu Yin, Saurav Muralidharan, Greg Heinrich, Jeff Pool, Jan Kautz, Pavlo Molchanov, Xinchao Wang | ![]() | Github Papier |
Rechercher des modèles de langue de grande envergure efficaces Xuan Shen, Pu Zhao, Yifan Gong, Zhenglun Kong, Zheng Zhan, Yushu Wu, Ming Lin, Chao Wu, Xue Lin, Yanzhi Wang | Papier | |
CFSP: Un cadre d'élagage structuré efficace pour les LLM avec des informations d'activation grossières Yuxin Wang, Minghua MA, Zekun Wang, Jingchang Chen, Fan Huiming, Liping Shan, Qing Yang, Dongliang Xu, Ming Liu, Bing Qin | Github Papier | |
| Avoine: élagage de la valeur aberrante à travers une décomposition clairsemée et bas Stephen Zhang, Vardan Papyan | Papier | |
| KVPRUNER: élagage structurel pour des modèles de langage grand plus rapide et économe en mémoire Bo LV, Quan Zhou, Xuanang Ding, Yan Wang, Zeming MA | Papier | |
| Évaluation de l'impact des techniques de compression sur les performances spécifiques aux tâches des modèles de gros langues Bishwash Khanal, Jeffery M. Capone | Papier | |
| Stun: élagage structuré-puis non structuré pour l'élagage de MOE évolutif Jaeseong Lee, Seung-Won Hwang, Aurick Qiao, Daniel F Campos, Zhewei Yao, Yuxiong He | Papier | |
Pat: réglage de l'élagage pour les modèles de grande langue Yijiang Liu, Huanrui Yang, Youxin Chen, Rongyu Zhang, Miao Wang, Yuan Du, Li du du | ![]() | Github Papier |
| Titre et auteurs | Introduction | Links |
|---|---|---|
| Distillation des connaissances des modèles de grande langue Yuxian Gu, Li Dong, Furu Wei, Minlie Huang | ![]() | Github Papier |
| Amélioration des capacités de raisonnement mathématique des modèles de petits langues via une distillation axée sur la rétroaction Xunyu Zhu, Jian Li, Can MA, Weiping Wang | Papier | |
Distillation du contexte génératif Haebin Shin, Lei Ji, Yeyun Gong, Sungdong Kim, Eunbi Choi, Minjoon SEO | ![]() | Github Papier |
| Switch: Étudier avec l'enseignant pour la distillation des connaissances des modèles de grande langue Jahyun Koo, Yerin Hwang, Yongil Kim, Taegwan Kang, Hyunkyung Bae, Kyomin Jung | ![]() | Papier |
Au-delà de l'autorégression: les LLM rapides via l'auto-distillation dans le temps Justin Deschenaux, Caglar Gulcehre | Github Papier | |
| Distillation pré-formation pour les modèles de grande langue: une exploration de l'espace de conception Hao Peng, Xin LV, Yushi Bai, Zijun Yao, Jiajie Zhang, Lei Hou, Juanzi Li | Papier | |
Miniplm: Distillation des connaissances pour les modèles de langue pré-formation Yuxian GU, Hao Zhou, Fandong Meng, Jie Zhou, Minlie Huang | ![]() | Github Papier |
| Distillation de connaissances spéculatives: combler l'écart d'enseignant-élève par l'échantillonnage entrelacé Wenda Xu, Rujun Han, Zifeng Wang, Long T. Le, Dhruv Madeka, Lei Li, William Yang Wang, Rishabh Agarwal, Chen-Yu Lee, Tomas Pfister | Papier | |
| Distillation contrastive évolutive pour l'alignement du modèle linguistique Julian Katz-Samuels, Zheng Li, Hyokun Yun, Priyanka Nigam, Yi Xu, Vaclav Petricek, Bing Yin, Trishil Chilimbi | Papier | |
| Babyllama-2: Les modèles dissuffisés d'ensemble surpassent constamment les enseignants avec des données limitées Jean-Loup Taste, inar timiryasov | Papier | |
| ECHOATT: Assister, copier, puis ajuster pour des modèles de langage plus efficaces Hossein Rajabzadeh, Aref Jafari, Aman Sharma, Benyamin Jami, Hyock Ju Kwon, Ali Ghodsi, Boxing Chen, Mehdi Rezagholizadeh | Papier | |
Skintern: intériorisation des connaissances symboliques pour distiller de meilleures capacités de lit de lit en petits modèles de langue Huanxuan Liao, Shizhu He, Yupu Hao, Xiang Li, Yuanzhe Zhang, Kang Liu, Jun Zhao | Github Papier | |
LLMR: Distillation des connaissances avec une récompense induite par le modèle de langue Dongheng Li, Yongchang Hao, Lili Mou | ![]() | Github Papier |
| Explorer et améliorer le transfert de la distribution dans la distillation des connaissances pour les modèles de langage autorégressif Jun Rao, Xuebo Liu, Zepeng Lin, Liang Ding, Jing Li, Dacheng Tao | Papier | |
| Distillation de connaissances efficace: autonomiser les modèles de petits langues avec des informations sur le modèle des enseignants Mohamad Balout, Ulf Krummack, Gunther Heidemann, Kai-Uwe Kühnberger | Papier | |
Le Mamba dans le lama: distillation et accélération des modèles hybrides Junxiong Wang, Daniele Paliotta, Avner May, Alexander M. Rush, Tri Dao | Github Papier |
| Titre et auteurs | Introduction | Links |
|---|---|---|
GPTQ: quantification post-entraînement précise pour les transformateurs génératifs pré-formés Elias Frantar, Saleh Ashkboos, Torsten Hoefler, Dan Alistarh | ![]() | Github Papier |
Smoothand: quantification post-formation précise et efficace pour les modèles de gros langues Guangxuan Xiao, Ji Lin, Mickael Seznec, Hao Wu, Julien Demouth, Song Han | ![]() | Github Papier |
AWQ: quantification du poids conscient de l'activation pour la compression et l'accélération LLM Ji Lin, Jiaming Tang, Haotian Tang, Shang Yang, Xingyu Dang, Song Han | ![]() | Github Papier |
Omnière: quantification calibrée omnidirectionnelle pour les modèles de gros langues Wenqi Shao, Mengzhao Chen, Zhaoyang Zhang, Peng Xu, Lirui Zhao, Zhiqian Li, Kaipeng Zhang, Peng Gao, Yu Qiao, Ping Luo | ![]() | Github Papier |
| SKIM: Quantification de tout bit poussant les limites de la quantification post-formation Runsheng Bai, Qiang Liu, Bo Liu | Papier | |
| CPTQUANT - Une nouvelle technique de quantification après la formation de précision mixte pour les modèles de grands langues Amitash Nanda, Sree Bhargavi Balija, Debashis Sahoo | Papier | |
Anda: déverrouillage de l'inférence LLM efficace avec un format de données d'activation groupé de longueur variable Chao Fang, Man Shi, Robin Geens, Arne Symons, Zhongfeng Wang, Marian Verhelst | Papier | |
| Mixpe: co-conception de quantification et matériel pour une inférence LLM efficace Yu Zhang, Mingzi Wang, Lancheng Zou, Wulong Liu, Hui-ling Zhen, Mingxuan Yuan, Bei Yu | Papier | |
Bitmod: Accélération du mélange de datatype bit-serial Yuzong Chen, Ahmed F. Abouelhamayed, Xilai Dai, Yang Wang, Marta Andronic, George A. Constantinides, Mohamed S. Abdelfattah | Github Papier | |
| AMXFP4: valeurs aberrantes d'activation de l'approvisionnement avec un point flottant de microscalité asymétrique pour l'inférence LLM 4 bits Panghwan Lee, Jiwoong Park, Jinseok Kim, Yongjik Kim, Jungju Oh, Jinwook Oh, Jungwook Choi | ![]() | Papier |
| Bi-Mamba: Vers des modèles d'espace d'état précis 1 bits Shengkun Tang, Liqun MA, Haonan Li, Mingjie Sun, Zhiqiang Shen | Papier | |
| "Donnez-moi BF16 ou donnez-moi la mort"? Compromis de précision-performance dans la quantification LLM Eldar Kurtic, Alexandre Marques, Shubhra Pandit, Mark Kurtz, Dan Alistarh | Papier | |
| GWQ: Quantification du poids sensible au gradient pour les modèles de grande langue Yihua Shao, Siyu Liang, Xiaolin Lin, Zijian Ling, Zixian Zhu et al | Papier | |
| Une étude complète sur les techniques de quantification pour les modèles de grands langues Jiedong Lang, Zhehao Guo, Shuyu Huang | Papier | |
| Bitnet A4.8: 4 bits Activations pour les LLMS 1 bits Hongyu Wang, Shuming MA, Furu Wei | Papier | |
Tesseraq: quantification post-entraînement LLM ultra bit ultra avec reconstruction de blocs Yuhang Li, Priyadarshini Panda | ![]() | Github Papier |
BitStack: Contrôle de taille à grains fins pour les modèles de langage de grande composition compressés dans des environnements de mémoire variable Xinghao Wang, Pengyu Wang, Bo Wang, Dong Zhang, Yunhua Zhou, Xipeng Qiu | ![]() | Github Papier |
| L'impact des stratégies d'accélération d'inférence sur le biais des LLM Elisabeth Kirsten, Ivan Habernal, Vedant Nanda, Muhammad Bilal Zafar | Papier | |
| Comprendre la difficulté de la quantification post-entraînement à faible précision de modèles de grandes langues Zifei Xu, Sayeh Sharify, Wanzin Yazar, Tristan Webb, Xin Wang | Papier | |
1 bits AI Infra: Partie 1.1, Bitnet Bitnet rapide et sans perte B1.58 Inférence sur les CPU Jinheng Wang, Hansong Zhou, Ting Song, Shaoguang Mao, Shuming MA, Hongyu Wang, Yan Xia, Furu Wei | Github Papier | |
| Quailora: Initialisation consciente de la quantification pour Lora Neal Lawton, Aishwarya Padmakumar, Judith Gaspers, Jack Fitzgerald, Anoop Kumar, Greg Ver Steeg, Aram Galstyan | Papier | |
| Évaluation des modèles de grande langue quantifiés pour la génération de code sur des références en langue à faible ressource Enkhbold nyamsuren | Papier | |
Squeezellm: quantification dense et séparée Sehoon Kim, Coleman Hooper, Amir Gholami, Zhen Dong, Xiuyu Li, Sheng Shen, Michael W. Mahoney, Kurt Keutzer | ![]() | Github Papier |
| Quantification du vecteur pyramide pour les LLM Tycho Fa van Der Ouderaa, Maximilian L. Croci, Agrin Hilmkil, James Hensman | Papier | |
| SeedLM: comprimer les poids LLM dans les graines de générateurs pseudo-aléatoires Rasoul Shafipour, David Harrison, Maxwell Horton, Jeffrey Marker, Houman Bedayat, Sachin Mehta, Mohammad Rastegari, Mahyar Najibi, Saman Naderiparizi | Papier | |
FLATQUANT: La planéité est importante pour la quantification LLM Yuxuan Sun, Ruikang Liu, Haoli Bai, Han Bao, Kang Zhao, Yuening Li, Jiaxin Hu, Xianzhi Yu, Lu Hou, Chun Yuan, Xin Jiang, Wulong Liu, Jun Yao | Github Papier | |
SLIM: un seul coup quantifié clairsemé et une approximation de faible rang des LLM Mohammad Mozaffari, Maryam Mehri Dehnavi | Github Papier | |
| Échelle des lois pour les modèles de grande langue quantifiés après la formation Zifei Xu, Alexander Lan, Wanzin Yazar, Tristan Webb, Sayeh Sharify, Xin Wang | Papier | |
| Approximations continues pour améliorer la formation consciente de la quantification des LLM Il Li, Jianhang Hong, Yuanzhuo Wu, Snehal Adbol, Zonglin Li | Papier | |
DAQ: quantification de poids post-entraînement de la densité pour la LLMS Yingsong Luo, Ling Chen | Github Papier | |
Quamba: une recette de quantification post-formation pour les modèles d'espace d'état sélectif Hung-Yueh Chiang, Chi-Chih Chang, Natalia Frumkin, Kai-Chiang Wu, Diana Marculescu | Github Papier | |
| ASyMV: Activation de la quantification 1 bits du cache KV avec des configurations de quantification asymétrique par couche Qian Tao, Wenyuan Yu, Jingren Zhou | Papier | |
| Quantification de précision mixte par canal pour les modèles de grands langues Zihan Chen, Bike Xie, Jundong Li, Cong Shen | Papier | |
| Décodage progressif de précision mixte pour une inférence LLM efficace Hao Mark Chen, Fuwen Tan, Alexandros Kouris, Royson Lee, fan de Hongxiang, Stylianos I. Venieris | Papier | |
EXAQ: Exponent conscient de la quantification pour l'accélération LLMS Moran Shkolnik, Maxim Fishman, Brian Chmiel, Hilla Ben-Yaacov, Ron Banner, Kfir Yehuda Levy | ![]() | Github Papier |
Prefixquant: la quantification statique bat dynamique grâce à des valeurs aberrantes préfixées dans les LLM Mengzhao Chen, Yi Liu, Jahahao Wang, Yi Bin, Wenqi Shao, Ping Luo | Github Papier | |
Compression extrême de modèles de gros langues via une quantification additive Vage Egiazarian, Andrei Panferov, Denis Kuznedelev, Elias Frantar, Artem Babenko, Dan Alistarh | ![]() | Github Papier |
| Échelle des lois pour la quantification mixte dans les modèles de grande langue Zeyu Cao, Cheng Zhang, Pedro Gimenes, Jianqiao Lu, Jianyi Cheng, Yiren Zhao | ![]() | Papier |
| Palmmbench: une référence complète de modèles compressés de grands langues sur les plates-formes mobiles Yilong Li, Jingyu Liu, Hao Zhang, M Badri Narayanan, Utkarsh Sharma, Shuai Zhang, Pan Hu, Yijing Zeng, Jayaram Raghuram, Suman Banerjee | ![]() | Papier |
| Cradiage: une méthode de quantification post-entraînement avec un noyau de quantification plus petit pour une compression de modèle de langage précis Wenyuan Liu, Xindian MA, Peng Zhang, Yan Wang | Papier | |
| SAGEATTERTITION: Attention 8 bits précise pour l'accélération d'inférence du plug-and-play Jintao Zhang, Jia Wei, Pengle Zhang, Jun Zhu, Jianfei Chen | Papier | |
| L'ajout est tout ce dont vous avez besoin pour les modèles de langage économe en énergie Hongyin Luo, Wei Sun | Papier | |
VPTQ: quantification post-entraînement vectorielle à faible teneur en bit extrêmes pour les modèles de grande langue Yifei Liu, Jicheng Wen, Yang Wang, Shengyu Ye, Li Lyna Zhang, Ting Cao, Cheng Li, Mao Yang | ![]() | Github Papier |
Int-Flashattention: Activer l'attention du flash pour la quantification INT8 Shimao Chen, Zirui Liu, Zhiying Wu, CE Zheng, Peizhuang Cong, Zihan Jiang, Yuhan Wu, Lei Su, Tong Yang | Github Papier | |
| Quantification post-entraînement de l'accumulateur Ian Colbert, Fabian Grob, Giuseppe Franco, Jinjie Zhang, Rayan Saab | Papier | |
DUQUANT: La distribution des valeurs aberrantes via la double transformation rend les LLM quantifiées plus fortes Haukun Lin, Haobo Xu, Yichen Wu, Jingzhi Cui, Yingtao Zhang, Linzhan Mou, Linqi Song, Zhenan Sun, Ying Wei | ![]() | Github Papier |
| Une évaluation complète des modèles de grand langage à réglage de l'enseignement quantifié: une analyse expérimentale jusqu'à 405b Jemin Lee, Sihyeong Park, Jinse Kwon, Jihun Oh, Yongin Kwon | Papier | |
| Le caractère unique de LLAMA3-70B avec quantification par canal: une étude empirique Minghai Qin | Papier |
| Titre et auteurs | Introduction | Links |
|---|---|---|
DEJA VU: Caltuanité contextuelle pour les LLM efficaces au moment de l'inférence Zichang Liu, Jue Wang, Tri Dao, Tianyi Zhou, Binhang Yuan, Zhao Song, Anshumali Shrivastava, CE Zhang, Yuandong Tian, Christopher RE, Beidi Chen | ![]() | Github Papier |
Speinfer: accélération de la LLM générative servant avec une inférence spéculative et une vérification des arbres à jeton Xupeng Miao, Gabriele Oliaro, Zhihao Zhang, Xinhao Cheng, Zeyu Wang, Rae Ying Yee Wong, Zhuoming Chen, Daiyaan Arfeen, Reyna Abhyankar, Zhihao Jia | ![]() | Github papier |
Modèles efficaces de langage de streaming avec des puits d'attention Guangxuan Xiao, Yuandong Tian, Beidi Chen, Song Han, Mike Lewis | ![]() | Github Papier |
Eagle: Accélération sans perte du décodage LLM par extrapolation des fonctionnalités Yuhui Li, Chao Zhang et Hongyang Zhang | ![]() | Github Blog |
MEDUSA: Cadre d'accélération de l'inférence LLM simple avec plusieurs têtes de décodage Tianle Cai, Yuhong Li, Zhengyang Geng, Hongwu Peng, Jason D. Lee, Deming Chen, Tri Dao | Github Papier | |
| Décodage spéculatif avec un modèle de projet basé sur CTC pour l'accélération d'inférence LLM Zhuofan Wen, Shangtong GUI, Yang Feng | Papier | |
| PLD +: accélérer l'inférence LLM en tirant parti des artefacts de modèle de langue Shwetha Somasundaram, Anirudh Phukan, Apoorv Saxena | Papier | |
FastDraft: comment former votre brouillon OFir Zafrir, Igor Margulis, Dorin Shteyman, Guy Boudoukh | Papier | |
SMOA: Amélioration des modèles de langage multi-agents avec un mélange d'agents clairsemé Dawei Li, Zhen Tan, Peijia Qian, Yifan Li, Kumar Satvik Chaudhary, Lijie Hu, Jiayi Shen | ![]() | Github Papier |
| Les n-grammys: accélérer une inférence autorégressive avec des spéculations par lot sans apprentissage Lawrence Stewart, Matthew Trager, Sujan Kumar Gonugondla, Stefano Soatto | Papier | |
| Inférence accélérée par l'IA via des méthodes d'exécution dynamique Haim Barad, Jascha Achterberg, Tien Pei Chou, Jean Yu | Papier | |
| SuffixDecoding: une approche sans modèle pour accélérer l'inférence du modèle de langue importante Gabriele Oliaro, Zhihao Jia, Daniel Campos, Aurick Qiao | Papier | |
| Planification de stratégie dynamique pour une question efficace répondant avec de grands modèles de langue Tanmay Parekh, Pradyot Prakash, Alexander Radovic, Akshay Shekher, Denis Savenkov | Papier | |
MagicPig: Échantillonnage LSH pour une génération LLM efficace Zhuoming Chen, Ranajoy Sadhukhan, Zihao Ye, Yang Zhou, Jianyu Zhang, Niklas Nolte, Yuandong Tian, Matthijs Douze, Leon Bottou, Zhihao Jia, Beidi Chen | Github Papier | |
| Modèles de langage plus rapide avec une meilleure prédiction multi-token utilisant la décomposition du tenseur Artem Basharin, Andrei Chertkov, Ivan Oseledets | ![]() | Papier |
| Inférence efficace pour les modèles de langue de grande envergure augmentée Rana Shahout, Cong Liang, Shiji Xin, Qianru Lao, Yong Cui, Minlan Yu, Michael Mitzenmacher | Papier | |
Élagage du vocabulaire dynamique dans les LLM en début Jort Vincenti, Karim Abdel Sadek, Joan Velja, Matteo Nulli, Metod Jazbec | ![]() | Github Papier |
CoreInfer: accélération de l'inférence du modèle grand langage avec l'activation clairsemée adaptative inspirée de la sémantique Qinsi Wang, Saeed Vahidian, Hancheng Ye, Jianyang GU, Jianyi Zhang, Yiran Chen | Github Papier | |
DuoAttentie: Inférence LLM efficace à long terme avec les têtes de récupération et de streaming Guangxuan Xiao, Jiaming Tang, Jingwei Zuo, Junxian Guo, Shang Yang, Haotian Tang, Yao Fu, Song Han | ![]() | Github Papier |
| Dyspec: décodage spéculatif plus rapide avec structure d'arbre à jeton dynamique Yunfan Xiong, Ruoyu Zhang, Yanzeng Li, Tianhao Wu, Lei Zou | Papier | |
| QSpec: décodage spéculatif avec schémas de quantification complémentaires Juntao Zhao, Wenhao Lu, Sheng Wang, Lingpeng Kong, Chuan Wu | Papier | |
| TidaldeCode: décodage LLM rapide et précis avec position d'attention persistante clairsemée Lijie Yang, Zhihao Zhang, Zhuofu Chen, Zikun Li, Zhihao Jia | Papier | |
| Parallelspec: rédacteur parallèle pour un décodage spéculatif efficace Zilin Xiao, Hongming Zhang, Tao GE, Siru Oulang, Vicente Ordonez, Dong Yu | Papier | |
Swift: décodage auto-spécialisé à la volée pour l'accélération de l'inférence LLM Heming Xia, Yongqi Li, Jun Zhang, Cunxiao DU, Wenjie Li | ![]() | Github Papier |
Turborag: Génération accélérée de la récupération avec des caches KV précomputées pour texte Songshuo Lu, Hua Wang, Yutian Rong, Zhi Chen, Yaohua Tang | ![]() | Github Papier |
| Un peu va un long chemin: une formation efficace de contexte long et une inférence avec des contextes partiels Suyu Ge, Xihui Lin, Yunan Zhang, Jiawei Han, Hao Peng | Papier | |
| MNEMOSYNE: Stratégies de parallélisation pour servir efficacement les demandes d'inférence LLM de longueur de contexte de plusieurs millions de personnes sans approximations Amey Agrawal, Junda Chen, íñigo Goiri, Ramachandran Ramjee, Chaojie Zhang, Alexey Tumanov, Esha Choukse | Papier | |
Découvrir les gemmes dans les premières couches: accélérer les LLM à long contexte avec une réduction de jeton d'entrée 1000x Zhenmei Shi, Yifei Ming, Xuan-Phi Nguyen, Yingyu Liang, Shafiq Joty | Github Papier | |
| Décodage de faisceau spéculatif de largeur dynamique pour une inférence LLM efficace Zongyue Qin, Zifan He, Neha Prakriya, Jason Cong, Yizhou Sun | Papier | |
CritipRefill: une approche basée sur la criticité du segment pour le préfills d'accélération dans les LLM Junlin LV, Yuan Feng, Xike Xie, Xin Jia, Qirong Peng, Guiming Xie | Github Papier | |
| RetrievalAntitention: Accélération de l'inférence LLM à long contexte via Vector Retrieval Di Liu, Meng Chen, Baotong Lu, Huiqiang Jiang, Zhenhua Han, Qianxi Zhang, Qi Chen, Chengruidong Zhang, Bailu Ding, Kai Zhang, Chen Chen, fan Yang, Yuqing Yang, Lili Qiu | Papier | |
Sirius: rareté contextuelle avec correction pour les LLM efficaces Yang Zhou, Zhuoming Chen, Zhaozhuo Xu, Victoria Lin, Beidi Chen | Github Papier | |
OneGen: Génération et récupération unifiées à un-passage efficace pour les LLM Jintian Zhang, Cheng Peng, Mengshu Sun, Xiang Chen, Lei Liang, Zhiqiang Zhang, Jun Zhou, Huajun Chen, Ningyu Zhang | ![]() | Github Papier |
| Path-Conscience: Amélioration du préfixe pour une inférence efficace dans LLM Jiace Zhu, Yingtao Shen, Jie Zhao, un Zou | Papier | |
| Stimulation de décodage spéculatif sans perte via l'échantillonnage des fonctionnalités et la distillation d'alignement partielle Lujun Gui, Bin Xiao, Lei Su, Weipeng Chen | Papier |
| Titre et auteurs | Introduction | Links |
|---|---|---|
Inférence rapide des modèles de langage du mélange de réductions avec déchargement Artyom Eliseev, Denis Mazur | ![]() | Github Papier |
Condense, ne vous contentez pas de tailler: améliorer l'efficacité et les performances dans l'élagage de la couche MOE Mingyu Cao, Gen Li, Jie Ji, Jiaqi Zhang, Xiaolong MA, Shiwei Liu, Lu Yin | Github Papier | |
| Mélange d'experts du cache conditionnel pour une inférence efficace sur l'appareil mobile Andrii Skliar, liens Van Rozendaal, Romain Lepert, Todor Boinovski, Mart van Baalen, Markus Nagel, Paul Whatmough, Babak Ehteshami Bejnordi | Papier | |
Monta: accélération de la formation du mélange de réseaux avec l'optimisation parallèle du réseau de réseau Jingming Guo, Yan Liu, Yu Meng, Zhiwei Tao, Banglan Liu, Gang Chen, Xiang Li | Github Papier | |
MOE-I2: Compression du mélange de modèles d'experts à travers l'élagage entre les expressions et la décomposition de faible rang Cheng Yang, Yang Sui, Jinqi Xiao, Lingyi Huang, Yu Gong, Yuanlin Duan, Wenqi Jia, Miao Yin, Yu Cheng, Bo Yuan | Github Papier | |
| Hobbit: un système de déchargement d'experts de précision mixte pour l'inférence FAST MOE Peng Tang, Jiacheng Liu, Xiaofeng Hou, Yifei Pu, Jing Wang, Pheng-Ann Heng, Chao Li, Minyi Guo | Papier | |
| PROMOE: Fast MOE LLM Serving Utilisation de la mise en cache proactive Xiaoniu Song, Zihang Zhong, Rong Chen | Papier | |
| Experteflow: activation experte optimisée et allocation de jetons pour une inférence efficace du mélange de mixages Xin He, Shunkang Zhang, Yuxin Wang, Haiyan Yin, Zihao Zeng, Shaohuai Shi, Zhenheng Tang, Xiaowen Chu, Ivor Tsang, Ong Yew bientôt | Papier | |
| EPS-MOE: Planiseur de pipelines experts pour une inférence MOE rentable Yulei Qian, Fengcun Li, Xiangyang Ji, Xiaoyu Zhao, Jianchao Tan, Kefeng Zhang, Xunliang Cai | Papier | |
MC-MOE: Compresseur du mélange pour le mélange de LLM Wei Huang, Yue Liao, Jianhui Liu, Ruifei He, Haoru Tan, Shiming Zhang, Hongsheng Li, Si Liu, Xiaojuan Qi | ![]() | Github Papier |
| Titre et auteurs | Introduction | Links |
|---|---|---|
Mobillama: vers un GPT précis et léger entièrement transparent Omkar Thawakar, Ashmal Vayani, Salman Khan, Hisham Cholakal, Rao M. Anwer, Michael Felsberg, Tim Baldwin, Eric P. Xing, Fahad Shahbaz Khan | ![]() | Github Papier Modèle |
Megalodon: pré-formation et inférence LLM efficace avec la longueur du contexte illimité Xuezhe MA, Xiaomeng Yang, Wenhan Xiong, Beidi Chen, Lili Yu, Hao Zhang, Jonathan May, Luke Zettlemoyer, Omer Levy, Chunting Zhou | ![]() | Github Papier |
| Taipan: modèles de langage d'espace d'état efficaces et expressifs avec une attention sélective Chien Van Nguyen, Huy Huu Nguyen, Thang M. Pham, Ruiyi Zhang, Hanieh Deilamsalehy, Puneet Mathur, Ryan A. Rossi, Trung Bui, Viet Dac Lai, Franck Dernoncourt, Thien Huu Nguyen | Papier | |
SeerAntité: apprendre l'attention intrinsèque clairsemée dans vos LLM Yizhao Gao, Zhichen Zeng, Dayou Du, Shijie Cao, Hayden Kwok-Hay So, Ting Cao, fan Yang, Mao Yang | Github Papier | |
Partage de base: partage de paramètres de couche transversale pour une compression de modèle de grande langue Jingcun Wang, Yu-Guang Chen, Ing-Chao Lin, Bing Li, Grace Li Zhang | Github Papier | |
| Rodimus *: brisant le compromis d'exactitude-efficacité avec des attentions efficaces Zhihao He, Hang Yu, Zi Gong, Shizhan Liu, Jianguo Li, Weiyao Lin | Papier |
| Titre et auteurs | Introduction | Links |
|---|---|---|
| Le modèle vous indique quoi rejeter: compression adaptative du cache KV pour LLMS Suyu GE, Yunan Zhang, Liyuan Liu, Minjia Zhang, Jiawei Han, Jianfeng Gao | ![]() | Papier |
| Clusterkv: manipulation du cache LLM KV dans l'espace sémantique pour une compression rappelée Guangda Liu, Chengwei Li, Jieru Zhao, Chenqi Zhang, Minyi Guo | Papier | |
| Unification de la compression de cache KV pour les modèles de grands langues avec Leankv Yanqi Zhang, Yuwei Hu, Runyuan Zhao, John CS Lui, Haibo Chen | Papier | |
| Compression du cache KV pour l'inférence LLM à long contexte Da Ma, Lu Chen, Situo Zhang, Yuxun Miao, Su Zhu, Zhi Chen, Hongshen Xu, Hanqi Li, Shuai Fan, Lei Pan, Kai Yu | Papier | |
| MINIKV: repousser les limites de l'inférence LLM via un cache KV-discriminatif de couche 2 bits Akshat Sharma, Hangliang Ding, Jianping Li, Neel Dani, Minjia Zhang | Papier | |
| TOKENSELECT: Inférence et longueur de longueur à long contexte efficace pour les LLM via la sélection de cache KV au niveau du jeton dynamique Wei Wu, Zhuoshi Pan, Chao Wang, Liyi Chen, Yunchu Bai, Kun Fu, Zheng Wang, Hui Xiong | Papier | |
Toutes les têtes ne comptent pas: une méthode de compression de cache KV au niveau de la tête avec une récupération et un raisonnement intégrés Yu Fu, Zefan Ci, Abedelkadir Asi, Wayne Xiong, Yue Dong, Wen Xiao | ![]() | Github Papier |
Buzz: cache KV clairsemé structuré de la ruche avec des frappeurs lourds segmentés pour une inférence LLM efficace Junqi Zhao, Zhijin Fang, Shu Li, Shaohui Yang, Shichao He | Github Papier | |
Une étude systématique du partage KV de couches croisées pour une inférence LLM efficace Vous wu, haoyi wu, kewei tu | ![]() | Github Papier |
| Compression de cache KV sans perte à 2% Zhen Yang, Jnhan, Kan Wu, Ruobing Xie, un Wang, Xingwu Sun, Zhanhui Kang | Papier | |
| Matryoshkakv: compression KV adaptative via une projection orthogonale formable Bokai Lin, Zihao Zeng, Zipeng Xiao, Siqi Kou, Tianqi Hou, Xiaofeng Gao, Hao Zhang, Zhijie Deng | Papier | |
Quantification du vecteur résiduel pour la compression du cache KV dans un modèle de grande langue Ankur Kumar | Github Papier | |
KVSHARER: inférence efficace via le partage de cache KV différent par couche Yifei Yang, Zouying Cao, Qiguang Chen, Libo Qin, Dongjie Yang, Hai Zhao, Zhi Chen | ![]() | Github Papier |
| LORC: compression de faible rang pour le cache LLMS KV avec une stratégie de compression progressive Rongzhi Zhang, Kuang Wang, Liyuan Liu, Shuohang Wang, Hao Cheng, Chao Zhang, Yelong Shen | ![]() | Papier |
| SWIFTKV: Inférence rapide sur le préfilé à la transformation du modèle préservant les connaissances Aurick Qiao, Zhewei Yao, Samyam Rajbhandari, Yuxiong He | Papier | |
Compression de mémoire dynamique: Modification des LLM pour une inférence accélérée Piotr Nawrot, Adrian łańcucki, Marcin Chochowski, David Tarjan, Edoardo M. Ponti | ![]() | Papier |
| KV-compress: compression KV-Cache paginée avec des taux de compression variables par tête d'attention Isaac Rehg | Papier | |
ADA-KV: Optimisation de l'expulsion du cache KV par l'allocation budgétaire adaptative pour une inférence LLM efficace Yuan Feng, Junlin LV, Yukun Cao, Xike Xie, S. Kevin Zhou | ![]() | Github Papier |
AlignedKV: Réduction de l'accès à la mémoire de KV-Cache avec une quantification alignée sur la précision Yifan Tan, Haoze Wang, Chao Yan, Yangdong Deng | Github Papier | |
| CSKV: canal économe en formation rétrécissant pour le cache KV dans des scénarios à long contexte Luning Wang, Shiyao Li, Xuefei Ning, Zhihang Yuan, Shegengen Yan, Guohao Dai, Yu Wang | Papier | |
| Un premier aperçu de l'inférence LLM efficace et sécurisée contre la fuite de KV Huan Yang, Deyu Zhang, Yudong Zhao, Yuanchun Li, Yunxin Liu | Papier |
| Titre et auteurs | Introduction | Links |
|---|---|---|
LLMLINGUA: compression des invites à une inférence accélérée des modèles de langue importants Huiqiang Jiang, Qianhui Wu, Chin-Yew Lin, Yuqing Yang, Lili Qiu | ![]() | Github Papier |
Longllmlingua: accélérer et améliorer les LLM dans les scénarios de contexte long via une compression rapide Huiqiang Jiang, Qianhui Wu, Xufang Luo, Dongsheng Li, Chin-Yew Lin, Yuqing Yang, Lili Qiu | ![]() | Github Papier |
| JPPO: puissance conjointe et optimisation rapide pour les services de modèle à grande langue accélérés Feiran You, Hongyang Du, Kaibin Huang, Abbas Jamipour | Papier | |
Distillation du contexte génératif Haebin Shin, Lei Ji, Yeyun Gong, Sungdong Kim, Eunbi Choi, Minjoon SEO | ![]() | Github Papier |
Multitok: Tokenisation de longueur variable pour LLMS efficace Adapté de la compression LZW Noel Elias, Homa Esfahanizadeh, Kaan Kale, Sriram Vishwanath, Muriel Medard | Github Papier | |
Sélection-P: Compression rapide de la tâche auto-supervisée pour la fidélité et la transférabilité Tsz Ting Chung, Leyang Cui, Lemao Liu, Xinting Huang, Shuming Shi, Dit-Yan Yeung | Papier | |
De la lecture à la compression: explorer le lecteur multi-documents pour une compression rapide Eunseong Choi, Sunkyung Lee, Minjin Choi, June Park, Jongwuk Lee | Papier | |
| Compresseur de perception: une méthode de compression rapide sans formation dans des scénarios de contexte long Jiwei Tang, Jin Xu, Tingwei Lu, Hai Lin, Yiming Zhao, Hai-Tao Zheng | Papier | |
Finezip: repousser les limites des modèles de grande langue pour la compression de texte sans perte Fazal Mittu, Yihuan Bu, Akshat Gupta, Ashok Devireddy, Alp Eren Ozdarendeli, Anant Singh, Gopala Anuchianchipalli | Github Papier | |
Parse Trees Guided LLM compression rapide Wenhao Mao, Chengbin Hou, Tianyu Zhang, Xinyu Lin, Ke Tang, Hairong LV | Github Papier | |
Alphazip: compression de texte sans perte améliorée par le réseau neural Swathi Shree Narashiman, Nitin Chandrachoodan | Github Papier | |
| Taco-RL: Optimisation de compression invite de conscience des tâches avec apprentissage en renforcement Shivam Shandilya, Menglin Xia, Supriyo Ghosh, Huiqiang Jiang, Jue Zhang, Qianhui Wu, Victor Rühle | Papier | |
| Distillation de contexte LLM efficace Rajesh Upadhayaya, Zachary Smith, Chritopher Kottmyer, Manish Raj Osti | Papier | |
Amélioration et accélération de modèles de grandes langues via une compression contextuelle consciente de l'enseignement Haowen Hou, Fei MA, Binwen Bai, Xinxin Zhu, Fei Yu | Github Papier |
| Titre et auteurs | Introduction | Links |
|---|---|---|
Natural à gogo: accélérer à gogo pour la formation LLM et le réglage fin économe en mémoire Arijit Das | Github Papier | |
| Compact: activations compressées pour la formation LLM économe en mémoire Yara Shamshoum, Nitzan Hodos, Yuval Sieradzki, Assaf Schuster | Papier | |
Espace: Dimensionnalité Réduction des activations pour la compression du modèle Charbel Sakr, Brucek Khailany | ![]() | Papier |
| Titre et auteurs | Introduction | Links |
|---|---|---|
| FastSwitch: Optimisation de l'efficacité de commutation contextuelle dans le modèle de modèle de grande langue conscient de l'équité AO Shen, Zhiyao Li, Mingyu Gao | Papier | |
| CE-Collm: Modèles de grande langue efficaces et adaptatifs grâce à une collaboration à bord du cloud Hongpeng Jin, Yanzhao Wu | Papier | |
| Ripple: Accélération de l'inférence LLM sur les smartphones avec la gestion des neurones conscients de la corrélation Tuowei Wang, Ruwen Fan, Minxing Huang, Zixu Hao, Kun Li, Ting Cao, Youyou Lu, Yaoxue Zhang, Ju Ren | Papier | |
ALISE: Accelerating Large Language Model Serving with Speculative Scheduling Youpeng Zhao, Jun Wang | Papier | |
| EPIC: Efficient Position-Independent Context Caching for Serving Large Language Models Junhao Hu, Wenrui Huang, Haoyi Wang, Weidong Wang, Tiancheng Hu, Qin Zhang, Hao Feng, Xusheng Chen, Yizhou Shan, Tao Xie | Papier | |
SDP4Bit: Toward 4-bit Communication Quantization in Sharded Data Parallelism for LLM Training Jinda Jia, Cong Xie, Hanlin Lu, Daoce Wang, Hao Feng, Chengming Zhang, Baixi Sun, Haibin Lin, Zhi Zhang, Xin Liu, Dingwen Tao | Papier | |
| FastAttention: Extend FlashAttention2 to NPUs and Low-resource GPUs Haoran Lin, Xianzhi Yu, Kang Zhao, Lu Hou, Zongyuan Zhan et al | Papier | |
| POD-Attention: Unlocking Full Prefill-Decode Overlap for Faster LLM Inference Aditya K Kamath, Ramya Prabhu, Jayashree Mohan, Simon Peter, Ramachandran Ramjee, Ashish Panwar | Papier | |
TPI-LLM: Serving 70B-scale LLMs Efficiently on Low-resource Edge Devices Zonghang Li, Wenjiao Feng, Mohsen Guizani, Hongfang Yu | Github Papier | |
Efficient Arbitrary Precision Acceleration for Large Language Models on GPU Tensor Cores Shaobo Ma, Chao Fang, Haikuo Shao, Zhongfeng Wang | Papier | |
OPAL: Outlier-Preserved Microscaling Quantization A ccelerator for Generative Large Language Models Jahyun Koo, Dahoon Park, Sangwoo Jung, Jaeha Kung | Papier | |
| Accelerating Large Language Model Training with Hybrid GPU-based Compression Lang Xu, Quentin Anthony, Qinghua Zhou, Nawras Alnaasan, Radha R. Gulhane, Aamir Shafi, Hari Subramoni, Dhabaleswar K. Panda | Papier |
| Title & Authors | Introduction | Links |
|---|---|---|
| HELENE: Hessian Layer-wise Clipping and Gradient Annealing for Accelerating Fine-tuning LLM with Zeroth-order Optimization Huaqin Zhao, Jiaxi Li, Yi Pan, Shizhe Liang, Xiaofeng Yang, Wei Liu, Xiang Li, Fei Dou, Tianming Liu, Jin Lu | Papier | |
Robust and Efficient Fine-tuning of LLMs with Bayesian Reparameterization of Low-Rank Adaptation Ayan Sengupta, Vaibhav Seth, Arinjay Pathak, Natraj Raman, Sriram Gopalakrishnan, Tanmoy Chakraborty | Github Papier | |
MiLoRA: Efficient Mixture of Low-Rank Adaptation for Large Language Models Fine-tuning Jingfan Zhang, Yi Zhao, Dan Chen, Xing Tian, Huanran Zheng, Wei Zhu | Papier | |
RoCoFT: Efficient Finetuning of Large Language Models with Row-Column Updates Md Kowsher, Tara Esmaeilbeig, Chun-Nam Yu, Mojtaba Soltanalian, Niloofar Yousefi | ![]() | Github Papier |
Layer-wise Importance Matters: Less Memory for Better Performance in Parameter-efficient Fine-tuning of Large Language Models Kai Yao, Penlei Gao, Lichun Li, Yuan Zhao, Xiaofeng Wang, Wei Wang, Jianke Zhu | Github Papier | |
Parameter-Efficient Fine-Tuning of Large Language Models using Semantic Knowledge Tuning Nusrat Jahan Prottasha, Asif Mahmud, Md. Shohanur Islam Sobuj, Prakash Bhat, Md Kowsher, Niloofar Yousefi, Ozlem Ozmen Garibay | Papier | |
QEFT: Quantization for Efficient Fine-Tuning of LLMs Changhun Lee, Jun-gyu Jin, Younghyun Cho, Eunhyeok Park | Github Papier | |
BIPEFT: Budget-Guided Iterative Search for Parameter Efficient Fine-Tuning of Large Pretrained Language Models Aofei Chang, Jiaqi Wang, Han Liu, Parminder Bhatia, Cao Xiao, Ting Wang, Fenglong Ma | Github Papier | |
SparseGrad: A Selective Method for Efficient Fine-tuning of MLP Layers Viktoriia Chekalina, Anna Rudenko, Gleb Mezentsev, Alexander Mikhalev, Alexander Panchenko, Ivan Oseledets | Github Papier | |
| SpaLLM: Unified Compressive Adaptation of Large Language Models with Sketching Tianyi Zhang, Junda Su, Oscar Wu, Zhaozhuo Xu, Anshumali Shrivastava | Papier | |
Bone: Block Affine Transformation as Parameter Efficient Fine-tuning Methods for Large Language Models Jiale Kang | Github Papier | |
| Enabling Resource-Efficient On-Device Fine-Tuning of LLMs Using Only Inference Engines Lei Gao, Amir Ziashahabi, Yue Niu, Salman Avestimehr, Murali Annavaram | ![]() | Papier |
| Title & Authors | Introduction | Links |
|---|---|---|
| AutoMixQ: Self-Adjusting Quantization for High Performance Memory-Efficient Fine-Tuning Changhai Zhou, Shiyang Zhang, Yuhua Zhou, Zekai Liu, Shichao Weng | ![]() | Papier |
Scalable Efficient Training of Large Language Models with Low-dimensional Projected Attention Xingtai Lv, Ning Ding, Kaiyan Zhang, Ermo Hua, Ganqu Cui, Bowen Zhou | Github Papier | |
| Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs Yifei Zhang, Hao Zhu, Aiwei Liu, Han Yu, Piotr Koniusz, Irwin King | Papier | |
COAT: Compressing Optimizer states and Activation for Memory-Efficient FP8 Training Haocheng Xi, Han Cai, Ligeng Zhu, Yao Lu, Kurt Keutzer, Jianfei Chen, Song Han | ![]() | Github Papier |
BitPipe: Bidirectional Interleaved Pipeline Parallelism for Accelerating Large Models Training Houming Wu, Ling Chen, Wenjie Yu | ![]() | Github Papier |
| Title & Authors | Introduction | Links |
|---|---|---|
| Closer Look at Efficient Inference Methods: A Survey of Speculative Decoding Hyun Ryu, Eric Kim | Papier | |
LLM-Inference-Bench: Inference Benchmarking of Large Language Models on AI Accelerators Krishna Teja Chitty-Venkata, Siddhisanket Raskar, Bharat Kale, Farah Ferdaus et al | Github Papier | |
Prompt Compression for Large Language Models: A Survey Zongqian Li, Yinhong Liu, Yixuan Su, Nigel Collier | Github Papier | |
| Large Language Model Inference Acceleration: A Comprehensive Hardware Perspective Jinhao Li, Jiaming Xu, Shan Huang, Yonghua Chen, Wen Li, Jun Liu, Yaoxiu Lian, Jiayi Pan, Li Ding, Hao Zhou, Guohao Dai | Papier | |
| A Survey of Low-bit Large Language Models: Basics, Systems, and Algorithms Ruihao Gong, Yifu Ding, Zining Wang, Chengtao Lv, Xingyu Zheng, Jinyang Du, Haotong Qin, Jinyang Guo, Michele Magno, Xianglong Liu | Papier | |
Contextual Compression in Retrieval-Augmented Generation for Large Language Models: A Survey Sourav Verma | ![]() | Github Papier |
| Art and Science of Quantizing Large-Scale Models: A Comprehensive Overview Yanshu Wang, Tong Yang, Xiyan Liang, Guoan Wang, Hanning Lu, Xu Zhe, Yaoming Li, Li Weitao | Papier | |
| Hardware Acceleration of LLMs: A comprehensive survey and comparison Nikoletta Koilia, Christoforos Kachris | Papier | |
| A Survey on Symbolic Knowledge Distillation of Large Language Models Kamal Acharya, Alvaro Velasquez, Houbing Herbert Song | Papier |