Llama-Paper-List
Koleksi makalah menggunakan llama sebagai model backbone.
Kontributor
Daftar isi
- Kertas llama asli
- Teori terkait dengan llama
- Llama dengan efisiensi parameter
- Fine-tune llama pada tugas hilir
- Llama dikombinasikan dengan multi-modal
- Llama dengan pengambilan
- Llama menggunakan pembelajaran penguatan
- Analisis Kuantitatif Llama
- Mendorong llama
Dokumen
Kertas llama asli
- Llama: Model Bahasa Yayasan Terbuka dan Efisien. Arxiv 2023. Kertas. kode
Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aurelien Rodriguez, Armand Joulin, Edouard Grave, Guillaume Lample - Llama 2: Open Foundation dan Model Obrolan yang disesuaikan. Meta AI 2023. Kertas. kode
Hugo Touvron, Louis Martin, Kevin Stone et al. - Kawanan model Llama 3. Arxiv 2024. Kertas. kode
Abhimanyu Dubey, Abhinav Jauhri, Abhinav Pandey et al.
Teori terkait dengan llama
- Model bahasa besar adalah peramal seri waktu nol-tembakan. Neurips 2023. Kertas. kode
Nate Gruver, Marc Finzi, Shikai Qiu, Andrew Gordon Wilson - Model bahasa besar komputasi-optimal. Neurips 2022. Kertas.
Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, Johannes Welbl, Aidan Clark, Tom Hennigan, Eric Noland, Katie Millican, George van den Driessche, Bogdan Damoc, Aurelia Guy, Simon Osindero, Karen Simonyan, Erich Elsen, Jack W. Rae, Oriol Vinyals, Laurent Sifre - Root rata -rata normalisasi lapisan persegi. Neurips 2019. Paper. kode
Biao Zhang, Rico Sennrich - Varian Glu meningkatkan transformator. Arxiv 2020. Kertas. kode
Noam Shazeer - Roformer: Peningkatan transformator dengan embedding posisi putar. Arxiv 2021. Kertas. kode
Jianlin Su, Yu Lu, Shengfeng Pan, Ahmed Murtadha, Bo Wen, Yunfeng Liu - Dipupaskan berat peluruhan regularisasi. ICLR 2019. Kertas. kode
Ilya Loshchilov, Frank Hutter - Perhatian diri tidak perlu $ O (n^2) $ Ingatan. Arxiv 2021. Kertas. kode
Markus N. Rabe dan Charles Staats - Flashattention: Perhatian yang cepat dan efisien memori dengan kesadaran IO. Arxiv 2022. Kertas. kode
Tri Dao, Daniel Y. Fu, Stefano Ermon, Atri Rudra, Christopher Ré - Mengurangi rekomputasi aktivasi dalam model transformator besar. Arxiv 2022. Kertas.
Vijay Korthikanti, Jared Casper, Sangkug Lym, Lawrence McAfee, Michael Andersch, Mohammad Shoeybi, Bryan Catanzaro
Llama dengan efisiensi parameter
- Adaptor Llama: Fine-tuning yang efisien dari model bahasa dengan perhatian nol-init. Arxiv 2023. Kertas. kode
Zhang, Renrui dan Han, Jiaming dan Zhou, Aojun dan Hu, Xiangfei dan Yan, Shilin dan Lu, Pan dan Li, Hongsheng dan Gao, Peng dan Qiao, Yu - Llama-Adapter V2: Model Instruksi Visual Parameter-Efisien. Arxiv 2023. Kertas. kode
Peng Gao, Jiaming Han, Renrui Zhang, Ziyi Lin, Shijie Geng, Aojun Zhou, Wei Zhang, Pan Lu, Conghui He, Xiangyu Yue, Hongsheng Li, Yu Qiao - LLM-Adapters: Keluarga Adaptor untuk Parameter-Efisien Menyesuaikan Model Bahasa Besar. Arxiv 2023. Kertas.
Zhiqiang Hu, Yihuai Lan, Lei Wang, Wanyu Xu, Ee-Peng Lim, Roy Ka-Wei Lee, Lidong Bing, Xing Xu, Soujanya Poria - Pendekatan pemangkasan yang sederhana dan efektif untuk model bahasa besar. Arxiv 2023. Kertas. kode
Mingjie Sun, Zhuang Liu, Anna Bair, J. Zico Kolter - LLM-Pruner: Pada pemangkasan struktural model bahasa besar. Arxiv 2023. Kertas. kode
Xinyin MA, Gongfan Fang, Xinchao Wang
Fine-tune llama pada tugas hilir
- Grafik Pikiran: Memecahkan masalah rumit dengan model bahasa besar. AAAI 2024. Kertas. kode.
Maciej Besta, Nils Blach, Ales Kubicek et al. - Seberapa jauh unta bisa? Menjelajahi keadaan penyetelan instruksi pada sumber daya terbuka. Neurips 2023. Kertas. kode
Yizhong Wang, Hamish Ivison, Pradeep Dasigi et al. - Penyelarasan diri yang didorong oleh prinsip model bahasa dari awal dengan pengawasan manusia minimal. Neurips 2023. Kertas. kode
Zhiqing Sun, Yikang Shen, Qinhong Zhou et al. - ChatDoctor: Model obrolan medis disesuaikan dengan model bahasa besar meta-ai (llama) menggunakan pengetahuan domain medis. Arxiv 2023. Kertas.
Yunxiang Li, Zihan Li, Kai Zhang, Ruilong Dan, Steve Jiang, Anda Zhang - Pengkodean teks yang efisien dan efektif untuk llama dan alpaca Cina. Arxiv 2023. Kertas. kode
Yiming Cui, Ziqing Yang, Xin Yao - PMC-Llama: Lebih lanjut finetuning llama di kertas medis. Arxiv 2023. Kertas.
Chaoyi Wu, Xiaoman Zhang, Ya Zhang, Yanfeng Wang, Weidi Xie - Llama: Meningkatkan model bahasa kecil di PubMedqa melalui augmentasi data generatif. Arxiv 2023. Kertas.
Zhen Guo, Peiqi Wang, Yanwei Wang, Shangdi Yu - Kambing: Llama yang disempurnakan mengungguli GPT-4 pada tugas aritmatika. Arxiv 2023. Kertas.
Tiedong Liu, Bryan Kian Hsiang Low - Wizardlm: Memberdayakan model bahasa besar untuk mengikuti instruksi yang kompleks. Arxiv 2023. Kertas. kode
Can Xu, Qingfeng Sun, Kai Zheng, Xiubo Geng, Pu Zhao, Jiazhan Feng, Chongyang Tao, Daxin Jiang - Meningkatkan model bahasa obrolan dengan meningkatkan percakapan instruksional berkualitas tinggi. Arxiv 2023. Kertas. kode
Ning Ding, Yulin Chen, Bokai Xu, Yujia Qin, Zhi Zheng, Shengding Hu, Zhiyuan Liu, Maosong Sun, Bowen Zhou - Longform: Mengoptimalkan penyetelan instruksi untuk pembuatan teks panjang dengan ekstraksi corpus. Arxiv 2023. Kertas. kode
Abdullatif Köksal, Timo Schick, Anna Korhonen, Hinrich Schütze - Simulator Pengguna Pembelajaran Dalam-Konteks untuk Sistem Dialog Berorientasi Tugas. Arxiv 2023. Kertas. kode
Silvia Terragni, Modestas Filipavicius, Nghia Khau, Bruna Guedes, André Manso, Roland Mathis - NetGPT: Arsitektur jaringan asli-AI di luar menyediakan layanan generatif yang dipersonalisasi. Arxiv 2023. Kertas. kode
Yuxuan Chen, Rongpeng Li, Zhifeng Zhao, Chenghui Peng, Jianjun Wu, Ekram Hossain, Honggang Zhang - Pada arsitektur khusus dekoder untuk integrasi model ucapan-ke-teks dan bahasa besar. Arxiv 2023. Kertas. kode
Jian Wu, Yashesh Gaur, Zhuo Chen, Long Zhou, Yimeng Zhu, Tianrui Wang, Jinyu Li, Shujie Liu, Bo Ren, Linquan Liu, Yu Wu
Llama dikombinasikan dengan multi-modal
- MMMU: Pemahaman multimodal multi-disiplin besar-besaran dan tolok ukur penalaran untuk ahli AGI. CVPR 2024. Kertas. kode
Xiang Yue, Yuansheng Ni, Kai Zhang et al.
Llama dengan pengambilan
- Polyglot atau tidak? Mengukur pengambilan pengetahuan ensiklopedik multibahasa dari model bahasa yayasan. Arxiv 2023. Kertas. kode
Tim Schott, Daniel Furman, Shreshta Bhat - Rewoo: Decoupling Alasan dari pengamatan untuk kertas model bahasa augmented yang efisien . kode
Binfeng Xu, Zhiyuan Peng, Bowen Lei, Subhabrata Mukherjee, Yuchen Liu, Dongkuan Xu - Perhatian Landmark: Panjang konteks tak terbatas acak untuk transformer. Arxiv 2023. Kertas. kode
Amirkeivan Mohtashami, Martin Jaggi
Llama menggunakan pembelajaran penguatan
- Lima: Lebih sedikit lebih banyak untuk penyelarasan. Arxiv 2023. Kertas. kode
Chunting Zhou, Pengfei Liu, Puxin Xu, Srini Iyer, Jiao Sun, Yuning Mao, Xuezhe Ma, Avia Efrat, Ping Yu, Lili Yu, Susan Zhang, Gargi Ghosh, Mike Lewis, Luke Zettlemoyer, Omer Levy - RRHF: Peringkat respons untuk menyelaraskan model bahasa dengan umpan balik manusia tanpa air mata. kertas. kode
Zheng Yuan, Hongyi Yuan, Chuanqi Tan, Wei Wang, Songfang Huang, Fei Huang
Analisis Kuantitatif Llama
- SPQR: Representasi yang jarang untuk kompresi berat LLM hampir tanpa kehilangan. Arxiv 2023. Kertas. kode
Tim Dettmers, Ruslan Svirschevski, Vage Egiazarian, Denis Kuznedelev, Elias Frantar, Saleh Ashkboos, Alexander Borzunov, Torsten Hoefler, Dan Alistarh - Squeezellm: kuantisasi padat dan sparkse. Arxiv 2023. Kertas. kode
Sehoon Kim, Coleman Hooper, Amir Gholami, Zhen Dong, Xiuyu LI, Sheng Shen, Michael W. Mahoney, Kurt Keutzer
Mendorong llama
- Minta model bahasa besar untuk adaptasi domain zero-shot dalam pengenalan suara. . Arxiv 2023. Kertas.
Yuang Li, Yu Wu, Jinyu Li, Shujie Liu
Bagaimana berkontribusi
Kontribusi dipersilakan! Silakan merujuk ke Contributing.MD untuk Pedoman Kontribusi.