Unduh LLaMA Paper List - Unduh Kode Sumber LLaMA Paper List

LLaMA Paper List

Kode Sumber AI

1.0.0

Unduh

Llama-Paper-List

Koleksi makalah menggunakan llama sebagai model backbone.

Kontributor

Daftar isi

Kertas llama asli
Teori terkait dengan llama
Llama dengan efisiensi parameter
Fine-tune llama pada tugas hilir
Llama dikombinasikan dengan multi-modal
Llama dengan pengambilan
Llama menggunakan pembelajaran penguatan
Analisis Kuantitatif Llama
Mendorong llama

Dokumen

Kertas llama asli

Llama: Model Bahasa Yayasan Terbuka dan Efisien. Arxiv 2023. Kertas. kode
Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aurelien Rodriguez, Armand Joulin, Edouard Grave, Guillaume Lample
Llama 2: Open Foundation dan Model Obrolan yang disesuaikan. Meta AI 2023. Kertas. kode
Hugo Touvron, Louis Martin, Kevin Stone et al.
Kawanan model Llama 3. Arxiv 2024. Kertas. kode
Abhimanyu Dubey, Abhinav Jauhri, Abhinav Pandey et al.

Teori terkait dengan llama

Model bahasa besar adalah peramal seri waktu nol-tembakan. Neurips 2023. Kertas. kode
Nate Gruver, Marc Finzi, Shikai Qiu, Andrew Gordon Wilson
Model bahasa besar komputasi-optimal. Neurips 2022. Kertas.
Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, Johannes Welbl, Aidan Clark, Tom Hennigan, Eric Noland, Katie Millican, George van den Driessche, Bogdan Damoc, Aurelia Guy, Simon Osindero, Karen Simonyan, Erich Elsen, Jack W. Rae, Oriol Vinyals, Laurent Sifre
Root rata -rata normalisasi lapisan persegi. Neurips 2019. Paper. kode
Biao Zhang, Rico Sennrich
Varian Glu meningkatkan transformator. Arxiv 2020. Kertas. kode
Noam Shazeer
Roformer: Peningkatan transformator dengan embedding posisi putar. Arxiv 2021. Kertas. kode
Jianlin Su, Yu Lu, Shengfeng Pan, Ahmed Murtadha, Bo Wen, Yunfeng Liu
Dipupaskan berat peluruhan regularisasi. ICLR 2019. Kertas. kode
Ilya Loshchilov, Frank Hutter
Perhatian diri tidak perlu $ O (n^2) $ Ingatan. Arxiv 2021. Kertas. kode
Markus N. Rabe dan Charles Staats
Flashattention: Perhatian yang cepat dan efisien memori dengan kesadaran IO. Arxiv 2022. Kertas. kode
Tri Dao, Daniel Y. Fu, Stefano Ermon, Atri Rudra, Christopher Ré
Mengurangi rekomputasi aktivasi dalam model transformator besar. Arxiv 2022. Kertas.
Vijay Korthikanti, Jared Casper, Sangkug Lym, Lawrence McAfee, Michael Andersch, Mohammad Shoeybi, Bryan Catanzaro

Llama dengan efisiensi parameter

Adaptor Llama: Fine-tuning yang efisien dari model bahasa dengan perhatian nol-init. Arxiv 2023. Kertas. kode
Zhang, Renrui dan Han, Jiaming dan Zhou, Aojun dan Hu, Xiangfei dan Yan, Shilin dan Lu, Pan dan Li, Hongsheng dan Gao, Peng dan Qiao, Yu
Llama-Adapter V2: Model Instruksi Visual Parameter-Efisien. Arxiv 2023. Kertas. kode
Peng Gao, Jiaming Han, Renrui Zhang, Ziyi Lin, Shijie Geng, Aojun Zhou, Wei Zhang, Pan Lu, Conghui He, Xiangyu Yue, Hongsheng Li, Yu Qiao
LLM-Adapters: Keluarga Adaptor untuk Parameter-Efisien Menyesuaikan Model Bahasa Besar. Arxiv 2023. Kertas.
Zhiqiang Hu, Yihuai Lan, Lei Wang, Wanyu Xu, Ee-Peng Lim, Roy Ka-Wei Lee, Lidong Bing, Xing Xu, Soujanya Poria
Pendekatan pemangkasan yang sederhana dan efektif untuk model bahasa besar. Arxiv 2023. Kertas. kode
Mingjie Sun, Zhuang Liu, Anna Bair, J. Zico Kolter
LLM-Pruner: Pada pemangkasan struktural model bahasa besar. Arxiv 2023. Kertas. kode
Xinyin MA, Gongfan Fang, Xinchao Wang

Fine-tune llama pada tugas hilir

Grafik Pikiran: Memecahkan masalah rumit dengan model bahasa besar. AAAI 2024. Kertas. kode.
Maciej Besta, Nils Blach, Ales Kubicek et al.
Seberapa jauh unta bisa? Menjelajahi keadaan penyetelan instruksi pada sumber daya terbuka. Neurips 2023. Kertas. kode
Yizhong Wang, Hamish Ivison, Pradeep Dasigi et al.
Penyelarasan diri yang didorong oleh prinsip model bahasa dari awal dengan pengawasan manusia minimal. Neurips 2023. Kertas. kode
Zhiqing Sun, Yikang Shen, Qinhong Zhou et al.
ChatDoctor: Model obrolan medis disesuaikan dengan model bahasa besar meta-ai (llama) menggunakan pengetahuan domain medis. Arxiv 2023. Kertas.
Yunxiang Li, Zihan Li, Kai Zhang, Ruilong Dan, Steve Jiang, Anda Zhang
Pengkodean teks yang efisien dan efektif untuk llama dan alpaca Cina. Arxiv 2023. Kertas. kode
Yiming Cui, Ziqing Yang, Xin Yao
PMC-Llama: Lebih lanjut finetuning llama di kertas medis. Arxiv 2023. Kertas.
Chaoyi Wu, Xiaoman Zhang, Ya Zhang, Yanfeng Wang, Weidi Xie
Llama: Meningkatkan model bahasa kecil di PubMedqa melalui augmentasi data generatif. Arxiv 2023. Kertas.
Zhen Guo, Peiqi Wang, Yanwei Wang, Shangdi Yu
Kambing: Llama yang disempurnakan mengungguli GPT-4 pada tugas aritmatika. Arxiv 2023. Kertas.
Tiedong Liu, Bryan Kian Hsiang Low
Wizardlm: Memberdayakan model bahasa besar untuk mengikuti instruksi yang kompleks. Arxiv 2023. Kertas. kode
Can Xu, Qingfeng Sun, Kai Zheng, Xiubo Geng, Pu Zhao, Jiazhan Feng, Chongyang Tao, Daxin Jiang
Meningkatkan model bahasa obrolan dengan meningkatkan percakapan instruksional berkualitas tinggi. Arxiv 2023. Kertas. kode
Ning Ding, Yulin Chen, Bokai Xu, Yujia Qin, Zhi Zheng, Shengding Hu, Zhiyuan Liu, Maosong Sun, Bowen Zhou
Longform: Mengoptimalkan penyetelan instruksi untuk pembuatan teks panjang dengan ekstraksi corpus. Arxiv 2023. Kertas. kode
Abdullatif Köksal, Timo Schick, Anna Korhonen, Hinrich Schütze
Simulator Pengguna Pembelajaran Dalam-Konteks untuk Sistem Dialog Berorientasi Tugas. Arxiv 2023. Kertas. kode
Silvia Terragni, Modestas Filipavicius, Nghia Khau, Bruna Guedes, André Manso, Roland Mathis
NetGPT: Arsitektur jaringan asli-AI di luar menyediakan layanan generatif yang dipersonalisasi. Arxiv 2023. Kertas. kode
Yuxuan Chen, Rongpeng Li, Zhifeng Zhao, Chenghui Peng, Jianjun Wu, Ekram Hossain, Honggang Zhang
Pada arsitektur khusus dekoder untuk integrasi model ucapan-ke-teks dan bahasa besar. Arxiv 2023. Kertas. kode
Jian Wu, Yashesh Gaur, Zhuo Chen, Long Zhou, Yimeng Zhu, Tianrui Wang, Jinyu Li, Shujie Liu, Bo Ren, Linquan Liu, Yu Wu

Llama dikombinasikan dengan multi-modal

MMMU: Pemahaman multimodal multi-disiplin besar-besaran dan tolok ukur penalaran untuk ahli AGI. CVPR 2024. Kertas. kode
Xiang Yue, Yuansheng Ni, Kai Zhang et al.

Llama dengan pengambilan

Polyglot atau tidak? Mengukur pengambilan pengetahuan ensiklopedik multibahasa dari model bahasa yayasan. Arxiv 2023. Kertas. kode
Tim Schott, Daniel Furman, Shreshta Bhat
Rewoo: Decoupling Alasan dari pengamatan untuk kertas model bahasa augmented yang efisien . kode
Binfeng Xu, Zhiyuan Peng, Bowen Lei, Subhabrata Mukherjee, Yuchen Liu, Dongkuan Xu
Perhatian Landmark: Panjang konteks tak terbatas acak untuk transformer. Arxiv 2023. Kertas. kode
Amirkeivan Mohtashami, Martin Jaggi

Llama menggunakan pembelajaran penguatan

Lima: Lebih sedikit lebih banyak untuk penyelarasan. Arxiv 2023. Kertas. kode
Chunting Zhou, Pengfei Liu, Puxin Xu, Srini Iyer, Jiao Sun, Yuning Mao, Xuezhe Ma, Avia Efrat, Ping Yu, Lili Yu, Susan Zhang, Gargi Ghosh, Mike Lewis, Luke Zettlemoyer, Omer Levy
RRHF: Peringkat respons untuk menyelaraskan model bahasa dengan umpan balik manusia tanpa air mata. kertas. kode
Zheng Yuan, Hongyi Yuan, Chuanqi Tan, Wei Wang, Songfang Huang, Fei Huang

Analisis Kuantitatif Llama

SPQR: Representasi yang jarang untuk kompresi berat LLM hampir tanpa kehilangan. Arxiv 2023. Kertas. kode
Tim Dettmers, Ruslan Svirschevski, Vage Egiazarian, Denis Kuznedelev, Elias Frantar, Saleh Ashkboos, Alexander Borzunov, Torsten Hoefler, Dan Alistarh
Squeezellm: kuantisasi padat dan sparkse. Arxiv 2023. Kertas. kode
Sehoon Kim, Coleman Hooper, Amir Gholami, Zhen Dong, Xiuyu LI, Sheng Shen, Michael W. Mahoney, Kurt Keutzer