Lama-Papierliste
Sammlung von Papieren mit Lama als Rückgrat -Modell.
Mitwirkende
Inhaltsverzeichnis
- Originaler Lama -Papier
- Verwandte Theorie mit Lama
- Lama mit Parametereffizienz
- Fein-Tune-Lama bei nachgeschalteten Aufgaben
- Lama kombiniert mit Multi-Modal
- Lama mit Abruf
- Lama mit Verstärkungslernen
- Quantitative Analyse von Lama
- Lama fordern
Papiere
Originaler Lama -Papier
- LAMA: Offene und effiziente Foundation -Sprachmodelle. ARXIV 2023. Papier. Code
Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aurelien Rodriguez, Armand Joulin, Edouard Grave, Guillaume Lample - LAMA 2: Open Foundation und Feinabstimmung Chat-Modelle. Meta AI 2023. Papier. Code
Hugo Touvron, Louis Martin, Kevin Stone et al. - Die Lama 3 -Herde von Models. ARXIV 2024. Papier. Code
Abhimanyu Dubey, Abhinav Jauhri, Abhinav Pandey et al.
Verwandte Theorie mit Lama
- Großsprachige Modelle sind Null-Shot-Zeitreihen-Prognostiker. Neurips 2023. Papier. Code
Nate Gruver, Marc Finzi, Shikai Qiu und Andrew Gordon Wilson - Training rechenoptimal großer Sprachmodelle. Neurips 2022. Papier.
Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, Johannes Welbl, Aidan Clark, Tom Hennigan, Eric Noland, Katie Millican, George van den Driessche, Bogdan Damoc, Aurelia Guy, Simon Osindero, Karen Simonyan, Erich Elsen, Jack W. Rae, Oriol Vinyals, Laurent Sifre - Normalisierung der Quadratschichtquadratschicht. Neurips 2019. Papier. Code
Biao Zhang, Rico Sennrich - GLU -Varianten verbessern den Transformator. ARXIV 2020. Papier. Code
Noam SHAZEER - ROFORMER: Verbesserter Transformator mit der Einbettung von Rotary Position. ARXIV 2021. Papier. Code
Jianlin Su, Yu Lu, Shengfeng Pan, Ahmed Murtadha, Bo Wen, Yunfeng Liu - Regularisierung des Gewichtsabfalls entkoppelt. ICLR 2019. Papier. Code
Ilya Loshchilov, Frank Hutter - Selbstbekämpfung braucht nicht $ O (n^2) $ Erinnerung. ARXIV 2021. Papier. Code
Markus N. Rabe und Charles Staats - Flashattention: Schnelle und speichereffiziente genaue Aufmerksamkeit mit IO-Awareness. ARXIV 2022. Papier. Code
Tri Dao, Daniel Y. Fu, Stefano Ermon, Atri Rudra, Christopher Ré - Reduzierung der Aktivierung Neukonzonierung in großen Transformatormodellen. ARXIV 2022. Papier.
Vijay Korthikanti, Jared Casper, Sangkug Lym
Lama mit Parametereffizienz
- Lama-Adapter: Effiziente Feinabstimmung von Sprachmodellen mit Aufmerksamkeit ohne Init. ARXIV 2023. Papier. Code
Zhang, Renrui und Han, Jiaming und Zhou, Aojun und Hu, Xiangfei und Yan, Shilin und Lu, Pan und Li, Hongsheng und Gao, Peng und Qiao, Yu - Lama-Adapter V2: Parameter-effizientes visuelles Anweisungsmodell. ARXIV 2023. Papier. Code
Peng Gao, Jiaming Han, Renrui Zhang, Ziyi Lin, Shijie Geng, Aojun Zhou, Wei Zhang, Pan Lu, Conghui He, Xiangyu Yue, Hongsheng Li, Yu Qiao - LLM-Adapter: Eine Adapterfamilie für parametereffiziente Feinabstimmungen großer Sprachmodelle. ARXIV 2023. Papier.
Zhiqiang Hu, Yihuai Lan, Lei Wang, Wanyu Xu, Ee-Peng Lim, Roy Ka-i-Di Lee, Lidong Bing, Xing Xu, Soujanya Poria - Ein einfacher und effektiver Beschneidungsansatz für große Sprachmodelle. ARXIV 2023. Papier. Code
Mingjie Sun, Zhuang Liu, Anna Bair, J. Zico Kolter - LLM-Pruner: Über das strukturelle Beschneiden großer Sprachmodelle. ARXIV 2023. Papier. Code
Xinyin MA, Gongfan Fang, Xinchao Wang
Fein-Tune-Lama bei nachgeschalteten Aufgaben
- Graph der Gedanken: Lösen von ausgefeilten Problemen mit großen Sprachmodellen. AAAI 2024. Papier. Code.
Maciej Besta, Nils Blach, Ales Kubicek et al. - Wie weit können Kamele gehen? Erforschung des Standes der Unterrichtsabstimmung auf offenen Ressourcen. Neurips 2023. Papier. Code
Yizhong Wang, Hamish Ivison, Pradeep Dassigi et al. - Prinzipiengesteuerte Selbstausrichtung von Sprachmodellen von Grund auf mit minimaler menschlicher Überwachung. Neurips 2023. Papier. Code
Zhiqing Sun, Yikang Shen, Qinhong Zhou et al. - ChatDoctor: Ein medizinisches Chat-Modell, das auf einem großen Sprachmodell-Meta-AI (LAMA) mit medizinischem Domänenwissen abgestimmt ist. ARXIV 2023. Papier.
Yunxiang Li, Zihan Li, Kai Zhang, Ruilong Dan, Steve Jiang, du Zhang - Effiziente und effektive Textkodierung für chinesisches Lama und Alpaka. ARXIV 2023. Papier. Code
Yiming Cui, Ziqing Yang, Xin Yao - PMC-LLAMA: Weitere Finetuning-Lama auf medizinischen Papieren. ARXIV 2023. Papier.
Chaoyi Wu, Xiaoman Zhang, Ya Zhang, Yanfeng Wang, Weidi Xie - Dr. Llama: Verbesserung kleiner Sprachmodelle auf PubMedqa über generative Datenvergrößerung. ARXIV 2023. Papier.
Zhen Guo, Peiqi Wang, Yanwei Wang, Shangdi Yu - Ziege: Fein abgestimmte Lama übertrifft GPT-4 bei arithmetischen Aufgaben. ARXIV 2023. Papier.
Tiedong Liu, Bryan Kian Hsiang Low - WizardLM: Ermächtigung großer Sprachmodelle, komplexe Anweisungen zu befolgen. ARXIV 2023. Papier. Code
Can Xu, Qingfeng Sun, Kai Zheng, Xiubo Geng, Pu Zhao, Jiazhan Feng, Chongyang Tao, Daxin Jiang - Verbesserung von Chat-Sprachmodellen durch Skalierung hochwertiger Unterrichtsgespräche. ARXIV 2023. Papier. Code
Ning Ding, Yulin Chen, Bokai Xu, Yujia Qin, Zhi Zheng, Shengding Hu, Zhiyuan Liu, Maosong Sun, Bowen Zhou - Langform: Optimierung der Anweisungsabstimmung für die Long -Text -Erzeugung mit Korpus -Extraktion. ARXIV 2023. Papier. Code
Abdullatif Köksal, Timo Schick, Anna Korhonen, Hinrich Schütze - In-Kontext-Lernbenutzersimulatoren für aufgabenorientierte Dialogsysteme. ARXIV 2023. Papier. Code
Silvia Terragni, Modestas Filipavicius, Nghia Khau, Bruna Guedes, André Manso, Roland Mathis - NETGPT: Eine nativ-AI-Netzwerkarchitektur, die über die Bereitstellung personalisierter Generativdienste hinausgeht. ARXIV 2023. Papier. Code
Yuxuan Chen, Rongpeng Li, Zhifeng Zhao, Chenghui Peng, Jianjun Wu, Ekram Hossain, Honggang Zhang - Über Decodiererarchitektur für Sprach-Text und Großsprachmodellintegration. ARXIV 2023. Papier. Code
Jian Wu, Yashesh Gaur, Zhuo Chen, Long Zhou, Yimeng Zhu, Tianrui Wang, Jinyu Li, Shujie Liu, Bo Ren, Linquan Liu, Yu Wu
Lama kombiniert mit Multi-Modal
- MMMU: Ein massives multimodales Verständnis für multimodales Verständnis und ein Argumentieren für Experten AGI. CVPR 2024. Papier. Code
Xiang Yue, Yuansheng NI, Kai Zhang et al.
Lama mit Abruf
- Polyglot oder nicht? Messung mehrsprachiger enzyklopädischer Wissensabruf von Foundation -Sprachmodellen. ARXIV 2023. Papier. Code
Tim Schott, Daniel Furman, Shreshta Bhat - REWOO: Entkopplung von Argumentation aus Beobachtungen für effizientes Papiervergrößerungsmodelle . Code
Binfeng Xu, Zhiyuan Peng, Bowen Lei, Subhabrata Mukherjee, Yuchen Liu, Dongkuan Xu - Wahrzeichen Aufmerksamkeit: Zufälliger Zugang unendlicher Kontextlänge für Transformatoren. ARXIV 2023. Papier. Code
Amirkeivan Mohtashami, Martin Jaggi
Lama mit Verstärkungslernen
- Lima: Weniger ist mehr für die Ausrichtung. ARXIV 2023. Papier. Code
Chunting Zhou, Pengfei Liu, Puxin Xu, Srini Iyer, Jiao Sun, Yuning Mao, Xuezhe MA, Avia Efrat, Ping Yu, Lili Yu, Susan Zhang, Gargi Ghosh, Mike Lewis, Luke Zettlemoyer, Omer Levy - RRHF: Rangantworten auf die Ausrichtung von Sprachmodellen mit menschlichem Feedback ohne Tränen. Papier. Code
Zheng Yuan, Hongyi Yuan, Chuanqi Tan, Wei Wang, Songfang Huang, Fei Huang
Quantitative Analyse von Lama
- SPQR: Eine spärlich-quantisierte Darstellung für die nahezu verlustfreie LLM-Gewichtskompression. ARXIV 2023. Papier. Code
Tim Dettmers, Ruslan Svirschevski, Vage Egiazarian, Denis Kuznedelev, Elias Frantar, Saleh Ashkboos, Alexander Borzunov, Torsten Hoefler, Dan Alistarh - Squeezellm: Dicht und absparende Quantisierung. ARXIV 2023. Papier. Code
Sehoon Kim, Coleman Hooper, Amir Gholami, Zhen Dong, Xiuyu Li, Sheng Shen, Michael W. Mahoney, Kurt Ketzer
Lama fordern
- Aufmerksamkeit von großen Sprachmodellen für die Anpassung der Domänen von Zero-Shot in der Spracherkennung. . ARXIV 2023. Papier.
Yuang Li, Yu Wu, Jinyu Li, Shujie Liu
Wie man beiträgt
Beiträge sind willkommen! Weitere Informationen finden Sie unter den Beitragsrichtlinien.