LLAMA-PAPER LIST
Colección de documentos que usan Llama como modelo de columna vertebral.
Colaboradores
Tabla de contenido
- Papel de la llama original
- Teoría relacionada con Llama
- Llama con eficiencia de parámetros
- LLAMA FINAL EN TAREAS AGRÁSIMES
- Llama combinada con multimodal
- Llama con recuperación
- LLAMA Utilizando el aprendizaje de refuerzo
- Análisis cuantitativo de la llama
- Provocando LLAMA
Papeles
Papel de la llama original
- LLAMA: modelos de lenguaje de base abierto y eficiente. ARXIV 2023. Papel. código
Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aurelien Rodriguez, Armand Joulin, Edouard Grave, Guillaume Lappead. - LLAMA 2: Fundación abierta y modelos de chat fino. Meta AI 2023. Papel. código
Hugo Touvron, Louis Martin, Kevin Stone et al. - El rebaño de modelos de Llama 3. ARXIV 2024. Papel. código
Abhimanyu Dubey, Abhinav Jauhri, Abhinav Pandey et al.
Teoría relacionada con Llama
- Los modelos de idiomas grandes son pronosticadores de series de tiempo de cero disparos. Neurips 2023. Papel. código
Nate Gruver, Marc Finzi, Shikai Qiu, Andrew Gordon Wilson - Capacitación modelos de lenguaje grande de cómputo óptimo. Neurips 2022. Papel.
Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, Johannes Welbl, Aidan Clark, Tom Hennigan, Eric Noland, Katie Millican, George Van Denensche, Boaddan, Bogu, Aturel. Guy, Simon Osindo, Karen Simonyan, Erich Elsen, Jack W. Rae, Oriol Vinyals, Laurent Sifre - Raíz Normalización media de la capa cuadrada. Neurips 2019. Documento. código
Biao Zhang, Rico Sennrich - Las variantes de GLU mejoran el transformador. ARXIV 2020. Papel. código
Noam Shazeer - ROFORMER: Transformador mejorado con incrustación de posición rotativa. ARXIV 2021. Papel. código
Jianlin Su, Yu Lu, Shengfeng Pan, Ahmed Murtadha, Bo Wen, Yunfeng Liu - La regularización de descomposición de peso desacoplado. ICLR 2019. Documento. código
Ilya loshchilov, Frank Hutter - La autoatación no necesita $ O (n^2) $ Memoria. ARXIV 2021. Papel. código
Markus N. Rabe y Charles Staats - FlashAtention: atención exacta rápida y eficiente en memoria con IO-Awanceeness. ARXIV 2022. Papel. código
Tri Dao, Daniel Y. Fu, Stefano Ermon, Atri Rudra, Christopher Ré - Reducción de la recomputación de activación en modelos de transformadores grandes. ARXIV 2022. Papel.
Vijay Korthikanti, Jared Casper, Sangkug Lym, Lawrence McAfee, Michael Andersch, Mohammad Shoeybi, Bryan Catanzaro
Llama con eficiencia de parámetros
- LLAMA-ADAPTER: ajuste fino eficiente de modelos de lenguaje con atención de cero inicio. ARXIV 2023. Papel. código
Zhang, Renrui y Han, Jiaming y Zhou, Aojun y Hu, Xiangfei y Yan, Shilin y Lu, Pan y Li, Hongsheng y Gao, Peng y Qiao, Yu - LLAMA-ADAPTER V2: Modelo de instrucción visual eficiente de parámetros. ARXIV 2023. Papel. código
Peng Gao, Jiaming Han, Renrui Zhang, Ziyi Lin, Shijie Geng, Aojun Zhou, Wei Zhang, Pan Lu, Conghui He, Xiangyu Yue, Hongsheng Li, Yu Qiao - Adaptadores LLM: una familia adaptadora para el ajuste fino eficiente de los parámetros de modelos de idiomas grandes. ARXIV 2023. Papel.
Zhiqiang Hu, Yihuai Lan, Lei Wang, Wanyu Xu, Ee-Peng Lim, Roy Ka-Wei Lee, Lidong Bing, Xing Xu, Soujanya Poria - Un enfoque de poda simple y efectivo para modelos de idiomas grandes. ARXIV 2023. Papel. código
Mingjie Sun, Zhuang Liu, Anna Bair, J. Zico Kolter - LLM-PRIMER: Sobre la poda estructural de modelos de idiomas grandes. ARXIV 2023. Papel. código
Xinyin MA, Gongfan Fang, Xinchao Wang
LLAMA FINAL EN TAREAS AGRÁSIMES
- Gráfico de pensamientos: resolver problemas elaborados con modelos de idiomas grandes. AAAI 2024. Papel. código.
Maciej Besta, Nils Blach, Ales Kubicek et al. - ¿Qué tan lejos pueden llegar los camellos? Explorando el estado de la sintonización de instrucciones en recursos abiertos. Neurips 2023. Papel. código
Yizhong Wang, Hamish Ivison, Pradeep Dasigi et al. - La autoalineación de los modelos lingüísticos impulsados por los principios desde cero con una supervisión humana mínima. Neurips 2023. Papel. código
Zhiqing Sun, Yikang Shen, Qinhong Zhou et al. - ChatDoctor: un modelo de chat médico ajustado en un modelo de lenguaje grande Meta-AI (LLAMA) utilizando conocimiento de dominio médico. ARXIV 2023. Papel.
Yunxiang Li, Zihan Li, Kai Zhang, Ruilong Dan, Steve Jiang, You Zhang - Codificación de texto eficiente y efectiva para la llama china y la alpaca. ARXIV 2023. Papel. código
Yiming Cui, Ziqing Yang, Xin Yao - PMC-LLAMA: Finetuning Llama en documentos médicos. ARXIV 2023. Papel.
Chaoyi Wu, Xiaoman Zhang, Ya Zhang, Yanfeng Wang, Weidi Xie - Dr. Llama: Mejora de modelos de lenguaje pequeños en PubMedqa a través del aumento de datos generativos. ARXIV 2023. Papel.
Zhen Guo, Peiqi Wang, Yanwei Wang, Shangdi Yu - Cabra: Llama ajustado supera a GPT-4 en tareas aritméticas. ARXIV 2023. Papel.
Tiedong Liu, Bryan Kian Hsiang Low - WizardLM: Empoderar modelos de idiomas grandes para seguir instrucciones complejas. ARXIV 2023. Papel. código
Can Xu, Qingfeng Sun, Kai Zheng, Xiubo Geng, Pu Zhao, Jiazhan Feng, Chongyang Tao, Daxin Jiang - Mejora de los modelos de lenguaje de chat escalando conversaciones de instrucción de alta calidad. ARXIV 2023. Papel. código
Ning Ding, Yulin Chen, Bokai Xu, Yujia Qin, Zhi Zheng, Shengding Hu, Zhiyuan Liu, Maosong Sun, Bowen Zhou - Longform: optimización de la instrucción de instrucción para la generación de texto largo con extracción de corpus. ARXIV 2023. Papel. código
Abdullatif Köksal, Timo Schick, Anna Korhonen, Hinrich Schütze - Simuladores de usuarios de aprendizaje en contexto para sistemas de diálogo orientados a tareas. ARXIV 2023. Papel. código
Silvia Terragni, Modestas Filipavicius, Nghia Khau, Bruna Guye, André Manso, Roland Mathis - NetGPT: una arquitectura de red nativa de AI más allá de aprovisionar servicios generativos personalizados. ARXIV 2023. Papel. código
Yuxuan Chen, Rongpeng Li, Zhifeng Zhao, Chenghui Peng, Jianjun Wu, Ekram Hossain, Honggang Zhang - En arquitectura solo para decodificadores para el habla a texto y la integración del modelo de lenguaje grande. ARXIV 2023. Papel. código
Jian Wu, Yashesh Gaur, Zhuo Chen, Long Zhou, Yimeng Zhu, Tianrui Wang, Jinyu Li, Shujie Liu, Bo Ren, Linquan Liu, Yu Wu
Llama combinada con multimodal
- MMMU: un punto de referencia de comprensión multimodal multidisciplina masiva y referencia de razonamiento para AGI experto. CVPR 2024. Papel. código
Xiang Yue, Yuansheng Ni, Kai Zhang et al.
Llama con recuperación
- Polyglot o no? Medición de la recuperación de conocimiento enciclopédico multilingüe de los modelos de lenguaje de base. ARXIV 2023. Papel. código
Tim Schott, Daniel Furman, Shreshta Bhat - REWOO: Razonamiento de desacoplamiento de observaciones para el papel de modelos de idiomas aumentados eficientes . código
Binfeng Xu, Zhiyuan Peng, Bowen Lei, Subhabrata Mukherjee, Yuchen Liu, Dongkuan Xu - Atención histórica: longitud de contexto infinito de acceso aleatorio para transformadores. ARXIV 2023. Papel. código
Amirkeivan Mohtashami, Martin Jaggi
LLAMA Utilizando el aprendizaje de refuerzo
- Lima: Menos es más para la alineación. ARXIV 2023. Papel. código
Chuncting Zhou, Pengfei Liu, Pxin Xu, Srini Iyer, Jiao Sun, Yuning Mao, Xuezhe MA, Avia Efrat, Ping Yu, Lili Yu, Susan Zhang, Gargi Ghosh, Mike Lewis, Luke Zettlemoyer, Omer Levy - RRHF: las respuestas de rango para alinear los modelos de lenguaje con la retroalimentación humana sin lágrimas. papel. código
Zheng Yuan, Hongyi Yuan, Chuanqi Tan, Wei Wang, Songfang Huang, Fei Huang
Análisis cuantitativo de la llama
- SPQR: una representación cuantificada de escasos para la compresión de peso LLM casi sin pérdida. ARXIV 2023. Papel. código
Tim Dettmers, Ruslan Svirschevski, Vage Egiazarian, Denis Kuznedelev, Elias Frantar, Saleh Ashkboos, Alexander Borzunov, Torsten Hoefler, Dan Alistarh - Squeezellm: cuantificación densa y espada. ARXIV 2023. Papel. código
Sehoon Kim, Coleman Hooper, Amir Gholami, Zhen Dong, Xiuyu Li, Sheng Shen, Michael W. Mahoney, Kurt Keutzer
Provocando LLAMA
- Provocando modelos de idiomas grandes para la adaptación de dominio de disparo cero en el reconocimiento de voz. . ARXIV 2023. Papel.
Yuang Li, Yu Wu, Jinyu Li, Shujie Liu
Cómo contribuir
¡Las contribuciones son bienvenidas! Consulte Contriping.MD para las pautas de contribución.