Encuesta de SLM
Una encuesta integral de modelos de lenguaje pequeño: tecnología, aplicaciones en el dispositivo, eficiencia, mejoras para LLMS y confiabilidad
Este repositorio incluye los documentos discutidos en nuestro último documento de encuesta sobre modelos de idiomas pequeños.
Lea el artículo completo aquí: enlace de papel
Noticias
- 2024/11/04: ¡La primera versión de nuestra encuesta está en ARXIV!
Referencia
Si nuestra encuesta es útil para su investigación, por favor cita nuestro artículo:
@article{wang2024comprehensive,
title={A Comprehensive Survey of Small Language Models in the Era of Large Language Models: Techniques, Enhancements, Applications, Collaboration with LLMs, and Trustworthiness},
author={Wang, Fali and Zhang, Zhiwei and Zhang, Xianren and Wu, Zongyu and Mo, Tzuhao and Lu, Qiuhao and Wang, Wanjing and Li, Rui and Xu, Junjie and Tang, Xianfeng and others},
journal={arXiv preprint arXiv:2411.03350},
year={2024}
}
Descripción general de SLMS

Línea de tiempo de SLMS

Lista de papel SLMS
SLMS existente
| Modelo | #Params | Fecha | Paradigma | Dominio | Código | Modelo HF | Papel/blog |
|---|
| Llama 3.2 | 1b; 3B | 2024.9 | Pre-entrante | Genérico | Github | HF | Blog |
| Qwen 1 | 1.8b; 7b; 14b; 72b | 2023.12 | Pre-entrante | Genérico | Github | HF | Papel |
| Qwen 1.5 | 0.5b; 1.8b; 4b; 7b; 14b; 32B; 72b | 2024.2 | Pre-entrante | Genérico | Github | HF | Papel |
| Qwen 2 | 0.5b; 1.5b; 7b; 57b; 72B | 2024.6 | Pre-entrante | Genérico | Github | HF | Papel |
| Qwen 2.5 | 0.5b; 1.5b; 3b; 7b; 14b; 32B; 72B | 2024.9 | Pre-entrante | Genérico | Github | HF | Papel |
| Gema | 2b; 7b | 2024.2 | Pre-entrante | Genérico | | HF | Papel |
| Gemma 2 | 2b; 9B; 27b | 2024.7 | Pre-entrante | Genérico | | HF | Papel |
| H2O-Danube3 | 500m; 4b | 2024.7 | Pre-entrante | Genérico | | HF | Papel |
| Llm-neo | 1B | 2024.11 | Entrenamiento continuo | Genérico | | HF | Papel |
| FOX-1 | 1.6b | 2024.6 | Pre-entrante | Genérico | | HF | Blog |
| Reno | 1.3b | 2024.5 | Pre-entrante | Genérico | | HF | Papel |
| Minicpm | 1.2b; 2.4b | 2024.4 | Pre-entrante | Genérico | Github | HF | Papel |
| Olmo | 1b; 7b | 2024.2 | Pre-entrante | Genérico | Github | HF | Papel |
| Tinllama | 1B | 2024.1 | Pre-entrante | Genérico | Github | HF | Papel |
| Phi-1 | 1.3b | 2023.6 | Pre-entrante | Codificación | | HF | Papel |
| Phi-1.5 | 1.3b | 2023.9 | Pre-entrante | Genérico | | HF | Papel |
| Phi-2 | 2.7b | 2023.12 | Pre-entrante | Genérico | | HF | Papel |
| Phi-3 | 3.8b; 7b; 14b | 2024.4 | Pre-entrante | Genérico | | HF | Papel |
| Phi-3.5 | 3.8b; 4.2b; 6.6b | 2024.4 | Pre-entrante | Genérico | | HF | Papel |
| Freenelm | 270m; 450m; 1.1b; 3B | 2024.4 | Pre-entrante | Genérico | Github | HF | Papel |
| Mobillama | 0.5b; 0.8b | 2024.2 | Pre-entrante | Genérico | Github | HF | Papel |
| Mobilellm | 125m; 350 m | 2024.2 | Pre-entrante | Genérico | Github | HF | Papel |
| Stablelm | 3b; 7b | 2023.4 | Pre-entrante | Genérico | Github | HF | Papel |
| Stablelm 2 | 1.6b | 2024.2 | Pre-entrante | Genérico | Github | HF | Papel |
| Cerebras-GPT | 111M-13B | 2023.4 | Pre-entrante | Genérico | | HF | Papel |
| Bloom, Bloomz | 560m; 1.1b; 1.7b; 3b; 7.1b; 176b | 2022.11 | Pre-entrante | Genérico | | HF | Papel |
| OPTAR | 125m; 350m; 1.3b; 2.7b; 5.7b | 2022.5 | Pre-entrante | Genérico | | HF | Papel |
| Xglm | 1.7b; 2.9b; 7.5b | 2021.12 | Pre-entrante | Genérico | Github | HF | Papel |
| Gpt-neo | 125m; 350m; 1.3b; 2.7b | 2021.5 | Pre-entrante | Genérico | Github | | Papel |
| Megatron-gpt2 | 355m; 2.5b; 8.3b | 2019.9 | Pre-entrante | Genérico | Github | | Papel, blog |
| Minyrón | 4b; 8b; 15b | 2024.7 | Poda y destilación | Genérico | Github | HF | Papel |
| Mínimo | 7b | 2024.7 | Pre-entrante | Genérico | Github | HF | Papel |
| Mínimo-2 | 1b; 3B | 2023.12 | Pre-entrante | Genérico | Github | HF | Papel |
| Mínimos | 3B | 2023.11 | Poda y destilación | Genérico | Github | HF | Papel |
| Orca 2 | 7b | 2023.11 | Destilación | Genérico | | HF | Papel |
| Dolly-v2 | 3b; 7b; 12b | 2023.4 | Ajuste de instrucciones | Genérico | Github | HF | Blog |
| Lamini-LM | 61M-7B | 2023.4 | Destilación | Genérico | Github | HF | Blog |
| Flant5 especializado | 250m; 760m; 3B | 2023.1 | Ajuste de instrucciones | Genérico (matemáticas) | Github | - | Papel |
| Flant5 | 80m; 250m; 780m; 3B | 2022.10 | Ajuste de instrucciones | Genérico | Gihub | HF | Papel |
| T5 | 60m; 220m; 770m; 3b; 11b | 2019.9 | Pre-entrante | Genérico | Github | HF | Papel |
Arquitectura SLM
- Transformador: la atención es todo lo que necesitas. Ashish Vaswani . Neurips 2017.
- Mamba 1: Mamba: modelado de secuencia de tiempo lineal con espacios de estado selectivos. Albert Gu y Tri Dao . Colm 2024. [Documento].
- Mamba 2: los transformadores son SSM: modelos generalizados y algoritmos eficientes a través de la dualidad del espacio de estado estructurado. Tri Dao y Albert Gu . ICML 2024. [Documento] [Código]
Mejora para SLM
Entrenamiento desde cero
- Mobillama: "Mobillama: hacia GPT totalmente transparente preciso y ligero" . Omkar Thawakar, Ashmal Vayani, Salman Khan, Hisham Cholakal, Rao M. Anwer, Michael Felsberg, Tim Baldwin, Eric P. Xing, Fahad Shahbaz Khan. ARXIV 2024. [Documento] [GitHub] [Facefactor de Hugging]
- Mobilellm: "Mobilellm: Optimización de modelos de lenguaje de parámetros de menor miles de millones para casos de uso en el dispositivo" . Zechun Liu, Changsheng Zhao, Forrest Iandola, Chen Lai, Yuandong Tian, Igor Fedorov, Yunyang Xiong, Ernie Chang, Yangyang Shi, Raghuraman Krishnamoorthi, Liangzhen Lai, Vikas Chandra Icml 2024.
- Repensar la optimización y la arquitectura para modelos de idiomas pequeños. Yehui Tang, Fangcheng Liu, Yunsheng Ni, Yuchuan Tian, Zheyuan Bai, Yi-Qi Hu, Sichao Liu, Shangling Jui, Kai Han y Yunhe Wang. ICML 2024. [Documento] [Código]
- Mindllm: "Mindllm: Modelo de lenguaje grande ligero de prioridad a cero desde cero, evaluaciones y aplicaciones de dominio" . Yizhe Yang, Huashan Sun, Jiawei Li, Runheng Liu, Yinghao Li, Yuhang Liu, Heyan Huang, Yang Gao . ARXIV 2023. [Paper] [Huggingface]
Supervisado ajustado
- Optimización de preferencias directas: su modelo de idioma es secretamente un modelo de recompensa. Rafael Rafailov, Archit Sharma, Eric Mitchell, Christopher D Manning, Stefano Ermon y Chelsea Finn. Neurips, 2024. [Documento] [Código]
- Mejora de los modelos de lenguaje de chat escalando conversaciones de instrucción de alta calidad. Ning Ding, Yulin Chen, Bokai Xu, Yujia Qin, Zhi Zheng, Shengding Hu, Zhiyuan Liu, Maosong Sun y Bowen Zhou. EMNLP 2023. [Documento] [Código]
- Slimorca: un conjunto de datos abierto de trazas de razonamiento de flan aumentada GPT-4, con verificación. Wing Lian, Guan Wang, Bleys Goodson, Eugene Pentland, Austin Cook, Chanvichet Vong y "Teknium". Huggingface, 2023. [Datos]
- Stanford Alpaca: un modelo de llama de seguimiento de instrucciones. Rohan Taori, Ishaan Gulrajani, Tianyi Zhang, Yann Dubois, Xuechen Li, Carlos Guestrin, Percy Liang y Tatsunori B. Hashimoto. Github, 2023. [Blog] [Github] [Huggingface]
- OpenChat: avance de modelos de lenguaje de código abierto con datos de calidad mixta. Guan Wang, Sijie Cheng, Xianyuan Zhan, Xiangang Li, Sen Song y Yang Liu. ICLR, 2024. [Paper] [Código] [Huggingface]
- Modelos de lenguaje de capacitación para seguir las instrucciones con comentarios humanos. Long Ouyang, Jeffrey Wu, Xu Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Bonteryindin, Fa. Ryan Lowe. Neurips, 2022. [Documento]
- RLHF: "Modelos de lenguaje de capacitación para seguir las instrucciones con comentarios humanos" . Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, Ryan Lowe. 2022. [Documento]
- MobileBert: "MobileBert: un BERT agnóstico de tarea compacta para dispositivos limitados por recursos" . Zhiqing Sun, Hongkun Yu, Xiaodan Song, Renjie Liu, Yiming Yang, Denny Zhou. ACL 2020. [Documento] [Github] [Huggingface]
- Los modelos de idiomas son alumnos multitarea no supervisados. Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever. Blog de Operai, 2019. [Documento]
Calidad de datos en KD
- Tinystory: "Tinystories: ¿Qué tan pequeños pueden ser los modelos de idiomas y seguir hablando inglés coherente?" . Ronen Eldan, Yuanzhi Li. 2023. [Paper] [Huggingface]
- AS-ES: "AS-ES Aprendizaje: hacia el aprendizaje eficiente de la cuna en modelos pequeños" . Nuwa XI, Yuhan Chen, Sendong Zhao, Haochun Wang, Bing Qin, Ting Liu. 2024. [Documento]
- Afectuis: "Autoamplifica: Mejora de modelos de lenguaje pequeño con explicaciones auto-hoc" . Milán Bhan, Jean-Noel Vittaut, Nicolas Chesneau, Marie-Jeanne Lesot. 2024. [Documento]
- Los modelos de idiomas grandes pueden hacer auto-avanzar. Jiaxin Huang, Shixiang Shane Gu, Le Hou, Yuexin Wu, Xuezhi Wang, Hongkun Yu y Jiawei Han. EMNLP 2023. [Documento]
- Hacia la superación personal de LLM a través de la imaginación, la búsqueda y la criticación. Ye Tian, Baolin Peng, Linfeng Song, Lifeng Jin, Dian Yu, Haitao Mi y Dong Yu. Neurips 2024. [Documento] [Código]
Destilación para SLM
- GKD: "Destilación en la política de los modelos de idiomas: aprendizaje de los errores autogenerados" . Rishabh Agarwal et al. ICLR 2024. [Documento]
- Distilllm: "Distillm: hacia la destilación simplificada para modelos de idiomas grandes" . Jongwoo Ko et al. ICML 2024. [Documento] [Github]
- Adapt-and-Distill: "Adapt-and-Distill: Desarrollar modelos de lenguaje previos a los pretrados pequeños, rápidos y efectivos para dominios" . Yunzhi Yao et al. ACL2021. [Documento] [Github]
- AKL: "Repensar la divergencia de Kullback-Leibler en la destilación de conocimiento para modelos de idiomas grandes" . Taiqiang Wu, Chaofan Tao, Jiahao Wang, Runming Yang, Zhe Zhao, Ngai Wong. ARXIV 2024. [Documento] [GitHub]
- Destilación hereditaria de peso para la compresión de BERT agnóstico de tarea Taiqiang Wu, Cheng Hou, Shanshan Lao, Jiayi Li, Ngai Wong, Zhe Zhao, Yujiu Yang Naacl, 2024, [documento] [Código]
Cuantificación
- Smoothquant: "Smoothquant: cuantificación precisa y eficiente posterior al entrenamiento para modelos de lenguaje grande" . Guangxuan Xiao, Ji Lin, Mickael Seznec, Hao Wu, Julien Demouth, Song Han. ICML 2023. [Paper] [Github] [Slides] [Video]
- Billm: "Billm: empujando el límite de la cuantización posterior al entrenamiento para LLM" . Wei Huang, Yangdong Liu, Haotong Qin, Ying Li, Shiming Zhang, Xianglong Liu, Michele Magno, Xiaojuan Qi. 2024. [Documento] [Github]
- LLM-QAT: "LLM-QAT: capacitación consciente de cuantificación sin datos para modelos de idiomas grandes" . Zechun Liu, Barlas Oguz, Changsheng Zhao, Ernie Chang, Pierre Stock, Yashar Mehdad, Yangyang Shi, Raghuraman Krishnamoorthi, Vikas Chandra. 2023. [Documento]
- PB-LLM: "PB-LLM: modelos de lenguaje grande parcialmente binarizado" . Zhihang Yuan, Yuzhang Shang, Zhen Dong. ICLR 2024. [Documento] [GitHub]
- Onebit: "Onebit: hacia modelos de lenguaje grande de bits extremadamente bajo" . Yuzhuang Xu, Xu Han, Zonghan Yang, Shuo Wang, Qingfu Zhu, Zhiyuan Liu, Weidong Liu, Wanxiang Che. Neurips 2024. [Documento]
- Bitnet: "Bitnet: escala de transformadores de 1 bits para modelos de lenguaje grandes" . Hongyu Wang, Shuming Ma, Li Dong, Shaohan Huang, Huaijie Wang, Lingxiao Ma, Fan Yang, Ruiping Wang, Yi Wu, Furu Wei. 2023. [Documento]
- Bitnet B1.58: "La era de LLM de 1 bits: todos los modelos de lenguaje grande están en 1.58 bits" . Shuming MA, Hongyu Wang, Lingxiao MA, Lei Wang, Wenhui Wang, Shaohan Huang, Li Dong, Ruiping Wang, Jilong Xue, Furu Wei. 2024. [Documento]
- Squeezellm: "Squeezellm: cuantificación densa y placa" . Sehoon Kim, Coleman Hooper, Amir Gholami, Zhen Dong, Xiuyu Li, Sheng Shen, Michael W. Mahoney, Kurt Keutzer. ICML 2024. [Documento] [Github]
- JSQ: "Comprimiendo modelos de idiomas grandes por dispersión y cuantización" . Jinyang Guo, Jianyu Wu, Zining Wang, Jiaheng Liu, Ge Yang, Yifu Ding, Ruihao Gong, Haotong Qin, Xianglong Liu. ICML 2024. [Documento] [Github]
- Framequant: "Framequant: cuantización flexible de bajo bits para transformadores" . Harshavardhan Adepu, Zhanpeng Zeng, Li Zhang, Vikas Singh. 2024. [Documento] [Github]
- Billm: "Billm: empujando el límite de la cuantización posterior al entrenamiento para LLM" . Wei Huang, Yangdong Liu, Haotong Qin, Ying Li, Shiming Zhang, Xianglong Liu, Michele Magno, Xiaojuan Qi. 2024. [Documento] [Github]
- LQER: "LQER: Reconstrucción de errores de cuantificación de bajo rango para LLM" . Cheng Zhang, Jianyi Cheng, George A. Constantinides, Yiren Zhao. ICML 2024. [Documento] [Github]
- I-llm: "I-llm: inferencia eficiente solo entero para modelos de lenguaje de bajo bits de baja bits totalmente cuidados" . Xing Hu, Yuan Cheng, Dawei Yang, Zhihang Yuan, Jiangyong Yu, Chen Xu, Sifan Zhou. 2024. [Documento] [Github]
- Autorización fotovoltaica: "Autorización fotovoltaica: más allá de la estimación directa para la compresión extrema de LLM" . Vladimir Malinovskii, Denis Mazur, Ivan Ilin, Denis Kuznedelev, Konstantin Burlachenko, Kai Yi, Dan Alistarh, Peter Richtarik. 2024. [Documento]
- PEQA: "ajuste fino eficiente en memoria de modelos de lenguaje grande comprimido a través de cuantización entera de sub-4 bits" . Jeonghoon Kim, Jung Hyun Lee, Sungdong Kim, Joonsuk Park, Kang Min Yoo, SE Jung Kwon, Dongsoo Lee. NIPS 2023. [Documento]
- Qlora: "Qlora: Finetuning eficiente de LLM cuantizados" . Tim Dettmers, Artidoro Pagnoni, Ari Holtzman, Luke Zettlemoyerauthors Información y reclamos. NIPS 2023. [Documento] [GitHub]
Técnicas LLM para SLMS
- Ma et al.: "El modelo de lenguaje grande no es un buen extractor de información de pocos disparos, ¡sino un buen reabastecimiento de muestras duras!" . Yubo MA, Yixin Cao, Yongching Hong, Aixin Sun. EMNLP 2023. [Documento] [Github]
- MOQE: "Mezcla de expertos cuantificados (MOQE): efecto complementario de la cuantización y robustez de bajo bits" . Young Jin Kim, Raffy Fahim, Hany Hassan Awadalla. 2023. [Documento]
- SLM-RAG: "¿Pueden los modelos de lenguaje pequeño con generación de recuperación augsada reemplazar modelos de idiomas grandes al aprender informática?" . Suqing Liu, Zezhu Yu, Feiran Huang, Yousef Bulbulia, Andreas Bergen, Michael Liut. ITICSE 2024. [Documento]
Aplicaciones SLM específicas de tareas
SLM en QA
- Alpaca: "Alpaca: un modelo fuerte y replicable de seguimiento de instrucciones" . Rohan Taori, Ishaan Gulrajani, Tianyi Zhang, Yann Dubois, Xuechen LI, Carlos Guestrin, Percy Liang, Tatsunori B. Hashimoto. 2023. [Documento] [Github] [Huggingface] [Sitio web]
- Estable Beluga 7b: "Estable Beluga 2" . Mahan, Dakota y Carlow, Ryan y Castricato, Louis y Cooper, Nathan y Laforte, Christian. 2023. [Huggingface]
- Biogpt de fino Guo et al.: "Mejora de los modelos de lenguaje pequeños en PubMedqa a través del aumento de datos generativos" . Zhen Guo, Peiqi Wang, Yanwei Wang, Shangdi Yu. 2023. [Documento]
- SLMS financieros: "ajuste de modelos de idiomas más pequeños para responder preguntas sobre documentos financieros" . Karmvir Singh Phogat Karmvir Singh Phogat, Sai Akhil Puranam, Sridhar Dasaratha, Chetan Harsha, Shashishekar Ramakrishna. 2024. [Documento]
- Colbert: "Colbert Recuperación y respuesta de respuesta de conjunto para la respuesta al modelo de lenguaje" . Alex Gichamba, Tewodros Kederalah Idris, Brian Ebiyau, Eric Nyberg, Teruko Mitamura. IEEE 2024. [Documento]
- T-SAS: "Modelos de lenguaje pequeño autoadaptativo de tiempo de prueba para responder preguntas" . Soyeong Jeong, Jinheon Baek, Sukmin Cho, Sung Hwang, Jong Park. ACL 2023. [Documento] [Github]
- Clasificación de justificación: "Respondiendo preguntas invisibles con modelos de idiomas más pequeños utilizando la generación de justificación y la recuperación densa" . Tim Hartill, Diana Benavides-prado, Michael Witbrock, Patricia J. Riddle. 2023. [Documento]
SLM en la codificación
- Phi-3.5-Mini: "Informe técnico PHI-3: un modelo de idioma altamente capaz localmente en su teléfono" . Marah Abdin, Jyoti Aneja, Hany Awadalla, Ahmed Awadallah, Ammar Ahmad Awan, Nguyen Bach, Amit Bahree, Arash Bakhtiari, Jianmin Bao, Harkirat Behl, ..., Chunyu Wang, Guanhua Wang, LiJuan Wang et al. 2024. [Documento] [Huggingface] [Sitio web]
- Tinyllama: "Tinyllama: un modelo de idioma pequeño de código abierto" . Peiyuan Zhang, Guangtao Zeng, Tianduo Wang, Wei Lu. 2024. [Paper] [Huggingface] [Demo de chat] [Discord]
- Codellama: "Code Llama: Open Foundation Models for Code" . Baptiste Rozière, Jonas Gehring, Fabian Gloeckle, Sten Sootla, Itai Gat, Xiaoqing Ellen Tan, Yossi Adi, Jingyu Liu, Romain Sauvestre, Tal Remez, ..., Nicolas Usunier, Thomas Scialom, Gabriel Synnaev. 2024. [Documento] [Huggingface]
- Codegemma: "Codegemma: Abra modelos de código basados en Gemma" . Equipo de Codegemma: Heri Zhao, Jeffrey Hui, Joshua Howland, Nam Nguyen, Siqi Zuo, Andrea Hu, Christopher A. Choquette-CHOO, Jingyue Shen, Joe Kelley, Kshitij Bansal, ..., Kathy Korevec, Kelly Schaefer, Scott Huffman. 2024. [Documento] [Huggingface]
SLM en recomendación
- Promptrec: "¿Podrían los modelos de lenguaje pequeño servir como recomendadores? Para recomendaciones de inicio de frío centrado en los datos" . Xuansheng Wu, Huachi Zhou, Yucheng Shi, Wenlin Yao, Xiao Huang, Ninghao Liu. 2024. [Documento] [Github]
- Slim: "¿Pueden los modelos de lenguaje pequeño ser buenos razonadores para la recomendación secuencial?" . Yuling Wang, Changxin Tian, Binbin Hu, Yanhua Yu, Ziqi Liu, Zhiqiang Zhang, Jun Zhou, Liang Pang, Xiao Wang. 2024. [Documento]
- BillP: "Los modelos de idiomas grandes son planificadores aprendizables para la recomendación a largo plazo" . Wentao Shi, Xiangnan He, Yang Zhang, Chongming Gao, Xinyue Li, Jizhi Zhang, Qifan Wang, Fuli Feng. 2024. [Documento]
- Una vez: "Una vez: aumentar la recomendación basada en el contenido con modelos de idiomas grandes de código abierto y cerrado" . QiJiong Liu, Nuo Chen, Tetsuya Sakai, Xiao-Ming Wu. WSDM 2024. [Documento] [Github]
- Reclora: "Adaptación personalizada de bajo rango personalizada de modelos de idiomas grandes para recomendación" . Jiachen Zhu, Jianghao Lin, Xinyi Dai, Bo Chen, Rong Shan, Jieming Zhu, Ruiming Tang, Yong Yu, Weinan Zhang. 2024. [Documento]
SLM en la búsqueda web
- Codador de contenido: "Tareas previas al entrenamiento para la recuperación a gran escala basada en la incrustación" . Wei-Cheng Chang, Felix X. Yu, Yin-Wen Chang, Yiming Yang, Sanjiv Kumar. ICLR 2020. [Documento]
- Poly-Ecoders: "Poly-Encoders: arquitecturas de transformadores y estrategias previas a la capacitación para una puntuación rápida y precisa de múltiples oraciones" . Samuel Humeau, Kurt Shuster, Marie-Anne Lachaux, Jason Weston. ICLR 2020. [Documento]
- Twin-Bert: "Twinbert: destilación de conocimiento a los modelos BERT estructurados con doble para recuperación eficiente" . Wenhao Lu, Jian Jiao, Ruofei Zhang. 2020. [Documento]
- H-Ernie: "H-Ernie: un modelo de lenguaje previamente entrenado de granularidad para la búsqueda web" . Xiaokai Chu, Jiashu Zhao, Lixin Zou, Dawei Yin. Sigir 2022. [Documento]
- Ranker: "Pasaje re-rango con Bert" . Rodrigo Nogueira, Kyunghyun Cho. 2019. [Documento] [Github]
- Rewriter: "Reescritura de consulta para modelos de idiomas grandes acuáticos de recuperación" . Xinbei MA, Yeyun Gong, Pengcheng He, Hai Zhao, Nan Duan. EMNLP2023. [Documento] [Github]
SLM en dispositivos móviles
- Octopus: "Octopus: modelo de lenguaje en el dispositivo para la presentación de funciones de las API de software" . Wei Chen, Zhiyuan Li, Mingyuan Ma. 2024. [Documento] [Huggingface]
- MobileAgent: "Mobile-Agent-V2: Asistente de operación del dispositivo móvil con navegación efectiva a través de la colaboración de múltiples agentes" . Junyang Wang, Haiyang Xu, Haitao Jia, Xi Zhang, Ming Yan, Weizhou Shen, Ji Zhang, Fei Huang, Jitao Sang. 2024. [Paper] [Github] [Huggingface]
- Revolución de la interacción móvil: "Revolución de la interacción móvil: habilitando un parámetro GPT LLM de 3 mil millones en Mobile" . Samuel Carreira, Tomás Marques, José Ribeiro, Carlos Grilo. 2023. [Documento]
- Autodroid: "Autodroid: Automatización de tareas con alimentación LLM en Android" . Hao Wen, Yuanchun Li, Guohong Liu, Shanhui Zhao, Tao Yu, Toby Jia-Jun Li, Shiqi Jiang, Yunhao Liu, Yaqin Zhang, Yunxin Liu. 2023. [Documento]
- Agente en el dispositivo para reescritura de texto: "Hacia un agente en el dispositivo para la reescritura de texto" . Yun Zhu, Yinxiao Liu, Felix Stahlberg, Shankar Kumar, Yu-Hui Chen, Liangchen Luo, Lei Shu, Renjie Liu, Jindong Chen, Lei Meng. 2023. [Documento]
Técnicas de optimización de implementación en el dispositivo
Optimización de eficiencia de memoria
- Edge-LLM: "Edge-LLM: habilitando la adaptación eficiente del modelo de lenguaje grande en los dispositivos de borde a través de la compresión unificada de capa y el ajuste y la votación de la capa adaptativa" . Zhongzhi Yu, Zheng Wang, Yuhan Li, Haoran You, Ruijie Gao, Xiaoya Zhou, Sreenidhi Reedy Bommu, Yang Katie Zhao, Yingyan Celine Lin. 2024. [Documento] [Github]
- LLM-PQ: "LLM-PQ: Serving LLM en grupos heterogéneos con partición de fase y cuantificación adaptativa" . Juntao Zhao, Borui Wan, Yanghua Peng, Haibin Lin, Chuan Wu. 2024. [Documento] [Github]
- AWQ: "AWQ: cuantificación de peso consciente de activación para compresión y aceleración de LLM" . Ji Lin, Jiaming Tang, Haotian Tang, Shang Yang, Wei-Ming Chen, Wei-Chen Wang, Guangxuan Xiao, Xingyu Dang, Chuang Gan, Song Han. Mlsys 2024. [Documento] [Github]
- Mobileaibench: "Mobileaibench: Benchmarking LLMS y LMMS para casos de uso en el dispositivo" . Rithesh Murthy, Liangwei Yang, Juntao Tan, Tulika Manoj Awalgaonkar, Yilun Zhou, Shelby Heinecke, Sachin Desai, Jason Wu, Ran Xu, Sarah Tan, Jianguo Zhang, Zhiwei Liu, Shirley Kokane, Zuxin Liu, Ming Zhu, Huan Wion, Huan Wion, Caiming. Silvio Savaresel. 2024. [Documento] [Github]
- Mobilellm: "Mobilellm: Optimización de modelos de lenguaje de parámetros de menor miles de millones para casos de uso en el dispositivo" . Zechun Liu, Changsheng Zhao, Forrest Iandola, Chen Lai, Yuandong Tian, Igor Fedorov, Yunyang Xiong, Ernie Chang, Yangyang Shi, Raghuraman Krishnamoorthi, Liangzhen Lai, Vikas Chandra. ICML 2024. [Paper] [Github] [Huggingface]
- Edgemoe: "Edgemoe: inferencia rápida en el dispositivo de modelos de idiomas grandes basados en MOE" . Rongjie Yi, Liwei Guo, Shiyun Wei, Ao Zhou, Shangguang Wang, Mengwei Xu. 2023. [Documento] [Github]
- Engranaje: "Equipo: una receta eficiente de compresión de caché de KV para inferencia generativa casi sin pérdida de LLM" . Hao Kang, Qingru Zhang, Souvik Kundu, Geonhwa Jeong, Zaoxing Liu, Tushar Krishna, Tuo Zhao. 2024. [Documento] [Github]
- DMC: "Compresión de memoria dinámica: modernización de LLM para inferencia acelerada" . Piotr Nawrot, Adrian łańcucki, Marcin Chhowski, David Tarjan, Edoardo M. Ponti. 2024. [Documento]
- Transformer-Lite: "Transformer-Lite: implementación de alta eficiencia de modelos de idiomas grandes en GPU de teléfonos móviles" . Luchang Li, Sheng Qian, Jie Lu, Lunxi Yuan, Rui Wang, Qin Xie. 2024. [Documento]
- LLMAAS: "LLM como servicio de sistema en dispositivos móviles" . Wangsong Yin, Mengwei Xu, Yuanchun LI, Xuanzhe Liu. 2024. [Documento]
Optimización de eficiencia de tiempo de ejecución
- Edgemoe: "Edgemoe: inferencia rápida en el dispositivo de modelos de idiomas grandes basados en MOE" . Rongjie Yi, Liwei Guo, Shiyun Wei, Ao Zhou, Shangguang Wang, Mengwei Xu. 2023. [Documento] [Github]
- LLMCAD: "LLMCAD: Inferencia del modelo de lenguaje grande en el dispositivo rápido y escalable" . Daliang Xu, Wangsong Yin, Xin Jin, Ying Zhang, Shiyun Wei, Mengwei Xu, Xuanzhe Liu. 2023. [Documento]
- Lingualinked: "Lingualinked: un sistema de inferencia de modelo de lenguaje grande distribuido para dispositivos móviles" . Junchen Zhao, Yurun Song, Simeng Liu, Ian G. Harris, Sangeetha Abdu Jyothi. 2023 [papel]
SLMS Mejora LLMS
SLMS para la calibración de LLM y detección de alucinación
- Calibrar modelos de lenguaje grandes utilizando solo sus generaciones. Dennis Ulmer, Martin Gubri, Hwaran Lee, Sangdoo Yun, Seong Joon Oh . ACL 2024 Long, [PDF] [Código]
- Aprendizaje óptimo de Pareto para estimar errores de modelo de idioma grande. Theodore Zhao, Mu Wei, J. Samuel Preston, Hoifung Poon . ACL 2024 Long, [PDF]
- El estado interno de un LLM sabe cuándo está mintiendo. Amos Azaria, Tom Mitchell . EMNLP 2023 Hallazgos. [PDF]
- ¡El pequeño agente también puede rockear! Empoderar modelos de lenguaje pequeño como detector de alucinación. Xiaoxue Cheng, Junyi Li, Wayne Xin Zhao, Hongzhi Zhang, Fuzheng Zhang, Di Zhang, Kun Gai, Ji-Rong Wen. EMNLP 2024 Long. [PDF]
- Reconfidenciación de LLM desde la perspectiva de pérdida de agrupación. Lihu Chen, Alexandre Perez-Lebel, Fabian M. Suchanek, Gaël Varoquaux. EMNLP 2024 Hallazgos. [PDF]
SLMS para el trapo LLM
- Pequeños modelos, grandes ideas: aprovechando modelos de proxy delgados para decidir cuándo y qué recuperar para LLM. Jiejun Tan, Zhicheng Dou, Yutao Zhu, Peidong Guo, Kun Fang, Ji-Rong Wen. ACL 2024 largo. [PDF] [Código] [Huggingface]
- Self-Rag: Aprender a recuperar, generar y criticar a través de la autorreflexión. Akari Asai, Zeqiu Wu, Yizhong Wang, Avirup Sil, Hannaneh Hajishirzi. ICLR 2024 Oral. [PDF] [Huggingface] [Código] [Sitio web] [Modelo] [Datos]
- Longllmlingua: Acelerar y mejorar los LLM en largos escenarios de contexto a través de una rápida compresión. Huiqiang Jiang, Qianhui Wu, Xufang Luo, Dongsheng Li, Chin-Yew Lin, Yuqing Yang, Lili Qiu. Taller ICLR 2024 Póster Me-FOMO. [PDF]
- Recuperación correctiva de la generación aumentada. Shi-Qi Yan, Jia-Chen GU, Yun Zhu, Zhen-Hua Ling. ARXIV 2024.1. [PDF] [Código]
- Aumento de la recuperación de autoconocimiento para modelos de idiomas grandes. Yile Wang, Peng Li, Maosong Sun, Yang Liu. EMNLP 2023 Hallazgos. [PDF] [Código]
- Modelos de lenguaje de recuperación en contexto. Ori Ram, Yoav Levine, Itay Dalmedigos, Dor Muhlgay, Amnon Shashua, Kevin Leyton-Brown, Yoav Shoham. TACL 2023. [PDF] [Código]
- RA-ISS: Aprender a responder y comprender por el aumento de recuperación a través de la autocuración iterativa. Liu, Yanming y Peng, Xinyue y Zhang, Xuhong y Liu, Weihao y Yin, Jianwei y Cao, Jiannan y Du, Tianyu. Hallazgos de ACL 2024. [PDF]
- Menos es más: hacer modelos de idiomas más pequeños Retrievers de subgrafías competentes para múltiples saltos {KGQA}. Wenyu Huang, Guancheng Zhou, Hongru Wang, Pavlos Vougiouklis, Mirella lapata, Jeff Z. Pan. EMNLP 2024 Hallazgos. [PDF]
SLMS para el razonamiento de LLM
- Canwen Xu, Yichong Xu, Shuohang Wang, Yang Liu, Chenguang Zhu y Julian McAuley. Los modelos pequeños son complementos valiosos para modelos de idiomas grandes. Hallazgos de ACL 2024. [PDF]
- Linyi Yang, Shuibai Zhang, Zhuohao Yu, Guangsheng Bao, Yidong Wang, Jindong Wang, Ruochen Xu, Wei Ye, Xing Xie, Weizhu Chen y Yue Zhang. El conocimiento supervisado hace que los modelos de idiomas grandes sean mejores estudiantes de contexto. ICLR 2024 Cartel. [PDF]
- Zhuofeng Wu, He Bai, Aonan Zhang, Jiatao GU, VG Vydiswaran, Navdeep Jaitly y Yizhe Zhang. ¿Divide o conquistar? ¿Qué parte debes destilar tu LLM? EMNLP 2024 Hallazgos. [PDF]
SLMS para aliviar los derechos de autor y la privacidad de LLMS
- Tianlin Li, Qian Liu, Tianyu Pang, Chao du, Qing Guo, Yang Liu y Min Lin. Purificación de modelos de idiomas grandes en conjunto de un modelo de lenguaje pequeño. ARXIV 2024. [PDF]
SLMS para extraer indicaciones LLM
- Yiming Zhang, Nicholas Carlini y Daphne Ippolito. Extracción rápida efectiva de los modelos de idiomas. Colm 2024 [PDF]
- Zeyang Sha y Yang Zhang. Attacos de robo rápido contra modelos de idiomas grandes. ARXIV (2024). [PDF]
- Collin Zhang, John X Morris y Vitaly Shmatikov. Extracción de indicaciones invirtiendo salidas LLM. [PDF]
SLMS para ajustar LLMS
- Eric Mitchell, Rafael Rafailov, Archit Sharma, Chelsea Finn y Christopher D Manning. 2024. Un emulador para ajustar modelos de idiomas grandes utilizando modelos de lenguaje pequeños. ICLR 2024. [PDF]
- Alisa Liu, Xiaochuang Han, Yizhong Wang, Yulia Tsvetkov, Yejin Choi y Noah A Smith. 2024. Tuning Language Models by Proxy. Colm 2024. [PDF]
- Dheeraj Mekala, Alex Nguyen y Jingbo Shang. 2024. Los modelos de lenguaje más pequeños son capaces de seleccionar datos de capacitación de ajuste de instrucciones para modelos de idiomas más grandes. Hallazgos de ACL 2024. [PDF]
- Yongheng Deng, Ziqing Qiao, Ju Ren, Yang Liu y Yaoxue Zhang. 2023. Mejora mutua de modelos de idiomas grandes y pequeños con transferencia de conocimiento cruzado. ARXIV 2023. [PDF]
- Smalltolarge (S2L): selección de datos escalable para ajustar modelos de idiomas grandes al resumir las trayectorias de entrenamiento de modelos pequeños. Yu Yang · Siddhartha Mishra · Jeffrey Chiang · Baharan Mirzasoleiman. NIPS 2024 Cartel. [PDF]
- Búsqueda de débil a fuerza: alinear modelos de idiomas grandes mediante la búsqueda de modelos de lenguaje pequeños. Zhanhui zhou · zhixuan liu · jie liu · zhichen dong · chao yang · yu qiao. NIPS 2024 Cartel. [PDF]
SLMS para la seguridad de LLM
- Guardia de llama: salvaguardia de entrada-salida basada en LLM para conversaciones Human-AI. Meta arxiv 2024 [PDF]
- SLM como Guardian: seguridad de IA pionera con modelo de lenguaje pequeño. Ohjoon Kwon, Donghyeon Jeon, Nayoung Choi, Gyu-Hwung Cho, Hwiyeol JO, Changbong Kim, Hyunwoo Lee, Inho Kang, Sun Kim, Taiwoo Park. EMNLP 2024. [PDF]
SLM para la evaluación de LLM
- Kun Zhao, Bohao Yang, Chen Tang, Chenghua Lin y Liang Zhan . 2024. Diapositiva: un marco que integra modelos de lenguaje pequeño y grande para la evaluación de diálogos abiertos . Hallazgos de ACL 2024. [PDF]
- Incertidumbre semántica: invariaciones lingüísticas para la estimación de la incertidumbre en la generación del lenguaje natural. Lorenz Kuhn, Yarin Gal, Sebastian Farquhar. ICLR 2023. [PDF]
- Selfeckgpt: detección de alucinación de caja negra de recursos cero para modelos generativos de idiomas grandes. Potsawee Manakul, Adian Liusie, Mark Gales. EMNLP 2023 Main. [PDF]
- Proxylm: predicción del rendimiento del modelo de lenguaje en tareas multilingües a través de modelos proxy. David Anugraha, Genta Indra Winata, Chenyue Li, Patrick Amadeus Irawan, En-Shiun Annie Lee. ARXIV 2024. [PDF]
- FactScore: evaluación atómica de grano fino de la precisión fáctica en la generación de texto de forma larga. Sewon Min, Kalpesh Krishna, Xinxi Lyu, Mike Lewis, Wen-Tau Yih, Pang Koh, Mohit Iyyer, Luke Zettlemoyer, Hannaneh Hajishirzi. EMNLP 2023 Main. [PDF]
- Mire antes de saltar: un estudio exploratorio de la medición de la incertidumbre para modelos de idiomas grandes. Yuheng Huang, Jiayang Song, Zhijie Wang, Shengming Zhao, Huaming Chen, Felix Juefei-Xu, Lei Ma Arxiv 2023. [PDF]
Historia de la estrella