SLMs Survey
1.0.0
该回购包括我们有关小语言模型的最新调查文件中讨论的论文。
在此处阅读完整的论文:纸链接
如果我们的调查对您的研究很有用,请邀请我们的论文:
@article{wang2024comprehensive,
title={A Comprehensive Survey of Small Language Models in the Era of Large Language Models: Techniques, Enhancements, Applications, Collaboration with LLMs, and Trustworthiness},
author={Wang, Fali and Zhang, Zhiwei and Zhang, Xianren and Wu, Zongyu and Mo, Tzuhao and Lu, Qiuhao and Wang, Wanjing and Li, Rui and Xu, Junjie and Tang, Xianfeng and others},
journal={arXiv preprint arXiv:2411.03350},
year={2024}
}


| 模型 | #params | 日期 | 范例 | 领域 | 代码 | HF模型 | 纸/博客 |
|---|---|---|---|---|---|---|---|
| 美洲驼3.2 | 1B; 3b | 2024.9 | 预训练 | 通用的 | github | HF | 博客 |
| QWEN 1 | 1.8b; 7b; 14b; 72B | 2023.12 | 预训练 | 通用的 | github | HF | 纸 |
| QWEN 1.5 | 0.5B; 1.8b; 4b; 7b; 14b; 32B; 72B | 2024.2 | 预训练 | 通用的 | github | HF | 纸 |
| QWEN 2 | 0.5B; 1.5b; 7b; 57b; 72B | 2024.6 | 预训练 | 通用的 | github | HF | 纸 |
| QWEN 2.5 | 0.5B; 1.5b; 3b; 7b; 14b; 32B; 72B | 2024.9 | 预训练 | 通用的 | github | HF | 纸 |
| 芽 | 2b; 7b | 2024.2 | 预训练 | 通用的 | HF | 纸 | |
| Gemma 2 | 2b; 9b; 27b | 2024.7 | 预训练 | 通用的 | HF | 纸 | |
| H2O-Danube3 | 500m; 4b | 2024.7 | 预训练 | 通用的 | HF | 纸 | |
| llm-neo | 1B | 2024.11 | 持续的训练 | 通用的 | HF | 纸 | |
| FOX-1 | 1.6b | 2024.6 | 预训练 | 通用的 | HF | 博客 | |
| 瑞恩 | 1.3b | 2024.5 | 预训练 | 通用的 | HF | 纸 | |
| minicpm | 1.2b; 2.4b | 2024.4 | 预训练 | 通用的 | github | HF | 纸 |
| 奥尔莫 | 1B; 7b | 2024.2 | 预训练 | 通用的 | github | HF | 纸 |
| Tinyllama | 1B | 2024.1 | 预训练 | 通用的 | github | HF | 纸 |
| PHI-1 | 1.3b | 2023.6 | 预训练 | 编码 | HF | 纸 | |
| PHI-1.5 | 1.3b | 2023.9 | 预训练 | 通用的 | HF | 纸 | |
| PHI-2 | 2.7b | 2023.12 | 预训练 | 通用的 | HF | 纸 | |
| PHI-3 | 3.8b; 7b; 14b | 2024.4 | 预训练 | 通用的 | HF | 纸 | |
| PHI-3.5 | 3.8b; 4.2b; 6.6b | 2024.4 | 预训练 | 通用的 | HF | 纸 | |
| Openelm | 270m; 450m; 1.1b; 3b | 2024.4 | 预训练 | 通用的 | github | HF | 纸 |
| 赛车 | 0.5B; 0.8B | 2024.2 | 预训练 | 通用的 | github | HF | 纸 |
| Mobilellm | 125m; 350m | 2024.2 | 预训练 | 通用的 | github | HF | 纸 |
| 稳定 | 3b; 7b | 2023.4 | 预训练 | 通用的 | github | HF | 纸 |
| Stablelm 2 | 1.6b | 2024.2 | 预训练 | 通用的 | github | HF | 纸 |
| 小脑-GPT | 111m-13b | 2023.4 | 预训练 | 通用的 | HF | 纸 | |
| 布鲁姆,布鲁姆斯 | 560m; 1.1b; 1.7b; 3b; 7.1b; 176b | 2022.11 | 预训练 | 通用的 | HF | 纸 | |
| 选择 | 125m; 350m; 1.3b; 2.7b; 5.7b | 2022.5 | 预训练 | 通用的 | HF | 纸 | |
| XGLM | 1.7b; 2.9b; 7.5b | 2021.12 | 预训练 | 通用的 | github | HF | 纸 |
| gpt-neo | 125m; 350m; 1.3b; 2.7b | 2021.5 | 预训练 | 通用的 | github | 纸 | |
| Megatron-GPT2 | 355m; 2.5b; 8.3b | 2019.9 | 预训练 | 通用的 | github | 纸,博客 | |
| 微型 | 4b; 8b; 15B | 2024.7 | 修剪和蒸馏 | 通用的 | github | HF | 纸 |
| minimix | 7b | 2024.7 | 预训练 | 通用的 | github | HF | 纸 |
| minima-2 | 1B; 3b | 2023.12 | 预训练 | 通用的 | github | HF | 纸 |
| minima | 3b | 2023.11 | 修剪和蒸馏 | 通用的 | github | HF | 纸 |
| ORCA 2 | 7b | 2023.11 | 蒸馏 | 通用的 | HF | 纸 | |
| Dolly-V2 | 3b; 7b; 12b | 2023.4 | 指令调整 | 通用的 | github | HF | 博客 |
| 拉米尼-lm | 61m-7b | 2023.4 | 蒸馏 | 通用的 | github | HF | 博客 |
| 专门的Flant5 | 250m; 760m; 3b | 2023.1 | 指令调整 | 通用(数学) | github | - | 纸 |
| Flant5 | 80m; 250m; 780m; 3b | 2022.10 | 指令调整 | 通用的 | Gihub | HF | 纸 |
| T5 | 60m; 220m; 770m; 3b; 11b | 2019.9 | 预训练 | 通用的 | github | HF | 纸 |