SLMs Survey
1.0.0
該回購包括我們有關小語言模型的最新調查文件中討論的論文。
在此處閱讀完整的論文:紙鏈接
如果我們的調查對您的研究很有用,請邀請我們的論文:
@article{wang2024comprehensive,
title={A Comprehensive Survey of Small Language Models in the Era of Large Language Models: Techniques, Enhancements, Applications, Collaboration with LLMs, and Trustworthiness},
author={Wang, Fali and Zhang, Zhiwei and Zhang, Xianren and Wu, Zongyu and Mo, Tzuhao and Lu, Qiuhao and Wang, Wanjing and Li, Rui and Xu, Junjie and Tang, Xianfeng and others},
journal={arXiv preprint arXiv:2411.03350},
year={2024}
}


| 模型 | #params | 日期 | 範例 | 領域 | 代碼 | HF模型 | 紙/博客 |
|---|---|---|---|---|---|---|---|
| 美洲駝3.2 | 1B; 3b | 2024.9 | 預訓練 | 通用的 | github | HF | 部落格 |
| QWEN 1 | 1.8b; 7b; 14b; 72B | 2023.12 | 預訓練 | 通用的 | github | HF | 紙 |
| QWEN 1.5 | 0.5B; 1.8b; 4b; 7b; 14b; 32B; 72B | 2024.2 | 預訓練 | 通用的 | github | HF | 紙 |
| QWEN 2 | 0.5B; 1.5b; 7b; 57b; 72B | 2024.6 | 預訓練 | 通用的 | github | HF | 紙 |
| QWEN 2.5 | 0.5B; 1.5b; 3b; 7b; 14b; 32B; 72B | 2024.9 | 預訓練 | 通用的 | github | HF | 紙 |
| 芽 | 2b; 7b | 2024.2 | 預訓練 | 通用的 | HF | 紙 | |
| Gemma 2 | 2b; 9b; 27b | 2024.7 | 預訓練 | 通用的 | HF | 紙 | |
| H2O-Danube3 | 500m; 4b | 2024.7 | 預訓練 | 通用的 | HF | 紙 | |
| llm-neo | 1B | 2024.11 | 持續的訓練 | 通用的 | HF | 紙 | |
| FOX-1 | 1.6b | 2024.6 | 預訓練 | 通用的 | HF | 部落格 | |
| 瑞恩 | 1.3b | 2024.5 | 預訓練 | 通用的 | HF | 紙 | |
| minicpm | 1.2b; 2.4b | 2024.4 | 預訓練 | 通用的 | github | HF | 紙 |
| 奧爾莫 | 1B; 7b | 2024.2 | 預訓練 | 通用的 | github | HF | 紙 |
| Tinyllama | 1B | 2024.1 | 預訓練 | 通用的 | github | HF | 紙 |
| PHI-1 | 1.3b | 2023.6 | 預訓練 | 編碼 | HF | 紙 | |
| PHI-1.5 | 1.3b | 2023.9 | 預訓練 | 通用的 | HF | 紙 | |
| PHI-2 | 2.7b | 2023.12 | 預訓練 | 通用的 | HF | 紙 | |
| PHI-3 | 3.8b; 7b; 14b | 2024.4 | 預訓練 | 通用的 | HF | 紙 | |
| PHI-3.5 | 3.8b; 4.2b; 6.6b | 2024.4 | 預訓練 | 通用的 | HF | 紙 | |
| Openelm | 270m; 450m; 1.1b; 3b | 2024.4 | 預訓練 | 通用的 | github | HF | 紙 |
| 賽車 | 0.5B; 0.8B | 2024.2 | 預訓練 | 通用的 | github | HF | 紙 |
| Mobilellm | 125m; 350m | 2024.2 | 預訓練 | 通用的 | github | HF | 紙 |
| 穩定 | 3b; 7b | 2023.4 | 預訓練 | 通用的 | github | HF | 紙 |
| Stablelm 2 | 1.6b | 2024.2 | 預訓練 | 通用的 | github | HF | 紙 |
| 小腦-GPT | 111m-13b | 2023.4 | 預訓練 | 通用的 | HF | 紙 | |
| 布魯姆,布魯姆斯 | 560m; 1.1b; 1.7b; 3b; 7.1b; 176b | 2022.11 | 預訓練 | 通用的 | HF | 紙 | |
| 選擇 | 125m; 350m; 1.3b; 2.7b; 5.7b | 2022.5 | 預訓練 | 通用的 | HF | 紙 | |
| XGLM | 1.7b; 2.9b; 7.5b | 2021.12 | 預訓練 | 通用的 | github | HF | 紙 |
| gpt-neo | 125m; 350m; 1.3b; 2.7b | 2021.5 | 預訓練 | 通用的 | github | 紙 | |
| Megatron-GPT2 | 355m; 2.5b; 8.3b | 2019.9 | 預訓練 | 通用的 | github | 紙,博客 | |
| 微型 | 4b; 8b; 15B | 2024.7 | 修剪和蒸餾 | 通用的 | github | HF | 紙 |
| minimix | 7b | 2024.7 | 預訓練 | 通用的 | github | HF | 紙 |
| minima-2 | 1B; 3b | 2023.12 | 預訓練 | 通用的 | github | HF | 紙 |
| minima | 3b | 2023.11 | 修剪和蒸餾 | 通用的 | github | HF | 紙 |
| ORCA 2 | 7b | 2023.11 | 蒸餾 | 通用的 | HF | 紙 | |
| Dolly-V2 | 3b; 7b; 12b | 2023.4 | 指令調整 | 通用的 | github | HF | 部落格 |
| 拉米尼-lm | 61m-7b | 2023.4 | 蒸餾 | 通用的 | github | HF | 部落格 |
| 專門的Flant5 | 250m; 760m; 3b | 2023.1 | 指令調整 | 通用(數學) | github | - | 紙 |
| Flant5 | 80m; 250m; 780m; 3b | 2022.10 | 指令調整 | 通用的 | Gihub | HF | 紙 |
| T5 | 60m; 220m; 770m; 3b; 11b | 2019.9 | 預訓練 | 通用的 | github | HF | 紙 |