SLMs Survey
1.0.0
このレポは、小さな言語モデルに関する最新の調査論文で説明した論文が含まれています。
ここで完全な論文を読んでください:Paper Link
調査があなたの研究に役立つ場合は、親切に私たちの論文を引用してください。
@article{wang2024comprehensive,
title={A Comprehensive Survey of Small Language Models in the Era of Large Language Models: Techniques, Enhancements, Applications, Collaboration with LLMs, and Trustworthiness},
author={Wang, Fali and Zhang, Zhiwei and Zhang, Xianren and Wu, Zongyu and Mo, Tzuhao and Lu, Qiuhao and Wang, Wanjing and Li, Rui and Xu, Junjie and Tang, Xianfeng and others},
journal={arXiv preprint arXiv:2411.03350},
year={2024}
}


| モデル | #params | 日付 | パラダイム | ドメイン | コード | HFモデル | 紙/ブログ |
|---|---|---|---|---|---|---|---|
| ラマ3.2 | 1b; 3b | 2024.9 | トレイン前 | ジェネリック | github | HF | ブログ |
| Qwen 1 | 1.8b; 7b; 14b; 72b | 2023.12 | トレイン前 | ジェネリック | github | HF | 紙 |
| Qwen 1.5 | 0.5b; 1.8b; 4b; 7b; 14b; 32b; 72b | 2024.2 | トレイン前 | ジェネリック | github | HF | 紙 |
| Qwen 2 | 0.5b; 1.5b; 7b; 57b; 72b | 2024.6 | トレイン前 | ジェネリック | github | HF | 紙 |
| Qwen 2.5 | 0.5b; 1.5b; 3b; 7b; 14b; 32b; 72b | 2024.9 | トレイン前 | ジェネリック | github | HF | 紙 |
| ジェマ | 2b; 7b | 2024.2 | トレイン前 | ジェネリック | HF | 紙 | |
| ジェマ2 | 2b; 9b; 27b | 2024.7 | トレイン前 | ジェネリック | HF | 紙 | |
| H2O-Danube3 | 500m; 4b | 2024.7 | トレイン前 | ジェネリック | HF | 紙 | |
| LLM-Neo | 1b | 2024.11 | 継続的なトレーニング | ジェネリック | HF | 紙 | |
| FOX-1 | 1.6b | 2024.6 | トレイン前 | ジェネリック | HF | ブログ | |
| レネ | 1.3b | 2024.5 | トレイン前 | ジェネリック | HF | 紙 | |
| Minicpm | 1.2b; 2.4b | 2024.4 | トレイン前 | ジェネリック | github | HF | 紙 |
| オルモ | 1b; 7b | 2024.2 | トレイン前 | ジェネリック | github | HF | 紙 |
| Tinyllama | 1b | 2024.1 | トレイン前 | ジェネリック | github | HF | 紙 |
| PHI-1 | 1.3b | 2023.6 | トレイン前 | コーディング | HF | 紙 | |
| PHI-1.5 | 1.3b | 2023.9 | トレイン前 | ジェネリック | HF | 紙 | |
| PHI-2 | 2.7b | 2023.12 | トレイン前 | ジェネリック | HF | 紙 | |
| PHI-3 | 3.8b; 7b; 14b | 2024.4 | トレイン前 | ジェネリック | HF | 紙 | |
| PHI-3.5 | 3.8b; 4.2b; 6.6b | 2024.4 | トレイン前 | ジェネリック | HF | 紙 | |
| Openelm | 270m; 450m; 1.1b; 3b | 2024.4 | トレイン前 | ジェネリック | github | HF | 紙 |
| モビラマ | 0.5b; 0.8b | 2024.2 | トレイン前 | ジェネリック | github | HF | 紙 |
| Mobilellm | 125m; 350m | 2024.2 | トレイン前 | ジェネリック | github | HF | 紙 |
| Stablelm | 3b; 7b | 2023.4 | トレイン前 | ジェネリック | github | HF | 紙 |
| Stablelm 2 | 1.6b | 2024.2 | トレイン前 | ジェネリック | github | HF | 紙 |
| セレブラス-gpt | 111M-13B | 2023.4 | トレイン前 | ジェネリック | HF | 紙 | |
| ブルーム、ブルーム | 560m; 1.1b; 1.7b; 3b; 7.1b; 176b | 2022.11 | トレイン前 | ジェネリック | HF | 紙 | |
| Opt | 125m; 350m; 1.3b; 2.7b; 5.7b | 2022.5 | トレイン前 | ジェネリック | HF | 紙 | |
| xglm | 1.7b; 2.9b; 7.5b | 2021.12 | トレイン前 | ジェネリック | github | HF | 紙 |
| gpt-neo | 125m; 350m; 1.3b; 2.7b | 2021.5 | トレイン前 | ジェネリック | github | 紙 | |
| Megatron-GPT2 | 355m; 2.5b; 8.3b | 2019.9 | トレイン前 | ジェネリック | github | 論文、ブログ | |
| ミニトロン | 4b; 8b; 15b | 2024.7 | 剪定と蒸留 | ジェネリック | github | HF | 紙 |
| Minimix | 7b | 2024.7 | トレイン前 | ジェネリック | github | HF | 紙 |
| 最小2 | 1b; 3b | 2023.12 | トレイン前 | ジェネリック | github | HF | 紙 |
| ミニマ | 3b | 2023.11 | 剪定と蒸留 | ジェネリック | github | HF | 紙 |
| ORCA 2 | 7b | 2023.11 | 蒸留 | ジェネリック | HF | 紙 | |
| Dolly-V2 | 3b; 7b; 12b | 2023.4 | 指示の調整 | ジェネリック | github | HF | ブログ |
| ラミニ-LM | 61M-7B | 2023.4 | 蒸留 | ジェネリック | github | HF | ブログ |
| 専門的なフラント5 | 250m; 760m; 3b | 2023.1 | 指示の調整 | ジェネリック(数学) | github | - | 紙 |
| フラント5 | 80m; 250m; 780m; 3b | 2022.10 | 指示の調整 | ジェネリック | gihub | HF | 紙 |
| T5 | 60m; 220m; 770m; 3b; 11b | 2019.9 | トレイン前 | ジェネリック | github | HF | 紙 |