sailor llm
1.0.0
该存储库包含Sailor的评估代码,Sailor是东南亚的开放语言模型套件。
水手是由SEA AI实验室和新加坡技术与设计大学开发的。

水手是一套针对东南亚(海)量身定制的开放语言模型,重点介绍了诸如印尼,泰语,越南语,??马来语和莱奥(Lao)之类的语言。通过仔细的数据策展开发,水手模型旨在理解和生成跨海洋地区各种语言景观的文本。 Sailor由QWEN 1.5建造,包括不同尺寸的型号,从0.5B到14B版本,以应对不同的要求。基准测试结果表明,水手在问答,常识性推理,阅读理解等等任务中的熟练程度。
要了解更多详细信息,请访问技术报告。
您可以在我们的Huggingface主页上找到所有水手模型:
以下是对问题回答任务的模型评估的结果。评估结果以表格的形式呈现,其中第一列是模型名称,而重置列分别是泰国(TH),印尼(ID)和越南语(VI)语言的性能。水手模型的结果以粗体突出显示。您可以在不同的任务和我们的评估代码上找到完整的评估结果,以重现评估目录中的结果。
| 3-shot(EM / F1) | Xquad(th) | tydiqa(id) | Xquad(vi) |
|---|---|---|---|
| Qwen1.5-0.5b | 14.19 / 23.35 | 20.71 / 32.64 | 19.85 / 35.38 |
| 水手-0.5B | 15.84 / 27.58 | 30.44 / 54.74 | 21.13 / 40.57 |
| QWEN1.5-1.8B | 27.24 / 43.56 | 29.73 / 53.76 | 29.17 / 48.15 |
| 水手1.8B | 32.72 / 48.66 | 40.88 / 65.37 | 34.22 / 53.35 |
| qwen1.5-4b | 34.03 / 53.40 | 48.32 / 72.68 | 43.71 / 63.86 |
| 水手4B | 46.82 / 63.34 | 53.98 / 73.48 | 47.65 / 67.09 |
| Llama-2-7b | 30.64 / 43.80 | 56.64 / 72.14 | 46.96 / 66.16 |
| MISTRAL-7B-V0.1 | 48.48 / 63.27 | 63.54 / 78.73 | 53.72 / 72.75 |
| SEALLM-7B HYBRID | 49.70 / 67.62 | 50.62 / 75.21 | 49.62 / 70.74 |
| SEALLM-7B-V2 | 34.55 / 55.13 | 52.21 / 77.00 | 46.19 / 72.11 |
| QWEN1.5-7B | 53.79 / 69.30 | 57.17 / 77.28 | 56.63 / 76.99 |
| 水手-7B | 57.88 / 71.06 | 60.53 / 75.42 | 53.81 / 74.62 |
我们使用OpenCompass来评估模型。要安装所需的软件包,请在此文件夹下运行以下命令:
# setup opencompass environment
conda create --name opencompass python=3.10 pytorch torchvision pytorch-cuda -c nvidia -c pytorch -y
conda activate opencompass
git clone https://github.com/open-compass/opencompass opencompass
cd opencompass
pip install -e .
pip install pythainlp langid
mkdir data要构建评估脚本,请在此文件夹下运行以下命令:
cp -r eval/configs/ * opencompass/configs/
cp -r eval/data/ * opencompass/data/
cp -r eval/datasets/ * opencompass/opencompass/datasets/
cp eval/icl_sailor_evaluator.py opencompass/opencompass/openicl/icl_evaluator/
cp eval/sailor_text_postprocessors.py opencompass/opencompass/utils/
echo " from .icl_sailor_evaluator import AnsEvaluator, TextGenEvaluator # noqa " >> " opencompass/opencompass/openicl/icl_evaluator/__init__.py "
echo " from .sailor_text_postprocessors import * # noqa " >> " opencompass/opencompass/utils/__init__.py "
echo " from .xquad import * # noqa: F401, F403 " >> " opencompass/opencompass/datasets/__init__.py "
echo " from .tydiqa_id import * # noqa: F401, F403 " >> " opencompass/opencompass/datasets/__init__.py "
echo " from .xcopa_sea import * # noqa: F401, F403 " >> " opencompass/opencompass/datasets/__init__.py "
echo " from .m3exam import * # noqa: F401, F403 " >> " opencompass/opencompass/datasets/__init__.py "
echo " from .belebele import * # noqa: F401, F403 " >> " opencompass/opencompass/datasets/__init__.py "
cp eval/eval_sailor.py opencompass/configs/要运行评估,请在此文件夹下运行以下命令:
cd opencompass
python run.py configs/eval_sailor.py -w outputs/sailor --hf-num-gpus 1 --max-num-workers 64您还可以修改脚本以评估其他模型,例如Qwen1.5,Llama,Mistral等。
我们提供一个简单的演示来与水手-14B-chat聊天。您也可以使用提供的演示代码来开发它。
如果您使用此存储库或水手模型,请引用
@inproceedings{dou-etal-2024-sailor,
title = "Sailor: Open Language Models for South-{E}ast {A}sia",
author = "Dou, Longxu and Liu, Qian and Zeng, Guangtao and Guo, Jia and Zhou, Jiahui and Mao, Xin and Jin, Ziqi and Lu, Wei and Lin, Min",
booktitle = "Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing: System Demonstrations",
year = "2024",
}
如有任何疑问,请在我们的github中提出问题,或通过[email protected]和[email protected]与我们联系。