sailor llm
1.0.0
該存儲庫包含Sailor的評估代碼,Sailor是東南亞的開放語言模型套件。
水手是由SEA AI實驗室和新加坡技術與設計大學開發的。

水手是一套針對東南亞(海)量身定制的開放語言模型,重點介紹了諸如印尼,泰語,越南語,??馬來語和萊奧(Lao)之類的語言。通過仔細的數據策展開發,水手模型旨在理解和生成跨海洋地區各種語言景觀的文本。 Sailor由QWEN 1.5建造,包括不同尺寸的型號,從0.5B到14B版本,以應對不同的要求。基準測試結果表明,水手在問答,常識性推理,閱讀理解等等任務中的熟練程度。
要了解更多詳細信息,請訪問技術報告。
您可以在我們的Huggingface主頁上找到所有水手模型:
以下是對問題回答任務的模型評估的結果。評估結果以表格的形式呈現,其中第一列是模型名稱,而重置列分別是泰國(TH),印尼(ID)和越南語(VI)語言的性能。水手模型的結果以粗體突出顯示。您可以在不同的任務和我們的評估代碼上找到完整的評估結果,以重現評估目錄中的結果。
| 3-shot(EM / F1) | Xquad(th) | tydiqa(id) | Xquad(vi) |
|---|---|---|---|
| Qwen1.5-0.5b | 14.19 / 23.35 | 20.71 / 32.64 | 19.85 / 35.38 |
| 水手-0.5B | 15.84 / 27.58 | 30.44 / 54.74 | 21.13 / 40.57 |
| QWEN1.5-1.8B | 27.24 / 43.56 | 29.73 / 53.76 | 29.17 / 48.15 |
| 水手1.8B | 32.72 / 48.66 | 40.88 / 65.37 | 34.22 / 53.35 |
| qwen1.5-4b | 34.03 / 53.40 | 48.32 / 72.68 | 43.71 / 63.86 |
| 水手4B | 46.82 / 63.34 | 53.98 / 73.48 | 47.65 / 67.09 |
| Llama-2-7b | 30.64 / 43.80 | 56.64 / 72.14 | 46.96 / 66.16 |
| MISTRAL-7B-V0.1 | 48.48 / 63.27 | 63.54 / 78.73 | 53.72 / 72.75 |
| SEALLM-7B HYBRID | 49.70 / 67.62 | 50.62 / 75.21 | 49.62 / 70.74 |
| SEALLM-7B-V2 | 34.55 / 55.13 | 52.21 / 77.00 | 46.19 / 72.11 |
| QWEN1.5-7B | 53.79 / 69.30 | 57.17 / 77.28 | 56.63 / 76.99 |
| 水手-7B | 57.88 / 71.06 | 60.53 / 75.42 | 53.81 / 74.62 |
我們使用OpenCompass來評估模型。要安裝所需的軟件包,請在此文件夾下運行以下命令:
# setup opencompass environment
conda create --name opencompass python=3.10 pytorch torchvision pytorch-cuda -c nvidia -c pytorch -y
conda activate opencompass
git clone https://github.com/open-compass/opencompass opencompass
cd opencompass
pip install -e .
pip install pythainlp langid
mkdir data要構建評估腳本,請在此文件夾下運行以下命令:
cp -r eval/configs/ * opencompass/configs/
cp -r eval/data/ * opencompass/data/
cp -r eval/datasets/ * opencompass/opencompass/datasets/
cp eval/icl_sailor_evaluator.py opencompass/opencompass/openicl/icl_evaluator/
cp eval/sailor_text_postprocessors.py opencompass/opencompass/utils/
echo " from .icl_sailor_evaluator import AnsEvaluator, TextGenEvaluator # noqa " >> " opencompass/opencompass/openicl/icl_evaluator/__init__.py "
echo " from .sailor_text_postprocessors import * # noqa " >> " opencompass/opencompass/utils/__init__.py "
echo " from .xquad import * # noqa: F401, F403 " >> " opencompass/opencompass/datasets/__init__.py "
echo " from .tydiqa_id import * # noqa: F401, F403 " >> " opencompass/opencompass/datasets/__init__.py "
echo " from .xcopa_sea import * # noqa: F401, F403 " >> " opencompass/opencompass/datasets/__init__.py "
echo " from .m3exam import * # noqa: F401, F403 " >> " opencompass/opencompass/datasets/__init__.py "
echo " from .belebele import * # noqa: F401, F403 " >> " opencompass/opencompass/datasets/__init__.py "
cp eval/eval_sailor.py opencompass/configs/要運行評估,請在此文件夾下運行以下命令:
cd opencompass
python run.py configs/eval_sailor.py -w outputs/sailor --hf-num-gpus 1 --max-num-workers 64您還可以修改腳本以評估其他模型,例如Qwen1.5,Llama,Mistral等。
我們提供一個簡單的演示來與水手-14B-chat聊天。您也可以使用提供的演示代碼來開發它。
如果您使用此存儲庫或水手模型,請引用
@inproceedings{dou-etal-2024-sailor,
title = "Sailor: Open Language Models for South-{E}ast {A}sia",
author = "Dou, Longxu and Liu, Qian and Zeng, Guangtao and Guo, Jia and Zhou, Jiahui and Mao, Xin and Jin, Ziqi and Lu, Wei and Lin, Min",
booktitle = "Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing: System Demonstrations",
year = "2024",
}
如有任何疑問,請在我們的github中提出問題,或通過[email protected]和[email protected]與我們聯繫。