このリポジトリには、東南アジア向けの一連のオープン言語モデルであるSailorの評価コードが含まれています。
船乗りは、Sea AIラボとシンガポール工科大学デザインによって開発されています。

船乗りは、東南アジア(海)に合わせたオープン言語モデルのスイートであり、インドネシア語、??慎重なデータキュレーションで開発されたセーラーモデルは、海地域の多様な言語景観を越えてテキストを理解し、生成するように設計されています。 Qwen 1.5から構築された船乗りは、さまざまな要件に対して0.5Bから14Bバージョンにまたがるさまざまなサイズのモデルを網羅しています。ベンチマークの結果は、海語の質問応答、常識的推論、読解などのタスクにおけるセーラーの習熟度を示しています。
詳細については、テクニカルレポートにアクセスしてください。
huggingfaceのホームページで、すべての船乗りモデルをここにあります:
質問に応答する質問に関するモデルの評価の結果は次のとおりです。評価結果は、最初の列がモデル名であり、リセット列はそれぞれタイ(TH)、インドネシア(ID)、およびベトナム(VI)の言語のパフォーマンスであり、テーブルの形式で提示されます。船乗りモデルの結果は大胆さで強調されています。評価ディレクトリの結果を再現するためのさまざまなタスクと評価コードで完全な評価結果を見つけることができます。
| 3ショット(EM / F1) | xquad(th) | Tydiqa(ID) | xquad(vi) |
|---|---|---|---|
| QWEN1.5-0.5B | 14.19 / 23.35 | 20.71 / 32.64 | 19.85 / 35.38 |
| セーラー-0.5b | 15.84 / 27.58 | 30.44 / 54.74 | 21.13 / 40.57 |
| QWEN1.5-1.8B | 27.24 / 43.56 | 29.73 / 53.76 | 29.17 / 48.15 |
| セーラー-1.8b | 32.72 / 48.66 | 40.88 / 65.37 | 34.22 / 53.35 |
| QWEN1.5-4B | 34.03 / 53.40 | 48.32 / 72.68 | 43.71 / 63.86 |
| SAILOR-4B | 46.82 / 63.34 | 53.98 / 73.48 | 47.65 / 67.09 |
| llama-2-7b | 30.64 / 43.80 | 56.64 / 72.14 | 46.96 / 66.16 |
| Mistral-7B-V0.1 | 48.48 / 63.27 | 63.54 / 78.73 | 53.72 / 72.75 |
| SEALLM-7B-Hybrid | 49.70 / 67.62 | 50.62 / 75.21 | 49.62 / 70.74 |
| SEALLM-7B-V2 | 34.55 / 55.13 | 52.21 / 77.00 | 46.19 / 72.11 |
| QWEN1.5-7B | 53.79 / 69.30 | 57.17 / 77.28 | 56.63 / 76.99 |
| SAILOR-7B | 57.88 / 71.06 | 60.53 / 75.42 | 53.81 / 74.62 |
OpenCompassを使用してモデルを評価します。必要なパッケージをインストールするには、次のコマンドをこのフォルダーの下で実行します。
# setup opencompass environment
conda create --name opencompass python=3.10 pytorch torchvision pytorch-cuda -c nvidia -c pytorch -y
conda activate opencompass
git clone https://github.com/open-compass/opencompass opencompass
cd opencompass
pip install -e .
pip install pythainlp langid
mkdir data評価スクリプトを作成するには、次のコマンドをこのフォルダーの下で実行します。
cp -r eval/configs/ * opencompass/configs/
cp -r eval/data/ * opencompass/data/
cp -r eval/datasets/ * opencompass/opencompass/datasets/
cp eval/icl_sailor_evaluator.py opencompass/opencompass/openicl/icl_evaluator/
cp eval/sailor_text_postprocessors.py opencompass/opencompass/utils/
echo " from .icl_sailor_evaluator import AnsEvaluator, TextGenEvaluator # noqa " >> " opencompass/opencompass/openicl/icl_evaluator/__init__.py "
echo " from .sailor_text_postprocessors import * # noqa " >> " opencompass/opencompass/utils/__init__.py "
echo " from .xquad import * # noqa: F401, F403 " >> " opencompass/opencompass/datasets/__init__.py "
echo " from .tydiqa_id import * # noqa: F401, F403 " >> " opencompass/opencompass/datasets/__init__.py "
echo " from .xcopa_sea import * # noqa: F401, F403 " >> " opencompass/opencompass/datasets/__init__.py "
echo " from .m3exam import * # noqa: F401, F403 " >> " opencompass/opencompass/datasets/__init__.py "
echo " from .belebele import * # noqa: F401, F403 " >> " opencompass/opencompass/datasets/__init__.py "
cp eval/eval_sailor.py opencompass/configs/評価を実行するには、このフォルダーの下で次のコマンドを実行します。
cd opencompass
python run.py configs/eval_sailor.py -w outputs/sailor --hf-num-gpus 1 --max-num-workers 64スクリプトを変更して、QWEN1.5、Llama、Mistralなどの他のモデルを評価することもできます。
Sailor-14B-chatとチャットするためのシンプルなデモを提供します。提供されたデモコードを使用して開発することもできます。
このリポジトリモデルまたはセーラーモデルを使用する場合は、引用してください
@inproceedings{dou-etal-2024-sailor,
title = "Sailor: Open Language Models for South-{E}ast {A}sia",
author = "Dou, Longxu and Liu, Qian and Zeng, Guangtao and Guo, Jia and Zhou, Jiahui and Mao, Xin and Jin, Ziqi and Lu, Wei and Lin, Min",
booktitle = "Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing: System Demonstrations",
year = "2024",
}
ご質問がある場合は、githubで問題を提起するか、[email protected]および[email protected]にお問い合わせください。