sailor llmダウンロード - sailor llmソースコードのダウンロード

sailor llm

AI ソースコード

1.0.0

ダウンロード

船乗り：東南アジア向けのオープン言語モデル

このリポジトリには、東南アジア向けの一連のオープン言語モデルであるSailorの評価コードが含まれています。

船乗りは、Sea AIラボとシンガポール工科大学デザインによって開発されています。

導入

船乗りは、東南アジア（海）に合わせたオープン言語モデルのスイートであり、インドネシア語、??慎重なデータキュレーションで開発されたセーラーモデルは、海地域の多様な言語景観を越えてテキストを理解し、生成するように設計されています。 Qwen 1.5から構築された船乗りは、さまざまな要件に対して0.5Bから14Bバージョンにまたがるさまざまなサイズのモデルを網羅しています。ベンチマークの結果は、海語の質問応答、常識的推論、読解などのタスクにおけるセーラーの習熟度を示しています。

インドネシア語、タイ、ベトナム、マレー語、ラオス、中国語を含む、7億から4,000億のトークンを7つの言語を超える4,000億トークンで継続的に前払いしました。
さまざまな要件をサポートするさまざまなモデルサイズ（0.5b、1.8b、4b、7b、14b）。
Xquad、Tydiqa、Xcopa、Belebele、M3examなどの海のベンチマークでの強力なパフォーマンス。
研究や商業用途に制限はありませんが、QWEN 1.5ライセンスに準拠する必要があります。

詳細については、テクニカルレポートにアクセスしてください。

モデル

huggingfaceのホームページで、すべての船乗りモデルをここにあります：

セーラー-0.5b
セーラー-1.8b
SAILOR-4B
SAILOR-7B
SAILOR-14B
セーラー-0.5B-chat
SAILOR-1.8B-chat
SAILOR-4B-chat
SAILOR-7B-chat
SAILOR-14B-chat

評価

質問に応答する質問に関するモデルの評価の結果は次のとおりです。評価結果は、最初の列がモデル名であり、リセット列はそれぞれタイ（TH）、インドネシア（ID）、およびベトナム（VI）の言語のパフォーマンスであり、テーブルの形式で提示されます。船乗りモデルの結果は大胆さで強調されています。評価ディレクトリの結果を再現するためのさまざまなタスクと評価コードで完全な評価結果を見つけることができます。

質問に答える

3ショット（EM / F1）	xquad（th）	Tydiqa（ID）	xquad（vi）
QWEN1.5-0.5B	14.19 / 23.35	20.71 / 32.64	19.85 / 35.38
セーラー-0.5b	15.84 / 27.58	30.44 / 54.74	21.13 / 40.57
QWEN1.5-1.8B	27.24 / 43.56	29.73 / 53.76	29.17 / 48.15
セーラー-1.8b	32.72 / 48.66	40.88 / 65.37	34.22 / 53.35
QWEN1.5-4B	34.03 / 53.40	48.32 / 72.68	43.71 / 63.86
SAILOR-4B	46.82 / 63.34	53.98 / 73.48	47.65 / 67.09
llama-2-7b	30.64 / 43.80	56.64 / 72.14	46.96 / 66.16
Mistral-7B-V0.1	48.48 / 63.27	63.54 / 78.73	53.72 / 72.75
SEALLM-7B-Hybrid	49.70 / 67.62	50.62 / 75.21	49.62 / 70.74
SEALLM-7B-V2	34.55 / 55.13	52.21 / 77.00	46.19 / 72.11
QWEN1.5-7B	53.79 / 69.30	57.17 / 77.28	56.63 / 76.99
SAILOR-7B	57.88 / 71.06	60.53 / 75.42	53.81 / 74.62

設定

OpenCompassを使用してモデルを評価します。必要なパッケージをインストールするには、次のコマンドをこのフォルダーの下で実行します。

 # setup opencompass environment
conda create --name opencompass python=3.10 pytorch torchvision pytorch-cuda -c nvidia -c pytorch -y
conda activate opencompass
git clone https://github.com/open-compass/opencompass opencompass
cd opencompass
pip install -e .
pip install pythainlp langid
mkdir data

評価スクリプトを作成します

評価スクリプトを作成するには、次のコマンドをこのフォルダーの下で実行します。

cp -r eval/configs/ * opencompass/configs/
cp -r eval/data/ * opencompass/data/
cp -r eval/datasets/ * opencompass/opencompass/datasets/
cp eval/icl_sailor_evaluator.py opencompass/opencompass/openicl/icl_evaluator/
cp eval/sailor_text_postprocessors.py opencompass/opencompass/utils/
echo " from .icl_sailor_evaluator import AnsEvaluator, TextGenEvaluator  # noqa " >> " opencompass/opencompass/openicl/icl_evaluator/__init__.py "
echo " from .sailor_text_postprocessors import *  # noqa " >> " opencompass/opencompass/utils/__init__.py "
echo " from .xquad import *  # noqa: F401, F403 " >> " opencompass/opencompass/datasets/__init__.py "
echo " from .tydiqa_id import *  # noqa: F401, F403 " >> " opencompass/opencompass/datasets/__init__.py "
echo " from .xcopa_sea import *  # noqa: F401, F403 " >> " opencompass/opencompass/datasets/__init__.py "
echo " from .m3exam import *  # noqa: F401, F403 " >> " opencompass/opencompass/datasets/__init__.py "
echo " from .belebele import *  # noqa: F401, F403 " >> " opencompass/opencompass/datasets/__init__.py "
cp eval/eval_sailor.py opencompass/configs/

評価を実行します

評価を実行するには、このフォルダーの下で次のコマンドを実行します。

 cd opencompass
python run.py configs/eval_sailor.py -w outputs/sailor --hf-num-gpus 1 --max-num-workers 64

スクリプトを変更して、QWEN1.5、Llama、Mistralなどの他のモデルを評価することもできます。

デモ

Sailor-14B-chatとチャットするためのシンプルなデモを提供します。提供されたデモコードを使用して開発することもできます。

この作品を引用しています

このリポジトリモデルまたはセーラーモデルを使用する場合は、引用してください

 @inproceedings{dou-etal-2024-sailor,
    title = "Sailor: Open Language Models for South-{E}ast {A}sia",
    author = "Dou, Longxu and Liu, Qian and Zeng, Guangtao and Guo, Jia  and Zhou, Jiahui and Mao, Xin and Jin, Ziqi and Lu, Wei and Lin, Min",
    booktitle = "Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing: System Demonstrations",
    year = "2024",
}