Repositori ini berisi kode evaluasi untuk Sailor, serangkaian model bahasa terbuka untuk Asia Tenggara.
Sailor dikembangkan oleh Sea Ai Lab dan Universitas Teknologi dan Desain Singapura.

Sailor adalah serangkaian model bahasa terbuka yang dirancang untuk Asia Tenggara (Laut), fokus pada bahasa seperti ?? Indonesia, ?? Thailand, ?? Vietnam, ?? Melayu, dan ?? Lao. Dikembangkan dengan kurasi data yang cermat, model pelaut dirancang untuk memahami dan menghasilkan teks di berbagai lanskap linguistik wilayah laut. Dibangun dari Qwen 1.5, Sailor mencakup model berbagai ukuran, yang mencakup versi 0,5B hingga 14B untuk persyaratan yang berbeda. Hasil pembandingan menunjukkan kemahiran pelaut dalam tugas -tugas seperti menjawab pertanyaan, alasan yang masuk akal, pemahaman membaca dan dll. Dalam bahasa laut.
Untuk mempelajari detail lebih lanjut, silakan akses laporan teknis.
Anda dapat menemukan semua model Sailor di halaman rumah pelukan kami di sini:
Berikut adalah hasil dari evaluasi model pada tugas menjawab tugas. Hasil evaluasi disajikan dalam bentuk tabel, di mana kolom pertama adalah nama model, dan kolom reset adalah kinerja pada bahasa Thailand (TH), Indonesia (ID), dan Vietnam (VI), masing -masing. Hasil model pelaut disorot dalam huruf tebal. Anda dapat menemukan hasil evaluasi penuh pada berbagai tugas dan kode evaluasi kami untuk mereproduksi hasil di direktori eval.
| 3-shot (EM / F1) | Xquad (TH) | Tydiqa (ID) | Xquad (VI) |
|---|---|---|---|
| Qwen1.5-0.5b | 14.19 / 23.35 | 20.71 / 32.64 | 19.85 / 35.38 |
| Sailor-0.5b | 15.84 / 27.58 | 30.44 / 54.74 | 21.13 / 40.57 |
| Qwen1.5-1.8b | 27.24 / 43.56 | 29.73 / 53.76 | 29.17 / 48.15 |
| Sailor-1.8b | 32.72 / 48.66 | 40.88 / 65.37 | 34.22 / 53.35 |
| Qwen1.5-4b | 34.03 / 53.40 | 48.32 / 72.68 | 43.71 / 63.86 |
| Sailor-4b | 46.82 / 63.34 | 53.98 / 73.48 | 47.65 / 67.09 |
| Llama-2-7b | 30.64 / 43.80 | 56.64 / 72.14 | 46.96 / 66.16 |
| MISTRAL-7B-V0.1 | 48.48 / 63.27 | 63.54 / 78.73 | 53.72 / 72.75 |
| SEALLM-7B-HYBRID | 49.70 / 67.62 | 50.62 / 75.21 | 49.62 / 70.74 |
| SEALLM-7B-V2 | 34.55 / 55.13 | 52.21 / 77.00 | 46.19 / 72.11 |
| Qwen1.5-7b | 53.79 / 69.30 | 57.17 / 77.28 | 56.63 / 76.99 |
| Sailor-7b | 57.88 / 71.06 | 60.53 / 75.42 | 53.81 / 74.62 |
Kami menggunakan OpenCompass untuk mengevaluasi model. Untuk menginstal paket yang diperlukan, jalankan perintah berikut di bawah folder ini:
# setup opencompass environment
conda create --name opencompass python=3.10 pytorch torchvision pytorch-cuda -c nvidia -c pytorch -y
conda activate opencompass
git clone https://github.com/open-compass/opencompass opencompass
cd opencompass
pip install -e .
pip install pythainlp langid
mkdir dataUntuk membangun skrip evaluasi, jalankan perintah berikut di bawah folder ini:
cp -r eval/configs/ * opencompass/configs/
cp -r eval/data/ * opencompass/data/
cp -r eval/datasets/ * opencompass/opencompass/datasets/
cp eval/icl_sailor_evaluator.py opencompass/opencompass/openicl/icl_evaluator/
cp eval/sailor_text_postprocessors.py opencompass/opencompass/utils/
echo " from .icl_sailor_evaluator import AnsEvaluator, TextGenEvaluator # noqa " >> " opencompass/opencompass/openicl/icl_evaluator/__init__.py "
echo " from .sailor_text_postprocessors import * # noqa " >> " opencompass/opencompass/utils/__init__.py "
echo " from .xquad import * # noqa: F401, F403 " >> " opencompass/opencompass/datasets/__init__.py "
echo " from .tydiqa_id import * # noqa: F401, F403 " >> " opencompass/opencompass/datasets/__init__.py "
echo " from .xcopa_sea import * # noqa: F401, F403 " >> " opencompass/opencompass/datasets/__init__.py "
echo " from .m3exam import * # noqa: F401, F403 " >> " opencompass/opencompass/datasets/__init__.py "
echo " from .belebele import * # noqa: F401, F403 " >> " opencompass/opencompass/datasets/__init__.py "
cp eval/eval_sailor.py opencompass/configs/Untuk menjalankan evaluasi, jalankan perintah berikut di bawah folder ini:
cd opencompass
python run.py configs/eval_sailor.py -w outputs/sailor --hf-num-gpus 1 --max-num-workers 64Anda juga dapat memodifikasi skrip untuk mengevaluasi model lain seperti QWEN1.5, Llama, Mistral, dll.
Kami menyediakan demo sederhana untuk mengobrol dengan sailor-14b-chat. Anda juga dapat mengembangkannya menggunakan kode demo yang disediakan.
Jika Anda menggunakan model repositori atau pelaut ini, silakan mengutip
@inproceedings{dou-etal-2024-sailor,
title = "Sailor: Open Language Models for South-{E}ast {A}sia",
author = "Dou, Longxu and Liu, Qian and Zeng, Guangtao and Guo, Jia and Zhou, Jiahui and Mao, Xin and Jin, Ziqi and Lu, Wei and Lin, Min",
booktitle = "Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing: System Demonstrations",
year = "2024",
}
Jika Anda memiliki pertanyaan, silakan ajukan masalah di github kami atau hubungi kami di [email protected] dan [email protected].