이 저장소에는 동남아시아의 오픈어 모델 제품군 인 Sailor의 평가 코드가 포함되어 있습니다.
Sailor는 Sea AI Lab 및 Singapore University of Technology and Design에서 개발했습니다.

Sailor는 동남아시아 (SEA)를 위해 맞춤화 된 오픈 언어 모델의 한 스위트로, 인도네시아, ?? 태국, 베트남어,? ?? Malay 및? 신중한 데이터 큐 레이션으로 개발 된 세일러 모델은 해상 지역의 다양한 언어 환경에서 텍스트를 이해하고 생성하도록 설계되었습니다. Qwen 1.5에서 제작 된 Sailor는 다양한 요구 사항에 대해 0.5B에서 14B 버전에 걸쳐 다양한 크기의 모델을 포함합니다. 벤치마킹 결과는 해상 언어의 질문 대답, 상식 추론, 독해 등과 같은 과제에 대한 선원의 숙련도를 보여줍니다.
자세한 내용은 기술 보고서에 액세스하십시오.
Huggingface 홈페이지에서 모든 세일러 모델을 여기에서 찾을 수 있습니다.
다음은 질문 답변 작업에 대한 모델 평가 결과입니다. 평가 결과는 테이블 형식으로 표시되며, 여기서 첫 번째 열은 모델 이름이며 재설정 열은 각각 태국 (TH), 인도네시아 (ID) 및 베트남 (VI) 언어의 성능입니다. 선원 모델의 결과는 대담하게 강조 표시됩니다. 다른 작업과 평가 코드에 대한 전체 평가 결과를 찾아 평가 디렉토리에서 결과를 재현 할 수 있습니다.
| 3 샷 (EM / F1) | Xquad (Th) | Tydiqa (ID) | Xquad (VI) |
|---|---|---|---|
| Qwen1.5-0.5b | 14.19 / 23.35 | 20.71 / 32.64 | 19.85 / 35.38 |
| 세일러 -0.5b | 15.84 / 27.58 | 30.44 / 54.74 | 21.13 / 40.57 |
| Qwen1.5-1.8b | 27.24 / 43.56 | 29.73 / 53.76 | 29.17 / 48.15 |
| 선원 -1.8b | 32.72 / 48.66 | 40.88 / 65.37 | 34.22 / 53.35 |
| QWEN1.5-4B | 34.03 / 53.40 | 48.32 / 72.68 | 43.71 / 63.86 |
| 세일러 -4B | 46.82 / 63.34 | 53.98 / 73.48 | 47.65 / 67.09 |
| llama-2-7b | 30.64 / 43.80 | 56.64 / 72.14 | 46.96 / 66.16 |
| Mistral-7B-V0.1 | 48.48 / 63.27 | 63.54 / 78.73 | 53.72 / 72.75 |
| SEALLM-7B- 하이브리드 | 49.70 / 67.62 | 50.62 / 75.21 | 49.62 / 70.74 |
| SEALLM-7B-V2 | 34.55 / 55.13 | 52.21 / 77.00 | 46.19 / 72.11 |
| Qwen1.5-7b | 53.79 / 69.30 | 57.17 / 77.28 | 56.63 / 76.99 |
| 세일러 7b | 57.88 / 71.06 | 60.53 / 75.42 | 53.81 / 74.62 |
우리는 OpenCompass를 사용하여 모델을 평가합니다. 필요한 패키지를 설치하려면이 폴더 아래에서 다음 명령을 실행하십시오.
# setup opencompass environment
conda create --name opencompass python=3.10 pytorch torchvision pytorch-cuda -c nvidia -c pytorch -y
conda activate opencompass
git clone https://github.com/open-compass/opencompass opencompass
cd opencompass
pip install -e .
pip install pythainlp langid
mkdir data평가 스크립트를 작성하려면이 폴더에서 다음 명령을 실행하십시오.
cp -r eval/configs/ * opencompass/configs/
cp -r eval/data/ * opencompass/data/
cp -r eval/datasets/ * opencompass/opencompass/datasets/
cp eval/icl_sailor_evaluator.py opencompass/opencompass/openicl/icl_evaluator/
cp eval/sailor_text_postprocessors.py opencompass/opencompass/utils/
echo " from .icl_sailor_evaluator import AnsEvaluator, TextGenEvaluator # noqa " >> " opencompass/opencompass/openicl/icl_evaluator/__init__.py "
echo " from .sailor_text_postprocessors import * # noqa " >> " opencompass/opencompass/utils/__init__.py "
echo " from .xquad import * # noqa: F401, F403 " >> " opencompass/opencompass/datasets/__init__.py "
echo " from .tydiqa_id import * # noqa: F401, F403 " >> " opencompass/opencompass/datasets/__init__.py "
echo " from .xcopa_sea import * # noqa: F401, F403 " >> " opencompass/opencompass/datasets/__init__.py "
echo " from .m3exam import * # noqa: F401, F403 " >> " opencompass/opencompass/datasets/__init__.py "
echo " from .belebele import * # noqa: F401, F403 " >> " opencompass/opencompass/datasets/__init__.py "
cp eval/eval_sailor.py opencompass/configs/평가를 실행하려면이 폴더에서 다음 명령을 실행하십시오.
cd opencompass
python run.py configs/eval_sailor.py -w outputs/sailor --hf-num-gpus 1 --max-num-workers 64QWEN1.5, LLAMA, MISTRAL 등과 같은 다른 모델을 평가하기 위해 스크립트를 수정할 수도 있습니다.
우리는 Sailor-14B-Chat과 채팅 할 간단한 데모를 제공합니다. 제공된 데모 코드를 사용하여 개발할 수도 있습니다.
이 저장소 또는 선원 모델을 사용하는 경우 인용하십시오.
@inproceedings{dou-etal-2024-sailor,
title = "Sailor: Open Language Models for South-{E}ast {A}sia",
author = "Dou, Longxu and Liu, Qian and Zeng, Guangtao and Guo, Jia and Zhou, Jiahui and Mao, Xin and Jin, Ziqi and Lu, Wei and Lin, Min",
booktitle = "Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing: System Demonstrations",
year = "2024",
}
궁금한 점이 있으면 GitHub에서 문제를 제기하거나 [email protected] 및 [email protected]으로 문의하십시오.