sailor llm 다운로드 - sailor llm 소스 코드 다운로드

sailor llm

AI 소스 코드

1.0.0

다운로드

선원 : 동남아시아를위한 오픈 언어 모델

이 저장소에는 동남아시아의 오픈어 모델 제품군 인 Sailor의 평가 코드가 포함되어 있습니다.

Sailor는 Sea AI Lab 및 Singapore University of Technology and Design에서 개발했습니다.

소개

Sailor는 동남아시아 (SEA)를 위해 맞춤화 된 오픈 언어 모델의 한 스위트로, 인도네시아, ?? 태국, 베트남어,? ?? Malay 및? 신중한 데이터 큐 레이션으로 개발 된 세일러 모델은 해상 지역의 다양한 언어 환경에서 텍스트를 이해하고 생성하도록 설계되었습니다. Qwen 1.5에서 제작 된 Sailor는 다양한 요구 사항에 대해 0.5B에서 14B 버전에 걸쳐 다양한 크기의 모델을 포함합니다. 벤치마킹 결과는 해상 언어의 질문 대답, 상식 추론, 독해 등과 같은 과제에 대한 선원의 숙련도를 보여줍니다.

인도네시아, 태국, 베트남어, 말레이어, 라오스, 영어 및 중국어를 포함하여 7 개 언어 이상의 2 천억 ~ 4 천억 토큰으로 지속적으로 사전에 사전.
다양한 요구 사항을 지원하기 위해 다양한 모델 크기 (0.5b, 1.8b, 4b, 7b 및 14b).
Xquad, Tydiqa, Xcopa, Bebele 및 M3Exam과 같은 SEA 벤치 마크에서 강력한 성능.
연구 및 상업용 사용은 제한되지 않지만 Qwen 1.5 라이센스를 준수해야합니다.

자세한 내용은 기술 보고서에 액세스하십시오.

모델

Huggingface 홈페이지에서 모든 세일러 모델을 여기에서 찾을 수 있습니다.

세일러 -0.5b
선원 -1.8b
세일러 -4B
세일러 7b
선원 -14B
세일러 -0.5B chat
선원 -1.8B-chat
세일러 -4B 차트
세일러 -7B 차트
세일러 -14B 차트

평가

다음은 질문 답변 작업에 대한 모델 평가 결과입니다. 평가 결과는 테이블 형식으로 표시되며, 여기서 첫 번째 열은 모델 이름이며 재설정 열은 각각 태국 (TH), 인도네시아 (ID) 및 베트남 (VI) 언어의 성능입니다. 선원 모델의 결과는 대담하게 강조 표시됩니다. 다른 작업과 평가 코드에 대한 전체 평가 결과를 찾아 평가 디렉토리에서 결과를 재현 할 수 있습니다.

질문 대답

3 샷 (EM / F1)	Xquad (Th)	Tydiqa (ID)	Xquad (VI)
Qwen1.5-0.5b	14.19 / 23.35	20.71 / 32.64	19.85 / 35.38
세일러 -0.5b	15.84 / 27.58	30.44 / 54.74	21.13 / 40.57
Qwen1.5-1.8b	27.24 / 43.56	29.73 / 53.76	29.17 / 48.15
선원 -1.8b	32.72 / 48.66	40.88 / 65.37	34.22 / 53.35
QWEN1.5-4B	34.03 / 53.40	48.32 / 72.68	43.71 / 63.86
세일러 -4B	46.82 / 63.34	53.98 / 73.48	47.65 / 67.09
llama-2-7b	30.64 / 43.80	56.64 / 72.14	46.96 / 66.16
Mistral-7B-V0.1	48.48 / 63.27	63.54 / 78.73	53.72 / 72.75
SEALLM-7B- 하이브리드	49.70 / 67.62	50.62 / 75.21	49.62 / 70.74
SEALLM-7B-V2	34.55 / 55.13	52.21 / 77.00	46.19 / 72.11
Qwen1.5-7b	53.79 / 69.30	57.17 / 77.28	56.63 / 76.99
세일러 7b	57.88 / 71.06	60.53 / 75.42	53.81 / 74.62

설정

우리는 OpenCompass를 사용하여 모델을 평가합니다. 필요한 패키지를 설치하려면이 폴더 아래에서 다음 명령을 실행하십시오.

 # setup opencompass environment
conda create --name opencompass python=3.10 pytorch torchvision pytorch-cuda -c nvidia -c pytorch -y
conda activate opencompass
git clone https://github.com/open-compass/opencompass opencompass
cd opencompass
pip install -e .
pip install pythainlp langid
mkdir data

평가 스크립트를 구축하십시오

평가 스크립트를 작성하려면이 폴더에서 다음 명령을 실행하십시오.

cp -r eval/configs/ * opencompass/configs/
cp -r eval/data/ * opencompass/data/
cp -r eval/datasets/ * opencompass/opencompass/datasets/
cp eval/icl_sailor_evaluator.py opencompass/opencompass/openicl/icl_evaluator/
cp eval/sailor_text_postprocessors.py opencompass/opencompass/utils/
echo " from .icl_sailor_evaluator import AnsEvaluator, TextGenEvaluator  # noqa " >> " opencompass/opencompass/openicl/icl_evaluator/__init__.py "
echo " from .sailor_text_postprocessors import *  # noqa " >> " opencompass/opencompass/utils/__init__.py "
echo " from .xquad import *  # noqa: F401, F403 " >> " opencompass/opencompass/datasets/__init__.py "
echo " from .tydiqa_id import *  # noqa: F401, F403 " >> " opencompass/opencompass/datasets/__init__.py "
echo " from .xcopa_sea import *  # noqa: F401, F403 " >> " opencompass/opencompass/datasets/__init__.py "
echo " from .m3exam import *  # noqa: F401, F403 " >> " opencompass/opencompass/datasets/__init__.py "
echo " from .belebele import *  # noqa: F401, F403 " >> " opencompass/opencompass/datasets/__init__.py "
cp eval/eval_sailor.py opencompass/configs/

평가 평가

평가를 실행하려면이 폴더에서 다음 명령을 실행하십시오.

 cd opencompass
python run.py configs/eval_sailor.py -w outputs/sailor --hf-num-gpus 1 --max-num-workers 64

QWEN1.5, LLAMA, MISTRAL 등과 같은 다른 모델을 평가하기 위해 스크립트를 수정할 수도 있습니다.

데모

우리는 Sailor-14B-Chat과 채팅 할 간단한 데모를 제공합니다. 제공된 데모 코드를 사용하여 개발할 수도 있습니다.

이 작품을 인용합니다

이 저장소 또는 선원 모델을 사용하는 경우 인용하십시오.

 @inproceedings{dou-etal-2024-sailor,
    title = "Sailor: Open Language Models for South-{E}ast {A}sia",
    author = "Dou, Longxu and Liu, Qian and Zeng, Guangtao and Guo, Jia  and Zhou, Jiahui and Mao, Xin and Jin, Ziqi and Lu, Wei and Lin, Min",
    booktitle = "Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing: System Demonstrations",
    year = "2024",
}