Dieses Repository enthält den Bewertungscode für Sailor, eine Reihe offener Sprachmodelle für Südostasien.
Sailor wird vom Sea AI Lab und der Singapore University of Technology and Design entwickelt.

Sailor ist eine Reihe von offenen Sprachmodellen, die auf Südostasien (Meer) zugeschnitten sind und sich auf Sprachen wie? Indonesisch,? Thai,? Vietnamesisch,? Malaiisch und? Lao. Die Sailor -Modelle entwickelt mit sorgfältiger Datenkuration und sind so konzipiert, dass sie in verschiedenen sprachlichen Landschaften der Seelegion Text verstehen und generieren. Sailor wurde aus Qwen 1.5 erstellt und umfasst Modelle unterschiedlicher Größen, die sich von 0,5B und 14B -Versionen für unterschiedliche Anforderungen erstrecken. Benchmarking -Ergebnisse zeigen, dass die Kenntnisse des Seemanns in Aufgaben wie Fragenbeantwortung, allgemeines Denken, Leseverständnis usw. in Seelages -Sprachen.
Um weitere Informationen zu erfahren, greifen Sie bitte auf den technischen Bericht zu.
Hier finden Sie alle Sailor -Modelle auf unserer Huggingface -Homepage hier:
Hier sind die Ergebnisse der Bewertung der Modelle zur Beantwortung von Fragen zur Beantwortung von Fragen. Die Evaluierungsergebnisse werden in Form von Tabellen dargestellt, wobei die erste Spalte der Modellname ist, und die Reset -Spalten sind die Leistung auf thailändischen (TH )-, Indonesischen (ID )- bzw. vietnamesischen (vi) Sprachen. Die Ergebnisse von Sailor -Modellen werden fett hervorgehoben. Sie können die vollständigen Bewertungsergebnisse für die verschiedenen Aufgaben und unseren Bewertungscode finden, um die Ergebnisse im Bewertungsverzeichnis zu reproduzieren.
| 3-Shot (EM / F1) | Xquad (th) | Tydiqa (ID) | Xquad (vi) |
|---|---|---|---|
| Qwen1.5-0.5b | 14.19 / 23.35 | 20.71 / 32.64 | 19.85 / 35.38 |
| Sailor-0,5b | 15.84 / 27.58 | 30.44 / 54.74 | 21.13 / 40.57 |
| Qwen1.5-1.8b | 27.24 / 43,56 | 29.73 / 53.76 | 29.17 / 48.15 |
| Sailor-1.8b | 32.72 / 48.66 | 40.88 / 65.37 | 34,22 / 53,35 |
| Qwen1.5-4b | 34.03 / 53.40 | 48.32 / 72.68 | 43.71 / 63.86 |
| Sailor-4b | 46.82 / 63.34 | 53,98 / 73,48 | 47.65 / 67.09 |
| LAMA-2-7B | 30.64 / 43.80 | 56.64 / 72.14 | 46.96 / 66.16 |
| Mistral-7b-V0.1 | 48.48 / 63.27 | 63,54 / 78.73 | 53.72 / 72.75 |
| Seallm-7b-Hybrid | 49.70 / 67.62 | 50.62 / 75.21 | 49,62 / 70.74 |
| Seallm-7b-V2 | 34,55 / 55.13 | 52.21 / 77.00 | 46.19 / 72.11 |
| Qwen1.5-7b | 53.79 / 69.30 | 57.17 / 77.28 | 56.63 / 76.99 |
| Sailor-7b | 57.88 / 71.06 | 60.53 / 75.42 | 53,81 / 74,62 |
Wir verwenden OpenCompass, um die Modelle zu bewerten. Führen Sie den folgenden Befehl unter diesem Ordner aus, um die erforderlichen Pakete zu installieren:
# setup opencompass environment
conda create --name opencompass python=3.10 pytorch torchvision pytorch-cuda -c nvidia -c pytorch -y
conda activate opencompass
git clone https://github.com/open-compass/opencompass opencompass
cd opencompass
pip install -e .
pip install pythainlp langid
mkdir dataFühren Sie den folgenden Befehl unter diesem Ordner aus, um das Evaluierungsskript zu erstellen:
cp -r eval/configs/ * opencompass/configs/
cp -r eval/data/ * opencompass/data/
cp -r eval/datasets/ * opencompass/opencompass/datasets/
cp eval/icl_sailor_evaluator.py opencompass/opencompass/openicl/icl_evaluator/
cp eval/sailor_text_postprocessors.py opencompass/opencompass/utils/
echo " from .icl_sailor_evaluator import AnsEvaluator, TextGenEvaluator # noqa " >> " opencompass/opencompass/openicl/icl_evaluator/__init__.py "
echo " from .sailor_text_postprocessors import * # noqa " >> " opencompass/opencompass/utils/__init__.py "
echo " from .xquad import * # noqa: F401, F403 " >> " opencompass/opencompass/datasets/__init__.py "
echo " from .tydiqa_id import * # noqa: F401, F403 " >> " opencompass/opencompass/datasets/__init__.py "
echo " from .xcopa_sea import * # noqa: F401, F403 " >> " opencompass/opencompass/datasets/__init__.py "
echo " from .m3exam import * # noqa: F401, F403 " >> " opencompass/opencompass/datasets/__init__.py "
echo " from .belebele import * # noqa: F401, F403 " >> " opencompass/opencompass/datasets/__init__.py "
cp eval/eval_sailor.py opencompass/configs/Führen Sie den folgenden Befehl unter diesem Ordner aus, um die Bewertung auszuführen:
cd opencompass
python run.py configs/eval_sailor.py -w outputs/sailor --hf-num-gpus 1 --max-num-workers 64Sie können das Skript auch ändern, um andere Modelle wie Qwen1.5, Lama, Mistral usw. zu bewerten.
Wir bieten eine einfache Demo, um mit Sailor-14B-Chat zu chatten. Sie können es auch mit dem bereitgestellten Demo -Code entwickeln.
Wenn Sie dieses Repository- oder Sailor -Modelle verwenden, zitieren Sie bitte
@inproceedings{dou-etal-2024-sailor,
title = "Sailor: Open Language Models for South-{E}ast {A}sia",
author = "Dou, Longxu and Liu, Qian and Zeng, Guangtao and Guo, Jia and Zhou, Jiahui and Mao, Xin and Jin, Ziqi and Lu, Wei and Lin, Min",
booktitle = "Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing: System Demonstrations",
year = "2024",
}
Wenn Sie Fragen haben, stellen Sie bitte ein Problem in unserem Github an oder kontaktieren Sie uns unter [email protected] und [email protected].