Dieses Repository enthält den Code für Sailor2, eine leistungsstarke und integrative offene Sprachmodelle für Südostasien.
Sailor2 ist ein kollaboratives Projekt, das mit Sea AI Lab, SCB10X, Wisessight, Huggingface und der Sailor2 Community zusammengestellt wurde.

Das Logo wurde von Midjourney erzeugt
Sailor2 ist eine gemeindenahe Initiative, die in Südostasien (Sea) moderne mehrsprachige Sprachmodelle mit hochmodernen Sprachmodellen bringt. Unsere Forschung beleuchtet eine starke Nachfrage nach Modellen im 8B- und 20B -Parameterbereich für die Produktionsanwendung sowie 1B -Modelle für spezielle Anwendungen wie spekulative Dekodierungs- und Forschungszwecke. Diese unter der Apache 2.0 -Lizenz veröffentlichten Modelle bieten eine verbesserte Zugänglichkeit für fortschrittliche Sprachtechnologien in der gesamten Region.
Sailor2 baut auf der Fundament des fantastischen mehrsprachigen Modells QWEN 2.5 auf und ist kontinuierlich auf 500B-Token ausgebildet, um 15 Sprachen mit einem einheitlichen Modell besser zu unterstützen. Zu diesen Sprachen gehören Englisch, Chinesisch, Burmesen, Cebuano, Ilocano, Indonesisch, Javaner, Khmer, Lao, Malaiisch, Sundanese, Tagalog, Thai, Vietnamesisch und Waray. Sailor2 wird mit der wachsenden Nachfrage nach vielfältigen, robusten und zugänglichen Sprachmodellen befasst, um den unterversorgten Seebleichen mit offenen, inklusiven und zugänglichen mehrsprachigen LLMs zu bedienen.
Weitere Schulungsdetails finden Sie auf der Sailor2 -Homepage.
Wir arbeiten hart daran, die Veröffentlichung aller Code vorzubereiten, und bitte bleiben Sie dran!
Der Code von Sailor2 befand sich in den neuesten Umarmungs -Face -Transformatoren und wir empfehlen Ihnen, transformers==4.46.3 zu installieren.
Hier bietet ein Code -Snippet, um Ihnen zu zeigen, wie Sie den Tokenizer und das Modell laden und Inhalte generieren.
import torch
from transformers import AutoModelForCausalLM , AutoTokenizer
device = "cuda"
model = AutoModelForCausalLM . from_pretrained (
'sail/Sailor2-20B-Chat' ,
torch_dtype = torch . bfloat16 ,
device_map = "auto"
)
tokenizer = AutoTokenizer . from_pretrained ( 'sail/Sailor2-20B-Chat' )
system_prompt =
'You are an AI assistant named Sailor2, created by Sea AI Lab.
As an AI assistant, you can answer questions in English, Chinese, and Southeast Asian languages
such as Burmese, Cebuano, Ilocano, Indonesian, Javanese, Khmer, Lao, Malay, Sundanese, Tagalog, Thai, Vietnamese, and Waray.
Your responses should be friendly, unbiased, informative, detailed, and faithful.'
prompt = "Beri saya pengenalan singkat tentang model bahasa besar."
# prompt = "Hãy cho tôi một giới thiệu ngắn gọn về mô hình ngôn ngữ lớn."
# prompt = "ให้ฉันแนะนำสั้น ๆ เกี่ยวกับโมเดลภาษาขนาดใหญ่"
messages = [
{ "role" : "system" , "content" : system_prompt },
{ "role" : "user" , "content" : prompt }
]
text = tokenizer . apply_chat_template (
messages ,
tokenize = False ,
add_generation_prompt = True
)
model_inputs = tokenizer ([ text ], return_tensors = "pt" ). to ( device )
input_ids = model_inputs . input_ids . to ( device )
generated_ids = model . generate (
input_ids ,
max_new_tokens = 512 ,
)
generated_ids = [
output_ids [ len ( input_ids ):] for input_ids , output_ids in zip ( model_inputs . input_ids , generated_ids )
]
response = tokenizer . batch_decode ( generated_ids , skip_special_tokens = True )[ 0 ]
print ( response )Sailor2 wird unter den Bestimmungen der Apache -Lizenz 2.0 verteilt. Keine Einschränkung der Forschung und der kommerziellen Nutzung.
Wenn Sie Sailor2 nützlich finden, zitieren Sie bitte unsere Arbeit wie folgt:
@misc{sailor2report,
title={Sailor2: Sailing in South-East Asia with Inclusive Multilingual LLM},
author={{Sailor2 Team}},
year={2024}
}
Wenn Sie Fragen haben, stellen Sie bitte ein Problem auf oder kontaktieren Sie uns unter [email protected] oder [email protected].