يحتوي هذا المستودع على رمز Sailor2 ، وهو نماذج لغة مفتوحة قوية وشاملة لجنوب شرق آسيا.
Sailor2 هو مشروع تعاوني شراكة مع Sea AI Lab و SCB10X و Wiseight و Huggingface ومجتمع Sailor2.

تم إنشاء الشعار بواسطة Midjourney
Sailor2 هي مبادرة تعتمد على المجتمع تجلب نماذج اللغة المتعددة اللغات المتطورة إلى جنوب شرق آسيا (SEA). يسلط بحثنا الضوء على الطلب القوي على النماذج في نطاق المعلمة 8B و 20B لاستخدام الإنتاج ، إلى جانب نماذج 1B للتطبيقات المتخصصة ، مثل فك تشفير المضاربة وأغراض البحث. توفر هذه النماذج ، التي تم إصدارها بموجب ترخيص Apache 2.0 ، إمكانية الوصول إلى تقنيات اللغة المتقدمة في جميع أنحاء المنطقة.
يعتمد Sailor2 على أساس النموذج متعدد اللغات الرائع Qwen 2.5 ويتم تدريبه بشكل مستمر على 500B رمز لدعم 15 لغة أفضل مع نموذج موحد. وتشمل هذه اللغات الإنجليزية والصينية والبورمية وسيبوانو وإيلوكانو والإندونيسية والجاويس والخمير ولاو والملايين والسندانيين والتاغالوغ والتايلانديين والفيتناميين وواراي. من خلال معالجة الطلب المتزايد على النماذج اللغوية المتنوعة والقوية ويمكن الوصول إليها ، يسعى Sailor2 إلى خدمة النقص في مناطق البحر مع LLMs مفتوحة وشاملة ويمكن الوصول إليها.
الرجوع إلى صفحة Sailor2 الرئيسية لمزيد من تفاصيل التدريب.
نحن نعمل بجد لإعداد إصدار جميع الكود ، ويرجى ترقب!
كانت مدونة Sailor2 في أحدث محولات الوجه المعانقة وننصحك بتثبيت transformers==4.46.3 .
يوفر هنا مقتطف رمز لإظهار كيفية تحميل الرمز المميز والنموذج وكيفية إنشاء المحتويات.
import torch
from transformers import AutoModelForCausalLM , AutoTokenizer
device = "cuda"
model = AutoModelForCausalLM . from_pretrained (
'sail/Sailor2-20B-Chat' ,
torch_dtype = torch . bfloat16 ,
device_map = "auto"
)
tokenizer = AutoTokenizer . from_pretrained ( 'sail/Sailor2-20B-Chat' )
system_prompt =
'You are an AI assistant named Sailor2, created by Sea AI Lab.
As an AI assistant, you can answer questions in English, Chinese, and Southeast Asian languages
such as Burmese, Cebuano, Ilocano, Indonesian, Javanese, Khmer, Lao, Malay, Sundanese, Tagalog, Thai, Vietnamese, and Waray.
Your responses should be friendly, unbiased, informative, detailed, and faithful.'
prompt = "Beri saya pengenalan singkat tentang model bahasa besar."
# prompt = "Hãy cho tôi một giới thiệu ngắn gọn về mô hình ngôn ngữ lớn."
# prompt = "ให้ฉันแนะนำสั้น ๆ เกี่ยวกับโมเดลภาษาขนาดใหญ่"
messages = [
{ "role" : "system" , "content" : system_prompt },
{ "role" : "user" , "content" : prompt }
]
text = tokenizer . apply_chat_template (
messages ,
tokenize = False ,
add_generation_prompt = True
)
model_inputs = tokenizer ([ text ], return_tensors = "pt" ). to ( device )
input_ids = model_inputs . input_ids . to ( device )
generated_ids = model . generate (
input_ids ,
max_new_tokens = 512 ,
)
generated_ids = [
output_ids [ len ( input_ids ):] for input_ids , output_ids in zip ( model_inputs . input_ids , generated_ids )
]
response = tokenizer . batch_decode ( generated_ids , skip_special_tokens = True )[ 0 ]
print ( response )يتم توزيع Sailor2 بموجب شروط ترخيص Apache 2.0. لا تقيد على البحث والاستخدام التجاري.
إذا وجدت Sailor2 مفيدًا ، فيرجى الاستشهاد بعملنا على النحو التالي:
@misc{sailor2report,
title={Sailor2: Sailing in South-East Asia with Inclusive Multilingual LLM},
author={{Sailor2 Team}},
year={2024}
}
إذا كان لديك أي أسئلة ، فيرجى إثارة مشكلة أو الاتصال بنا على [email protected] أو [email protected].