พื้นที่เก็บข้อมูลนี้มีรหัสสำหรับ Sailor2 ซึ่งเป็นโมเดลภาษาเปิดที่ทรงพลังและครอบคลุมสำหรับเอเชียตะวันออกเฉียงใต้
Sailor2 เป็นโครงการความร่วมมือที่ร่วมมือกับ Sea AI Lab, SCB10X, Wisesight, HuggingFace และชุมชน Sailor2

โลโก้ถูกสร้างขึ้นโดย Midjourney
Sailor2 เป็นความคิดริเริ่มที่ขับเคลื่อนด้วยชุมชนที่นำแบบจำลองภาษาหลายภาษาที่ทันสมัยมาสู่เอเชียตะวันออกเฉียงใต้ (SEA) การวิจัยของเราเน้นถึงความต้องการที่แข็งแกร่งสำหรับโมเดลในช่วง พารามิเตอร์ 8B และ 20B สำหรับการใช้งานการผลิตควบคู่ไปกับ รุ่น 1B สำหรับการใช้งานเฉพาะเช่นการถอดรหัสการเก็งกำไรและวัตถุประสงค์ในการวิจัย โมเดลเหล่านี้เปิดตัวภายใต้ ใบอนุญาต Apache 2.0 ให้การเข้าถึงที่เพิ่มขึ้นสำหรับเทคโนโลยีภาษาขั้นสูงทั่วทั้งภูมิภาค
Sailor2 สร้างขึ้นบนรากฐานของรุ่นหลายภาษาที่ยอดเยี่ยม Qwen 2.5 และได้รับการฝึกอบรมล่วงหน้าอย่างต่อเนื่องใน โทเค็น 500B เพื่อรองรับ 15 ภาษา ที่ดีขึ้นด้วยโมเดลแบบครบวงจร ภาษาเหล่านี้รวมถึงภาษาอังกฤษ, จีน, พม่า, เซบูโน, Ilocano, อินโดนีเซีย, ชวา, เขมร, ลาว, มลายู, ซุนดา, ตากาล็อก, ไทย, เวียดนามและวาเรย์ ด้วยการตอบสนองความต้องการที่เพิ่มขึ้นสำหรับรูปแบบภาษาที่หลากหลายแข็งแกร่งและเข้าถึงได้ Sailor2 พยายามที่จะให้บริการที่ด้อยโอกาสในพื้นที่ทะเลด้วย LLM แบบเปิดกว้างและสามารถเข้าถึงได้
อ้างถึงโฮมเพจ Sailor2 สำหรับรายละเอียดการฝึกอบรมเพิ่มเติม
เรากำลังทำงานอย่างหนักเพื่อเตรียมการเปิดตัวรหัสทั้งหมดและโปรดติดตามความคืบหน้า!
รหัสของ Sailor2 อยู่ใน Transformers Hugging Face ล่าสุดและเราแนะนำให้คุณติดตั้ง transformers==4.46.3
ที่นี่มีตัวอย่างโค้ดเพื่อแสดงวิธีโหลดโทเค็นและรุ่นและวิธีการสร้างเนื้อหา
import torch
from transformers import AutoModelForCausalLM , AutoTokenizer
device = "cuda"
model = AutoModelForCausalLM . from_pretrained (
'sail/Sailor2-20B-Chat' ,
torch_dtype = torch . bfloat16 ,
device_map = "auto"
)
tokenizer = AutoTokenizer . from_pretrained ( 'sail/Sailor2-20B-Chat' )
system_prompt =
'You are an AI assistant named Sailor2, created by Sea AI Lab.
As an AI assistant, you can answer questions in English, Chinese, and Southeast Asian languages
such as Burmese, Cebuano, Ilocano, Indonesian, Javanese, Khmer, Lao, Malay, Sundanese, Tagalog, Thai, Vietnamese, and Waray.
Your responses should be friendly, unbiased, informative, detailed, and faithful.'
prompt = "Beri saya pengenalan singkat tentang model bahasa besar."
# prompt = "Hãy cho tôi một giới thiệu ngắn gọn về mô hình ngôn ngữ lớn."
# prompt = "ให้ฉันแนะนำสั้น ๆ เกี่ยวกับโมเดลภาษาขนาดใหญ่"
messages = [
{ "role" : "system" , "content" : system_prompt },
{ "role" : "user" , "content" : prompt }
]
text = tokenizer . apply_chat_template (
messages ,
tokenize = False ,
add_generation_prompt = True
)
model_inputs = tokenizer ([ text ], return_tensors = "pt" ). to ( device )
input_ids = model_inputs . input_ids . to ( device )
generated_ids = model . generate (
input_ids ,
max_new_tokens = 512 ,
)
generated_ids = [
output_ids [ len ( input_ids ):] for input_ids , output_ids in zip ( model_inputs . input_ids , generated_ids )
]
response = tokenizer . batch_decode ( generated_ids , skip_special_tokens = True )[ 0 ]
print ( response )Sailor2 มีการแจกจ่ายภายใต้เงื่อนไขของใบอนุญาต Apache 2.0 ไม่มีการ จำกัด การวิจัยและการใช้งานเชิงพาณิชย์
หากคุณพบว่า Sailor2 มีประโยชน์โปรดอ้างอิงงานของเราดังนี้:
@misc{sailor2report,
title={Sailor2: Sailing in South-East Asia with Inclusive Multilingual LLM},
author={{Sailor2 Team}},
year={2024}
}
หากคุณมีคำถามใด ๆ โปรดเพิ่มปัญหาหรือติดต่อเราที่ [email protected] หรือ [email protected]