Repositori ini berisi kode untuk Sailor2, model bahasa terbuka yang kuat dan inklusif untuk Asia Tenggara.
Sailor2 adalah proyek kolaboratif yang bermitra dengan Sea AI Lab, SCB10X, Wessight, Huggingface dan komunitas Sailor2.

Logo ini dihasilkan oleh midjourney
Sailor2 adalah inisiatif yang digerakkan oleh masyarakat yang membawa model bahasa multibahasa mutakhir ke Asia Tenggara (SEA). Penelitian kami menyoroti permintaan yang kuat untuk model dalam rentang parameter 8B dan 20B untuk penggunaan produksi, bersama dengan model 1B untuk aplikasi khusus, seperti tujuan decoding spekulatif dan penelitian. Model -model ini, yang dirilis di bawah lisensi Apache 2.0 , memberikan aksesibilitas yang ditingkatkan ke teknologi bahasa canggih di seluruh wilayah.
Sailor2 dibangun di atas fondasi model multibahasa multibahasa yang mengagumkan Qwen 2.5 dan terus-menerus terlatih pada token 500B untuk mendukung 15 bahasa lebih baik dengan model terpadu. Bahasa -bahasa ini termasuk bahasa Inggris, Cina, Burma, Cebuano, Ilocano, Indonesia, Jawa, Khmer, Lao, Melayu, Sunda, Tagalog, Thailand, Vietnam, dan Waray. Dengan menangani meningkatnya permintaan untuk model bahasa yang beragam, kuat, dan dapat diakses, Sailor2 berupaya melayani yang kurang terlayani di area laut dengan LLM multibahasa yang terbuka, inklusif, dan dapat diakses.
Lihat beranda Sailor2 untuk detail pelatihan lebih lanjut.
Kami bekerja keras untuk mempersiapkan pelepasan semua kode, dan mohon tetap disini!
Kode Sailor2 telah berada dalam transformator wajah pemeluk terbaru dan kami menyarankan Anda untuk menginstal transformers==4.46.3 .
Di sini memberikan cuplikan kode untuk menunjukkan kepada Anda cara memuat tokenizer dan model dan cara menghasilkan konten.
import torch
from transformers import AutoModelForCausalLM , AutoTokenizer
device = "cuda"
model = AutoModelForCausalLM . from_pretrained (
'sail/Sailor2-20B-Chat' ,
torch_dtype = torch . bfloat16 ,
device_map = "auto"
)
tokenizer = AutoTokenizer . from_pretrained ( 'sail/Sailor2-20B-Chat' )
system_prompt =
'You are an AI assistant named Sailor2, created by Sea AI Lab.
As an AI assistant, you can answer questions in English, Chinese, and Southeast Asian languages
such as Burmese, Cebuano, Ilocano, Indonesian, Javanese, Khmer, Lao, Malay, Sundanese, Tagalog, Thai, Vietnamese, and Waray.
Your responses should be friendly, unbiased, informative, detailed, and faithful.'
prompt = "Beri saya pengenalan singkat tentang model bahasa besar."
# prompt = "Hãy cho tôi một giới thiệu ngắn gọn về mô hình ngôn ngữ lớn."
# prompt = "ให้ฉันแนะนำสั้น ๆ เกี่ยวกับโมเดลภาษาขนาดใหญ่"
messages = [
{ "role" : "system" , "content" : system_prompt },
{ "role" : "user" , "content" : prompt }
]
text = tokenizer . apply_chat_template (
messages ,
tokenize = False ,
add_generation_prompt = True
)
model_inputs = tokenizer ([ text ], return_tensors = "pt" ). to ( device )
input_ids = model_inputs . input_ids . to ( device )
generated_ids = model . generate (
input_ids ,
max_new_tokens = 512 ,
)
generated_ids = [
output_ids [ len ( input_ids ):] for input_ids , output_ids in zip ( model_inputs . input_ids , generated_ids )
]
response = tokenizer . batch_decode ( generated_ids , skip_special_tokens = True )[ 0 ]
print ( response )Sailor2 didistribusikan berdasarkan ketentuan lisensi Apache 2.0. Tidak ada batasan pada penelitian dan penggunaan komersial.
Jika Anda menemukan Sailor2 berguna, silakan kutip pekerjaan kami sebagai berikut:
@misc{sailor2report,
title={Sailor2: Sailing in South-East Asia with Inclusive Multilingual LLM},
author={{Sailor2 Team}},
year={2024}
}
Jika Anda memiliki pertanyaan, silakan ajukan masalah atau hubungi kami di [email protected] atau [email protected].