Этот репозиторий содержит код для Sailor2, мощные и инклюзивные модели открытого языка для Юго-Восточной Азии.
Sailor2 - это совместный проект, в партнерстве с Sea AI Lab, SCB10X, Wissight, Huggingface и сообществом Sailor2.

Логотип был сгенерирован Midjourney
Sailor2-это инициатива, управляемая сообществом, которая приносит передовые многоязычные языковые модели в Юго-Восточную Азию (море). Наше исследование подчеркивает сильный спрос на модели в диапазоне параметров 8b и 20b для использования производства, наряду с моделями 1b для специализированных приложений, таких как спекулятивные декодирование и исследования. Эти модели, выпущенные по лицензии Apache 2.0 , обеспечивают повышенную доступность к передовым языковым технологиям по всему региону.
Sailor2 основан на основе потрясающей многоязычной модели QWEN 2.5 и постоянно предварительно обучается на 500B токенах, чтобы лучше поддерживать 15 языков с унифицированной моделью. Эти языки включают английский, китайский, бирманский, себуано, илокано, индонезийский, яванский, кхмер, лао, малайский, сунданский, тагальский, тайский, вьетнамский и вари. Управляя растущим спросом на различные, надежные и доступные языковые модели, Sailor2 стремится обслуживать недостаточно обслуживаемых в морских районах с открытым, инклюзивным и доступным многоязычным LLMS.
Обратитесь к домашней странице Sailor2 для получения дополнительной информации об обучении.
Мы усердно работаем, чтобы подготовить выпуск всего кода, и, пожалуйста, следите за обновлениями!
Кодекс Sailor2 был в последних трансформаторах обнимающего лица, и мы советуем вам установить transformers==4.46.3 .
Здесь предоставляет фрагмент кода, чтобы показать вам, как загрузить токенизатор и модель и как генерировать содержимое.
import torch
from transformers import AutoModelForCausalLM , AutoTokenizer
device = "cuda"
model = AutoModelForCausalLM . from_pretrained (
'sail/Sailor2-20B-Chat' ,
torch_dtype = torch . bfloat16 ,
device_map = "auto"
)
tokenizer = AutoTokenizer . from_pretrained ( 'sail/Sailor2-20B-Chat' )
system_prompt =
'You are an AI assistant named Sailor2, created by Sea AI Lab.
As an AI assistant, you can answer questions in English, Chinese, and Southeast Asian languages
such as Burmese, Cebuano, Ilocano, Indonesian, Javanese, Khmer, Lao, Malay, Sundanese, Tagalog, Thai, Vietnamese, and Waray.
Your responses should be friendly, unbiased, informative, detailed, and faithful.'
prompt = "Beri saya pengenalan singkat tentang model bahasa besar."
# prompt = "Hãy cho tôi một giới thiệu ngắn gọn về mô hình ngôn ngữ lớn."
# prompt = "ให้ฉันแนะนำสั้น ๆ เกี่ยวกับโมเดลภาษาขนาดใหญ่"
messages = [
{ "role" : "system" , "content" : system_prompt },
{ "role" : "user" , "content" : prompt }
]
text = tokenizer . apply_chat_template (
messages ,
tokenize = False ,
add_generation_prompt = True
)
model_inputs = tokenizer ([ text ], return_tensors = "pt" ). to ( device )
input_ids = model_inputs . input_ids . to ( device )
generated_ids = model . generate (
input_ids ,
max_new_tokens = 512 ,
)
generated_ids = [
output_ids [ len ( input_ids ):] for input_ids , output_ids in zip ( model_inputs . input_ids , generated_ids )
]
response = tokenizer . batch_decode ( generated_ids , skip_special_tokens = True )[ 0 ]
print ( response )Sailor2 распределяется в соответствии с условиями лицензии Apache 2.0. Нет ограничений на исследования и коммерческое использование.
Если вы считаете Sailor2 полезным, пожалуйста, укажите нашу работу следующим образом:
@misc{sailor2report,
title={Sailor2: Sailing in South-East Asia with Inclusive Multilingual LLM},
author={{Sailor2 Team}},
year={2024}
}
Если у вас есть какие -либо вопросы, пожалуйста, поднимите проблему или свяжитесь с нами по адресу [email protected] или [email protected].