Este repositório contém o código para o Sailor2, um poderoso e inclusivo modelos de idiomas abertos para o sudeste da Ásia.
O Sailor2 é um projeto colaborativo em parceria com o Sea AI Lab, SCB10X, Wisesight, Huggingface e a comunidade Sailor2.

O logotipo foi gerado por Midjourney
O Sailor2 é uma iniciativa orientada à comunidade que traz modelos de linguagem multilíngue de ponta para o sudeste da Ásia (mar). Nossa pesquisa destaca uma forte demanda por modelos na faixa de parâmetros 8B e 20B para uso da produção, juntamente com modelos 1B para aplicações especializadas, como fins especulativos de decodificação e pesquisa. Esses modelos, lançados sob a licença Apache 2.0 , fornecem maior acessibilidade a tecnologias avançadas de linguagem em toda a região.
O Sailor2 se baseia na base do incrível modelo multilíngue QWEN 2.5 e é continuamente pré-treinado em tokens 500B para suportar 15 idiomas melhor com um modelo unificado. Esses idiomas incluem inglês, chinês, birmaneses, cebuano, ilocano, indonésio, javaneses, khmer, lao, malaio, sundaneses, tagalo, tailandês, vietnamita e waray. Ao atender à crescente demanda por modelos de idiomas diversos, robustos e acessíveis, o Sailor2 procura servir os carentes em áreas marinhas com LLMs multilíngues abertos, inclusivos e acessíveis.
Consulte a página inicial do Sailor2 para obter mais detalhes de treinamento.
Estamos trabalhando duro para preparar o lançamento de todo o código e fique atento!
O Código do Sailor2 esteve nos mais recentes transformadores de face abraçados e aconselhamos você a instalar transformers==4.46.3 .
Aqui fornece um trecho de código para mostrar como carregar o tokenizer e o modelo e como gerar conteúdo.
import torch
from transformers import AutoModelForCausalLM , AutoTokenizer
device = "cuda"
model = AutoModelForCausalLM . from_pretrained (
'sail/Sailor2-20B-Chat' ,
torch_dtype = torch . bfloat16 ,
device_map = "auto"
)
tokenizer = AutoTokenizer . from_pretrained ( 'sail/Sailor2-20B-Chat' )
system_prompt =
'You are an AI assistant named Sailor2, created by Sea AI Lab.
As an AI assistant, you can answer questions in English, Chinese, and Southeast Asian languages
such as Burmese, Cebuano, Ilocano, Indonesian, Javanese, Khmer, Lao, Malay, Sundanese, Tagalog, Thai, Vietnamese, and Waray.
Your responses should be friendly, unbiased, informative, detailed, and faithful.'
prompt = "Beri saya pengenalan singkat tentang model bahasa besar."
# prompt = "Hãy cho tôi một giới thiệu ngắn gọn về mô hình ngôn ngữ lớn."
# prompt = "ให้ฉันแนะนำสั้น ๆ เกี่ยวกับโมเดลภาษาขนาดใหญ่"
messages = [
{ "role" : "system" , "content" : system_prompt },
{ "role" : "user" , "content" : prompt }
]
text = tokenizer . apply_chat_template (
messages ,
tokenize = False ,
add_generation_prompt = True
)
model_inputs = tokenizer ([ text ], return_tensors = "pt" ). to ( device )
input_ids = model_inputs . input_ids . to ( device )
generated_ids = model . generate (
input_ids ,
max_new_tokens = 512 ,
)
generated_ids = [
output_ids [ len ( input_ids ):] for input_ids , output_ids in zip ( model_inputs . input_ids , generated_ids )
]
response = tokenizer . batch_decode ( generated_ids , skip_special_tokens = True )[ 0 ]
print ( response )O Sailor2 é distribuído sob os termos da licença Apache 2.0. Não restringe a pesquisa e o uso comercial.
Se você achar útil o Sailor2, cite nosso trabalho da seguinte forma:
@misc{sailor2report,
title={Sailor2: Sailing in South-East Asia with Inclusive Multilingual LLM},
author={{Sailor2 Team}},
year={2024}
}
Se você tiver alguma dúvida, levante um problema ou entre em contato conosco em [email protected] ou [email protected].