Este repositorio contiene el código para Sailor2, un poderoso e inclusivo modelos de lenguaje abierto para el sudeste asiático.
Sailor2 es un proyecto de colaboración asociado con Sea Ai Lab, SCB10X, Wisesight, Huggingface y la comunidad Sailor2.

El logotipo fue generado por MidJourney
Sailor2 es una iniciativa impulsada por la comunidad que trae modelos de lenguaje multilingües de vanguardia al sudeste asiático (mar). Nuestra investigación destaca una fuerte demanda de modelos en el rango de parámetros 8B y 20B para el uso de producción, junto con modelos 1B para aplicaciones especializadas, como fines especulativos de decodificación e investigación. Estos modelos, lanzados bajo la licencia Apache 2.0 , proporcionan una mayor accesibilidad a las tecnologías de lenguaje avanzado en toda la región.
Sailor2 se basa en la base del impresionante modelo multilingüe Qwen 2.5 y se capacita continuamente en tokens 500B para admitir 15 idiomas mejor con un modelo unificado. Estos idiomas incluyen inglés, chino, birmano, cebuano, ilocano, indonesio, javanés, khmer, lao, malayo, sundanés, tagalo, tailandés, vietnamita y Waray. Al abordar la creciente demanda de modelos de idiomas diversos, robustos y accesibles, Sailor2 busca servir a las áreas desatendidas en mar con LLM multilingües abiertos, inclusivos y accesibles.
Consulte la página de inicio de Sailor2 para obtener más detalles de capacitación.
Estamos trabajando duro para preparar el lanzamiento de todo el código, ¡y estén atentos!
El Código de Sailor2 ha estado en los últimos transformadores de la cara abrazada y le recomendamos que instale transformers==4.46.3 .
Aquí proporciona un fragmento de código para mostrarle cómo cargar el tokenizer y el modelo y cómo generar contenido.
import torch
from transformers import AutoModelForCausalLM , AutoTokenizer
device = "cuda"
model = AutoModelForCausalLM . from_pretrained (
'sail/Sailor2-20B-Chat' ,
torch_dtype = torch . bfloat16 ,
device_map = "auto"
)
tokenizer = AutoTokenizer . from_pretrained ( 'sail/Sailor2-20B-Chat' )
system_prompt =
'You are an AI assistant named Sailor2, created by Sea AI Lab.
As an AI assistant, you can answer questions in English, Chinese, and Southeast Asian languages
such as Burmese, Cebuano, Ilocano, Indonesian, Javanese, Khmer, Lao, Malay, Sundanese, Tagalog, Thai, Vietnamese, and Waray.
Your responses should be friendly, unbiased, informative, detailed, and faithful.'
prompt = "Beri saya pengenalan singkat tentang model bahasa besar."
# prompt = "Hãy cho tôi một giới thiệu ngắn gọn về mô hình ngôn ngữ lớn."
# prompt = "ให้ฉันแนะนำสั้น ๆ เกี่ยวกับโมเดลภาษาขนาดใหญ่"
messages = [
{ "role" : "system" , "content" : system_prompt },
{ "role" : "user" , "content" : prompt }
]
text = tokenizer . apply_chat_template (
messages ,
tokenize = False ,
add_generation_prompt = True
)
model_inputs = tokenizer ([ text ], return_tensors = "pt" ). to ( device )
input_ids = model_inputs . input_ids . to ( device )
generated_ids = model . generate (
input_ids ,
max_new_tokens = 512 ,
)
generated_ids = [
output_ids [ len ( input_ids ):] for input_ids , output_ids in zip ( model_inputs . input_ids , generated_ids )
]
response = tokenizer . batch_decode ( generated_ids , skip_special_tokens = True )[ 0 ]
print ( response )Sailor2 se distribuye bajo los términos de la licencia Apache 2.0. No se restrinja en la investigación y el uso comercial.
Si encuentra útil Sailor2, cite nuestro trabajo de la siguiente manera:
@misc{sailor2report,
title={Sailor2: Sailing in South-East Asia with Inclusive Multilingual LLM},
author={{Sailor2 Team}},
year={2024}
}
Si tiene alguna pregunta, plantee un problema o contáctenos en [email protected] o [email protected].