Ce référentiel contient le code de Sailor2, un modèle de langage ouvert puissant et inclusif pour l'Asie du Sud-Est.
Sailor2 est un projet collaboratif en partenariat avec Sea AI Lab, SCB10X, Wisesight, HuggingFace et la communauté Sailor2.

Le logo a été généré par Midjourney
Sailor2 est une initiative axée sur la communauté qui apporte des modèles de langage multilingue de pointe en Asie du Sud-Est (SEA). Notre recherche met en évidence une forte demande de modèles dans la gamme de paramètres 8B et 20B pour l'utilisation de la production, aux côtés de modèles 1B pour des applications spécialisées, telles que le décodage spéculatif et la recherche. Ces modèles, publiés sous la licence Apache 2.0 , offrent une accessibilité accrue aux technologies linguistiques avancées dans la région.
Sailor2 s'appuie sur les bases du modèle multilingue impressionnant Qwen 2.5 et est en permanence pré-formé sur des jetons 500B pour soutenir 15 langues mieux avec un modèle unifié. Ces langues comprennent l'anglais, le chinois, le birman, le cebuano, l'ilocano, l'Indonésien, les Javanais, le khmer, le lao, le malais, les sundanais, le tagalog, le thaï, le vietnamien et le waray. En répondant à la demande croissante de modèles de langues divers, robustes et accessibles, Sailor2 cherche à servir les LLM multilingues mal desservies dans les zones maritimes avec des LLM multilingues ouvertes, inclusives et accessibles.
Reportez-vous à la page d'accueil de Sailor2 pour plus de détails de formation.
Nous travaillons dur pour préparer la version de All Code et restez à l'écoute!
Le code de Sailor2 a été dans les derniers transformateurs de face étreintes et nous vous conseillons d'installer transformers==4.46.3 .
Ici fournit un extrait de code pour vous montrer comment charger le tokenzer et le modèle et comment générer des contenus.
import torch
from transformers import AutoModelForCausalLM , AutoTokenizer
device = "cuda"
model = AutoModelForCausalLM . from_pretrained (
'sail/Sailor2-20B-Chat' ,
torch_dtype = torch . bfloat16 ,
device_map = "auto"
)
tokenizer = AutoTokenizer . from_pretrained ( 'sail/Sailor2-20B-Chat' )
system_prompt =
'You are an AI assistant named Sailor2, created by Sea AI Lab.
As an AI assistant, you can answer questions in English, Chinese, and Southeast Asian languages
such as Burmese, Cebuano, Ilocano, Indonesian, Javanese, Khmer, Lao, Malay, Sundanese, Tagalog, Thai, Vietnamese, and Waray.
Your responses should be friendly, unbiased, informative, detailed, and faithful.'
prompt = "Beri saya pengenalan singkat tentang model bahasa besar."
# prompt = "Hãy cho tôi một giới thiệu ngắn gọn về mô hình ngôn ngữ lớn."
# prompt = "ให้ฉันแนะนำสั้น ๆ เกี่ยวกับโมเดลภาษาขนาดใหญ่"
messages = [
{ "role" : "system" , "content" : system_prompt },
{ "role" : "user" , "content" : prompt }
]
text = tokenizer . apply_chat_template (
messages ,
tokenize = False ,
add_generation_prompt = True
)
model_inputs = tokenizer ([ text ], return_tensors = "pt" ). to ( device )
input_ids = model_inputs . input_ids . to ( device )
generated_ids = model . generate (
input_ids ,
max_new_tokens = 512 ,
)
generated_ids = [
output_ids [ len ( input_ids ):] for input_ids , output_ids in zip ( model_inputs . input_ids , generated_ids )
]
response = tokenizer . batch_decode ( generated_ids , skip_special_tokens = True )[ 0 ]
print ( response )Sailor2 est distribué en vertu des termes de l'Apache License 2.0. Aucune restriction à la recherche et à l'utilisation commerciale.
Si vous trouvez Sailor2 utile, veuillez citer notre travail comme suit:
@misc{sailor2report,
title={Sailor2: Sailing in South-East Asia with Inclusive Multilingual LLM},
author={{Sailor2 Team}},
year={2024}
}
Si vous avez des questions, veuillez soulever un problème ou nous contacter à [email protected] ou [email protected].