sailor2 Téléchargement - sailor2 Téléchargement du code source

sailor2

Code Source AI

1.0.0

Télécharger

Sailor2: navigation en Asie du Sud-Est avec des LLM multilingues inclusives

Ce référentiel contient le code de Sailor2, un modèle de langage ouvert puissant et inclusif pour l'Asie du Sud-Est.

Sailor2 est un projet collaboratif en partenariat avec Sea AI Lab, SCB10X, Wisesight, HuggingFace et la communauté Sailor2.

Le logo a été généré par Midjourney

Sailor2 est une initiative axée sur la communauté qui apporte des modèles de langage multilingue de pointe en Asie du Sud-Est (SEA). Notre recherche met en évidence une forte demande de modèles dans la gamme de paramètres 8B et 20B pour l'utilisation de la production, aux côtés de modèles 1B pour des applications spécialisées, telles que le décodage spéculatif et la recherche. Ces modèles, publiés sous la licence Apache 2.0 , offrent une accessibilité accrue aux technologies linguistiques avancées dans la région.

Sailor2 s'appuie sur les bases du modèle multilingue impressionnant Qwen 2.5 et est en permanence pré-formé sur des jetons 500B pour soutenir 15 langues mieux avec un modèle unifié. Ces langues comprennent l'anglais, le chinois, le birman, le cebuano, l'ilocano, l'Indonésien, les Javanais, le khmer, le lao, le malais, les sundanais, le tagalog, le thaï, le vietnamien et le waray. En répondant à la demande croissante de modèles de langues divers, robustes et accessibles, Sailor2 cherche à servir les LLM multilingues mal desservies dans les zones maritimes avec des LLM multilingues ouvertes, inclusives et accessibles.

Reportez-vous à la page d'accueil de Sailor2 pour plus de détails de formation.

Liste de vérification de la version

Nous travaillons dur pour préparer la version de All Code et restez à l'écoute!

Code d'évaluation
Code de pré-formation
Code post-entraînement
Modèles de base et de chat

Exigences

Le code de Sailor2 a été dans les derniers transformateurs de face étreintes et nous vous conseillons d'installer transformers==4.46.3 .

Start

Ici fournit un extrait de code pour vous montrer comment charger le tokenzer et le modèle et comment générer des contenus.

 import torch
from transformers import AutoModelForCausalLM , AutoTokenizer
device = "cuda"

model = AutoModelForCausalLM . from_pretrained (
    'sail/Sailor2-20B-Chat' ,
    torch_dtype = torch . bfloat16 ,
    device_map = "auto"
)

tokenizer = AutoTokenizer . from_pretrained ( 'sail/Sailor2-20B-Chat' )
system_prompt = 
'You are an AI assistant named Sailor2, created by Sea AI Lab. 
As an AI assistant, you can answer questions in English, Chinese, and Southeast Asian languages 
such as Burmese, Cebuano, Ilocano, Indonesian, Javanese, Khmer, Lao, Malay, Sundanese, Tagalog, Thai, Vietnamese, and Waray. 
Your responses should be friendly, unbiased, informative, detailed, and faithful.'

prompt = "Beri saya pengenalan singkat tentang model bahasa besar."
# prompt = "Hãy cho tôi một giới thiệu ngắn gọn về mô hình ngôn ngữ lớn."
# prompt = "ให้ฉันแนะนำสั้น ๆ เกี่ยวกับโมเดลภาษาขนาดใหญ่"

messages = [
    { "role" : "system" , "content" : system_prompt },
    { "role" : "user" , "content" : prompt }
]
text = tokenizer . apply_chat_template (
    messages ,
    tokenize = False ,
    add_generation_prompt = True
)

model_inputs = tokenizer ([ text ], return_tensors = "pt" ). to ( device )
input_ids = model_inputs . input_ids . to ( device )

generated_ids = model . generate (
    input_ids ,
    max_new_tokens = 512 ,
)

generated_ids = [
    output_ids [ len ( input_ids ):] for input_ids , output_ids in zip ( model_inputs . input_ids , generated_ids )
]
response = tokenizer . batch_decode ( generated_ids , skip_special_tokens = True )[ 0 ]
print ( response )

Licence

Sailor2 est distribué en vertu des termes de l'Apache License 2.0. Aucune restriction à la recherche et à l'utilisation commerciale.

Citation

Si vous trouvez Sailor2 utile, veuillez citer notre travail comme suit:

 @misc{sailor2report,
  title={Sailor2: Sailing in South-East Asia with Inclusive Multilingual LLM},
  author={{Sailor2 Team}},
  year={2024}
}

Contactez-nous

Si vous avez des questions, veuillez soulever un problème ou nous contacter à [email protected] ou [email protected].

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2025-09-08
taille 472.31KB
Provenant de Github

Applications connexes

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout