sailor2 Download - sailor2 Quellcode Download

sailor2

AI-Quellcode

1.0.0

Herunterladen

Sailor2: Segeln in Südostasien mit integrativen mehrsprachigen LLMs

Dieses Repository enthält den Code für Sailor2, eine leistungsstarke und integrative offene Sprachmodelle für Südostasien.

Sailor2 ist ein kollaboratives Projekt, das mit Sea AI Lab, SCB10X, Wisessight, Huggingface und der Sailor2 Community zusammengestellt wurde.

Das Logo wurde von Midjourney erzeugt

Sailor2 ist eine gemeindenahe Initiative, die in Südostasien (Sea) moderne mehrsprachige Sprachmodelle mit hochmodernen Sprachmodellen bringt. Unsere Forschung beleuchtet eine starke Nachfrage nach Modellen im 8B- und 20B -Parameterbereich für die Produktionsanwendung sowie 1B -Modelle für spezielle Anwendungen wie spekulative Dekodierungs- und Forschungszwecke. Diese unter der Apache 2.0 -Lizenz veröffentlichten Modelle bieten eine verbesserte Zugänglichkeit für fortschrittliche Sprachtechnologien in der gesamten Region.

Sailor2 baut auf der Fundament des fantastischen mehrsprachigen Modells QWEN 2.5 auf und ist kontinuierlich auf 500B-Token ausgebildet, um 15 Sprachen mit einem einheitlichen Modell besser zu unterstützen. Zu diesen Sprachen gehören Englisch, Chinesisch, Burmesen, Cebuano, Ilocano, Indonesisch, Javaner, Khmer, Lao, Malaiisch, Sundanese, Tagalog, Thai, Vietnamesisch und Waray. Sailor2 wird mit der wachsenden Nachfrage nach vielfältigen, robusten und zugänglichen Sprachmodellen befasst, um den unterversorgten Seebleichen mit offenen, inklusiven und zugänglichen mehrsprachigen LLMs zu bedienen.

Weitere Schulungsdetails finden Sie auf der Sailor2 -Homepage.

Release -Checkliste

Wir arbeiten hart daran, die Veröffentlichung aller Code vorzubereiten, und bitte bleiben Sie dran!

Bewertungscode
Vor-Training-Code
Nach-Training-Code
Basis- und Chat -Modelle

Anforderungen

Der Code von Sailor2 befand sich in den neuesten Umarmungs -Face -Transformatoren und wir empfehlen Ihnen, transformers==4.46.3 zu installieren.

QuickStart

Hier bietet ein Code -Snippet, um Ihnen zu zeigen, wie Sie den Tokenizer und das Modell laden und Inhalte generieren.

 import torch
from transformers import AutoModelForCausalLM , AutoTokenizer
device = "cuda"

model = AutoModelForCausalLM . from_pretrained (
    'sail/Sailor2-20B-Chat' ,
    torch_dtype = torch . bfloat16 ,
    device_map = "auto"
)

tokenizer = AutoTokenizer . from_pretrained ( 'sail/Sailor2-20B-Chat' )
system_prompt = 
'You are an AI assistant named Sailor2, created by Sea AI Lab. 
As an AI assistant, you can answer questions in English, Chinese, and Southeast Asian languages 
such as Burmese, Cebuano, Ilocano, Indonesian, Javanese, Khmer, Lao, Malay, Sundanese, Tagalog, Thai, Vietnamese, and Waray. 
Your responses should be friendly, unbiased, informative, detailed, and faithful.'

prompt = "Beri saya pengenalan singkat tentang model bahasa besar."
# prompt = "Hãy cho tôi một giới thiệu ngắn gọn về mô hình ngôn ngữ lớn."
# prompt = "ให้ฉันแนะนำสั้น ๆ เกี่ยวกับโมเดลภาษาขนาดใหญ่"

messages = [
    { "role" : "system" , "content" : system_prompt },
    { "role" : "user" , "content" : prompt }
]
text = tokenizer . apply_chat_template (
    messages ,
    tokenize = False ,
    add_generation_prompt = True
)

model_inputs = tokenizer ([ text ], return_tensors = "pt" ). to ( device )
input_ids = model_inputs . input_ids . to ( device )

generated_ids = model . generate (
    input_ids ,
    max_new_tokens = 512 ,
)

generated_ids = [
    output_ids [ len ( input_ids ):] for input_ids , output_ids in zip ( model_inputs . input_ids , generated_ids )
]
response = tokenizer . batch_decode ( generated_ids , skip_special_tokens = True )[ 0 ]
print ( response )

Lizenz

Sailor2 wird unter den Bestimmungen der Apache -Lizenz 2.0 verteilt. Keine Einschränkung der Forschung und der kommerziellen Nutzung.

Zitat

Wenn Sie Sailor2 nützlich finden, zitieren Sie bitte unsere Arbeit wie folgt:

 @misc{sailor2report,
  title={Sailor2: Sailing in South-East Asia with Inclusive Multilingual LLM},
  author={{Sailor2 Team}},
  year={2024}
}

Kontaktieren Sie uns

Wenn Sie Fragen haben, stellen Sie bitte ein Problem auf oder kontaktieren Sie uns unter [email protected] oder [email protected].

Expandieren

Zusätzliche Informationen

Version 1.0.0
Typ AI-Quellcode
Aktualisierungszeit 2025-09-08
Größe 472.31KB
Kommt von Github

Ähnliche Anwendungen

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

sailor2

Sailor2: Segeln in Südostasien mit integrativen mehrsprachigen LLMs

Release -Checkliste

Anforderungen

QuickStart

Lizenz

Zitat

Kontaktieren Sie uns

ML stack

awesome free chatgpt

pywin_contextmenu

promptl

tick.chat

FastLoRAChat

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

pywin_contextmenu

Google Dorks

shepherd

mongo express