このリポジトリには、東南アジア向けの強力で包括的なオープン言語モデルであるwaroor2のコードが含まれています。
SAILOR2は、SEA AIラボ、SCB10x、Wisesight、Huggingface、およびThe Sailor2コミュニティと提携した共同プロジェクトです。

ロゴはMidjourneyによって生成されました
SAILOR2は、最先端の多言語モデルを東南アジア(海)にもたらすコミュニティ主導のイニシアチブです。私たちの研究では、投機的デコードや研究目的などの専門的なアプリケーションの1Bモデルとともに、生産使用のための8Bおよび20Bパラメーター範囲のモデルに対する強い需要を強調しています。 Apache 2.0ライセンスの下でリリースされたこれらのモデルは、地域全体の高度な言語技術へのアクセシビリティを強化します。
waroor2は、素晴らしい多言語モデルqwen 2.5の基礎の上に構築されており、統一モデルで15の言語をよりよくサポートするために、500bトークンで継続的に事前に訓練されています。これらの言語には、英語、中国語、ビルマ、セブアノ、イロカノ、インドネシア、ジャワ、クメール、ラオス、マレー、スンダネーゼ、タガログ、タイ、ベトナム、ワレーが含まれます。 SAILOR2は、多様で堅牢でアクセスしやすい言語モデルに対する需要の高まりに対処することにより、オープンで包括的でアクセス可能な多言語LLMを備えた海の地域にサービスを提供しようとしています。
詳細については、SAILOR2ホームページを参照してください。
私たちはすべてのコードのリリースを準備するために一生懸命努力しています。
SAILOR2のコードは、最新の抱擁フェイストランスに属しています。 transformers==4.46.3をインストールすることをお勧めします。
ここでは、コードスニペットを提供して、トークネイザーとモデルをロードする方法とコンテンツを生成する方法を示します。
import torch
from transformers import AutoModelForCausalLM , AutoTokenizer
device = "cuda"
model = AutoModelForCausalLM . from_pretrained (
'sail/Sailor2-20B-Chat' ,
torch_dtype = torch . bfloat16 ,
device_map = "auto"
)
tokenizer = AutoTokenizer . from_pretrained ( 'sail/Sailor2-20B-Chat' )
system_prompt =
'You are an AI assistant named Sailor2, created by Sea AI Lab.
As an AI assistant, you can answer questions in English, Chinese, and Southeast Asian languages
such as Burmese, Cebuano, Ilocano, Indonesian, Javanese, Khmer, Lao, Malay, Sundanese, Tagalog, Thai, Vietnamese, and Waray.
Your responses should be friendly, unbiased, informative, detailed, and faithful.'
prompt = "Beri saya pengenalan singkat tentang model bahasa besar."
# prompt = "Hãy cho tôi một giới thiệu ngắn gọn về mô hình ngôn ngữ lớn."
# prompt = "ให้ฉันแนะนำสั้น ๆ เกี่ยวกับโมเดลภาษาขนาดใหญ่"
messages = [
{ "role" : "system" , "content" : system_prompt },
{ "role" : "user" , "content" : prompt }
]
text = tokenizer . apply_chat_template (
messages ,
tokenize = False ,
add_generation_prompt = True
)
model_inputs = tokenizer ([ text ], return_tensors = "pt" ). to ( device )
input_ids = model_inputs . input_ids . to ( device )
generated_ids = model . generate (
input_ids ,
max_new_tokens = 512 ,
)
generated_ids = [
output_ids [ len ( input_ids ):] for input_ids , output_ids in zip ( model_inputs . input_ids , generated_ids )
]
response = tokenizer . batch_decode ( generated_ids , skip_special_tokens = True )[ 0 ]
print ( response )waroor2は、Apacheライセンス2.0の条件の下で配布されます。研究や商業利用に制限はありません。
waror2が役立つと思われる場合は、次のように私たちの作品を引用してください。
@misc{sailor2report,
title={Sailor2: Sailing in South-East Asia with Inclusive Multilingual LLM},
author={{Sailor2 Team}},
year={2024}
}
ご質問がある場合は、問題を提起するか、[email protected]または[email protected]までお問い合わせください。