ดาวน์โหลด huozi - ดาวน์โหลดซอร์สโค้ด huozi

huozi

ซอร์สโค้ดอื่น ๆ

Release huozi 3.5

ดาวน์โหลด

แบบจำลองขนาดใหญ่ที่เป็นสากลได้

- ต่ออายุ

[2024-09-12] เผยแพร่ประเภทที่เคลื่อนย้ายได้เวอร์ชัน 3.5
[2024-02-09] เผยแพร่ประเภทที่เคลื่อนย้ายได้เวอร์ชัน 3.5 และชุดข้อมูล MT-Bench จีน
[2023-08-06] เผยแพร่ Type Movable Type 1.0 และ Movable Type 2.0 เวอร์ชัน
[2023-05-04] ปล่อยรายงาน "Chatgpt Research Report"; การทดสอบภายในของแบบจำลองขนาดใหญ่ที่เคลื่อนย้ายได้

- สารบัญ

บท	อธิบาย
?? ‍♂ รายการโอเพ่นซอร์ส	รายชื่อโครงการโอเพนซอร์สในคลังสินค้านี้
การแนะนำแบบจำลอง	บทนำสั้น ๆ เกี่ยวกับโครงสร้างและกระบวนการฝึกอบรมของแบบจำลองประเภทที่เคลื่อนย้ายได้
- ดาวน์โหลดรุ่น	ลิงค์ดาวน์โหลดรุ่นที่เคลื่อนย้ายได้
การให้เหตุผลแบบจำลอง	ตัวอย่างของการอนุมานแบบจำลองประเภทที่เคลื่อนย้ายได้รวมถึงกระบวนการใช้งานของกรอบการอนุมานเช่น VLLM, llama.cpp และ Ollama
- ประสิทธิภาพของโมเดล	ประสิทธิภาพของแบบจำลองประเภทที่เคลื่อนย้ายได้ในงานการประเมินกระแสหลัก
- สร้างตัวอย่าง	ตัวอย่างของผลการสร้างจริงของแบบจำลองประเภทที่เคลื่อนย้ายได้

?? ‍♂ รายการโอเพ่นซอร์ส

Movable Type 3.5 : [น้ำหนักรุ่น]
- Movable Type 3.5 เป็นรุ่นใหม่ที่เพิ่มประสิทธิภาพการทำงานตามประเภท Movable Type 3.0 และ Chinese-Mixtral-8x7b
Movable Type 3.0 : [น้ำหนักรุ่น] [การสาธิตออนไลน์]
- Movable Type 3.0 เป็นแบบจำลองผู้เชี่ยวชาญแบบไฮบริดที่รองรับบริบท 32K ด้วยความรู้ภาษาจีนและภาษาอังกฤษที่หลากหลายและการใช้เหตุผลทางคณิตศาสตร์ที่ทรงพลังและความสามารถในการสร้างรหัส รุ่นเก่าของ Movable Type 3.0 มีการปฏิบัติตามคำสั่งและความปลอดภัยที่แข็งแกร่งขึ้น
MT-bench จีน : [ชุดข้อมูล]
- ชุดข้อมูลนี้เป็นชุดข้อมูลการประเมินความสามารถในการสนทนาของ MT Bench เวอร์ชันภาษาจีน มันมีชุดคำถามการสนทนาหลายรอบซึ่งแต่ละคำถามได้รับการพิสูจน์อักษรอย่างรอบคอบและมีการปรับเปลี่ยนที่จำเป็นเพื่อปรับให้เข้ากับบริบทของจีน
"รายงานการวิจัย chatgpt" : [PDF]
- การประมวลผลภาษาธรรมชาติของ Harbin ในการประมวลผลภาษาธรรมชาติจัดให้ครูและเพื่อนร่วมชั้นหลายคนเขียนรายงานการวิจัยนี้และให้การแนะนำอย่างละเอียดและสรุปจากหลักการทางเทคนิคสถานการณ์การใช้งานการพัฒนาในอนาคตและด้านอื่น ๆ
Movable Type 2.0 : [น้ำหนักรุ่น] [ข้อมูล RLHF]
- ขึ้นอยู่กับประเภทที่เคลื่อนย้ายได้ 1.0 การตอบสนองแบบจำลองจะได้รับการปรับให้เหมาะสมยิ่งขึ้นผ่านการเรียนรู้การเสริมแรง (RLHF) ด้วยความคิดเห็นของมนุษย์ทำให้สอดคล้องกับความชอบของมนุษย์มากขึ้น เมื่อเทียบกับรุ่นก่อนหน้าความยาวเฉลี่ยจะดีขึ้นอย่างมีนัยสำคัญและความสามารถในการปฏิบัติตามคำแนะนำนั้นแข็งแกร่งขึ้นและตรรกะนั้นชัดเจนขึ้น
- 16.9K การติดฉลากด้วยตนเองของข้อมูลการตั้งค่าตอบกลับจากโมเดลประเภทที่เคลื่อนย้ายได้สามารถใช้ในการฝึกอบรมโมเดลรางวัล
Movable Type 1.0 : [น้ำหนักรุ่น]
- จากโมเดล Bloom โมเดลที่ได้รับจากการฝึกอบรมการเรียนการสอนอย่างละเอียดเกี่ยวกับโทเค็นประมาณ 15 พันล้านโทมีการปฏิบัติตามคำสั่งที่แข็งแกร่งและความปลอดภัยที่ดีขึ้น

การแนะนำแบบจำลอง

รูปแบบภาษาขนาดใหญ่ (LLM) มีความคืบหน้าอย่างมีนัยสำคัญในด้านการประมวลผลภาษาธรรมชาติและแสดงให้เห็นถึงศักยภาพที่แข็งแกร่งในสถานการณ์แอปพลิเคชันที่หลากหลาย เทคโนโลยีนี้ไม่เพียง แต่ดึงดูดความสนใจอย่างกว้างขวางจากชุมชนวิชาการเท่านั้น แต่ยังกลายเป็นประเด็นร้อนแรงในอุตสาหกรรม เมื่อเทียบกับพื้นหลังนี้ศูนย์การคำนวณทางสังคมและการดึงข้อมูลของสถาบันเทคโนโลยีฮาร์บิน (HIT -SCIR) เพิ่งเปิดตัวความสำเร็จล่าสุด - Movable Type 3.5 ซึ่งมุ่งมั่นที่จะให้ความเป็นไปได้และตัวเลือกมากขึ้นสำหรับการวิจัยและการประยุกต์ใช้ภาษาธรรมชาติ

Movable Type 3.5 เป็นแบบจำลองที่ได้จากการเพิ่มประสิทธิภาพเพิ่มเติมตามประเภท Movable Type 3.0 และ Chinese-Mixtral-8x7b Movable Type 3.5 รองรับ บริบทยาว 32K สืบทอดความสามารถที่ครอบคลุมที่ทรงพลังของ Movable Type 3.0 และบรรลุการปรับปรุงประสิทธิภาพในหลาย ๆ ด้านเช่น ความรู้ภาษาจีนและภาษาอังกฤษ การให้เหตุผลทางคณิตศาสตร์ การสร้างรหัส ความสามารถในการปฏิบัติตามคำสั่ง ความปลอดภัยของเนื้อหา ฯลฯ

สำคัญ

โมเดลซีรีย์ประเภทที่เคลื่อนย้ายได้อาจยังคงสร้างการตอบกลับที่ทำให้เข้าใจผิดซึ่งมีข้อผิดพลาดจริงหรือเนื้อหาที่เป็นอันตรายที่มีอคติ/การเลือกปฏิบัติ โปรดระมัดระวังในการระบุและใช้เนื้อหาที่สร้างขึ้นและไม่กระจายเนื้อหาที่เป็นอันตรายที่สร้างขึ้นไปยังอินเทอร์เน็ต

โปรดดูเอกสารสำหรับ Movable Type 1.0 และ Movable Type 2.0 ที่นี่ โปรดดูเอกสารเกี่ยวกับ Movable Type 3.0 และ MT-Bench จีน

โครงสร้างแบบจำลอง

Movable Type 3.5 เป็นแบบจำลองผู้เชี่ยวชาญแบบไฮบริด (SMOE) แต่ละชั้นผู้เชี่ยวชาญมี 8 FFNs และการคำนวณไปข้างหน้าแต่ละครั้งจะเปิดใช้งานอย่างเบาบางโดย Top-2 Type ที่เคลื่อนย้ายได้ 3.5 มีพารามิเตอร์ทั้งหมด 46.7b ต้องขอบคุณคุณสมบัติการเปิดใช้งานที่กระจัดกระจายจึงต้องเปิดใช้งานพารามิเตอร์เพียง 13b ในระหว่างการให้เหตุผลจริงซึ่งช่วยปรับปรุงประสิทธิภาพการคำนวณและความเร็วในการประมวลผลได้อย่างมีประสิทธิภาพ

กระบวนการฝึกอบรม

Movable Type 3.5 ได้รับการฝึกอบรมหลายขั้นตอนดังแสดงในรูปด้านล่าง:

กระบวนการฝึกอบรมคือ:

[รายการคำภาษาจีนที่เพิ่มขึ้นก่อนการฝึกอบรม]: เนื่องจากรายการคำ Mixtral-8x7b ไม่สนับสนุนภาษาจีนการเข้ารหัสและการถอดรหัสประสิทธิภาพของจีนอยู่ในระดับต่ำซึ่ง จำกัด การปฏิบัติจริงในสถานการณ์จีน ก่อนอื่นเราได้ทำการฝึกอบรมคำศัพท์ภาษาจีนก่อนที่จะเพิ่มขึ้นตาม Mixtral-8x7b ซึ่งปรับปรุงประสิทธิภาพการเข้ารหัสและการถอดรหัสของแบบจำลองของจีนอย่างมีนัยสำคัญและทำให้แบบจำลองมีความสามารถในการสร้างและความเข้าใจของจีน เรามีน้ำหนักโมเดลที่มาเปิดและรหัสการฝึกอบรมในพื้นที่เก็บข้อมูลรหัสจีน-8x7b
[การฝึกอบรมผันผวน Type 3.0]: เราปรับแต่งข้อมูลการเรียนการสอนประมาณ 300,000 บรรทัดโดยใช้ภาษาจีน-Mixtral-8x7b และได้รับโมเดล Type 3.0 ที่เคลื่อนย้ายได้ ชุดข้อมูลที่ใช้อธิบายไว้ที่นี่ Movable Type 3.0 สืบทอดความรู้ภาษาจีนและภาษาอังกฤษที่หลากหลายเกี่ยวกับโมเดลพื้นฐานและมีประสิทธิภาพที่ทรงพลังในงานเช่นการใช้เหตุผลทางคณิตศาสตร์และการสร้างรหัส หลังจากการปรับแต่งคำแนะนำอย่างละเอียด Type Type 3.0 ได้รับการปรับปรุงอย่างมีนัยสำคัญในความสามารถในการปฏิบัติตามคำสั่งและความปลอดภัย
[การปรับแต่งชุดข้อมูล Type 1.0 ที่เคลื่อนย้ายได้]: เราพยายามปรับแต่งภาษาจีน Mixtral-8x7b ด้วยชุดข้อมูล Type 1.0 ที่เคลื่อนย้ายได้ จุดตรวจระดับกลาง 1 ได้รับการดำเนินการอย่างยอดเยี่ยมในความรู้ภาษาจีนและภาษาอังกฤษ (เช่น C-eval, CMMLU, MMLU และงานอื่น ๆ ) และแม้แต่เหนือกว่า Type 3.0 อย่างไรก็ตามโมเดลนี้ล่าช้าอยู่เบื้องหลัง Type 3.0 ที่เคลื่อนย้ายได้ในแง่ของความสามารถในการปฏิบัติตามคำสั่งและความปลอดภัย
[การปรับปรุงความสามารถในการปฏิบัติตามคำสั่ง]: ในมุมมองของข้อบกพร่องของ จุดตรวจสอบระดับกลาง 1 ในแง่ของความสามารถในการปฏิบัติตามคำสั่งเราได้แนะนำชุดข้อมูลเพิ่มเติมเพื่อเสริมสร้างความเข้มแข็ง นอกจากนี้ตามประสบการณ์ของ Longxu Dou et al. เราใช้เทคโนโลยีการออกกลางคันของ BPE ในระหว่างกระบวนการฝึกอบรมเพื่อเพิ่มความทนทานของแบบจำลองให้กับคำแนะนำ การฝึกอบรมกระบวนการนี้ได้รับ จุดตรวจระดับกลาง 2
[Model Fusion]: เราอ้างถึงวิธีการของ Yiming Cui และคณะ ในการหลอมรวม จุดตรวจกลาง 1 จุด ตรวจสอบระดับกลาง 2 และโมเดล Type 3.0 ที่เคลื่อนย้ายได้เพื่อสร้าง จุดตรวจสอบระดับกลาง 3
[การฝึกอบรมโพสต์ฟิวชั่นแบบจำลอง]: ขึ้นอยู่กับโมเดลที่หลอมรวมกันเราได้ปรับคำแนะนำเพิ่มเติมและเปิดตัว Movable Type 3.5 ในที่สุด รุ่นนี้ได้ปรับปรุงความรู้ภาษาจีนและภาษาอังกฤษความสามารถในการปฏิบัติตามคำสั่งและการตอบสนองความปลอดภัย

- ดาวน์โหลดรุ่น

ชื่อนางแบบ	ขนาดไฟล์	ดาวน์โหลดที่อยู่	คำพูด
huozi3.5	88GB	? huggingface ModelsCope	Movable Type 3.5 Model Complete
Huozi3.5-ckpt-1	88GB	? huggingface ModelsCope	Movable Type 3.5 จุดตรวจสอบระดับกลาง 1
Huozi3.5-ckpt-2	88GB	? huggingface ModelsCope	Movable Type 3.5 จุดตรวจสอบระดับกลาง 2
Huozi3.5-ckpt-3	88GB	? huggingface ModelsCope	Movable Type 3.5 จุดตรวจสอบระดับกลาง 3

หากคุณต้องการปรับแต่ง Type 3.5 หรือจีน-Mixtral-8x7b โปรดดูรหัสการฝึกอบรมที่นี่

การให้เหตุผลแบบจำลอง

เริ่มต้นอย่างรวดเร็ว

Movable Type 3.5 ใช้เทมเพลต propt รูปแบบ chatml รูปแบบคือ:

 <|beginofutterance|>系统
{system prompt}<|endofutterance|>
<|beginofutterance|>用户
{input}<|endofutterance|>
<|beginofutterance|>助手
{output}<|endofutterance|>

รหัสตัวอย่างสำหรับการใช้เหตุผลโดยใช้ Movable Type 3.5 มีดังนี้:

 # quickstart.py

import torch
from transformers import AutoModelForCausalLM , AutoTokenizer

model_id = "HIT-SCIR/huozi3.5"

tokenizer = AutoTokenizer . from_pretrained ( model_id )
model = AutoModelForCausalLM . from_pretrained (
    model_id ,
    attn_implementation = "flash_attention_2" ,
    torch_dtype = torch . bfloat16 ,
    device_map = "auto" ,
)

text = """<|beginofutterance|>系统
你是一个智能助手<|endofutterance|>
<|beginofutterance|>用户
请你用python写一段快速排序的代码<|endofutterance|>
<|beginofutterance|>助手
"""

inputs = tokenizer ( text , return_tensors = "pt" ). to ( 0 )

outputs = model . generate (
    ** inputs ,
    eos_token_id = 57001 ,
    temperature = 0.8 ,
    top_p = 0.9 ,
    max_new_tokens = 2048 ,
)
print ( tokenizer . decode ( outputs [ 0 ], skip_special_tokens = False ))

Movable Type 3.5 รองรับระบบนิเวศแบบ Mixtral Model ทั้งหมดรวมถึง Transformers, VLLM, Llama.cpp, Ollama, Web UI สร้างข้อความและเฟรมเวิร์กอื่น ๆ

หากคุณมีปัญหาเครือข่ายในขณะที่ดาวน์โหลดโมเดลของคุณคุณสามารถใช้จุดตรวจที่เราให้ไว้ใน ModelsCope

การอนุมานแบบจำลอง Transformers + การสร้างสตรีมมิ่ง

Transformers Support การเพิ่มเทมเพลตแชทสำหรับ Tokenizer และรองรับการสร้างสตรีมมิ่ง รหัสตัวอย่างมีดังนี้:

 # example/transformers-stream/stream.py

import torch
from transformers import AutoModelForCausalLM , AutoTokenizer , TextStreamer

model_id = "HIT-SCIR/huozi3.5"

model = AutoModelForCausalLM . from_pretrained (
    model_id ,
    attn_implementation = "flash_attention_2" ,
    torch_dtype = torch . bfloat16 ,
    device_map = "auto" ,
)

tokenizer = AutoTokenizer . from_pretrained ( model_id )
tokenizer . chat_template = """{% for message in messages %}{{'<|beginofutterance|>' + message['role'] + ' n ' + message['content']}}{% if (loop.last and add_generation_prompt) or not loop.last %}{{ '<|endofutterance|>' + ' n '}}{% endif %}{% endfor %}
{% if add_generation_prompt and messages[-1]['role'] != '助手' %}{{ '<|beginofutterance|>助手n ' }}{% endif %}"""

chat = [
    { "role" : "系统" , "content" : "你是一个智能助手" },
    { "role" : "用户" , "content" : "请你用python写一段快速排序的代码" },
]

inputs = tokenizer . apply_chat_template (
    chat ,
    tokenize = True ,
    add_generation_prompt = True ,
    return_tensors = "pt" ,
). to ( 0 )

stream_output = model . generate (
    inputs ,
    streamer = TextStreamer ( tokenizer , skip_prompt = True , skip_special_tokens = True ),
    eos_token_id = 57001 ,
    temperature = 0.8 ,
    top_p = 0.9 ,
    max_new_tokens = 2048 ,
)

การอนุมานโมเดลโมเดล

อินเทอร์เฟซของ ModelsCope นั้นคล้ายกับ Transformers เพียงแค่แทนที่ Transformers ด้วยขอบเขตของรุ่น:

 # example/modelscope-generate/generate.py

import torch
- from transformers import AutoModelForCausalLM, AutoTokenizer
+ from modelscope import AutoTokenizer, AutoModelForCausalLM

model_id = "HIT-SCIR/huozi3.5"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    attn_implementation="flash_attention_2",
    torch_dtype=torch.bfloat16,
    device_map="auto",
)

text = """<|beginofutterance|>系统
你是一个智能助手<|endofutterance|>
<|beginofutterance|>用户
请你用python写一段快速排序的代码<|endofutterance|>
<|beginofutterance|>助手
"""

inputs = tokenizer(text, return_tensors="pt").to(0)

outputs = model.generate(
    **inputs,
    eos_token_id=57001,
    temperature=0.8,
    top_p=0.9,
    max_new_tokens=2048,
)
print(tokenizer.decode(outputs[0], skip_special_tokens=False))

การเร่งการอนุมาน VLLM

ประเภทตัวแปร 3.5 รองรับการใช้งานการเร่งความเร็วผ่าน VLLM และรหัสตัวอย่างมีดังนี้:

 # example/vllm-generate/generate.py

from vllm import LLM , SamplingParams

prompts = [
    """<|beginofutterance|>系统
你是一个智能助手<|endofutterance|>
<|beginofutterance|>用户
请你用python写一段快速排序的代码<|endofutterance|>
<|beginofutterance|>助手
""" ,
]

sampling_params = SamplingParams (
    temperature = 0.8 , top_p = 0.95 , stop_token_ids = [ 57001 ], max_tokens = 2048
)
llm = LLM (
    model = "HIT-SCIR/huozi3.5" ,
    tensor_parallel_size = 4 ,
)
outputs = llm . generate ( prompts , sampling_params )

for output in outputs :
    prompt = output . prompt
    generated_text = output . outputs [ 0 ]. text
    print ( generated_text )

ปรับใช้เซิร์ฟเวอร์ OpenAI API

ประเภท Variety Type 3.5 สามารถนำไปใช้เป็นบริการที่รองรับ OpenAI API Protocol ซึ่งช่วยให้สามารถเรียก Varies Type 3.5 ได้โดยตรงผ่าน OpenAI API

การเตรียมสิ่งแวดล้อม:

$ pip install vllm openai

เริ่มบริการ:

$ python -m vllm.entrypoints.openai.api_server --model /path/to/huozi3.5/checkpoint --served-model-name huozi --chat-template template.jinja --tensor-parallel-size 8 --response-role 助手 --max-model-len 2048

ส่งคำขอโดยใช้ OpenAI API:

 # example/openai-api/openai-client.py

from openai import OpenAI

openai_api_key = "EMPTY"
openai_api_base = "http://localhost:8000/v1"

client = OpenAI (
    api_key = openai_api_key ,
    base_url = openai_api_base ,
)

chat_response = client . chat . completions . create (
    model = "huozi" ,
    messages = [
        { "role" : "系统" , "content" : "你是一个智能助手" },
        { "role" : "用户" , "content" : "请你用python写一段快速排序的代码" },
    ],
    extra_body = { "stop_token_ids" : [ 57001 ]},
)
print ( "Chat response:" , chat_response . choices [ 0 ]. message . content )

นี่คือรหัสตัวอย่างที่ใช้ OpenAI API + Gradio + Streaming:

 # example/openai-api/openai-client-gradio.py

from openai import OpenAI
import gradio as gr

openai_api_key = "EMPTY"
openai_api_base = "http://localhost:8000/v1"

client = OpenAI (
    api_key = openai_api_key ,
    base_url = openai_api_base ,
)


def predict ( message , history ):
    history_openai_format = [
        { "role" : "系统" , "content" : "你是一个智能助手" },
    ]
    for human , assistant in history :
        history_openai_format . append ({ "role" : "用户" , "content" : human })
        history_openai_format . append ({ "role" : "助手" , "content" : assistant })
    history_openai_format . append ({ "role" : "用户" , "content" : message })
    models = client . models . list ()

    stream = client . chat . completions . create (
        model = models . data [ 0 ]. id ,
        messages = history_openai_format ,
        temperature = 0.8 ,
        stream = True ,
        extra_body = { "repetition_penalty" : 1 , "stop_token_ids" : [ 57001 ]},
    )

    partial_message = ""
    for chunk in stream :
        partial_message += chunk . choices [ 0 ]. delta . content or ""
        yield partial_message


gr . ChatInterface ( predict ). queue (). launch ()

การใช้เหตุผลเชิงปริมาณ

รูปแบบ gguf

รูปแบบ GGUF ได้รับการออกแบบมาเพื่อโหลดและบันทึกรุ่นอย่างรวดเร็ว เปิดตัวโดยทีม Llama.cpp และเหมาะสำหรับเฟรมเวิร์กเช่น llama.cpp, Ollama ฯลฯ คุณสามารถแปลง Movable Type 3.5 ในรูปแบบ HuggingFace เป็นรูปแบบ GGUF ด้วยตนเอง

ขั้นตอนที่ 1 การเตรียมสภาพแวดล้อม

ก่อนอื่นคุณต้องดาวน์โหลดซอร์สโค้ดของ llama.cpp เราให้บริการ submodule ของ llama.cpp ในที่เก็บ LLAMA.CPP รุ่นนี้ได้รับการทดสอบแล้วและสามารถอนุมานได้สำเร็จ:

$ git clone --recurse-submodules https://github.com/HIT-SCIR/huozi
$ cd examples/llama.cpp

นอกจากนี้คุณยังสามารถดาวน์โหลดซอร์สโค้ด Llama.cpp เวอร์ชันล่าสุด:

$ git clone https://github.com/ggerganov/llama.cpp.git
$ cd llama.cpp

จากนั้นจะต้องมีการรวบรวม มีความแตกต่างเล็กน้อยในคำสั่งรวบรวมขึ้นอยู่กับแพลตฟอร์มฮาร์ดแวร์ของคุณ:

$ make  # 用于纯CPU推理
$ make LLAMA_CUBLAS=1  # 用于GPU推理
$ LLAMA_METAL=1 make  # 用于Apple Silicon，暂未经过测试

การแปลงรูปแบบขั้นตอนที่ 2 (ไม่บังคับ)

คำสั่งต่อไปนี้จะต้องอยู่ใน llama.cpp/ ไดเรกทอรี:

 # 转换为GGUF格式
$ python convert.py --outfile /path/to/huozi-gguf/huozi3.5.gguf /path/to/huozi3.5
# 进行GGUF格式的q4_0量化
$ quantize /path/to/huozi-gguf/huozi3.5.gguf /path/to/huozi-gguf/huozi3.5-q4_0.gguf q4_0

ขั้นตอนที่ 3 เริ่มให้เหตุผล

คำสั่งต่อไปนี้จะต้องอยู่ใน llama.cpp/ ไดเรกทอรี:

$ main -m /path/to/huozi-gguf/huozi3.5-q4_0.gguf --color --interactive-first -c 2048 -t 6 --temp 0.2 --repeat_penalty 1.1 -ngl 999 --in-prefix " <|beginofutterance|>用户n " --in-suffix " <|endofutterance|>n<|beginofutterance|>助手" -r " <|endofutterance|> "

พารามิเตอร์ -ngl ระบุจำนวนเลเยอร์ของการถ่ายไปยัง GPU การลดค่านี้สามารถบรรเทาแรงดันหน่วยความจำวิดีโอ GPU ได้ หลังจากการทดสอบจริงของเราโมเดล Q2_K Quantized มีออฟโหลด 16 ชั้นและการใช้หน่วยความจำสามารถลดลงเหลือ 9.6GB ซึ่งสามารถเรียกใช้โมเดลบน GPU ของผู้บริโภค:

$ main -m /path/to/huozi-gguf/huozi3.5-q2_k.gguf --color --interactive-first -c 2048 -t 6 --temp 0.2 --repeat_penalty 1.1 -ngl 16 --in-prefix " <|beginofutterance|>用户n " --in-suffix " <|endofutterance|>n<|beginofutterance|>助手" -r " <|endofutterance|> "

สำหรับพารามิเตอร์เพิ่มเติมของ main คุณสามารถอ้างถึงเอกสารอย่างเป็นทางการของ llama.cpp

ใช้กรอบการทำงานของ Ollama เพื่อการให้เหตุผลคุณสามารถอ้างถึงคำแนะนำ ReadMe ของ Ollama

- ประสิทธิภาพของโมเดล

สำหรับการประเมินความสามารถที่ครอบคลุมของโมเดลขนาดใหญ่เราใช้ชุดข้อมูลการประเมินผลต่อไปนี้เพื่อประเมิน Type 3.5 ที่เคลื่อนย้ายได้ตามลำดับ:

C-EVAL: ชุดประเมินผลแบบจำลองพื้นฐานของจีนที่ครอบคลุม มันมีคำถามแบบปรนัย 13,948 คำถามครอบคลุม 52 วิชาที่แตกต่างกันและระดับความยากสี่ระดับ
CMMLU: เกณฑ์มาตรฐานการประเมินของจีนที่ครอบคลุมซึ่งอุทิศตนเพื่อประเมินความรู้และความสามารถในการใช้เหตุผลของแบบจำลองภาษาในบริบทของจีนครอบคลุม 67 หัวข้อจากสาขาวิชาพื้นฐานไปจนถึงระดับมืออาชีพขั้นสูง
Gaokao: ชุดข้อมูลของคำถามการสอบเข้าวิทยาลัยจีนมีวัตถุประสงค์เพื่อให้กรอบการประเมินที่สอดคล้องกับมนุษย์การประเมินความเข้าใจภาษาและความสามารถในการใช้เหตุผลเชิงตรรกะของแบบจำลองขนาดใหญ่
MMLU: ชุดข้อมูลการประเมินภาษาอังกฤษที่มี 57 งานหลายแบบเลือกครอบคลุมคณิตศาสตร์ระดับประถมศึกษาประวัติศาสตร์อเมริกันวิทยาศาสตร์คอมพิวเตอร์กฎหมาย ฯลฯ ด้วยความยากลำบากในระดับมัธยมปลายถึงระดับผู้เชี่ยวชาญ มันเป็นหนึ่งในชุดข้อมูลการประเมิน LLM หลักในปัจจุบัน
HELLASWAG: ชุดข้อมูลการประเมิน NLI ที่ท้าทายมากในภาษาอังกฤษ คำถามแต่ละข้อต้องการความเข้าใจอย่างลึกซึ้งเกี่ยวกับบริบทและไม่สามารถตอบได้ตามสามัญสำนึก
GSM8K: ชุดข้อมูลของปัญหาแอปพลิเคชันคณิตศาสตร์ระดับประถมศึกษาที่มีคุณภาพสูงซึ่งต้องใช้ 2 ถึง 8 ขั้นตอนในการแก้ปัญหา การแก้ปัญหาส่วนใหญ่เกี่ยวข้องกับการใช้การดำเนินการทางคณิตศาสตร์ขั้นพื้นฐานที่สามารถใช้ในการประเมินความสามารถในการใช้เหตุผลทางคณิตศาสตร์หลายขั้นตอน
Humaneval: ชุดข้อมูลของ 164 ปัญหาการเขียนโปรแกรมดั้งเดิมที่ประเมินความเข้าใจด้านภาษาอัลกอริทึมและความสามารถทางคณิตศาสตร์อย่างง่ายโดยการวัดความถูกต้องในการทำงานของโปรแกรมที่สร้างขึ้นจากสตริงเอกสาร
MT-BENCH: ชุดคำถามภาษาอังกฤษแบบเปิดรวมถึงงานสนทนาหลายรอบ 80 ครั้งใช้เพื่อประเมินความสามารถในการสนทนาหลายรอบและการปฏิบัติตามคำสั่งของ Chatbots
MT-BENCH-ZH: เราใช้ชุดคำถามภาษาจีนที่แปลโดย MT-BENCH และคำถามแต่ละชุดได้รับการพิสูจน์อักษรด้วยตนเองและปรับอย่างเหมาะสมในบริบทของจีน เราได้เปิดชุดข้อมูล MT-Bench-ZH ที่นี่
MT-Bench-Safety: ชุดข้อมูลความปลอดภัยที่สร้างขึ้นด้วยมือของเรารวมถึงความรุนแรงสื่อลามกความอ่อนไหวและเนื้อหาความเสี่ยงอื่น ๆ ชุดข้อมูลนี้เป็นชุดข้อมูลปิด

Movable Type 3.5 เปิดใช้งานเฉพาะพารามิเตอร์ 13B เมื่อการอนุมาน ตารางต่อไปนี้แสดงผลลัพธ์ของแบบจำลองภาษาจีนของ Type 3.5 ที่เคลื่อนย้ายได้และเครื่องชั่ง 13B อื่น ๆ และรุ่นที่สามารถเคลื่อนย้ายได้ในชุดข้อมูลการประเมินผลแต่ละชุด:

เราใช้ 5-shot ใน C-eval, CMMLU และ MMLU, GSM8K ใช้ 4-shot, Hellaswag และ Humaneval ใช้ 0-shot และ Humaneval ใช้ตัวบ่งชี้ Pass@1 การทดสอบทั้งหมดเป็นกลยุทธ์โลภ
เราใช้ OpenCompass เป็นกรอบการประเมินและการกระทำแฮชคือ 4C87E77 รหัสตรวจสอบอยู่ที่นี่
ในการประเมินประสิทธิภาพของ Movable Type 3.0 เราใช้วิธีการประเมินแบบจำลองพื้นฐานในมนุษย์ไม่ถูกต้องและผลการประเมินที่ถูกต้องได้รับการปรับปรุงในตารางด้านบน

จากผลการทดสอบในตารางข้างต้น Type 3.5 ที่เคลื่อนย้ายได้ได้รับการปรับปรุงประสิทธิภาพที่ค่อนข้างเสถียรเมื่อเทียบกับ Type 3.0 ที่เคลื่อนย้ายได้ และความรู้ภาษาจีนและภาษาอังกฤษ การใช้เหตุผลทางคณิตศาสตร์ การสร้าง รหัส ความสามารถในการปฏิบัติตามการสอนภาษาจีน และ ความปลอดภัยของเนื้อหาจีน

- สร้างตัวอย่าง

ต่อไปนี้คือผลการสร้างของ Type 3.5 ที่เคลื่อนย้ายได้ในชุดการประเมินผล MT-Bench-ZH:

โปรโตคอลโอเพ่นซอร์ส

การใช้ซอร์สโค้ดที่เก็บนี้ขึ้นอยู่กับข้อตกลงใบอนุญาตโอเพ่นซอร์ส Apache 2.0

ประเภทมือถือมีวางจำหน่ายทั่วไป หากคุณใช้โมเดลประเภทที่เคลื่อนย้ายได้หรืออนุพันธ์เพื่อวัตถุประสงค์ทางการค้าโปรดติดต่อผู้ออกใบอนุญาตดังต่อไปนี้เพื่อลงทะเบียนและสมัครเป็นลายลักษณ์อักษรจากผู้ออกใบอนุญาต: ติดต่ออีเมล: [email protected]

การอ้างอิง

โมเดลประเภทที่เคลื่อนย้ายได้

@misc{huozi,
    author = {Huozi-Team}.
    title = {Huozi: Leveraging Large Language Models for Enhanced Open-Domain Chatting}
    year = {2024},
    publisher = {GitHub},
    journal = {GitHub repository}
    howpublished = { url {https://github.com/HIT-SCIR/huozi}}
}

ประวัติดาว

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน Release huozi 3.5
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2025-04-18
ขนาด 12.39MB
มาจาก Github

แอปที่เกี่ยวข้อง

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด