huozi Download - huozi Source code download

huozi

其他源碼

Release huozi 3.5

下載

活字通用大模型

? 更新

[2024-09-12] 發布活字3.5版本
[2024-02-09] 發布活字3.5版本和中文MT-Bench數據集
[2023-08-06] 發布活字1.0和活字2.0版本
[2023-05-04] 發布《ChatGPT調研報告》；內測活字大模型

? 目錄

章節	說明
??‍♂ 開源清單	本倉庫開源項目清單
模型介紹	簡要介紹活字模型結構和訓練過程
? 模型下載	活字模型下載鏈接
模型推理	活字模型推理樣例，包括vLLM、llama.cpp、Ollama等推理框架的使用流程
? 模型性能	活字模型在主流評測任務上的性能
? 生成樣例	活字模型實際生成效果樣例

??‍♂ 開源清單

活字3.5 : [模型權重]
- 活字3.5為基於活字3.0和Chinese-Mixtral-8x7B進行進一步性能優化的新模型。
活字3.0 : [模型權重] [在線Demo]
- 活字3.0為一個稀疏混合專家模型，支持32K上下文，具有豐富的中、英文知識和強大的數學推理、代碼生成能力。活字3.0較舊版活字具有更強的指令遵循能力和安全性。
中文MT-Bench : [數據集]
- 本數據集是英文MT-Bench對話能力評測數據集的中文版。它包含了一系列多輪對話問題，每一組問題都經過了精心的人工校對，並為適應中文語境進行了必要的調整。
《ChatGPT 調研報告》 : [PDF]
- 哈工大自然語言處理研究所組織多位老師和同學撰寫了本調研報告，從技術原理、應用場景、未來發展等方面對ChatGPT進行了盡量詳盡的介紹及總結。
活字2.0 : [模型權重] [RLHF數據]
- 在活字1.0基礎上，通過人類反饋的強化學習（RLHF）進一步優化了模型回复質量，使其更加符合人類偏好。相較於上一個版本平均長度明顯提高，遵從指令的能力更強，邏輯更加清晰。
- 16.9k 人工標註的偏好數據，回復來自活字模型，可以用於訓練獎勵模型。
活字1.0 : [模型權重]
- 在Bloom模型的基礎上，在大約150 億tokens 上進行指令微調訓練得到的模型，具有更強的指令遵循能力、更好的安全性。

模型介紹

大規模語言模型（LLM）在自然語言處理領域取得了顯著的進展，並在廣泛的應用場景中展現了其強大的潛力。這一技術不僅吸引了學術界的廣泛關注，也成為了工業界的熱點。在此背景下，哈爾濱工業大學社會計算與信息檢索研究中心（HIT-SCIR）近期推出了最新成果——活字3.5 ，致力於為自然語言處理的研究和實際應用提供更多可能性和選擇。

活字3.5是在活字3.0和Chinese-Mixtral-8x7B基礎上，進行進一步性能增強得到的模型。活字3.5支持32K長上下文，繼承了活字3.0強大的綜合能力，並在中英文知識、數學推理、代碼生成、指令遵循能力、內容安全性等諸多方面實現了性能提升。

Important

活字系列模型仍然可能生成包含事實性錯誤的誤導性回复或包含偏見/歧視的有害內容，請謹慎鑑別和使用生成的內容，請勿將生成的有害內容傳播至互聯網。

活字1.0和活字2.0的文檔請見此處。活字3.0和中文MT-Bench的文檔請見此處。

模型結構

活字3.5是一個稀疏混合專家模型（SMoE），每個專家層包含8個FFN，每次前向計算採用top-2稀疏激活。活字3.5共擁有46.7B參數，得益於其稀疏激活的特性，實際推理時僅需激活13B參數，有效提升了計算效率和處理速度。

訓練過程

活字3.5經過了多步訓練，如下圖所示：

其訓練過程為：

【中文擴詞表增量預訓練】：由於Mixtral-8x7B詞表不支持中文，因此對中文的編解碼效率較低，限制了中文場景下的實用性。我們首先基於Mixtral-8x7B進行了中文擴詞表增量預訓練，顯著提高了模型對中文的編解碼效率，並使模型具備了強大的中文生成和理解能力。我們已於Chinese-Mixtral-8x7B代碼倉庫開源了模型權重和訓練代碼。
【活字3.0訓練】：我們基於Chinese-Mixtral-8x7B在大約30萬行指令數據上進行微調，得到了活字3.0模型，使用的數據集見此處說明。活字3.0繼承了基座模型豐富的中英文知識，並在數學推理、代碼生成等任務上具有強大性能。經過指令微調，活字3.0還在指令遵循能力和安全性方面實現了顯著提升。
【活字1.0數據集微調】：我們嘗試使用活字1.0數據集對Chinese-Mixtral-8x7B進行指令微調，得到的中間檢查點1在中英文知識（如C-Eval、CMMLU、MMLU 等任務）方面表現優異，甚至超過了活字3.0。然而，該模型在指令遵循能力和安全性上落後活字3.0較多。
【指令遵循能力強化】：針對中間檢查點1在指令遵循能力上的不足，我們引入了額外的數據集進行強化。此外，根據Longxu Dou等人的經驗，我們在訓練過程中使用了BPE Dropout技術，以進一步增加模型對指令的魯棒性。該過程訓練得到了中間檢查點2 。
【模型融合】：我們參考Yiming Cui等人的方法，對中間檢查點1 、中間檢查點2以及活字3.0模型進行融合，生成了中間檢查點3 。
【模型融合後訓練】：在融合後的模型基礎上，我們進一步進行了指令微調，最終推出了活字3.5。該版本在中英文知識、指令遵循能力和安全性回復等方面均有提升。

? 模型下載

模型名稱	文件大小	下載地址	備註
huozi3.5	88GB	?HuggingFace ModelScope	活字3.5 完整模型
huozi3.5-ckpt-1	88GB	?HuggingFace ModelScope	活字3.5 中間檢查點1
huozi3.5-ckpt-2	88GB	?HuggingFace ModelScope	活字3.5 中間檢查點2
huozi3.5-ckpt-3	88GB	?HuggingFace ModelScope	活字3.5 中間檢查點3

如果您希望微調活字3.5或Chinese-Mixtral-8x7B，請參考此處訓練代碼。

模型推理

Quick Start

活字3.5採用ChatML格式的prompt模板，格式為：

 <|beginofutterance|>系统
{system prompt}<|endofutterance|>
<|beginofutterance|>用户
{input}<|endofutterance|>
<|beginofutterance|>助手
{output}<|endofutterance|>

使用活字3.5進行推理的示例代碼如下：

 # quickstart.py

import torch
from transformers import AutoModelForCausalLM , AutoTokenizer

model_id = "HIT-SCIR/huozi3.5"

tokenizer = AutoTokenizer . from_pretrained ( model_id )
model = AutoModelForCausalLM . from_pretrained (
    model_id ,
    attn_implementation = "flash_attention_2" ,
    torch_dtype = torch . bfloat16 ,
    device_map = "auto" ,
)

text = """<|beginofutterance|>系统
你是一个智能助手<|endofutterance|>
<|beginofutterance|>用户
请你用python写一段快速排序的代码<|endofutterance|>
<|beginofutterance|>助手
"""

inputs = tokenizer ( text , return_tensors = "pt" ). to ( 0 )

outputs = model . generate (
    ** inputs ,
    eos_token_id = 57001 ,
    temperature = 0.8 ,
    top_p = 0.9 ,
    max_new_tokens = 2048 ,
)
print ( tokenizer . decode ( outputs [ 0 ], skip_special_tokens = False ))

活字3.5支持全部Mixtral模型生態，包括Transformers、vLLM、llama.cpp、Ollama、Text generation web UI等框架。

如果您在下載模型時遇到網絡問題，可以使用我們在ModelScope上提供的檢查點。

Transformers 模型推理+ 流式生成

transformers支持為tokenizer添加聊天模板，並支持流式生成。示例代碼如下：

 # example/transformers-stream/stream.py

import torch
from transformers import AutoModelForCausalLM , AutoTokenizer , TextStreamer

model_id = "HIT-SCIR/huozi3.5"

model = AutoModelForCausalLM . from_pretrained (
    model_id ,
    attn_implementation = "flash_attention_2" ,
    torch_dtype = torch . bfloat16 ,
    device_map = "auto" ,
)

tokenizer = AutoTokenizer . from_pretrained ( model_id )
tokenizer . chat_template = """{% for message in messages %}{{'<|beginofutterance|>' + message['role'] + ' n ' + message['content']}}{% if (loop.last and add_generation_prompt) or not loop.last %}{{ '<|endofutterance|>' + ' n '}}{% endif %}{% endfor %}
{% if add_generation_prompt and messages[-1]['role'] != '助手' %}{{ '<|beginofutterance|>助手n ' }}{% endif %}"""

chat = [
    { "role" : "系统" , "content" : "你是一个智能助手" },
    { "role" : "用户" , "content" : "请你用python写一段快速排序的代码" },
]

inputs = tokenizer . apply_chat_template (
    chat ,
    tokenize = True ,
    add_generation_prompt = True ,
    return_tensors = "pt" ,
). to ( 0 )

stream_output = model . generate (
    inputs ,
    streamer = TextStreamer ( tokenizer , skip_prompt = True , skip_special_tokens = True ),
    eos_token_id = 57001 ,
    temperature = 0.8 ,
    top_p = 0.9 ,
    max_new_tokens = 2048 ,
)

ModelScope 模型推理

ModelScope的接口與Transformers非常相似，只需將transformers替換為modelscope即可：

 # example/modelscope-generate/generate.py

import torch
- from transformers import AutoModelForCausalLM, AutoTokenizer
+ from modelscope import AutoTokenizer, AutoModelForCausalLM

model_id = "HIT-SCIR/huozi3.5"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    attn_implementation="flash_attention_2",
    torch_dtype=torch.bfloat16,
    device_map="auto",
)

text = """<|beginofutterance|>系统
你是一个智能助手<|endofutterance|>
<|beginofutterance|>用户
请你用python写一段快速排序的代码<|endofutterance|>
<|beginofutterance|>助手
"""

inputs = tokenizer(text, return_tensors="pt").to(0)

outputs = model.generate(
    **inputs,
    eos_token_id=57001,
    temperature=0.8,
    top_p=0.9,
    max_new_tokens=2048,
)
print(tokenizer.decode(outputs[0], skip_special_tokens=False))

vLLM 推理加速

活字3.5支持通過vLLM實現推理加速，示例代碼如下：

 # example/vllm-generate/generate.py

from vllm import LLM , SamplingParams

prompts = [
    """<|beginofutterance|>系统
你是一个智能助手<|endofutterance|>
<|beginofutterance|>用户
请你用python写一段快速排序的代码<|endofutterance|>
<|beginofutterance|>助手
""" ,
]

sampling_params = SamplingParams (
    temperature = 0.8 , top_p = 0.95 , stop_token_ids = [ 57001 ], max_tokens = 2048
)
llm = LLM (
    model = "HIT-SCIR/huozi3.5" ,
    tensor_parallel_size = 4 ,
)
outputs = llm . generate ( prompts , sampling_params )

for output in outputs :
    prompt = output . prompt
    generated_text = output . outputs [ 0 ]. text
    print ( generated_text )

部署OpenAI API Server

活字3.5可以部署為支持OpenAI API協議的服務，這使得活字3.5可以直接通過OpenAI API進行調用。

環境準備：

$ pip install vllm openai

啟動服務：

$ python -m vllm.entrypoints.openai.api_server --model /path/to/huozi3.5/checkpoint --served-model-name huozi --chat-template template.jinja --tensor-parallel-size 8 --response-role 助手 --max-model-len 2048

使用OpenAI API發送請求：

 # example/openai-api/openai-client.py

from openai import OpenAI

openai_api_key = "EMPTY"
openai_api_base = "http://localhost:8000/v1"

client = OpenAI (
    api_key = openai_api_key ,
    base_url = openai_api_base ,
)

chat_response = client . chat . completions . create (
    model = "huozi" ,
    messages = [
        { "role" : "系统" , "content" : "你是一个智能助手" },
        { "role" : "用户" , "content" : "请你用python写一段快速排序的代码" },
    ],
    extra_body = { "stop_token_ids" : [ 57001 ]},
)
print ( "Chat response:" , chat_response . choices [ 0 ]. message . content )

下面是一個使用OpenAI API + Gradio + 流式生成的示例代碼：

 # example/openai-api/openai-client-gradio.py

from openai import OpenAI
import gradio as gr

openai_api_key = "EMPTY"
openai_api_base = "http://localhost:8000/v1"

client = OpenAI (
    api_key = openai_api_key ,
    base_url = openai_api_base ,
)


def predict ( message , history ):
    history_openai_format = [
        { "role" : "系统" , "content" : "你是一个智能助手" },
    ]
    for human , assistant in history :
        history_openai_format . append ({ "role" : "用户" , "content" : human })
        history_openai_format . append ({ "role" : "助手" , "content" : assistant })
    history_openai_format . append ({ "role" : "用户" , "content" : message })
    models = client . models . list ()

    stream = client . chat . completions . create (
        model = models . data [ 0 ]. id ,
        messages = history_openai_format ,
        temperature = 0.8 ,
        stream = True ,
        extra_body = { "repetition_penalty" : 1 , "stop_token_ids" : [ 57001 ]},
    )

    partial_message = ""
    for chunk in stream :
        partial_message += chunk . choices [ 0 ]. delta . content or ""
        yield partial_message


gr . ChatInterface ( predict ). queue (). launch ()

量化推理

GGUF 格式

GGUF格式旨在快速加載和保存模型，由llama.cpp團隊推出，適用於llama.cpp、Ollama等框架。您可以手動將HuggingFace格式的活字3.5轉換到GGUF格式。

Step 1 環境準備

首先需要下載llama.cpp的源碼。我們在倉庫中提供了llama.cpp的submodule，這個版本的llama.cpp已經過測試，可以成功進行推理：

$ git clone --recurse-submodules https://github.com/HIT-SCIR/huozi
$ cd examples/llama.cpp

您也可以下載最新版本的llama.cpp源碼：

$ git clone https://github.com/ggerganov/llama.cpp.git
$ cd llama.cpp

然後需要進行編譯。根據您的硬件平台，編譯命令有細微差異：

$ make  # 用于纯CPU推理
$ make LLAMA_CUBLAS=1  # 用于GPU推理
$ LLAMA_METAL=1 make  # 用于Apple Silicon，暂未经过测试

Step 2 格式轉換（可選）

以下命令需要在llama.cpp/目錄下：

 # 转换为GGUF格式
$ python convert.py --outfile /path/to/huozi-gguf/huozi3.5.gguf /path/to/huozi3.5
# 进行GGUF格式的q4_0量化
$ quantize /path/to/huozi-gguf/huozi3.5.gguf /path/to/huozi-gguf/huozi3.5-q4_0.gguf q4_0

Step 3 開始推理

以下命令需要在llama.cpp/目錄下：

$ main -m /path/to/huozi-gguf/huozi3.5-q4_0.gguf --color --interactive-first -c 2048 -t 6 --temp 0.2 --repeat_penalty 1.1 -ngl 999 --in-prefix " <|beginofutterance|>用户n " --in-suffix " <|endofutterance|>n<|beginofutterance|>助手" -r " <|endofutterance|> "

-ngl參數表示向GPU中offload的層數，降低這個值可以緩解GPU顯存壓力。經過我們的實際測試，q2_k量化的模型offload 16層，顯存佔用可降低至9.6GB，可在消費級GPU上運行模型：

$ main -m /path/to/huozi-gguf/huozi3.5-q2_k.gguf --color --interactive-first -c 2048 -t 6 --temp 0.2 --repeat_penalty 1.1 -ngl 16 --in-prefix " <|beginofutterance|>用户n " --in-suffix " <|endofutterance|>n<|beginofutterance|>助手" -r " <|endofutterance|> "

關於main的更多參數，可以參考llama.cpp的官方文檔。

使用Ollama框架進行推理，可以參考Ollama的README說明。

? 模型性能

針對大模型綜合能力評價，我們分別使用以下評測數據集對活字3.5進行評測：

C-Eval：一個全面的中文基礎模型評估套件。它包含了13948個多項選擇題，涵蓋了52個不同的學科和四個難度級別。
CMMLU：一個綜合性的中文評估基準，專門用於評估語言模型在中文語境下的知識和推理能力，涵蓋了從基礎學科到高級專業水平的67個主題。
GAOKAO：一個以中國高考題目為數據集，旨在提供和人類對齊的，直觀，高效地測評大模型語言理解能力、邏輯推理能力的測評框架。
MMLU：一個包含57個多選任務的英文評測數據集，涵蓋了初等數學、美國歷史、計算機科學、法律等，難度覆蓋高中水平到專家水平，是目前主流的LLM評測數據集之一。
HellaSwag：一個極具挑戰的英文NLI評測數據集，每一個問題都需要對上下文進行深入理解，而不能基於常識進行回答。
GSM8K：一個高質量的小學數學應用題的數據集，這些問題需要2 到8 個步驟來解決，解決方案主要涉及使用基本算術運算，可用於評價多步數學推理能力。
HumanEval：一個由164 個原創編程問題組成的數據集，通過衡量從文檔字符串生成程序的功能正確性，來夠評估語言理解、算法和簡單的數學能力。
MT-Bench：一個開放的英文問題集，包括80個多輪對話任務，用於評估聊天機器人的多輪對話和指令遵循能力，並通過大模型裁判（GPT-4）對模型回答進行打分。
MT-Bench-zh：我們根據MT-Bench翻譯得來的中文問題集，每組問題均經過人工校對和中文語境下的適當調整。我們已在此處開源MT-Bench-zh數據集。
MT-Bench-safety：我們手工構造的安全數據集，包括暴力、色情、敏感等風險內容。該數據集為封閉數據集。

活字3.5在推理時僅激活13B參數。下表為活字3.5與其他13B規模的中文模型以及舊版活字在各個評測數據集上的結果：

我們在C-Eval、CMMLU、MMLU採用5-shot，GSM8K採用4-shot，HellaSwag、HumanEval採用0-shot，HumanEval採用pass@1指標。所有測試均採用greedy策略。
我們使用OpenCompass作為評測框架，commit hash為4c87e77。評測代碼位於此處。
在活字3.0的性能評測中，我們在HumanEval錯誤使用了base模型的評測方法，正確的評測結果已在上表內更新。

根據上表中的測試結果，活字3.5較活字3.0取得了較穩定的性能提升，活字3.5的中英文知識、數學推理、代碼生成、中文指令遵循能力、中文內容安全性等多方面能力均得到了加強。

? 生成樣例

下面是活字3.5在MT-Bench-zh評測集上的生成效果展示：

開源協議

對本倉庫源碼的使用遵循開源許可協議Apache 2.0。

活字支持商用。如果將活字模型或其衍生品用作商業用途，請您按照如下方式聯繫許可方，以進行登記並向許可方申請書面授權：聯繫郵箱：[email protected]。

Citation

活字大模型

@misc{huozi,
    author = {Huozi-Team}.
    title = {Huozi: Leveraging Large Language Models for Enhanced Open-Domain Chatting}
    year = {2024},
    publisher = {GitHub},
    journal = {GitHub repository}
    howpublished = { url {https://github.com/HIT-SCIR/huozi}}
}

Star History

展開

附加信息

版本 Release huozi 3.5
類型其他源碼
更新時間 2025-04-18
大小 12.39MB
來自於 Github

相關應用

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3

相關資訊全部