huozi скачать - загрузка исходного кода huozi

huozi

Другой исходный код

Release huozi 3.5

Скачать

Универсальная большая модель подвижного типа

? обновлять

[2024-09-12] Публикуйте подвижный тип версии 3.5
[2024-02-09] опубликовать подвижный тип версии 3.5 и китайский набор MT-Bench
[2023-08-06] Публикуйте подвижный тип 1.0 и версии подвижного типа 2.0
[2023-05-04] выпустить «Отчет об исследовании CHATGPT»; Внутренний тест большой модели подвижного типа

? Оглавление

глава	иллюстрировать
‍ ‍ ‍ Создание списка с открытым исходным кодом	Список проектов с открытым исходным кодом на этом складе
Введение модели	Краткое введение в структуру и учебный процесс модели подвижного типа
? Модель скачать	Ссылка для загрузки модели подвижного типа
Модель рассуждения	Примеры вывода модели подвижного типа, включая процесс использования структур вывода, таких как VLLM, Llama.cpp и Ollama.
? Производительность модели	Производительность модели подвижного типа по основной оценке задач
? Генерировать образец	Примеры фактического эффекта генерации модели подвижного типа

‍ ‍ ‍ Создание списка с открытым исходным кодом

Подвижный тип 3.5 : [Вес модели]
- Подвижный тип 3.5-это новая модель, которая еще больше оптимизирует производительность на основе подвижного типа 3.0 и китайского Mixtral-8x7b.
Подвижный тип 3.0 : [Вес модели] [Онлайн демо]
- Movable Type 3.0 - редкая гибридная экспертная модель, которая поддерживает контекст 32K, с богатыми знаниями китайского и английского языка и мощными математическими рассуждениями и возможностями генерации кода. Старая версия подвижного типа 3.0 имеет более сильное соблюдение команд и безопасность.
Китайский Mt-Bench : [набор данных]
- Этот набор данных является китайской версией набора данных по оценке диалога MT-Bench. Он содержит ряд вопросов с многоуровневым диалогом, каждый из которых был тщательно вычитал, и необходимые корректировки внесены для адаптации к китайскому контексту.
«Отчет об исследовании CHATGPT» : [PDF]
- Харбинский институт обработки естественного языка в обработке естественного языка организовал многих учителей и одноклассников, чтобы написать этот исследовательский отчет, и дал CHATGPT подробное введение и резюме от технических принципов, сценариев применения, будущего развития и других аспектов.
Подвижный тип 2.0 : [Вес модели] [DATA RLHF]
- Основываясь на подвижном типе 1.0, качество ответов на модели дополнительно оптимизируется посредством обучения подкреплению (RLHF) с обратной связью с человека, что делает его более соответствующим человеческим предпочтениям. По сравнению с предыдущей версией средняя длина значительно улучшается, а способность следовать инструкциям сильнее, а логика более четкая.
- 16.9K Ручная маркировка данных о предпочтениях, ответ от модели подвижного типа может использоваться для обучения моделей вознаграждения.
Подвижный тип 1.0 : [Вес модели]
- Основываясь на модели Bloom, модель, полученная путем обучения инструкциям с тонкой настройкой на примерно 15 миллиардах токенов, имеет более сильное соблюдение инструкций и лучшую безопасность.

Введение модели

Крупномасштабная языковая модель (LLM) добилась значительного прогресса в области обработки естественного языка и продемонстрировала свой сильный потенциал в широком спектре сценариев применения. Эта технология не только привлекала широкое внимание академического сообщества, но и стала горячей темой в отрасли. На этом фоне Центр социальных вычислений и извлечения информации Института технологии Харбина (HIT -SCIR) недавно запустил последние достижения - подвижный тип 3.5 , приверженные предоставлению большего количества возможностей и выбора для исследования и практического применения обработки естественного языка.

Подвижный тип 3.5-это модель, полученная путем дальнейшего повышения производительности на основе подвижного типа 3.0 и китайского Миксал-8x7B. Подвижный тип 3.5 поддерживает контекст длиной 32K , наследует мощные всеобъемлющие возможности подвижного типа 3.0 и достигает улучшения производительности во многих аспектах, таких как знание китайского и английского языка , математические рассуждения , генерация кода , возможности соответствия инструкциям , безопасность контента и т. Д.

Важный

Модель серии подвижных типов может по -прежнему генерировать вводящие в заблуждение ответы, содержащие фактические ошибки или вредное содержание, которое содержит смещение/дискриминацию. Пожалуйста, будьте осторожны, чтобы идентифицировать и использовать сгенерированный контент и не распространять сгенерированный вредный контент в Интернет.

Пожалуйста, смотрите документацию для подвижного типа 1.0 и подвижного типа 2.0 здесь. Пожалуйста, смотрите здесь для документации по подвижному типу 3.0 и китайскому MT-Bench.

Структура модели

Подвижный тип 3.5-редкая гибридная экспертная модель (SMOE), каждый экспертный слой содержит 8 FFN, и каждый прямое расчет редко активируется TOP-2. Подвижный тип 3.5 имеет в общей сложности 46,7B параметры. Благодаря его редким характеристикам активации необходимо активировать только параметры 13B во время фактических рассуждений, что эффективно повышает эффективность вычислений и скорость обработки.

Учебный процесс

Подвижный тип 3.5 подвергся нескольким этапам обучения, как показано на рисунке ниже:

Процесс обучения:

[Китайский список слов, постепенный предварительный тренировку]: Поскольку список слов Mixtral-8x7b не поддерживает китайский, эффективность кодирования и декодирования китайского является низкой, что ограничивает практичность в китайских сценариях. Сначала мы провели постепенное предварительное обучение китайского списка слов на основе Mixtral-8x7b, что значительно улучшило эффективность кодирования и декодирования модели китайского языка и позволило модели обладать сильным китайским поколением и пониманием возможностей. У нас есть весовые коды модели с открытым источником и код обучения в хранилище кода китайской Миксал-8x7B.
[Обучение летучих типов 3.0]: Мы настраиваем его на 300 000 строк данных инструкций на основе китайской миктральной-8x7B и получили модель подвижного типа 3.0. Используемый набор данных объясняется здесь. Подвижный тип 3.0 наследует богатые китайские и английские знания базовой модели и обладает мощными выполнением в таких задачах, как математические рассуждения и генерация кода. После тонкой настройки инструкций подвижный тип 3.0 также добился значительных улучшений в возможностях соблюдения команд и безопасности.
[Тонкая настройка настройки подвижного типа 1.0]: Мы попытались тонко настраивать китайский Mixtral-8x7b с набором данных Typable Type 1.0. Промежуточная контрольная точка 1, полученная превосходно, выступила превосходно в китайских и английских знаниях (таких как C-Eval, CMMLU, MMLU и другие задачи), и даже превзошел подвижный тип 3.0. Тем не менее, эта модель отстает за подвижным типом 3.0 с точки зрения возможностей соответствия инструкциям и безопасности.
[Улучшение возможностей соответствия инструкции]: С учетом недостатков промежуточной контрольной точки 1 с точки зрения возможностей соответствия инструкциям мы представили дополнительные наборы данных для укрепления. Кроме того, в соответствии с опытом Longxu Dou et al., Мы использовали технологию отсева BPE во время учебного процесса, чтобы еще больше повысить надежность модели до инструкций. Этот процесс обучение получает промежуточную контрольную точку 2 .
[Модель Fusion]: Мы ссылаемся на метод Yiming Cui et al. Чтобы объединить промежуточную контрольную точку 1 , промежуточную контрольную точку 2 и модели Movable Type 3.0 для генерации промежуточной контрольной точки 3 .
[Модель пост-слизистого обучения]: На основании плавной модели мы дополнительно настраивали инструкции и, наконец, запустили подвижный тип 3.5. Эта версия улучшила свои знания в китайском и английском языке, возможности соблюдения команд и ответы безопасности.

? Модель скачать

Название модели	Размер файла	Скачать адрес	Примечание
Huozi3.5	88 ГБ	? Huggingface Моделикоп	Подвижной тип 3.5 Полная модель
HUOZI3.5-CKPT-1	88 ГБ	? Huggingface Моделикоп	Подвижный тип 3.5 Промежуточная контрольная точка 1
HUOZI3.5-CKPT-2	88 ГБ	? Huggingface Моделикоп	Подвижный тип 3.5 Промежуточная контрольная точка 2
HUOZI3.5-CKPT-3	88 ГБ	? Huggingface Моделикоп	Подвижный тип 3.5 Промежуточная контрольная точка 3

Если вы хотите настроить подвижный тип 3.5 или китайский Mixtral-8x7b, обратитесь к коду обучения здесь.

Модель рассуждения

Быстрый старт

Подвижный тип 3.5 использует шаблон Propt Format Chatml, формат:

 <|beginofutterance|>系统
{system prompt}<|endofutterance|>
<|beginofutterance|>用户
{input}<|endofutterance|>
<|beginofutterance|>助手
{output}<|endofutterance|>

Пример кода рассуждения с использованием подвижного типа 3.5 выглядит следующим образом:

 # quickstart.py

import torch
from transformers import AutoModelForCausalLM , AutoTokenizer

model_id = "HIT-SCIR/huozi3.5"

tokenizer = AutoTokenizer . from_pretrained ( model_id )
model = AutoModelForCausalLM . from_pretrained (
    model_id ,
    attn_implementation = "flash_attention_2" ,
    torch_dtype = torch . bfloat16 ,
    device_map = "auto" ,
)

text = """<|beginofutterance|>系统
你是一个智能助手<|endofutterance|>
<|beginofutterance|>用户
请你用python写一段快速排序的代码<|endofutterance|>
<|beginofutterance|>助手
"""

inputs = tokenizer ( text , return_tensors = "pt" ). to ( 0 )

outputs = model . generate (
    ** inputs ,
    eos_token_id = 57001 ,
    temperature = 0.8 ,
    top_p = 0.9 ,
    max_new_tokens = 2048 ,
)
print ( tokenizer . decode ( outputs [ 0 ], skip_special_tokens = False ))

Movable Type 3.5 поддерживает все экосистемы миктральной модели, включая трансформаторы, VLLM, Llama.cpp, Ollama, веб -интерфейс Text Generation и другие рамки.

Если у вас есть проблемы с сетью при загрузке вашей модели, вы можете использовать контрольные точки, которые мы предоставляем на моделях.

Вывод модели трансформаторов + потоковая генерация

Трансформеры поддерживают добавление шаблонов чата для токенизатора и поддерживают потоковую генерацию. Пример кода заключается в следующем:

 # example/transformers-stream/stream.py

import torch
from transformers import AutoModelForCausalLM , AutoTokenizer , TextStreamer

model_id = "HIT-SCIR/huozi3.5"

model = AutoModelForCausalLM . from_pretrained (
    model_id ,
    attn_implementation = "flash_attention_2" ,
    torch_dtype = torch . bfloat16 ,
    device_map = "auto" ,
)

tokenizer = AutoTokenizer . from_pretrained ( model_id )
tokenizer . chat_template = """{% for message in messages %}{{'<|beginofutterance|>' + message['role'] + ' n ' + message['content']}}{% if (loop.last and add_generation_prompt) or not loop.last %}{{ '<|endofutterance|>' + ' n '}}{% endif %}{% endfor %}
{% if add_generation_prompt and messages[-1]['role'] != '助手' %}{{ '<|beginofutterance|>助手n ' }}{% endif %}"""

chat = [
    { "role" : "系统" , "content" : "你是一个智能助手" },
    { "role" : "用户" , "content" : "请你用python写一段快速排序的代码" },
]

inputs = tokenizer . apply_chat_template (
    chat ,
    tokenize = True ,
    add_generation_prompt = True ,
    return_tensors = "pt" ,
). to ( 0 )

stream_output = model . generate (
    inputs ,
    streamer = TextStreamer ( tokenizer , skip_prompt = True , skip_special_tokens = True ),
    eos_token_id = 57001 ,
    temperature = 0.8 ,
    top_p = 0.9 ,
    max_new_tokens = 2048 ,
)

Модельный вывод модели

Интерфейс ModelsCope очень похож на трансформаторы, просто замените трансформаторы на прицел модели:

 # example/modelscope-generate/generate.py

import torch
- from transformers import AutoModelForCausalLM, AutoTokenizer
+ from modelscope import AutoTokenizer, AutoModelForCausalLM

model_id = "HIT-SCIR/huozi3.5"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    attn_implementation="flash_attention_2",
    torch_dtype=torch.bfloat16,
    device_map="auto",
)

text = """<|beginofutterance|>系统
你是一个智能助手<|endofutterance|>
<|beginofutterance|>用户
请你用python写一段快速排序的代码<|endofutterance|>
<|beginofutterance|>助手
"""

inputs = tokenizer(text, return_tensors="pt").to(0)

outputs = model.generate(
    **inputs,
    eos_token_id=57001,
    temperature=0.8,
    top_p=0.9,
    max_new_tokens=2048,
)
print(tokenizer.decode(outputs[0], skip_special_tokens=False))

VLLM вывод ускорение

Переменная Тип 3.5 поддерживает реализацию ускорения вывода через VLLM, а пример кода заключается в следующем:

 # example/vllm-generate/generate.py

from vllm import LLM , SamplingParams

prompts = [
    """<|beginofutterance|>系统
你是一个智能助手<|endofutterance|>
<|beginofutterance|>用户
请你用python写一段快速排序的代码<|endofutterance|>
<|beginofutterance|>助手
""" ,
]

sampling_params = SamplingParams (
    temperature = 0.8 , top_p = 0.95 , stop_token_ids = [ 57001 ], max_tokens = 2048
)
llm = LLM (
    model = "HIT-SCIR/huozi3.5" ,
    tensor_parallel_size = 4 ,
)
outputs = llm . generate ( prompts , sampling_params )

for output in outputs :
    prompt = output . prompt
    generated_text = output . outputs [ 0 ]. text
    print ( generated_text )

Развернуть API -сервер OpenAI

Разнообразие типа 3.5 может быть развернут в качестве сервиса, которая поддерживает протокол API OpenAI, который позволяет выставлять напрямую через API OpenAI типа 3.5.

Подготовка окружающей среды:

$ pip install vllm openai

Начните сервис:

$ python -m vllm.entrypoints.openai.api_server --model /path/to/huozi3.5/checkpoint --served-model-name huozi --chat-template template.jinja --tensor-parallel-size 8 --response-role 助手 --max-model-len 2048

Отправить запросы с помощью API OpenAI:

 # example/openai-api/openai-client.py

from openai import OpenAI

openai_api_key = "EMPTY"
openai_api_base = "http://localhost:8000/v1"

client = OpenAI (
    api_key = openai_api_key ,
    base_url = openai_api_base ,
)

chat_response = client . chat . completions . create (
    model = "huozi" ,
    messages = [
        { "role" : "系统" , "content" : "你是一个智能助手" },
        { "role" : "用户" , "content" : "请你用python写一段快速排序的代码" },
    ],
    extra_body = { "stop_token_ids" : [ 57001 ]},
)
print ( "Chat response:" , chat_response . choices [ 0 ]. message . content )

Вот пример кода, который использует OpenAI API + Gradio + потоковая передача:

 # example/openai-api/openai-client-gradio.py

from openai import OpenAI
import gradio as gr

openai_api_key = "EMPTY"
openai_api_base = "http://localhost:8000/v1"

client = OpenAI (
    api_key = openai_api_key ,
    base_url = openai_api_base ,
)


def predict ( message , history ):
    history_openai_format = [
        { "role" : "系统" , "content" : "你是一个智能助手" },
    ]
    for human , assistant in history :
        history_openai_format . append ({ "role" : "用户" , "content" : human })
        history_openai_format . append ({ "role" : "助手" , "content" : assistant })
    history_openai_format . append ({ "role" : "用户" , "content" : message })
    models = client . models . list ()

    stream = client . chat . completions . create (
        model = models . data [ 0 ]. id ,
        messages = history_openai_format ,
        temperature = 0.8 ,
        stream = True ,
        extra_body = { "repetition_penalty" : 1 , "stop_token_ids" : [ 57001 ]},
    )

    partial_message = ""
    for chunk in stream :
        partial_message += chunk . choices [ 0 ]. delta . content or ""
        yield partial_message


gr . ChatInterface ( predict ). queue (). launch ()

Количественные рассуждения

GGUF Формат

Формат GGUF предназначен для быстрого загрузки и сохранения моделей. Он запущен командой Llama.cpp и подходит для таких рамок, как llama.cpp, ollama и т. Д.

Шаг 1 подготовка среды

Во -первых, вам нужно скачать исходный код llama.cpp. Мы предоставляем подмодуль llama.cpp в репозитории. Эта версия llama.cpp была проверена и может успешно сделать вывод:

$ git clone --recurse-submodules https://github.com/HIT-SCIR/huozi
$ cd examples/llama.cpp

Вы также можете скачать последнюю версию исходного кода Llama.cpp:

$ git clone https://github.com/ggerganov/llama.cpp.git
$ cd llama.cpp

Тогда это должно быть скомпилировано. Существуют тонкие различия в командах компиляции в зависимости от вашей аппаратной платформы:

$ make  # 用于纯CPU推理
$ make LLAMA_CUBLAS=1  # 用于GPU推理
$ LLAMA_METAL=1 make  # 用于Apple Silicon，暂未经过测试

Шаг 2 преобразование формата (необязательно)

Следующая команда должна быть в llama.cpp/ Directory:

 # 转换为GGUF格式
$ python convert.py --outfile /path/to/huozi-gguf/huozi3.5.gguf /path/to/huozi3.5
# 进行GGUF格式的q4_0量化
$ quantize /path/to/huozi-gguf/huozi3.5.gguf /path/to/huozi-gguf/huozi3.5-q4_0.gguf q4_0

Шаг 3 Начните рассуждать

Следующая команда должна быть в llama.cpp/ Directory:

$ main -m /path/to/huozi-gguf/huozi3.5-q4_0.gguf --color --interactive-first -c 2048 -t 6 --temp 0.2 --repeat_penalty 1.1 -ngl 999 --in-prefix " <|beginofutterance|>用户n " --in-suffix " <|endofutterance|>n<|beginofutterance|>助手" -r " <|endofutterance|> "

Параметр -ngl указывает количество слоев разгрузки в графический процессор. Сокращение этого значения может облегчить давление в видео памяти GPU. После нашего фактического теста квантовая модель Q2_K имеет 16-слойную разгрузку, и использование памяти может быть уменьшено до 9,6 ГБ, что может запустить модель на графических процессорах потребителей:

$ main -m /path/to/huozi-gguf/huozi3.5-q2_k.gguf --color --interactive-first -c 2048 -t 6 --temp 0.2 --repeat_penalty 1.1 -ngl 16 --in-prefix " <|beginofutterance|>用户n " --in-suffix " <|endofutterance|>n<|beginofutterance|>助手" -r " <|endofutterance|> "

Для получения дополнительных параметров main вы можете обратиться к официальной документации Llama.cpp.

Используйте Ollama Framework для рассуждения, вы можете ссылаться на инструкции Ollama Readme.

? Производительность модели

Для оценки комплексной способности крупных моделей мы использовали следующий набор данных оценки для оценки подвижного типа 3.5 соответственно:

C-Eval: комплексный китайский набор базовой модели. Он содержит 13 948 вопросов с несколькими вариантами выбора, охватывающих 52 различных субъекта и четыре уровня сложности.
CMMLU: Комплексный китайский эталон оценки, посвященный оценке способности знаний и рассуждений языковых моделей в китайском контексте, охватывая 67 тем из основных дисциплин до продвинутых профессиональных уровней.
GAOKAO: Набор данных китайского вступительного экзаменационного экзаменационного экзаменационного экзаменационного экзаменации направлен на предоставление структуры оценки, которая соответствует людям, интуитивно и эффективно оценивает способность к пониманию языка и логическому мышлению крупных моделей.
MMLU: набор данных по оценке английского языка, содержащий 57 задач с несколькими выборами, охватывающие элементарную математику, американскую историю, компьютерную науку, право и т. Д., С трудом охватывают уровень средней школы до экспертного уровня. В настоящее время это один из основных наборов оценки LLM.
Hellaswag: очень сложный набор данных NLI на английском языке. Каждый вопрос требует глубокого понимания контекста и не может быть получен ответом на основе здравого смысла.
GSM8K: набор данных высококачественных задач применения математики в начальной школе, которые требуют от 2 до 8 шагов для решения. Решение в основном включает использование основных арифметических операций, которые можно использовать для оценки многоэтапных математических способностей.
Humaneval: набор данных из 164 оригинальных задач программирования, которые оценивают понимание языка, алгоритмы и простые математические способности путем измерения функциональной правильности программ, полученных из строк документов.
MT-Bench: открытый набор английских вопросов, в том числе 80 задач по многоуровневым разговорам, используется для оценки возможностей для разговоров и соблюдения команд чат-ботов, а также для оценки ответов на модель через рефери Big Model (GPT-4).
MT-Bench-ZH: Мы используем китайский набор вопросов, переведенный MT-Bench, и каждый набор вопросов был вручную корректирован и соответствующим образом скорректирован в китайском контексте. У нас есть открытый набор данных MT-Bench-ZH здесь.
МТ-Бенч-безопасность: наши наборы данных о безопасности, построенные вручную, включая насилие, порнографию, чувствительность и другие риски. Этот набор данных является закрытым набором данных.

Подвижный тип 3.5 активирует только 13b параметры при выводе. В следующей таблице показаны результаты китайских моделей подвижного типа 3.5 и других 13B шкал и старой версии подвижного типа в каждом наборе данных оценки:

Мы используем 5 выстрелов в C-eval, CMMLU и MMLU, GSM8K используют 4-выстрел, Hellaswag и Humaneval использование 0-Shot, а Humaneval использует индикатор Pass@1. Все тесты были жадной стратегией.
Мы используем OpenCompass в качестве структуры оценки, а хэш коммита - 4C87E77. Код обзора находится здесь.
В оценке эффективности подвижного типа 3.0 мы неправильно использовали метод оценки базовой модели в гуманевале, и правильные результаты оценки были обновлены в приведенной выше таблице.

Согласно результатам теста в вышеуказанной таблице, подвижный тип 3.5 достиг относительно стабильного улучшения производительности по сравнению с подвижным типом 3.0, и были укреплены знания китайского и английского языка , математические рассуждения , генерация кода , способность соблюдения требований китайского обучения и безопасность контента китайского подвижного типа 3.5.

? Генерировать образец

Ниже приводится эффект генерации подвижного типа 3.5 на набор оценки MT-Bench-ZH:

Протокол с открытым исходным кодом

Использование этого исходного кода репозитория подлежит лицензионному соглашению с открытым исходным кодом Apache 2.0.

Мобильный тип коммерчески доступен. Если вы используете модель подвижного типа или ее производные в коммерческих целях, пожалуйста, свяжитесь с лицензиаром следующим образом, чтобы зарегистрироваться и подать заявку на письменное разрешение от лицензиара: Контактная электронная почта: [email protected].

Цитирование

Модель подвижного типа

@misc{huozi,
    author = {Huozi-Team}.
    title = {Huozi: Leveraging Large Language Models for Enhanced Open-Domain Chatting}
    year = {2024},
    publisher = {GitHub},
    journal = {GitHub repository}
    howpublished = { url {https://github.com/HIT-SCIR/huozi}}
}

Звездная история

Расширять

Дополнительная информация

Версия Release huozi 3.5
Тип Другой исходный код
Время обновления 2025-04-18
размер 12.39MB
От Github

Связанные приложения

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22