Китайский | Английский | Документы/документы | ❓ Вопросы/проблемы | Обсуждения/дискуссии | ⚔ Арена/Арена

? Обнимающееся лицо •? Modelscope •? ️ Machine Heart Sota! Модель •? Wisemodel •? Онлайн демо
Этот проект разработан на основе нового поколения модели с открытым исходным кодом Llama-3, которая является третьей фазой серии проектов Китая-лама-альпака, связанных с моделью открытого исходного кода (этап I и этап II). Этот проект с открытым исходным кодом китайская базовая модель Llama-3 и китайская модель лампа-инструкции Llama-3-instruct . В этих моделях используются крупномасштабные данные о китайском языке для инкрементного предварительного обучения на основе исходного LLAMA-3, и используют выбранные данные инструкции для тонкой корректировки, еще больше улучшая базовые возможности семантики китайской семантики и понимания инструкций и получение значительных улучшений производительности по сравнению с моделями, связанными с вторым поколением.
Китайский миктральный макет | Китайская лама-2 и макет альпака-2 | Китайская лама и макет альпака | Мультимодальная китайская лама и макет альпака | Мультимодальный VLE | Китайский Minirbt | Китайский Лерт | Китайский английский pert | Китайский Макберт | Китайская электро | Китайский Xlnet | Китайский берт | Инструмент для дистилляции знаний TextBrewer | Модельная обрезка инструмента TextPruner | Дистилляция и разрезание интегрированного зерна
[2024/05/30] выпустили модель инструкции Llama-3-Chinese-8b-Instruct-V3, которая достигла значительных улучшений в нижестоящих задачах по сравнению с V1/V2. Просмотр подробностей: v3.0 журнал выпуска версии
[2024/05/08] Выпустите Llama-3-Chinese-8b-Instruct-V2 модель инструкции, непосредственно используя 5 миллионов данных инструкций для точной настройки ее на мета-лама-3-8B-инструкторе. Просмотр деталей: v2.0
[2024/05/07] Добавьте сценарии перед тренировками и сценарии с тонкой настройкой. Просмотр деталей: v1.1 журнал выпуска версии
[2024/04/30] выпустить базовую модель Llama-3-Chinese-8b и модель инструкции Llama-3-Chinese-8B-и-инстакции. Просмотр подробностей: v1.0 журнал выпуска версии
[2024/04/19] официально запустит проект Китая-Лама-Альпака-3
| глава | описывать |
|---|---|
| ? | Кратко представить технические характеристики соответствующих моделей этого проекта |
| ⏬model скачать | Китайский адрес загрузки Llama-3 Big Model |
| Рассуждения и развертывание | Представляет, как количественно оценить модели и развернуть и испытать большие модели, используя персональный компьютер |
| ? Модельный эффект | Влияние модели на некоторые задачи вводится |
| Обучение и тонкая настройка | Представляем, как тренировать и точно настроить китайскую модель Llama-3 |
| ❓faq | Ответ на некоторые часто задаваемых вопросов |
Этот проект запускает китайскую модель с открытым исходным кодом Llama-3-Chinese и Llama-3-Chinese-Instruct на основе Meta Llama-3. Основные особенности следующие:
Ниже приводится сравнение модели этого проекта и рекомендуемых сценариев использования. Для взаимодействия в чате выберите версию инструктирования.
| Сравнение пунктов | Llama-3-Chinese-8b | Llama-3-Chinese-8b-Instruct |
|---|---|---|
| Тип модели | Базовая модель | Директива/модель чата (класс CHATGPT) |
| Размер модели | 8B | 8B |
| Тип обучения | Причинный-LM (CLM) | Инструкция тонкая корректировка |
| Метод обучения | LORA + полная сумма EMB/LM-голова | LORA + полная сумма EMB/LM-голова |
| Инициализировать модель | Оригинальный мета-лама-3-8B | V1: Llama-3-Chinese-8b V2: Оригинальная мета-лама-3-8B-инструкт v3: микс Inst/Inst-V2/Inst-Meta |
| Учебные материалы | Unmarded Universal Corpus (приблизительно 120 ГБ) | Помеченные данные инструкции (около 5 миллионов штук) |
| Размер словарного запаса | Оригинальный словарь (128 256) | Оригинальный словарь (128 256) |
| Поддерживает длину контекста | 8к | 8к |
| Входной шаблон | ненужный | Необходимо применить шаблон лама-3-конструкции |
| Применимые сценарии | Продолжение текста: Учитывая приведенный выше текст, пусть модель генерирует следующий текст | Понимание команды: Q & A, написание, чат, взаимодействие и т. Д. |
Ниже приведено сравнение между версиями инструктов. Если нет четких предпочтений, пожалуйста, уделите приоритет версии Instruct-V3.
| Сравнение пунктов | Инструкт-V1 | Инструкт-V2 | Инструкт-V3 |
|---|---|---|---|
| Время выпуска | 2024/4/30 | 2024/5/8 | 2024/5/30 |
| Базовая модель | Оригинальный мета-лама-3-8B | Оригинальный мета-лама-3-8B-инструкт | (См. Метод обучения) |
| Метод обучения | Фаза 1: 120 г китайского корпуса Предварительное обучение фаза 2: 5 миллионов данных | Непосредственно использовать 5 миллионов данных инструкций для тонкой настройки | Модель слияния выполняется с использованием Inst-V1, Inst-V2 и Inst-Meta, и оно получается путем тонкой настройки небольшого количества данных инструкций (~ 5 тысяч) кусочков) |
| Китайская способность [1] | 49,3 / 51,5 | 51,6 / 51,6 | 55,2 / 54,8 ?? |
| Условство английского [1] | 63,21 | 66.68 | 66,81 ?? |
| Длинная текстовая возможность [1] | 29,6 | 46.4 ?? | 40,5 |
| Коэффициент победы в макете/рейтинг ELO [2] | 49,4% / 1430 | 66,1% / 1559 | 83,6% / 1627 ?? |
Примечание
[1] Эффект способности Китая происходит от C-Eval (достоверно); Эффект английской способности исходит из таблицы лидеров Open LLM (AVG); Длинная текстовая способность исходит от Лонгбенч (AVG); Пожалуйста, обратитесь к разделу о эффекте модели для получения подробной информации. [2] Время приобретения эффекта большой модельной арены: 2024/5/30, только для справки.
| Название модели | Полная версия | LORA версия | GGUF версия |
|---|---|---|---|
| Llama-3-Chinese-8b-Instruct-V3 (Модель инструкции) | [? Обнимающееся лицо] [? Modelcope] [? Wisemodel] | N/a | [? Обнимающееся лицо] [? Modelcope] |
| Llama-3-Chinese-8b-Instruct-V2 (Модель инструкции) | [? Обнимающееся лицо] [? Modelcope] [? Wisemodel] | [? Обнимающееся лицо] [? Modelcope] [? Wisemodel] | [? Обнимающееся лицо] [? Modelcope] |
| Llama-3-Chinese-8b-Instruct (Модель инструкции) | [? Обнимающееся лицо] [? Modelcope] [? Wisemodel] | [? Обнимающееся лицо] [? Modelcope] [? Wisemodel] | [? Обнимающееся лицо] [? Modelcope] |
| Llama-3-Chinese-8b (Модель пьедестала) | [? Обнимающееся лицо] [? Modelcope] [? Wisemodel] | [? Обнимающееся лицо] [? Modelcope] [? Wisemodel] | [? Обнимающееся лицо] [? Modelcope] |
Описание типа модели:
-im , что означает, что матрица важности используется для квантования, обычно с более низким PPL, и ее рекомендуется использовать (использование такое же, как и обычная версия) Примечание
Если вы не можете получить доступ к HF, вы можете рассмотреть некоторые зеркальные сайты (например, HF-mirror.com). Пожалуйста, найдите и решите конкретные методы самостоятельно.
Соответствующие модели в этом проекте в основном поддерживают следующие методы квантования, рассуждения и развертывания. Для получения подробной информации, пожалуйста, обратитесь к соответствующему учебному пособию.
| инструмент | Функции | Процессор | Графический процессор | Количественная оценка | Графический интерфейс | API | vllm | Учебник |
|---|---|---|---|---|---|---|---|---|
| llama.cpp | Богатые варианты квантования GGUF и эффективные локальные рассуждения | ✅ | ✅ | ✅ | ✅ | ✅ | [связь] | |
| ? Трансформеры | Интерфейс вывода нативных трансформаторов | ✅ | ✅ | ✅ | ✅ | ✅ | [связь] | |
| Имитация вызовов API Openai | Демонстрация сервера, которая эмулирует интерфейс API OpenAI | ✅ | ✅ | ✅ | ✅ | ✅ | [связь] | |
| Генерация текста-вабуи | Как развернуть интерфейс интерфейса веб-интерфейса интерфейса | ✅ | ✅ | ✅ | ✅ | ✅ | [связь] | |
| LM Studio | Многоплатформенное программное обеспечение чата (с интерфейсом) | ✅ | ✅ | ✅ | ✅ | ✅ | [связь] | |
| Оллама | Локально запуск модели модели макета | ✅ | ✅ | ✅ | ✅ | [связь] |
Чтобы оценить влияние связанных моделей, этот проект провел оценку генеративного эффекта и оценку объективного эффекта (класс NLU) соответственно и оценил большую модель с разных сторон. Рекомендуется, чтобы пользователи проверяли задачи, которые они обеспокоены, и выбирать модели, которые адаптируются к связанным задачам.
C-Eval-это комплексный китайский набор базовой модели, в котором набор проверки и набор тестов содержат вопросы 1,3K и 12,3K с несколькими вариантами выбора, охватывающие 52 субъекта соответственно. Пожалуйста, обратитесь к этому проекту для C-Eval Code: GitHub Wiki
| Модели | Действительно (0-выстрел) | Действительно (5-выстрел) | Тест (0-выстрел) | Тест (5 выстрелов) |
|---|---|---|---|---|
| Llama-3-Chinese-8b-Instruct-V3 | 55,2 | 54,8 | 52,1 | 52,4 |
| Llama-3-Chinese-8b-Instruct-V2 | 51.6 | 51.6 | 49,7 | 49,8 |
| Llama-3-Chinese-8b-Instruct | 49,3 | 51,5 | 48.3 | 49,4 |
| Llama-3-Chinese-8b | 47.0 | 50,5 | 46.1 | 49,0 |
| Метамама-3-8B-Инструк | 51.3 | 51.3 | 49,5 | 51.0 |
| Метама-3-8B | 49,3 | 51.2 | 46.1 | 49,4 |
| Китайская микстральная инстакция (8x7b) | 51.7 | 55,0 | 50.0 | 51,5 |
| Китайский микстральный (8x7b) | 45,8 | 54.2 | 43.1 | 49.1 |
| Китай-Альпака-2-13B | 44.3 | 45,9 | 42,6 | 44,0 |
| Китай-лама-2-13b | 40.6 | 42,7 | 38.0 | 41.6 |
CMMLU является еще одним комплексным китайским набором данных по оценке, специально используемым для оценки способности знаний и рассуждений языковых моделей в китайском контексте, охватывая 67 тем, от основных субъектов до продвинутого профессионального уровня, в общей сложности 11,5 тыс. Вопросов с несколькими вариантами ответов. Пожалуйста, обратитесь к этому проекту для CMMLU Code: GitHub Wiki
| Модели | Тест (0-выстрел) | Тест (5 выстрелов) |
|---|---|---|
| Llama-3-Chinese-8b-Instruct-V3 | 54.4 | 54,8 |
| Llama-3-Chinese-8b-Instruct-V2 | 51.8 | 52,4 |
| Llama-3-Chinese-8b-Instruct | 49,7 | 51,5 |
| Llama-3-Chinese-8b | 48.0 | 50,9 |
| Метамама-3-8B-Инструк | 53,0 | 53,5 |
| Метама-3-8B | 47.8 | 50,8 |
| Китайская микстральная инстакция (8x7b) | 50.0 | 53,0 |
| Китайский микстральный (8x7b) | 42,5 | 51.0 |
| Китай-Альпака-2-13B | 43.2 | 45,5 |
| Китай-лама-2-13b | 38.9 | 42,5 |
MMLU - это набор данных по оценке английского языка для оценки способности к естественному языку. Это один из основных наборов данных, используемых для оценки больших возможностей модели сегодня. Набор проверки и набор тестов содержат 1,5K и 14,1K вопросов с несколькими вариантами ответов, соответственно, охватывающие 57 субъектов. Пожалуйста, обратитесь к этому проекту для кода вывода MMLU: GitHub Wiki
| Модели | Действительно (0-выстрел) | Действительно (5-выстрел) | Тест (0-выстрел) | Тест (5 выстрелов) |
|---|---|---|---|---|
| Llama-3-Chinese-8b-Instruct-V3 | 64,7 | 65,0 | 64,8 | 65,9 |
| Llama-3-Chinese-8b-Instruct-V2 | 62.1 | 63,9 | 62,6 | 63,7 |
| Llama-3-Chinese-8b-Instruct | 60.1 | 61.3 | 59,8 | 61.8 |
| Llama-3-Chinese-8b | 55,5 | 58.5 | 57.3 | 61.1 |
| Метамама-3-8B-Инструк | 63,4 | 64,8 | 65,1 | 66.4 |
| Метама-3-8B | 58.6 | 62,5 | 60.5 | 65,0 |
| Китайская микстральная инстакция (8x7b) | 65,1 | 69,6 | 67.5 | 69,8 |
| Китайский микстральный (8x7b) | 63.2 | 67.1 | 65,5 | 68.3 |
| Китай-Альпака-2-13B | 49,6 | 53,2 | 50,9 | 53,5 |
| Китай-лама-2-13b | 46.8 | 50.0 | 46.6 | 51.8 |
Longbench является ориентиром для оценки длинной способности к пониманию текста большой модели. Он состоит из 6 основных категорий и 20 различных задач. Средняя длина большинства задач составляет от 5K-15K и содержит около 4,75K тестовых данных. Ниже приводится эффект оценки этой модели проекта на эту китайскую задачу (включая задачи кода). Пожалуйста, обратитесь к этому проекту для Longbench Code: GitHub Wiki
| Модели | QA единого документа | Многодокумент QA | краткое содержание | FS Learning | Код | синтез | средний |
|---|---|---|---|---|---|---|---|
| Llama-3-Chinese-8b-Instruct-V3 | 20.3 | 28.8 | 24.5 | 28.1 | 59,4 | 91.9 | 40,5 |
| Llama-3-Chinese-8b-Instruct-V2 | 57.3 | 27.1 | 13.9 | 30.3 | 60.6 | 89,5 | 46.4 |
| Llama-3-Chinese-8b-Instruct | 44.1 | 24.0 | 12.4 | 33,5 | 51.8 | 11,5 | 29,6 |
| Llama-3-Chinese-8b | 16.4 | 19.3 | 4.3 | 28,7 | 14.3 | 4.6 | 14.6 |
| Метамама-3-8B-Инструк | 55,1 | 15.1 | 0,1 | 24.0 | 51.3 | 94,5 | 40.0 |
| Метама-3-8B | 21.2 | 22.9 | 2.7 | 35,8 | 65,9 | 40,8 | 31.6 |
| Китайская микстральная инстакция (8x7b) | 50.3 | 34.2 | 16.4 | 42,0 | 56.1 | 89,5 | 48.1 |
| Китайский микстральный (8x7b) | 32,0 | 23.7 | 0,4 | 42,5 | 27.4 | 14.0 | 23.3 |
| Китай-Альпака-2-13B-16K | 47.9 | 26.7 | 13.0 | 22.3 | 46.6 | 21,5 | 29,7 |
| Китай-лама-2-13B-16K | 36.7 | 17.7 | 3.1 | 29,8 | 13.8 | 3.0 | 17.3 |
| Китай-альпака-2-7B-64K | 44,7 | 28.1 | 14.4 | 39,0 | 44,6 | 5.0 | 29.3 |
| Китай-лама-2-7B-64K | 27.2 | 16.4 | 6.5 | 33,0 | 7,8 | 5.0 | 16.0 |
Open LLM Leader Boarde - это большой модель комплексного эталона оценки возможностей (английский), инициированный командой HuggingFaceh4, включая 6 отдельных тестов, включая ARC, Hellaswag, MMLU, Truthfulqa, Winograde, GSM8K. Ниже приводится эффект оценки этой модели проекта в этом списке.
| Модели | Дуговой | Хеллада | MMLU | TQA | Виног | GSM8K | средний |
|---|---|---|---|---|---|---|---|
| Llama-3-Chinese-8b-Instruct-V3 | 63,40 | 80.51 | 67,90 | 53,57 | 76.24 | 59,21 | 66.81 |
| Llama-3-Chinese-8b-Instruct-V2 | 62,63 | 79,72 | 66.48 | 53,93 | 76.72 | 60.58 | 66.68 |
| Llama-3-Chinese-8b-Instruct | 61.26 | 80.24 | 63.10 | 55,15 | 75.06 | 44,43 | 63,21 |
| Llama-3-Chinese-8b | 55,88 | 79,53 | 63,70 | 41.14 | 77.03 | 37.98 | 59,21 |
| Метамама-3-8B-Инструк | 60,75 | 78.55 | 67.07 | 51.65 | 74,51 | 68.69 | 66.87 |
| Метама-3-8B | 59,47 | 82.09 | 66.69 | 43,90 | 77.35 | 45,79 | 62,55 |
| Китайская микстральная инстакция (8x7b) | 67,75 | 85,67 | 71.53 | 57.46 | 83.11 | 55,65 | 70.19 |
| Китайский микстральный (8x7b) | 67.58 | 85,34 | 70.38 | 46.86 | 82.00 | 0,00 | 58.69 |
Примечание. Основная причина разницы между результатами MMLU заключается в том, что сценарии оценки различны.
При llama.cpp количественные характеристики Llama-3-Chinese-8b (базовая модель) были протестированы, как показано в таблице ниже. Фактическая скорость испытания немного медленнее, чем Llama-2-7b второго поколения.
| F16 | Q8_0 | Q6_K | Q5_K | Q5_0 | Q4_K | Q4_0 | Q3_K | Q2_K | |
|---|---|---|---|---|---|---|---|---|---|
| Размер (ГБ) | 14.97 | 7,95 | 6.14 | 5.34 | 5.21 | 4.58 | 4.34 | 3.74 | 2.96 |
| BPW | 16.00 | 8.50 | 6.56 | 5.70 | 5.57 | 4.89 | 4.64 | 4.00 | 3.16 |
| Ппл | 5.130 | 5.135 | 5.148 | 5.181 | 5.222 | 5.312 | 5.549 | 5.755 | 11.859 |
| Скорость ПП | 5.99 | 6.10 | 7.17 | 7.34 | 6.65 | 6.38 | 6.00 | 6,85 | 6.43 |
| Скорость TG | 44,03 | 26.08 | 21.61 | 22.33 | 20.93 | 18.93 | 17.09 | 22.50 | 19.21 |
Примечание
Этот проект LlaMa-3-Chinese-Instruct продолжает использовать оригинальный шаблон инструкции Llama-3-контрол. Вот набор примеров разговора:
<| begin_of_text |> <| start_header_id |> System <| end_header_id | >>
Вы полезный помощник. <| eot_id |> <| start_header_id |> user <| end_header_id | >>
Привет <| eot_id |> <| start_header_id |> Помощник <| end_header_id | >>
Привет! Есть что -нибудь, что может вам помочь? <| eot_id |>
Ниже приведены некоторые данные инструкций с открытым исходным кодом этого проекта. Для получения подробной информации, пожалуйста, проверьте: данные команды
| Имя данных | иллюстрировать | количество |
|---|---|---|
| alpaca_zh_51k | Данные Alpaca переведены с использованием GPT-3.5 | 51K |
| stem_zh_instruction | Данные STEM ползают с использованием GPT-3.5, включая физику, химию, медицину, биологию и науки о земле. | 256K |
| ruozhiba_gpt4 | Данные Q & A Ruozhiba, полученные с использованием GPT-4O и GPT-4T | 2449 |
Пожалуйста, не забудьте проверить, существует ли решение уже в FAQ, прежде чем отправить проблему. Для конкретных вопросов и ответов, пожалуйста, обратитесь к этому проекту GitHub Wiki
问题1:为什么没有像一期、二期项目一样做词表扩充?
问题2:会有70B版本发布吗?
问题3:为什么指令模型不叫Alpaca了?
问题4:本仓库模型能否商用?
问题5:为什么不对模型做全量预训练而是用LoRA?
问题6:为什么Llama-3-Chinese对话效果不好?
问题7:为什么指令模型会回复说自己是ChatGPT?
问题8:Instruct模型的v1(原版)和v2有什么区别?
Если вы использовали соответствующие ресурсы для этого проекта, обратитесь к техническому отчету, ссылаясь на этот проект: https://arxiv.org/abs/2304.08177
@article{chinese-llama-alpaca,
title={Efficient and Effective Text Encoding for Chinese LLaMA and Alpaca},
author={Cui, Yiming and Yang, Ziqing and Yao, Xin},
journal={arXiv preprint arXiv:2304.08177},
url={https://arxiv.org/abs/2304.08177},
year={2023}
}
Для анализа, следует ли расширить список слов, пожалуйста, обратитесь к цитате: https://arxiv.org/abs/2403.01851
@article{chinese-mixtral,
title={Rethinking LLM Language Adaptation: A Case Study on Chinese Mixtral},
author={Cui, Yiming and Yao, Xin},
journal={arXiv preprint arXiv:2403.01851},
url={https://arxiv.org/abs/2403.01851},
year={2024}
}
Этот проект разработан на основе модели Llama-3, выпущенной Meta. Пожалуйста, строго соблюдайте лицензионное соглашение Llama-3 с открытым исходным кодом во время использования. При использовании стороннего кода задействовано, обязательно соблюдайте соответствующее лицензионное соглашение с открытым исходным кодом. Содержание, генерируемое моделью, может влиять на его точность из -за методов расчета, случайных факторов и количественных потерь точности. Следовательно, этот проект не предоставляет никакой гарантии для точности вывода модели, а также не будет нести ответственность за любые убытки, вызванные использованием соответствующих ресурсов и результатов выходных данных. Если соответствующие модели этого проекта используются в коммерческих целях, разработчик должен соблюдать местные законы и правила для обеспечения соответствия выходному содержанию модели. Этот проект не несет ответственности за любые продукты или услуги, полученные от него.
Если у вас есть какие -либо вопросы, пожалуйста, отправьте их в выпуске GitHub. Вежливо задавать вопросы и построить гармоничное дискуссионное сообщество.
Cui and Yao, 2024. Переосмысление адаптации языка LLM: тематическое исследование китайского миктрала ↩