??中国語|英語|ドキュメント/ドキュメント| ❓質問/問題|ディスカッション/ディスカッション| ⚔️アリーナ/アリーナ

?顔を抱き締める•? ModelScope•?§マシンハートソタ!モデル • ? wisemodel•?オンラインデモ
このプロジェクトは、オープンソースモデル(フェーズIおよびフェーズII)に関連する中国 - ラマアルパカシリーズのプロジェクトの第3フェーズである新世代のオープンソースモデルLlama-3に基づいて開発されています。このプロジェクトのオープンソース中国のllama-3ベースモデルと中国のllama-3-instruct instruct微調整モデル。これらのモデルは、元のllama-3に基づいた増分前トレーニングに大規模な中国データを使用し、選択した命令データを使用して微調整して、基本的な中国のセマンティクスと命令の理解能力をさらに改善し、第2世代関連のモデルと比較して大幅なパフォーマンスの改善を取得します。
中国のミックストラルモックアップ|中国のllama-2&alpaca-2 mockup |中国のllama&alpaca mockup |マルチモーダルチャイニーズラマ&アルパカモックアップ|マルチモーダルVLE |中国のミニルブ|中国語のレート|中国の英語のパート|中国のマッバート|中国のエレクトラ|中国のxlnet |中国のバート|知識蒸留ツールTextBrewer |モデルトリミングツールTextPruner |蒸留と切断統合穀物
[2024/05/30]は、V1/V2と比較して下流タスクの大幅な改善を達成したLlama-3-Chinese-8B-instruct-V3命令モデルをリリースしました。詳細を表示:v3.0バージョンリリースログ
[2024/05/08] llama-3-chinese-8b-instruct-v2命令モデルをリリースし、500万の指導データを使用してメタラマ-3-8b-instructで微調整します。詳細を表示:V2.0バージョンリリースログ
[2024/05/07]トレーニング前のスクリプトと命令微調整スクリプトを追加します。詳細を表示:V1.1バージョンリリースログ
[2024/04/30] llama-3-chinese-8bベースモデルとllama-3-chinese-8b-instruct destruct destruct destruct destructモデルをリリースします。詳細を表示:V1.0バージョンリリースログ
[2024/04/19]中国 - ラマ・アルパカ-3プロジェクトを正式に開始
| 章 | 説明する |
|---|---|
| ?? | このプロジェクトの関連モデルの技術的特性を簡単に紹介します |
| modelダウンロード | 中国のllama-3ビッグモデルのダウンロードアドレス |
| 推論と展開 | モデルを定量化し、パーソナルコンピューターを使用して大規模なモデルを展開して体験する方法を紹介する |
| ?モデル効果 | いくつかのタスクに対するモデルの効果が導入されています |
| トレーニングと微調整 | 中国のllama-3モデルを訓練して微調整する方法を紹介する |
| ❓faq | いくつかのFAQへの返信 |
このプロジェクトでは、中国のオープンソースモデルLlama-3-ChineseとLlama-3-Cinese-Instructをメタラマ-3に基づいて立ち上げます。主な機能は次のとおりです。
以下は、このプロジェクトのモデルと推奨される使用シナリオの比較です。チャットインタラクションについては、[指示]バージョンを選択します。
| 比較項目 | llama-3-chinese-8b | llama-3-chinese-8b-instruct |
|---|---|---|
| モデルタイプ | ベースモデル | ディレクティブ/チャットモデル(クラスchatgpt) |
| モデルサイズ | 8b | 8b |
| トレーニングタイプ | 因果-LM(CLM) | 指示の微細な調整 |
| トレーニング方法 | lora +フル量b/lm-head | lora +フル量b/lm-head |
| モデルを初期化します | オリジナルのメタラマ-3-8b | V1:llama-3-chinese-8b V2:オリジナルのメタラマ-3-8B-Instruct V3:INST/INST-V2/INST-METAの組み合わせ |
| トレーニング資料 | マークされていないユニバーサルコーパス(約120GB) | マークされた命令データ(約500万個) |
| 語彙サイズ | オリジナルの語彙(128,256) | オリジナルの語彙(128,256) |
| コンテキストの長さをサポートします | 8k | 8k |
| 入力テンプレート | 不要 | Llama-3-Instructテンプレートを適用する必要があります |
| 適用可能なシナリオ | テキストの継続:上記のテキストが与えられた場合、モデルに次のテキストを生成させます | コマンド理解:Q&A、ライティング、チャット、インタラクションなど。 |
以下は、指示バージョン間の比較です。明確な好みがない場合は、instruct-v3バージョンを優先してください。
| 比較項目 | instruct-v1 | instruct-v2 | instruct-v3 |
|---|---|---|---|
| リリース時間 | 2024/4/30 | 2024/5/8 | 2024/5/30 |
| 基本モデル | オリジナルのメタラマ-3-8b | オリジナルのメタラマ-3-8b-instruct | (トレーニング方法を参照) |
| トレーニング方法 | フェーズ1:120g中国のコーパスプリトレーニングフェーズ2:500万命令データの微調整 | 500万の命令データを直接使用して微調整します | モデル融合は、Inst-V1、Inst-V2、およびInst-Metaを使用して実行され、少量の命令データ(〜5Kピース)の微調整によって取得されます。 |
| 中国の能力[1] | 49.3 / 51.5 | 51.6 / 51.6 | 55.2 / 54.8 ?? |
| 英語の習熟度[1] | 63.21 | 66.68 | 66.81 ?? |
| 長いテキスト機能[1] | 29.6 | 46.4 ?? | 40.5 |
| モックアップアリーナの勝利/eloレーティング[2] | 49.4% / 1430 | 66.1% / 1559 | 83.6% / 1627 ?? |
注記
[1]中国の能力効果はC-Eval(有効)から来ています。英語の能力効果は、Open LLM Leaderboard(AVG)から来ています。長いテキスト能力は、Longbench(AVG)から来ています。詳細については、モデル効果のセクションを参照してください。 [2] Big Model Arena Effectの取得時間:2024/5/30、参照のみ。
| モデル名 | フルバージョン | Loraバージョン | GGUFバージョン |
|---|---|---|---|
| llama-3-chinese-8b-instruct-v3 (命令モデル) | [?顔を抱き締める] [?ModelScope] [?wisemodel] | n/a | [?顔を抱き締める] [?ModelScope] |
| llama-3-chinese-8b-instruct-v2 (命令モデル) | [?顔を抱き締める] [?ModelScope] [?wisemodel] | [?顔を抱き締める] [?ModelScope] [?wisemodel] | [?顔を抱き締める] [?ModelScope] |
| llama-3-chinese-8b-instruct (命令モデル) | [?顔を抱き締める] [?ModelScope] [?wisemodel] | [?顔を抱き締める] [?ModelScope] [?wisemodel] | [?顔を抱き締める] [?ModelScope] |
| llama-3-chinese-8b (台座モデル) | [?顔を抱き締める] [?ModelScope] [?wisemodel] | [?顔を抱き締める] [?ModelScope] [?wisemodel] | [?顔を抱き締める] [?ModelScope] |
モデルタイプの説明:
-imです。つまり、重要なマトリックスは通常、低いpplで量子化に使用され、使用することをお勧めします(使用法は通常のバージョンと同じです) 注記
HFにアクセスできない場合は、いくつかのミラーサイト(HF-Mirror.comなど)を検討できます。特定の方法を自分で見つけて解決してください。
このプロジェクトの関連モデルは、主に次の量子化、推論、展開方法をサポートしています。詳細については、対応するチュートリアルを参照してください。
| 道具 | 特徴 | CPU | GPU | 定量化 | GUI | API | vllm | チュートリアル |
|---|---|---|---|---|---|---|---|---|
| llama.cpp | 豊富なGGUF量子化オプションと効率的なローカル推論 | ✅ | ✅ | ✅ | ✅ | ✅ | [リンク] | |
| ?変圧器 | ネイティブトランス推論インターフェイス | ✅ | ✅ | ✅ | ✅ | ✅ | [リンク] | |
| Openai API呼び出しの模倣 | OpenAI APIインターフェイスをエミュレートするサーバーデモ | ✅ | ✅ | ✅ | ✅ | ✅ | [リンク] | |
| Text-Generation-Webui | フロントエンドWeb UIインターフェイスを展開する方法 | ✅ | ✅ | ✅ | ✅ | ✅ | [リンク] | |
| LMスタジオ | マルチプラットフォームチャットソフトウェア(インターフェイス付き) | ✅ | ✅ | ✅ | ✅ | ✅ | [リンク] | |
| オラマ | モックアップモデルの推論をローカルに実行します | ✅ | ✅ | ✅ | ✅ | [リンク] |
関連モデルの効果を評価するために、このプロジェクトは、生成効果評価と客観的効果評価(NLUクラス)をそれぞれ実施し、異なる角度から大きなモデルを評価しました。ユーザーが懸念しているタスクでテストし、関連するタスクに適応するモデルを選択することをお勧めします。
C-Evalは、包括的な中国の基本モデル評価スイートであり、検証セットとテストセットにはそれぞれ52人の被験者をカバーする1.3Kおよび12.3Kの複数選択の質問が含まれています。 C-Eval推論コードについては、このプロジェクトを参照してください:Github Wiki
| モデル | 有効(0ショット) | 有効(5ショット) | テスト(0ショット) | テスト(5ショット) |
|---|---|---|---|---|
| llama-3-chinese-8b-instruct-v3 | 55.2 | 54.8 | 52.1 | 52.4 |
| llama-3-chinese-8b-instruct-v2 | 51.6 | 51.6 | 49.7 | 49.8 |
| llama-3-chinese-8b-instruct | 49.3 | 51.5 | 48.3 | 49.4 |
| llama-3-chinese-8b | 47.0 | 50.5 | 46.1 | 49.0 |
| メタラマ-3-8B-Instruct | 51.3 | 51.3 | 49.5 | 51.0 |
| メタラマ-3-8b | 49.3 | 51.2 | 46.1 | 49.4 |
| 中国のミクスラル - インストラクション(8x7b) | 51.7 | 55.0 | 50.0 | 51.5 |
| チャイニーズミックストラル(8x7b) | 45.8 | 54.2 | 43.1 | 49.1 |
| 中国アルパカ-2-13b | 44.3 | 45.9 | 42.6 | 44.0 |
| 中国語-llama-2-13b | 40.6 | 42.7 | 38.0 | 41.6 |
CMMLUは、中国の文脈における言語モデルの知識と推論能力を評価するために特に使用されるもう1つの包括的な中国の評価データセットであり、基本的な科目から高度な専門レベルまでの67のトピックをカバーし、合計11.5kの多肢選択の質問をカバーしています。 cmmlu推論コードについては、このプロジェクトを参照してください:github wiki
| モデル | テスト(0ショット) | テスト(5ショット) |
|---|---|---|
| llama-3-chinese-8b-instruct-v3 | 54.4 | 54.8 |
| llama-3-chinese-8b-instruct-v2 | 51.8 | 52.4 |
| llama-3-chinese-8b-instruct | 49.7 | 51.5 |
| llama-3-chinese-8b | 48.0 | 50.9 |
| メタラマ-3-8B-Instruct | 53.0 | 53.5 |
| メタラマ-3-8b | 47.8 | 50.8 |
| 中国のミクスラル - インストラクション(8x7b) | 50.0 | 53.0 |
| チャイニーズミックストラル(8x7b) | 42.5 | 51.0 |
| 中国アルパカ-2-13b | 43.2 | 45.5 |
| 中国語-llama-2-13b | 38.9 | 42.5 |
MMLUは、自然言語の理解能力を評価するための英語の評価データセットです。これは、今日の大きなモデル機能を評価するために使用される主要なデータセットの1つです。検証セットとテストセットには、それぞれ57人の被験者をカバーする1.5kおよび14.1kの複数選択の質問が含まれています。 MMLU推論コードについては、このプロジェクトを参照してください:Github Wiki
| モデル | 有効(0ショット) | 有効(5ショット) | テスト(0ショット) | テスト(5ショット) |
|---|---|---|---|---|
| llama-3-chinese-8b-instruct-v3 | 64.7 | 65.0 | 64.8 | 65.9 |
| llama-3-chinese-8b-instruct-v2 | 62.1 | 63.9 | 62.6 | 63.7 |
| llama-3-chinese-8b-instruct | 60.1 | 61.3 | 59.8 | 61.8 |
| llama-3-chinese-8b | 55.5 | 58.5 | 57.3 | 61.1 |
| メタラマ-3-8B-Instruct | 63.4 | 64.8 | 65.1 | 66.4 |
| メタラマ-3-8b | 58.6 | 62.5 | 60.5 | 65.0 |
| 中国のミクスラル - インストラクション(8x7b) | 65.1 | 69.6 | 67.5 | 69.8 |
| チャイニーズミックストラル(8x7b) | 63.2 | 67.1 | 65.5 | 68.3 |
| 中国アルパカ-2-13b | 49.6 | 53.2 | 50.9 | 53.5 |
| 中国語-llama-2-13b | 46.8 | 50.0 | 46.6 | 51.8 |
ロングベンチは、大規模なモデルの長いテキスト理解能力を評価するためのベンチマークです。 6つの主要なカテゴリと20の異なるタスクで構成されています。ほとんどのタスクの平均長は5K-15Kで、約4.75Kのテストデータが含まれています。以下は、この中国のタスク(コードタスクを含む)に対するこのプロジェクトモデルの評価効果です。ロングベンチの推論コードについては、このプロジェクトを参照してください:github wiki
| モデル | 単一のドキュメントQA | マルチドキュメントQA | まとめ | FS学習 | コード | 合成 | 平均 |
|---|---|---|---|---|---|---|---|
| llama-3-chinese-8b-instruct-v3 | 20.3 | 28.8 | 24.5 | 28.1 | 59.4 | 91.9 | 40.5 |
| llama-3-chinese-8b-instruct-v2 | 57.3 | 27.1 | 13.9 | 30.3 | 60.6 | 89.5 | 46.4 |
| llama-3-chinese-8b-instruct | 44.1 | 24.0 | 12.4 | 33.5 | 51.8 | 11.5 | 29.6 |
| llama-3-chinese-8b | 16.4 | 19.3 | 4.3 | 28.7 | 14.3 | 4.6 | 14.6 |
| メタラマ-3-8B-Instruct | 55.1 | 15.1 | 0.1 | 24.0 | 51.3 | 94.5 | 40.0 |
| メタラマ-3-8b | 21.2 | 22.9 | 2.7 | 35.8 | 65.9 | 40.8 | 31.6 |
| 中国のミクスラル - インストラクション(8x7b) | 50.3 | 34.2 | 16.4 | 42.0 | 56.1 | 89.5 | 48.1 |
| チャイニーズミックストラル(8x7b) | 32.0 | 23.7 | 0.4 | 42.5 | 27.4 | 14.0 | 23.3 |
| 中国アルパカ-2-13B-16K | 47.9 | 26.7 | 13.0 | 22.3 | 46.6 | 21.5 | 29.7 |
| 中国語-llama-2-13b-16k | 36.7 | 17.7 | 3.1 | 29.8 | 13.8 | 3.0 | 17.3 |
| 中国アルパカ-2-7B-64K | 44.7 | 28.1 | 14.4 | 39.0 | 44.6 | 5.0 | 29.3 |
| 中国語-llama-2-7b-64k | 27.2 | 16.4 | 6.5 | 33.0 | 7.8 | 5.0 | 16.0 |
Open LLM Leaderboardは、ARC、Hellaswag、MMLU、Truthfulqa、Winograde、GSM8Kを含む6つの単一テストを含む、HuggingfaceH4チームによって開始された大規模なモデル包括的な機能評価ベンチマーク(英語)です。このリストに対するこのプロジェクトモデルの評価効果は次のとおりです。
| モデル | アーク | ヘラス | mmlu | TQA | winog | GSM8K | 平均 |
|---|---|---|---|---|---|---|---|
| llama-3-chinese-8b-instruct-v3 | 63.40 | 80.51 | 67.90 | 53.57 | 76.24 | 59.21 | 66.81 |
| llama-3-chinese-8b-instruct-v2 | 62.63 | 79.72 | 66.48 | 53.93 | 76.72 | 60.58 | 66.68 |
| llama-3-chinese-8b-instruct | 61.26 | 80.24 | 63.10 | 55.15 | 75.06 | 44.43 | 63.21 |
| llama-3-chinese-8b | 55.88 | 79.53 | 63.70 | 41.14 | 77.03 | 37.98 | 59.21 |
| メタラマ-3-8B-Instruct | 60.75 | 78.55 | 67.07 | 51.65 | 74.51 | 68.69 | 66.87 |
| メタラマ-3-8b | 59.47 | 82.09 | 66.69 | 43.90 | 77.35 | 45.79 | 62.55 |
| 中国のミクスラル - インストラクション(8x7b) | 67.75 | 85.67 | 71.53 | 57.46 | 83.11 | 55.65 | 70.19 |
| チャイニーズミックストラル(8x7b) | 67.58 | 85.34 | 70.38 | 46.86 | 82.00 | 0.00 | 58.69 |
注:MMLUの結果の違いの主な理由は、評価スクリプトが異なることです。
llama.cppでは、以下の表に示すように、llama-3-chinese-8b(基本モデル)の定量的パフォーマンスをテストしました。実際のテスト速度は、第2世代のllama-2-7bよりもわずかに遅いです。
| F16 | Q8_0 | Q6_K | Q5_K | Q5_0 | Q4_K | Q4_0 | Q3_K | Q2_K | |
|---|---|---|---|---|---|---|---|---|---|
| サイズ(GB) | 14.97 | 7.95 | 6.14 | 5.34 | 5.21 | 4.58 | 4.34 | 3.74 | 2.96 |
| BPW | 16.00 | 8.50 | 6.56 | 5.70 | 5.57 | 4.89 | 4.64 | 4.00 | 3.16 |
| ppl | 5.130 | 5.135 | 5.148 | 5.181 | 5.222 | 5.312 | 5.549 | 5.755 | 11.859 |
| PP速度 | 5.99 | 6.10 | 7.17 | 7.34 | 6.65 | 6.38 | 6.00 | 6.85 | 6.43 |
| TG速度 | 44.03 | 26.08 | 21.61 | 22.33 | 20.93 | 18.93 | 17.09 | 22.50 | 19.21 |
注記
このプロジェクトLlama-3-Chinese-Instructは、元のLlama-3-Instruct命令テンプレートを引き続き使用しています。これが一連の会話の例です:
<| begin_of_text |> <| start_header_id |> system <| end_header_id | >>
あなたは親切なアシスタントです。 <| eot_id |> <| start_header_id |>ユーザー<| end_header_id | >>
こんにちは<| eot_id |> <| start_header_id |>アシスタント<| end_header_id | >>
こんにちは!あなたを助けることができるものはありますか? <| eot_id |>
以下は、このプロジェクトのオープンソース命令データの一部です。詳細については、コマンドデータを確認してください
| データ名 | 説明します | 量 |
|---|---|---|
| alpaca_zh_51k | GPT-3.5を使用して翻訳されたALPACAデータ | 51K |
| STEM_ZH_INSTRUCTION | 物理学、化学、医学、生物学、地球科学を含むGPT-3.5を使用してクロールされたSTEMデータ | 256K |
| ruozhiba_gpt4 | GPT-4OおよびGPT-4Tを使用して取得したRuozhiba Q&Aデータ | 2449 |
問題を提出する前に、ソリューションがFAQに既に存在するかどうかを必ず確認してください。具体的な質問と回答については、このプロジェクトGithub wikiを参照してください
问题1:为什么没有像一期、二期项目一样做词表扩充?
问题2:会有70B版本发布吗?
问题3:为什么指令模型不叫Alpaca了?
问题4:本仓库模型能否商用?
问题5:为什么不对模型做全量预训练而是用LoRA?
问题6:为什么Llama-3-Chinese对话效果不好?
问题7:为什么指令模型会回复说自己是ChatGPT?
问题8:Instruct模型的v1(原版)和v2有什么区别?
このプロジェクトに関連するリソースを使用している場合は、このプロジェクトを引用する技術レポートを参照してください:https://arxiv.org/abs/2304.08177
@article{chinese-llama-alpaca,
title={Efficient and Effective Text Encoding for Chinese LLaMA and Alpaca},
author={Cui, Yiming and Yang, Ziqing and Yao, Xin},
journal={arXiv preprint arXiv:2304.08177},
url={https://arxiv.org/abs/2304.08177},
year={2023}
}
単語リストを拡張するかどうかの分析については、引用符://arxiv.org/abs/2403.01851を参照してください。
@article{chinese-mixtral,
title={Rethinking LLM Language Adaptation: A Case Study on Chinese Mixtral},
author={Cui, Yiming and Yao, Xin},
journal={arXiv preprint arXiv:2403.01851},
url={https://arxiv.org/abs/2403.01851},
year={2024}
}
このプロジェクトは、MetaがリリースしたLlama-3モデルに基づいて開発されています。使用中のLlama-3のオープンソースライセンス契約を厳守してください。サードパーティのコードを使用している場合は、関連するオープンソースライセンス契約を遵守してください。モデルによって生成されるコンテンツは、計算方法、ランダム因子、および定量的精度の損失により、精度に影響を与える可能性があります。したがって、このプロジェクトは、モデル出力の精度を保証するものではなく、関連するリソースと出力結果の使用によって引き起こされる損失についても責任を負いません。このプロジェクトの関連モデルが商業目的で使用されている場合、開発者はモデルの出力コンテンツのコンプライアンスを確保するために、現地の法律と規制を順守するものとします。このプロジェクトは、そこから派生した製品またはサービスに対して責任を負いません。
ご質問がある場合は、GitHub Issueで送信してください。丁寧に質問し、調和のとれたディスカッションコミュニティを構築します。
Cui and Yao、2024。LLM言語適応の再考:中国のMixtralの事例研究