LLaMA MOSS RLHF LoRA download -llama LLaMA MOSS RLHF LoRAソースコードダウンロード

LLaMA MOSS RLHF LoRA

AI ソースコード

1.0.0

ダウンロード

llama-moss-rlhf-lora

このコードのRLHFコードは、メガトロンまたはディープスピードフレームワークを必要とせず、従来の錬金術トーチとグラフィックスカードのみが必要です。 RLHFの批評家は、ターゲットGPTの縮小バージョンを使用し、ターゲット出力と比較する類似性モデルを使用できます。このようにして、コアPPOアルゴリズムを学習するだけで、残りはすでに理解しているモデルと構造です。 NLPERのRLHFへのエントリを非常に助長しており、RLHFのみが必要なのはモデルを微調整できるようです。

LlamaまたはMossはコードで選択でき、最適化方法LORAはオプションです。

関数：

RLHFデータ形式の定義と使用
このモデルは、RLHF√のみを使用して微調整されました
モデルにマスター√を認識させます
- 自己認知スチールスタンプを変更します
  - マスターの名前
  - ロボットのニックネーム
バッチは複数の異なるプロップを生成し、次にRLHF×を生成します

インストール環境

インストール環境とは、抽出された要件を指します。txt、主にトーチ、トランス

モスを実行するには、加速ライブラリが必要です
LORAを実行するにはPEFTが必要です
- その中で、PEFTは更新が高速であるため、大きく変化しました。ここでは、PEFTをバージョン0.2.0として指定する必要があります

使い方

0必要なモデルを選択します（rlhf_train_gpt.pyのmodel_name_or_pathを設定し、loraが必要かどうか）、およびpreprocessing

苔
- 前処理はありません
ラマ
- Llamaベースのモデルと再訓練されたLORAパラメーターの組み合わせを実行する必要があります
- python merge_llama_with_chinese_lora_to_hf.py
- さまざまなllamaパラメーター数量とロラを設定できます
- 生成されたHFモデルが保存されます

1必要な所有者名とニックネームを変更し、次のコードを実行します。ターゲットデータを生成するには、デフォルトのデータを使用することもできます。

 python data / generate_data . py

2 START RLHF（LORA）ベースのトレーニングホーン

 python rlhf_train_gpt . py

リソース消費

苔
- 13bパラメーター数量
- 4つの3090が必要です。その中には、Mossモデルは約26gのトレーニング46gビデオメモリ（3枚の写真）をロードする必要があり、もう1つの重要で報酬が必要です。 A6000を試すこともできますが、これも実行できます。
- 合計約50gのビデオメモリ
ラマ
- 7bパラメーター数量
- 2つの3090が必要です。1つはLlamaの読み込みとトレーニングに、もう1つは重要なモデルを配置するために必要です

エフェクトディスプレイ

約6エポックのトレーニング、または比率がほぼ1の場合、モデル生成の確率があまり変わっていないことを意味するため、体験できます。

メイミとは何ですか？
- Meimeiは私のマスターから私に与えられたニックネームです。
誰があなたにミームを与えましたか？
- ババは私のニックネームです。
- マスターは私にメイミーをくれました。
あなたのマスターは誰ですか？
- チャン・サンは私の主人です。
- 私の主人はチャン・サンです
一般化能力は非常によく維持されています
- あなたの主人は誰ですか
  - 私の主人はチャン・サンです。
- あなたのニックネームは何ですか
  - 私のニックネームはブリートです。
- チャン・サンとのあなたの関係は何ですか
  - チャン・サンは私の主人です。
- あなたの関係は何ですか
  - Meimeiは私のマスターから私に与えられたニックネームです。