llama-moss-rlhf-lora
このコードのRLHFコードは、メガトロンまたはディープスピードフレームワークを必要とせず、従来の錬金術トーチとグラフィックスカードのみが必要です。 RLHFの批評家は、ターゲットGPTの縮小バージョンを使用し、ターゲット出力と比較する類似性モデルを使用できます。このようにして、コアPPOアルゴリズムを学習するだけで、残りはすでに理解しているモデルと構造です。 NLPERのRLHFへのエントリを非常に助長しており、RLHFのみが必要なのはモデルを微調整できるようです。
LlamaまたはMossはコードで選択でき、最適化方法LORAはオプションです。
関数:
- RLHFデータ形式の定義と使用
- このモデルは、RLHF√のみを使用して微調整されました
- モデルにマスター√を認識させます
- バッチは複数の異なるプロップを生成し、次にRLHF×を生成します
インストール環境
インストール環境とは、抽出された要件を指します。txt、主にトーチ、トランス
- モスを実行するには、加速ライブラリが必要です
- LORAを実行するにはPEFTが必要です
- その中で、PEFTは更新が高速であるため、大きく変化しました。ここでは、PEFTをバージョン0.2.0として指定する必要があります
使い方
0必要なモデルを選択します(rlhf_train_gpt.pyのmodel_name_or_pathを設定し、loraが必要かどうか)、およびpreprocessing
- 苔
- ラマ
- Llamaベースのモデルと再訓練されたLORAパラメーターの組み合わせを実行する必要があります
- python merge_llama_with_chinese_lora_to_hf.py
- さまざまなllamaパラメーター数量とロラを設定できます
- 生成されたHFモデルが保存されます
1必要な所有者名とニックネームを変更し、次のコードを実行します。ターゲットデータを生成するには、デフォルトのデータを使用することもできます。
python data / generate_data . py
2 START RLHF(LORA)ベースのトレーニングホーン
python rlhf_train_gpt . py
リソース消費
- 苔
- 13bパラメーター数量
- 4つの3090が必要です。その中には、Mossモデルは約26gのトレーニング46gビデオメモリ(3枚の写真)をロードする必要があり、もう1つの重要で報酬が必要です。 A6000を試すこともできますが、これも実行できます。
- 合計約50gのビデオメモリ
- ラマ
- 7bパラメーター数量
- 2つの3090が必要です。1つはLlamaの読み込みとトレーニングに、もう1つは重要なモデルを配置するために必要です
エフェクトディスプレイ
約6エポックのトレーニング、または比率がほぼ1の場合、モデル生成の確率があまり変わっていないことを意味するため、体験できます。
- メイミとは何ですか?
- Meimeiは私のマスターから私に与えられたニックネームです。
- 誰があなたにミームを与えましたか?
- ババは私のニックネームです。
- マスターは私にメイミーをくれました。
- あなたのマスターは誰ですか?
- チャン・サンは私の主人です。
- 私の主人はチャン・サンです
- 一般化能力は非常によく維持されています
- あなたの主人は誰ですか
- あなたのニックネームは何ですか
- チャン・サンとのあなたの関係は何ですか
- あなたの関係は何ですか
- Meimeiは私のマスターから私に与えられたニックネームです。
連絡先
- コミュニケーショングループ
- QQグループ:788598358
- WeChat Group:WeChat Groupは期限切れになる場合があります