llm memoryダウンロード-LLM llm memoryソースコードのダウンロード

llm memory

AI ソースコード

1.0.0

ダウンロード

LLMSでの少数のショットメモリの認識、リコール、保持

このリポジトリには、次の論文で報告されている結果を再現するためのコードが含まれています。

Orhan AE（2023）大きな言語モデルでの少数のショット記憶の認識、リコール、保持。 Arxiv：2303.17557。

リポジトリには、3つのpythonファイルtrain.py 、 test.py 、 generate.py （すべてここではハグファイスの因果言語モデリングの例から変更された）を含み、モデルをトレーニング（または凝視）し、認識テストを実行し、リコールテストを実行します。

使用例

これらのファイルのいくつかの使用例を以下に示します。

Huggingface Accelerate Frameworkを使用して、4 GPU（4x4 = 16文の合計バッチサイズ4x4 = 16文）で1エポック（1エクスポージャー）の1つのseen_data_0.json （1エクスポージャー）の研究文を持つgpt-j-6BモデルをFintune A GPT-J-6Bモデル

 accelerate launch - - config_file accelerate_config . yaml - - num_cpu_threads_per_process 4 train . py 
    - - model_name_or_path "EleutherAI/gpt-j-6B" 
    - - train_file "data/llm-experiment-data/expt1/seen_data_0.json" 
    - - per_device_train_batch_size 4 
    - - learning_rate 0.00001 
    - - output_dir OUTPUT_DIR 
    - - save_prefix INFORMATIVE_SAVE_PREFIX 
    - - block_size 128 
    - - num_train_epochs 1 
    - - overwrite_cache

seen_data_0.jsonとfoilsの研究文でモデルで認識テストを実行し、 unseen_data_0.json ：

 python - u test . py 
    - - model_name_or_path MODEL_PATH 
    - - seen_file "data/llm-experiment-data/expt1/seen_data_0.json" 
    - - unseen_file "data/llm-experiment-data/expt1/unseen_data_0.json" 
    - - per_device_eval_batch_size 1 
    - - output_dir OUTPUT_DIR 
    - - save_prefix INFORMATIVE_SAVE_PREFIX 
    - - block_size 128 
    - - overwrite_cache

seen_data_0.jsonで研究文を使用してモデルを使用してリコールテストを実行します：

 python - u generate . py 
    - - model_name_or_path MODEL_PATH 
    - - seen_file "data/llm-experiment-data/expt1/seen_data_0.json" 
    - - per_device_eval_batch_size 1 
    - - output_dir OUTPUT_DIR 
    - - save_prefix INFORMATIVE_SAVE_PREFIX 
    - - block_size 128 
    - - overwrite_cache

再生

scriptsフォルダーには、これら3つのファイルを使用して、論文で報告されているすべての実験を再現するためのSluRMスクリプトが含まれています。 dataフォルダーには、実験で使用されるすべての実験データが含まれています。 utilsフォルダーには、実験データの生成に使用されたユーティリティ関数が含まれています。この論文で報告されているすべての認識、リコール、および保持実験の結果は、このハグFaceデータセットリポジトリから入手できます。

拡大する

追加情報