llm memory
1.0.0
このリポジトリには、次の論文で報告されている結果を再現するためのコードが含まれています。
Orhan AE(2023)大きな言語モデルでの少数のショット記憶の認識、リコール、保持。 Arxiv:2303.17557。
リポジトリには、3つのpythonファイルtrain.py 、 test.py 、 generate.py (すべてここではハグファイスの因果言語モデリングの例から変更された)を含み、モデルをトレーニング(または凝視)し、認識テストを実行し、リコールテストを実行します。
これらのファイルのいくつかの使用例を以下に示します。
seen_data_0.json (1エクスポージャー)の研究文を持つgpt-j-6BモデルをFintune A GPT-J-6Bモデル accelerate launch - - config_file accelerate_config . yaml - - num_cpu_threads_per_process 4 train . py
- - model_name_or_path "EleutherAI/gpt-j-6B"
- - train_file "data/llm-experiment-data/expt1/seen_data_0.json"
- - per_device_train_batch_size 4
- - learning_rate 0.00001
- - output_dir OUTPUT_DIR
- - save_prefix INFORMATIVE_SAVE_PREFIX
- - block_size 128
- - num_train_epochs 1
- - overwrite_cacheseen_data_0.jsonとfoilsの研究文でモデルで認識テストを実行し、 unseen_data_0.json : python - u test . py
- - model_name_or_path MODEL_PATH
- - seen_file "data/llm-experiment-data/expt1/seen_data_0.json"
- - unseen_file "data/llm-experiment-data/expt1/unseen_data_0.json"
- - per_device_eval_batch_size 1
- - output_dir OUTPUT_DIR
- - save_prefix INFORMATIVE_SAVE_PREFIX
- - block_size 128
- - overwrite_cacheseen_data_0.jsonで研究文を使用してモデルを使用してリコールテストを実行します: python - u generate . py
- - model_name_or_path MODEL_PATH
- - seen_file "data/llm-experiment-data/expt1/seen_data_0.json"
- - per_device_eval_batch_size 1
- - output_dir OUTPUT_DIR
- - save_prefix INFORMATIVE_SAVE_PREFIX
- - block_size 128
- - overwrite_cachescriptsフォルダーには、これら3つのファイルを使用して、論文で報告されているすべての実験を再現するためのSluRMスクリプトが含まれています。 dataフォルダーには、実験で使用されるすべての実験データが含まれています。 utilsフォルダーには、実験データの生成に使用されたユーティリティ関数が含まれています。この論文で報告されているすべての認識、リコール、および保持実験の結果は、このハグFaceデータセットリポジトリから入手できます。