lm evaluationダウンロード-LM lm evaluationソースコードのダウンロード

lm evaluation

AI ソースコード

1.0.0

ダウンロード

LM評価テストスイート

このレポは、評価を実行し、Jurassic-1テクニカルペーパーの結果を再現するためのコードが含まれており（ブログ投稿を参照）、AI21 Studio APIとOpenaiのGPT3 APIの両方を介してタスクを実行するための現在のサポートが含まれています。

引用

次のbibtexエントリを使用してください。

 @techreport{J1WhitePaper,
  author = {Lieber, Opher and Sharir, Or and Lenz, Barak and Shoham, Yoav},
  title = {Jurassic-1: Technical Details And Evaluation},
  institution = {AI21 Labs},
  year = 2021,
  month = aug,
}

インストール

 git clone https://github.com/AI21Labs/lm-evaluation.git
cd lm-evaluation
pip install -e .

使用法

評価を実行するためのエントリポイントは、lm_evaluation/run_eval.pyで、実行するタスクとモデルのリストを受け取ります。

モデルの引数は、プロバイダーが「AI21」または「OpenAI」にすることができ、モデル名はプロバイダーサポートモデルの1つである「プロバイダー/model_name」という形式である必要があります。

APIモデルのいずれかを実行するときは、環境変数AI21_STUDIO_API_KEYおよびOpenAI_API_KEYを使用してAPIキーを設定します。事前に実行しているモデルのコストとクォータの制限を必ず検討してください。

例：

# Evaluate hellaswag and winogrande on j1-large
python -m lm_evaluation.run_eval --tasks hellaswag winogrande --models ai21/j1-large

# Evaluate all multiple-choice tasks on j1-jumbo
python -m lm_evaluation.run_eval --tasks all_mc --models ai21/j1-jumbo

# Evaluate all docprob tasks on curie and j1-large
python -m lm_evaluation.run_eval --tasks all_docprobs --models ai21/j1-large openai/curie

データセット

現在、このリポジトリは、Jurassic-1テクニカルペーパーで報告されているゼロショットの複数選択およびドキュメント確率データセットをサポートしています。

複数選択

Multhy ChoiceデータセットはGPT3ペーパーで説明されているようにフォーマットされており、デフォルトの報告された評価メトリックはそこに記載されているものです。

StoryClozeを除くすべてのフォーマットされたデータセットは公開されており、lm_evaluation/tasks_config.pyで参照されています。 StoryClozeは手動でダウンロードしてフォーマットする必要があり、場所は環境変数「StoryCloze_Test_Path」を介して構成する必要があります。