該回購包含用於運行評估的代碼並重現Jurassic-1技術論文的結果(請參閱博客文章),當前支持通過AI21 Studio API和OpenAI的GPT3 API運行任務。
請使用以下Bibtex條目:
@techreport{J1WhitePaper,
author = {Lieber, Opher and Sharir, Or and Lenz, Barak and Shoham, Yoav},
title = {Jurassic-1: Technical Details And Evaluation},
institution = {AI21 Labs},
year = 2021,
month = aug,
}
git clone https://github.com/AI21Labs/lm-evaluation.git
cd lm-evaluation
pip install -e .
運行評估的輸入點是lm_evaluation/run_eval.py,它接收到要運行的任務和模型列表。
模型參數應為“提供商/model_name”的形式,其中提供商可以為“ AI21”或“ OpenAI”,並且模型名稱是提供商支持的模型之一。
通過一種API模型運行時,請使用環境變量AI21_STUDIO_API_KEY和OPERAI_API_KEY設置您的API密鑰。確保考慮您事先運行的模型的成本和配額限制。
示例:
# Evaluate hellaswag and winogrande on j1-large
python -m lm_evaluation.run_eval --tasks hellaswag winogrande --models ai21/j1-large
# Evaluate all multiple-choice tasks on j1-jumbo
python -m lm_evaluation.run_eval --tasks all_mc --models ai21/j1-jumbo
# Evaluate all docprob tasks on curie and j1-large
python -m lm_evaluation.run_eval --tasks all_docprobs --models ai21/j1-large openai/curie
目前,該存儲庫支持了《侏羅紀-1技術論文》中報告的零射擊多項選擇和文檔概率數據集。
按照GPT3論文中所述的多項選擇數據集的格式,默認報告的評估指標是其中所述的。
除了StoryCloze之外,我們所有格式化的數據集公開可用,並在LM_EVALUATION/TASKS_CONFIG.PY中引用。需要手動下載和格式化StoryCloze,該位置應通過環境變量“ storycloze_test_path”配置。
文檔概率任務包括來自19個數據源的文檔,包括C4和“堆”的數據集。
每個文檔都是在句子邊界上預先放置的,每個文檔每個文檔最多1024個GPT代幣,以確保所有模型都可以看到相同的輸入/上下文,而不論令牌化如何,並支持對限制在1024序列長度的模型的評估。
這19個任務中的每一個都有約4MB的總文本數據。
默認情況下,所有結果都將保存到文件夾“結果”中,並且重新設計相同的任務將加載現有結果。可以使用環境變量lm_evaluation_results_dir更改結果文件夾。