이 repo에는 AI21 Studio API와 OpenAI의 GPT3 API를 통해 작업을 실행하는 데 대한 현재 지원을 통해 평가를 실행하고 Jurassic-1 기술 논문 (블로그 게시물 참조)의 결과를 재현하기위한 코드가 포함되어 있습니다.
다음 Bibtex 항목을 사용하십시오.
@techreport{J1WhitePaper,
author = {Lieber, Opher and Sharir, Or and Lenz, Barak and Shoham, Yoav},
title = {Jurassic-1: Technical Details And Evaluation},
institution = {AI21 Labs},
year = 2021,
month = aug,
}
git clone https://github.com/AI21Labs/lm-evaluation.git
cd lm-evaluation
pip install -e .
평가를 실행하기위한 진입 점은 lm_evaluation/run_eval.py이며 실행할 작업 및 모델 목록을 수신합니다.
모델 인수는 제공자가 "AI21"또는 "OpenAI"가 될 수있는 "Prudider/Model_Name"형식이어야하며 모델 이름은 제공자가 지원하는 모델 중 하나입니다.
API 모델 중 하나를 실행할 때 환경 변수 AI21_studio_api_key 및 OpenAi_api_key를 사용하여 API 키를 설정하십시오. 미리 실행중인 모델의 비용과 할당량 제한을 고려해야합니다.
예 :
# Evaluate hellaswag and winogrande on j1-large
python -m lm_evaluation.run_eval --tasks hellaswag winogrande --models ai21/j1-large
# Evaluate all multiple-choice tasks on j1-jumbo
python -m lm_evaluation.run_eval --tasks all_mc --models ai21/j1-jumbo
# Evaluate all docprob tasks on curie and j1-large
python -m lm_evaluation.run_eval --tasks all_docprobs --models ai21/j1-large openai/curie
리포는 현재 Jurassic-1 기술 논문에보고 된 제로 샷 객관식 및 문서 확률 데이터 세트를 지원합니다.
객관식 데이터 세트는 GPT3 용지에 설명 된대로 형식화되며 기본보고 된 평가 메트릭은 여기에 설명 된 것입니다.
StoryCloze를 제외한 모든 형식의 데이터 세트는 LM_Evaluation/tasks_config.py에서 공개적으로 사용할 수 있으며 참조됩니다. StoryCloze는 수동으로 다운로드 및 형식화되어야하며 위치는 환경 변수 'StoryCloze_test_path'를 통해 구성해야합니다.
문서 확률 작업에는 C4 및 'The File'의 데이터 세트를 포함한 19 개의 데이터 소스의 문서가 포함됩니다.
각 문서는 각 모델이 토큰 화에 관계없이 동일한 입력/컨텍스트를 보도록하고 1024의 서열 길이로 제한되는 모델의 평가를 지원하기 위해 각각 최대 1024 GPT 토큰의 하위 문서에 대한 문장 경계에서 사전 분할입니다.
19 개의 작업 각각에는 ~ 4MB의 총 텍스트 데이터가 있습니다.
기본적으로 모든 결과는 폴더 '결과'에 저장되며 동일한 작업이 기존 결과를로드합니다. 환경 변수 lm_evaluation_results_dir를 사용하여 결과 폴더를 변경할 수 있습니다.