lm evaluation 다운로드 -LM lm evaluation 소스 코드 다운로드

lm evaluation

AI 소스 코드

1.0.0

다운로드

LM 평가 테스트 스위트

이 repo에는 AI21 Studio API와 OpenAI의 GPT3 API를 통해 작업을 실행하는 데 대한 현재 지원을 통해 평가를 실행하고 Jurassic-1 기술 논문 (블로그 게시물 참조)의 결과를 재현하기위한 코드가 포함되어 있습니다.

소환

다음 Bibtex 항목을 사용하십시오.

 @techreport{J1WhitePaper,
  author = {Lieber, Opher and Sharir, Or and Lenz, Barak and Shoham, Yoav},
  title = {Jurassic-1: Technical Details And Evaluation},
  institution = {AI21 Labs},
  year = 2021,
  month = aug,
}

설치

 git clone https://github.com/AI21Labs/lm-evaluation.git
cd lm-evaluation
pip install -e .

용법

평가를 실행하기위한 진입 점은 lm_evaluation/run_eval.py이며 실행할 작업 및 모델 목록을 수신합니다.

모델 인수는 제공자가 "AI21"또는 "OpenAI"가 될 수있는 "Prudider/Model_Name"형식이어야하며 모델 이름은 제공자가 지원하는 모델 중 하나입니다.

API 모델 중 하나를 실행할 때 환경 변수 AI21_studio_api_key 및 OpenAi_api_key를 사용하여 API 키를 설정하십시오. 미리 실행중인 모델의 비용과 할당량 제한을 고려해야합니다.

예 :

# Evaluate hellaswag and winogrande on j1-large
python -m lm_evaluation.run_eval --tasks hellaswag winogrande --models ai21/j1-large

# Evaluate all multiple-choice tasks on j1-jumbo
python -m lm_evaluation.run_eval --tasks all_mc --models ai21/j1-jumbo

# Evaluate all docprob tasks on curie and j1-large
python -m lm_evaluation.run_eval --tasks all_docprobs --models ai21/j1-large openai/curie

데이터 세트

리포는 현재 Jurassic-1 기술 논문에보고 된 제로 샷 객관식 및 문서 확률 데이터 세트를 지원합니다.

객관식

객관식 데이터 세트는 GPT3 용지에 설명 된대로 형식화되며 기본보고 된 평가 메트릭은 여기에 설명 된 것입니다.

StoryCloze를 제외한 모든 형식의 데이터 세트는 LM_Evaluation/tasks_config.py에서 공개적으로 사용할 수 있으며 참조됩니다. StoryCloze는 수동으로 다운로드 및 형식화되어야하며 위치는 환경 변수 'StoryCloze_test_path'를 통해 구성해야합니다.