Repo ini berisi kode untuk menjalankan evaluasi dan mereproduksi hasil dari makalah teknis Jurassic-1 (lihat posting blog), dengan dukungan saat ini untuk menjalankan tugas melalui AI21 Studio API dan Openai's GPT3 API.
Silakan gunakan entri Bibtex berikut:
@techreport{J1WhitePaper,
author = {Lieber, Opher and Sharir, Or and Lenz, Barak and Shoham, Yoav},
title = {Jurassic-1: Technical Details And Evaluation},
institution = {AI21 Labs},
year = 2021,
month = aug,
}
git clone https://github.com/AI21Labs/lm-evaluation.git
cd lm-evaluation
pip install -e .
Titik masuk untuk menjalankan evaluasi adalah LM_EVALUASI/run_eval.py, yang menerima daftar tugas dan model untuk dijalankan.
Argumen model harus dalam bentuk "penyedia/model_name" di mana penyedia dapat menjadi "ai21" atau "openai" dan nama model adalah salah satu model yang didukung penyedia.
Saat menjalankan salah satu model API, atur kunci API Anda menggunakan variabel lingkungan AI21_Studio_API_Key dan openai_api_key. Pastikan untuk mempertimbangkan biaya dan batas kuota dari model yang Anda jalankan sebelumnya.
Contoh:
# Evaluate hellaswag and winogrande on j1-large
python -m lm_evaluation.run_eval --tasks hellaswag winogrande --models ai21/j1-large
# Evaluate all multiple-choice tasks on j1-jumbo
python -m lm_evaluation.run_eval --tasks all_mc --models ai21/j1-jumbo
# Evaluate all docprob tasks on curie and j1-large
python -m lm_evaluation.run_eval --tasks all_docprobs --models ai21/j1-large openai/curie
REPO saat ini mendukung dataset probabilitas pilihan ganda dan dokumen yang dilaporkan dalam makalah teknis Jurassic-1.
Dataset pilihan ganda diformat seperti yang dijelaskan dalam makalah GPT3, dan metrik evaluasi yang dilaporkan default dijelaskan di sana.
Semua kumpulan data yang diformat kami kecuali untuk StoryCloze tersedia secara publik dan dirujuk dalam LM_EVALUASI/TASKS_CONFIG.PY. Storycloze perlu diunduh dan diformat secara manual, dan lokasi harus dikonfigurasi melalui variabel lingkungan 'Storycloze_test_path'.
Tugas probabilitas dokumen termasuk dokumen dari 19 sumber data, termasuk C4 dan kumpulan data dari 'The Pile'.
Setiap dokumen adalah pra-split pada batas kalimat ke sub-dokumen hingga 1024 GPT token masing-masing, untuk memastikan semua model melihat input/konteks yang sama terlepas dari tokenisasi, dan untuk mendukung evaluasi model yang terbatas pada panjang urutan 1024.
Masing -masing dari 19 tugas memiliki ~ 4MB dari total data teks.
Secara default semua hasil akan disimpan ke folder 'hasil', dan menjalankan kembali tugas yang sama akan memuat hasil yang ada. Folder Hasil dapat diubah menggunakan variabel lingkungan LM_EVALUATION_RESULTS_DIR.