Unduh lm evaluation - Unduh Kode Sumber lm evaluation

lm evaluation

Kode Sumber AI

1.0.0

Unduh

Suite Tes Evaluasi LM

Repo ini berisi kode untuk menjalankan evaluasi dan mereproduksi hasil dari makalah teknis Jurassic-1 (lihat posting blog), dengan dukungan saat ini untuk menjalankan tugas melalui AI21 Studio API dan Openai's GPT3 API.

Kutipan

Silakan gunakan entri Bibtex berikut:

 @techreport{J1WhitePaper,
  author = {Lieber, Opher and Sharir, Or and Lenz, Barak and Shoham, Yoav},
  title = {Jurassic-1: Technical Details And Evaluation},
  institution = {AI21 Labs},
  year = 2021,
  month = aug,
}

Instalasi

 git clone https://github.com/AI21Labs/lm-evaluation.git
cd lm-evaluation
pip install -e .

Penggunaan

Titik masuk untuk menjalankan evaluasi adalah LM_EVALUASI/run_eval.py, yang menerima daftar tugas dan model untuk dijalankan.

Argumen model harus dalam bentuk "penyedia/model_name" di mana penyedia dapat menjadi "ai21" atau "openai" dan nama model adalah salah satu model yang didukung penyedia.

Saat menjalankan salah satu model API, atur kunci API Anda menggunakan variabel lingkungan AI21_Studio_API_Key dan openai_api_key. Pastikan untuk mempertimbangkan biaya dan batas kuota dari model yang Anda jalankan sebelumnya.

Contoh:

# Evaluate hellaswag and winogrande on j1-large
python -m lm_evaluation.run_eval --tasks hellaswag winogrande --models ai21/j1-large

# Evaluate all multiple-choice tasks on j1-jumbo
python -m lm_evaluation.run_eval --tasks all_mc --models ai21/j1-jumbo

# Evaluate all docprob tasks on curie and j1-large
python -m lm_evaluation.run_eval --tasks all_docprobs --models ai21/j1-large openai/curie

Kumpulan data

REPO saat ini mendukung dataset probabilitas pilihan ganda dan dokumen yang dilaporkan dalam makalah teknis Jurassic-1.

Pilihan ganda

Dataset pilihan ganda diformat seperti yang dijelaskan dalam makalah GPT3, dan metrik evaluasi yang dilaporkan default dijelaskan di sana.

Semua kumpulan data yang diformat kami kecuali untuk StoryCloze tersedia secara publik dan dirujuk dalam LM_EVALUASI/TASKS_CONFIG.PY. Storycloze perlu diunduh dan diformat secara manual, dan lokasi harus dikonfigurasi melalui variabel lingkungan 'Storycloze_test_path'.

Probabilitas dokumen

Tugas probabilitas dokumen termasuk dokumen dari 19 sumber data, termasuk C4 dan kumpulan data dari 'The Pile'.

Setiap dokumen adalah pra-split pada batas kalimat ke sub-dokumen hingga 1024 GPT token masing-masing, untuk memastikan semua model melihat input/konteks yang sama terlepas dari tokenisasi, dan untuk mendukung evaluasi model yang terbatas pada panjang urutan 1024.

Masing -masing dari 19 tugas memiliki ~ 4MB dari total data teks.

Konfigurasi tambahan

Folder Hasil

Secara default semua hasil akan disimpan ke folder 'hasil', dan menjalankan kembali tugas yang sama akan memuat hasil yang ada. Folder Hasil dapat diubah menggunakan variabel lingkungan LM_EVALUATION_RESULTS_DIR.

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode Sumber AI
Waktu Pembaruan 2025-09-07
ukuran 13.83KB
Berasal dari Github

Aplikasi Terkait

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Halaman web pengakuan online LM memproduksi kode sumber PHP versi yang dipercantik versi resmi

2022-11-01

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ML stack

Kode Sumber AI

1.0.0
awesome free chatgpt

Kode Sumber AI

1.0.0
pywin_contextmenu

Kode Sumber AI

Version update
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua