Unduh M3Exam - Unduh Kode Sumber M3Exam

M3Exam

Kode sumber lainnya

1.0.0

Unduh

M3exam: Multilingual ?, Multimodal ?, Multilevel? Benchmark untuk LLMS

Ini adalah repositori untuk m3exam: patokan multibahasa, multimodal, multilevel untuk memeriksa model bahasa besar.

TL; DR: Kami memperkenalkan M3Exam, tolok ukur baru yang bersumber dari pertanyaan ujian manusia nyata dan resmi untuk mengevaluasi LLM dalam konteks multibahasa, multimodal, dan multilevel.

gambar

Data

Mengakses data

Anda dapat mengunduh data dari sini.
Folder yang diunduh akan dienkripsi (untuk mencegah beberapa skrip merangkak otomatis). Harap dapatkan kata sandi dari bagian bawah halaman ini.
Setelah membuka ritsleting file, Anda akan melihat struktur file berikut:

 data/
    multimodal-questions/         <- questions requiring images
        xx-questions-image.json   <- file containing the questions, xx is a language
        iamges-xx/                <- folder containg all the images for xx
    text-questions/               <- questions with pure text
        xx-questions-dev.json     <- held-out data (e.g., can be used as in-context examples)
        xx-questions-test.json    <- main test data for evaluation

Format data

Pertanyaan disimpan dalam format JSON, Anda dapat membaca setiap file JSON untuk memeriksa data. Misalnya:

 with open ( f'./data/text-question/ { lang } -questions-dev.json' , 'w' ) as f :
    data = json . load ( f )  # data is a list of questions

Setiap pertanyaan disimpan dalam format JSON:

 {
    'question_text': 'Which Civil War event occurred first?',
    'background_description': [],
    'answer_text': '2',
    'options': ['(1) battle of Gettysburg',
    '(2) firing on Fort Sumter',
    '(3) assassination of President Lincoln',
    '(4) Emancipation Proclamation'],
    'need_image': 'no',
    'language': 'english',
    'level': 'mid',
    'subject': 'social',
    'subject_category': 'social-science',
    'year': '2006'
}

Evaluasi

Pertama, Anda perlu mengisi kunci API OpenAI Anda di file bash:

 python main.py 
--setting zero-shot 
--model chat 
--use_api 
--selected_langs "['english']" 
--api_key #put your key here

Kemudian Anda dapat dengan cepat memeriksa dengan menjalankan quick_run.sh , yang akan berjalan pada 10 pertanyaan bahasa Inggris dan memproduksi english-pred.json di folder output yang sesuai
Untuk mengevaluasi, Anda juga dapat menjalankan eval.sh untuk memeriksa kinerja pada 10 contoh ini!
Untuk menjalankan lebih banyak data, Anda dapat merujuk ke run.sh untuk pengaturan yang lebih rinci

 python main.py 
--setting zero-shot 
--model chat 
--use_api 
--selected_langs "['english']" 
--selected_levels "['low', 'mid', 'high']" 
--num_samples all 
--api_key #put your key here

 * specify the languages you want to run through `--selected_langs`
* running on all questions, set `--num_samples all`

Kutipan

Jika Anda menemukan ini berguna dalam penelitian Anda, silakan pertimbangkan mengutipnya:

 @article{zhang2023m3exam,
      title={M3Exam: A Multilingual, Multimodal, Multilevel Benchmark for Examining Large Language Models},
      author={Wenxuan Zhang and Sharifah Mahani Aljunied and Chang Gao and Yew Ken Chia and Lidong Bing},
      year={2023},
      eprint={2306.05179},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

Kata sandi: 12317

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-03-07
ukuran 703.34KB
Berasal dari Github

Aplikasi Terkait

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua