يحتوي هذا الريبو على رمز لتشغيل التقييمات وإعادة إنتاج النتائج من ورقة Jurassic-1 الفنية (انظر منشور المدونة) ، مع الدعم الحالي لتشغيل المهام من خلال كل من AI21 Studio API و Openai GPT3 API.
يرجى استخدام إدخال bibtex التالي:
@techreport{J1WhitePaper,
author = {Lieber, Opher and Sharir, Or and Lenz, Barak and Shoham, Yoav},
title = {Jurassic-1: Technical Details And Evaluation},
institution = {AI21 Labs},
year = 2021,
month = aug,
}
git clone https://github.com/AI21Labs/lm-evaluation.git
cd lm-evaluation
pip install -e .
نقطة الدخول لتشغيل التقييمات هي lm_evaluation/run_eval.py ، والتي تتلقى قائمة بالمهام والنماذج التي يتم تشغيلها.
يجب أن تكون وسيطة النماذج في نموذج "Provider/Model_name" حيث يمكن أن يكون الموفر "AI21" أو "Openai" واسم النموذج هو أحد النماذج المدعومة من مقدمي الخدمات.
عند تشغيل أحد نماذج API ، قم بتعيين مفتاح (مفاتيح) API باستخدام متغيرات البيئة AI21_STUDIO_API_KEY و OPENAI_API_KEY. تأكد من مراعاة التكاليف وحدود الحصص في النماذج التي تقوم بتشغيلها مسبقًا.
أمثلة:
# Evaluate hellaswag and winogrande on j1-large
python -m lm_evaluation.run_eval --tasks hellaswag winogrande --models ai21/j1-large
# Evaluate all multiple-choice tasks on j1-jumbo
python -m lm_evaluation.run_eval --tasks all_mc --models ai21/j1-jumbo
# Evaluate all docprob tasks on curie and j1-large
python -m lm_evaluation.run_eval --tasks all_docprobs --models ai21/j1-large openai/curie
يدعم Repo حاليًا مجموعات بيانات احتمالات الخيارات المتعددة والوثيقة التي تم الإبلاغ عنها في الورقة الفنية Jurassic-1.
يتم تنسيق مجموعات بيانات الاختيار من متعدد كما هو موضح في ورقة GPT3 ، ومقاييس التقييم الافتراضية المبلغ عنها هي تلك الموصوفة هناك.
جميع مجموعات البيانات المنسقة لدينا باستثناء StoryCloze متوفرة للجمهور والرجوع إليها في LM_EValuation/TASKS_CONFIG.py. يحتاج StoryCloze إلى تنزيل وتنسيق يدويًا ، ويجب تكوين الموقع من خلال متغير البيئة "storycloze_test_path".
تتضمن مهام احتمال المستندات مستندات من 19 مصدر بيانات ، بما في ذلك C4 ومجموعات البيانات من "الوبر".
يتم تقسيم كل مستند مسبقًا عند حدود الجملة إلى الحجج الفرعية التي تصل إلى 1024 رموز GPT لكل منها ، لضمان رؤية جميع النماذج نفس المدخلات/السياقات بغض النظر عن الرمز المميز ، ودعم تقييم النماذج التي تقتصر على أطوال التسلسل 1024.
كل من المهام الـ 19 لها ~ 4 ميجابايت من إجمالي بيانات النص.
بشكل افتراضي ، سيتم حفظ جميع النتائج في المجلد "النتائج" ، وسيتم إعادة تشغيل المهام نفسها النتائج الحالية. يمكن تغيير مجلد النتائج باستخدام متغير البيئة LM_EValuation_results_dir.