repo นี้มีรหัสสำหรับเรียกใช้การประเมินและทำซ้ำผลลัพธ์จากเอกสารทางเทคนิค Jurassic-1 (ดูโพสต์บล็อก) โดยมีการสนับสนุนในปัจจุบันสำหรับการทำงานผ่านทั้ง AI21 Studio API และ GPT3 API ของ OpenAI
กรุณาใช้รายการ Bibtex ต่อไปนี้:
@techreport{J1WhitePaper,
author = {Lieber, Opher and Sharir, Or and Lenz, Barak and Shoham, Yoav},
title = {Jurassic-1: Technical Details And Evaluation},
institution = {AI21 Labs},
year = 2021,
month = aug,
}
git clone https://github.com/AI21Labs/lm-evaluation.git
cd lm-evaluation
pip install -e .
จุดเริ่มต้นสำหรับการเรียกใช้การประเมินคือ lm_evaluation/run_eval.py ซึ่งได้รับรายการงานและรุ่นที่จะทำงาน
อาร์กิวเมนต์โมเดลควรอยู่ในรูปแบบ "ผู้ให้บริการ/model_name" ซึ่งผู้ให้บริการสามารถเป็น "AI21" หรือ "OpenAI" และชื่อโมเดลเป็นหนึ่งในผู้ให้บริการที่ได้รับการสนับสนุน
เมื่อทำงานผ่านหนึ่งในรุ่น API ให้ตั้งค่าคีย์ API ของคุณโดยใช้ตัวแปรสภาพแวดล้อม AI21_STUDIO_API_KEY และ OPENAI_API_KEY ตรวจสอบให้แน่ใจว่าได้พิจารณาค่าใช้จ่ายและข้อ จำกัด โควต้าของโมเดลที่คุณใช้งานล่วงหน้า
ตัวอย่าง:
# Evaluate hellaswag and winogrande on j1-large
python -m lm_evaluation.run_eval --tasks hellaswag winogrande --models ai21/j1-large
# Evaluate all multiple-choice tasks on j1-jumbo
python -m lm_evaluation.run_eval --tasks all_mc --models ai21/j1-jumbo
# Evaluate all docprob tasks on curie and j1-large
python -m lm_evaluation.run_eval --tasks all_docprobs --models ai21/j1-large openai/curie
ปัจจุบัน REPO สนับสนุนชุดข้อมูลหลายตัวเลือกและชุดข้อมูลความน่าจะเป็นของเอกสารที่รายงานไว้ในเอกสารทางเทคนิค Jurassic-1
ชุดข้อมูลแบบปรนัยจะถูกจัดรูปแบบตามที่อธิบายไว้ในกระดาษ GPT3 และตัวชี้วัดการประเมินผลเริ่มต้นที่รายงานเริ่มต้นคือชุดที่อธิบายไว้ที่นั่น
ชุดข้อมูลที่จัดรูปแบบทั้งหมดของเรายกเว้น Storycloze มีให้บริการในที่สาธารณะและอ้างอิงใน lm_evaluation/tasks_config.py StoryCloze จำเป็นต้องดาวน์โหลดและจัดรูปแบบด้วยตนเองและตำแหน่งควรกำหนดค่าผ่านตัวแปรสภาพแวดล้อม 'StoryCloze_Test_Path'
งานความน่าจะเป็นของเอกสารรวมถึงเอกสารจากแหล่งข้อมูล 19 แหล่งรวมถึง C4 และชุดข้อมูลจาก 'The Pile'
เอกสารแต่ละฉบับจะแยกออกไปล่วงหน้าที่ขอบเขตประโยคไปยังเอกสารย่อยของโทเค็น GPT สูงถึง 1024 GPT แต่ละรายการเพื่อให้แน่ใจว่าทุกรุ่นจะเห็นอินพุต/บริบทเดียวกันโดยไม่คำนึงถึงโทเค็นและเพื่อสนับสนุนการประเมินแบบจำลองที่ จำกัด อยู่ที่ความยาวลำดับ 1024
แต่ละงาน 19 งานมีข้อมูลข้อความทั้งหมด ~ 4MB
โดยค่าเริ่มต้นผลลัพธ์ทั้งหมดจะถูกบันทึกลงในโฟลเดอร์ 'ผลลัพธ์' และอีกครั้งงานเดียวกันจะโหลดผลลัพธ์ที่มีอยู่ โฟลเดอร์ผลลัพธ์สามารถเปลี่ยนแปลงได้โดยใช้ตัวแปรสภาพแวดล้อม lm_evaluation_results_dir