Dieses Repo enthält Code für die Ausführung der Bewertungen und die Reproduktion der Ergebnisse aus dem technischen Papier von Jurassic-1 (siehe Blog-Post) mit aktueller Unterstützung für die Ausführung der Aufgaben sowohl über die AI21 Studio API als auch die OpenAI-GPT3-API.
Bitte verwenden Sie den folgenden Bibtex -Eintrag:
@techreport{J1WhitePaper,
author = {Lieber, Opher and Sharir, Or and Lenz, Barak and Shoham, Yoav},
title = {Jurassic-1: Technical Details And Evaluation},
institution = {AI21 Labs},
year = 2021,
month = aug,
}
git clone https://github.com/AI21Labs/lm-evaluation.git
cd lm-evaluation
pip install -e .
Der Einstiegspunkt für das Ausführen der Bewertungen ist LM_EVALIERUNG/RUN_EVAL.PY, die eine Liste von Aufgaben und Modellen zum Ausführen erhält.
Das Argument der Modelle sollte in der Form "Anbieter/Modell_Name" erfolgen, in der der Anbieter "AI21" oder "OpenAI" sein kann, und der Modellname ist einer der von Anbietern unterstützten Modelle.
Wenn Sie eines der API -Modelle durchlaufen, setzen Sie die API -Schlüssel (n) mit den Umgebungsvariablen ai21_studio_api_key und openai_api_key. Stellen Sie sicher, dass Sie die Kosten und Quotengrenzen der Modelle, die Sie im Voraus betreiben, berücksichtigen.
Beispiele:
# Evaluate hellaswag and winogrande on j1-large
python -m lm_evaluation.run_eval --tasks hellaswag winogrande --models ai21/j1-large
# Evaluate all multiple-choice tasks on j1-jumbo
python -m lm_evaluation.run_eval --tasks all_mc --models ai21/j1-jumbo
# Evaluate all docprob tasks on curie and j1-large
python -m lm_evaluation.run_eval --tasks all_docprobs --models ai21/j1-large openai/curie
Das Repo unterstützt derzeit die Null-Shot-Multiple-Choice- und Dokumentwahrscheinlichkeitsdatensätze, die im technischen Papier Jurassic-1 angegeben sind.
Multiple -Choice -Datensätze werden wie im GPT3 -Papier beschrieben formatiert, und die dort beschriebenen Standard -Bewertungsmetriken werden dort beschrieben.
Alle unsere formatierten Datensätze mit Ausnahme von Storycloze sind öffentlich verfügbar und in LM_Evaluation/tasks_config.py verwiesen. Storycloze muss manuell heruntergeladen und formatiert werden, und der Ort sollte über die Umgebungsvariable 'Storycloze_test_path' konfiguriert werden.
Aufgaben der Dokumentwahrscheinlichkeit umfassen Dokumente aus 19 Datenquellen, einschließlich C4 und Datensätze aus dem Stapel.
Jedes Dokument ist an Satzgrenzen zu Unterdokumenten von jeweils bis zu 1024 GPT-Token vorgegeben, um sicherzustellen, dass alle Modelle dieselben Eingaben/Kontexte unabhängig von der Tokenisierung sehen und die Bewertung von Modellen, die auf Sequenzlängen von 1024 beschränkt sind, zu unterstützen.
Jede der 19 Aufgaben haben ~ 4 MB Gesamttextdaten.
Standardmäßig werden alle Ergebnisse im Ordner "Ergebnisse" gespeichert, und die gleichen Aufgaben laden die vorhandenen Ergebnisse erneut. Der Ergebnisordner kann mithilfe der Umgebungsvariablen LM_Evaluation_Results_dir geändert werden.