lm evaluation Download - lm evaluation Source Code Download

lm evaluation

AI-Quellcode

1.0.0

Herunterladen

LM -Bewertungstest Suite

Dieses Repo enthält Code für die Ausführung der Bewertungen und die Reproduktion der Ergebnisse aus dem technischen Papier von Jurassic-1 (siehe Blog-Post) mit aktueller Unterstützung für die Ausführung der Aufgaben sowohl über die AI21 Studio API als auch die OpenAI-GPT3-API.

Zitat

Bitte verwenden Sie den folgenden Bibtex -Eintrag:

 @techreport{J1WhitePaper,
  author = {Lieber, Opher and Sharir, Or and Lenz, Barak and Shoham, Yoav},
  title = {Jurassic-1: Technical Details And Evaluation},
  institution = {AI21 Labs},
  year = 2021,
  month = aug,
}

Installation

 git clone https://github.com/AI21Labs/lm-evaluation.git
cd lm-evaluation
pip install -e .

Verwendung

Der Einstiegspunkt für das Ausführen der Bewertungen ist LM_EVALIERUNG/RUN_EVAL.PY, die eine Liste von Aufgaben und Modellen zum Ausführen erhält.

Das Argument der Modelle sollte in der Form "Anbieter/Modell_Name" erfolgen, in der der Anbieter "AI21" oder "OpenAI" sein kann, und der Modellname ist einer der von Anbietern unterstützten Modelle.

Wenn Sie eines der API -Modelle durchlaufen, setzen Sie die API -Schlüssel (n) mit den Umgebungsvariablen ai21_studio_api_key und openai_api_key. Stellen Sie sicher, dass Sie die Kosten und Quotengrenzen der Modelle, die Sie im Voraus betreiben, berücksichtigen.

Beispiele:

# Evaluate hellaswag and winogrande on j1-large
python -m lm_evaluation.run_eval --tasks hellaswag winogrande --models ai21/j1-large

# Evaluate all multiple-choice tasks on j1-jumbo
python -m lm_evaluation.run_eval --tasks all_mc --models ai21/j1-jumbo

# Evaluate all docprob tasks on curie and j1-large
python -m lm_evaluation.run_eval --tasks all_docprobs --models ai21/j1-large openai/curie

Datensätze

Das Repo unterstützt derzeit die Null-Shot-Multiple-Choice- und Dokumentwahrscheinlichkeitsdatensätze, die im technischen Papier Jurassic-1 angegeben sind.

Multiple Choice

Multiple -Choice -Datensätze werden wie im GPT3 -Papier beschrieben formatiert, und die dort beschriebenen Standard -Bewertungsmetriken werden dort beschrieben.

Alle unsere formatierten Datensätze mit Ausnahme von Storycloze sind öffentlich verfügbar und in LM_Evaluation/tasks_config.py verwiesen. Storycloze muss manuell heruntergeladen und formatiert werden, und der Ort sollte über die Umgebungsvariable 'Storycloze_test_path' konfiguriert werden.

Dokumentwahrscheinlichkeiten

Aufgaben der Dokumentwahrscheinlichkeit umfassen Dokumente aus 19 Datenquellen, einschließlich C4 und Datensätze aus dem Stapel.

Jedes Dokument ist an Satzgrenzen zu Unterdokumenten von jeweils bis zu 1024 GPT-Token vorgegeben, um sicherzustellen, dass alle Modelle dieselben Eingaben/Kontexte unabhängig von der Tokenisierung sehen und die Bewertung von Modellen, die auf Sequenzlängen von 1024 beschränkt sind, zu unterstützen.

Jede der 19 Aufgaben haben ~ 4 MB Gesamttextdaten.

Zusätzliche Konfiguration

Ergebnisordner

Standardmäßig werden alle Ergebnisse im Ordner "Ergebnisse" gespeichert, und die gleichen Aufgaben laden die vorhandenen Ergebnisse erneut. Der Ergebnisordner kann mithilfe der Umgebungsvariablen LM_Evaluation_Results_dir geändert werden.

Expandieren

Zusätzliche Informationen