Этот репо содержит код для проведения оценок и воспроизведения результатов технической статьи Jurassic-1 (см. Пост в блоге) с текущей поддержкой для выполнения задач как через AI21 Studio API, так и API Openai GPT3.
Пожалуйста, используйте следующую запись Bibtex:
@techreport{J1WhitePaper,
author = {Lieber, Opher and Sharir, Or and Lenz, Barak and Shoham, Yoav},
title = {Jurassic-1: Technical Details And Evaluation},
institution = {AI21 Labs},
year = 2021,
month = aug,
}
git clone https://github.com/AI21Labs/lm-evaluation.git
cd lm-evaluation
pip install -e .
Точка входа для запуска оценки - LM_EVALUATION/RUN_EVAL.PY, который получает список задач и моделей для выполнения.
Аргумент моделей должен быть в форме «Провайдер/модель_name», где поставщик может быть «AI21» или «OpenAI», а имя модели является одной из моделей, поддерживаемых поставщиками.
При прохождении одной из моделей API установите клавишу (ы) вашего API, используя переменные среды AI21_Studio_API_KEY и OPENAI_API_KEY. Обязательно рассмотрите затраты и пределы квот моделей, которые вы запускаете заранее.
Примеры:
# Evaluate hellaswag and winogrande on j1-large
python -m lm_evaluation.run_eval --tasks hellaswag winogrande --models ai21/j1-large
# Evaluate all multiple-choice tasks on j1-jumbo
python -m lm_evaluation.run_eval --tasks all_mc --models ai21/j1-jumbo
# Evaluate all docprob tasks on curie and j1-large
python -m lm_evaluation.run_eval --tasks all_docprobs --models ai21/j1-large openai/curie
В настоящее время репо поддерживает наборы данных о вероятности с множественным выбором с нулевым выбором и документами, представленными в техническом документе Jurassic-1.
Наборы данных с множественным выбором отформатируются, как описано в статье GPT3, и показанные показатели оценки по умолчанию - это описанные там.
Все наши отформатированные наборы данных, кроме StoryCloze, доступны и ссылаются в LM_EVALUATION/TASKS_CONFIG.PY. StoryCloze должен быть загружен вручную и отформатирован, а местоположение должно быть настроено через переменную среды «StoryCloze_test_Path».
Задачи вероятности документа включают документы из 19 источников данных, включая C4 и наборы данных из «Сва».
Каждый документ предварительно распределяется в границах предложений до поддоков до 1024 токенов GPT каждый, чтобы обеспечить все модели, которые видят одни и те же входы/контексты независимо от токенизации, и для поддержки оценки моделей, которые ограничены длиной последовательности 1024.
Каждая из 19 задач имеет ~ 4 МБ общих текстовых данных.
По умолчанию все результаты будут сохранены в папке «результаты», и повторное использование одних и тех же задач будет загружать существующие результаты. Папка результатов может быть изменена с использованием переменной среды LM_EVALUATION_RESULTS_DIR.