Скачать lm evaluation - загрузка исходного кода lm evaluation

lm evaluation

AI Исходный код

1.0.0

Скачать

LM Оценка набор тестов

Этот репо содержит код для проведения оценок и воспроизведения результатов технической статьи Jurassic-1 (см. Пост в блоге) с текущей поддержкой для выполнения задач как через AI21 Studio API, так и API Openai GPT3.

Цитирование

Пожалуйста, используйте следующую запись Bibtex:

 @techreport{J1WhitePaper,
  author = {Lieber, Opher and Sharir, Or and Lenz, Barak and Shoham, Yoav},
  title = {Jurassic-1: Technical Details And Evaluation},
  institution = {AI21 Labs},
  year = 2021,
  month = aug,
}

Установка

 git clone https://github.com/AI21Labs/lm-evaluation.git
cd lm-evaluation
pip install -e .

Использование

Точка входа для запуска оценки - LM_EVALUATION/RUN_EVAL.PY, который получает список задач и моделей для выполнения.

Аргумент моделей должен быть в форме «Провайдер/модель_name», где поставщик может быть «AI21» или «OpenAI», а имя модели является одной из моделей, поддерживаемых поставщиками.

При прохождении одной из моделей API установите клавишу (ы) вашего API, используя переменные среды AI21_Studio_API_KEY и OPENAI_API_KEY. Обязательно рассмотрите затраты и пределы квот моделей, которые вы запускаете заранее.

Примеры:

# Evaluate hellaswag and winogrande on j1-large
python -m lm_evaluation.run_eval --tasks hellaswag winogrande --models ai21/j1-large

# Evaluate all multiple-choice tasks on j1-jumbo
python -m lm_evaluation.run_eval --tasks all_mc --models ai21/j1-jumbo

# Evaluate all docprob tasks on curie and j1-large
python -m lm_evaluation.run_eval --tasks all_docprobs --models ai21/j1-large openai/curie

Наборы данных

В настоящее время репо поддерживает наборы данных о вероятности с множественным выбором с нулевым выбором и документами, представленными в техническом документе Jurassic-1.

Многократный выбор

Наборы данных с множественным выбором отформатируются, как описано в статье GPT3, и показанные показатели оценки по умолчанию - это описанные там.

Все наши отформатированные наборы данных, кроме StoryCloze, доступны и ссылаются в LM_EVALUATION/TASKS_CONFIG.PY. StoryCloze должен быть загружен вручную и отформатирован, а местоположение должно быть настроено через переменную среды «StoryCloze_test_Path».

Вероятности документирования

Задачи вероятности документа включают документы из 19 источников данных, включая C4 и наборы данных из «Сва».

Каждый документ предварительно распределяется в границах предложений до поддоков до 1024 токенов GPT каждый, чтобы обеспечить все модели, которые видят одни и те же входы/контексты независимо от токенизации, и для поддержки оценки моделей, которые ограничены длиной последовательности 1024.

Каждая из 19 задач имеет ~ 4 МБ общих текстовых данных.

Дополнительная конфигурация

Результаты папка

По умолчанию все результаты будут сохранены в папке «результаты», и повторное использование одних и тех же задач будет загружать существующие результаты. Папка результатов может быть изменена с использованием переменной среды LM_EVALUATION_RESULTS_DIR.

Расширять

Дополнительная информация