SciKnowEval скачать - скачать исходный код SciKnowEval

SciKnowEval

AI Исходный код

1.0.0

Скачать

Sciknoweval: оценка многоуровневых научных знаний о крупных языковых моделях

Бумага • Веб -сайт •? Набор данных • ⌚ Обзор •? QuickStart •? Таблица лидеров • цитировать

博学之，审问之慎思之，明辨之，笃行之。

—— 《礼记 · 中庸》 Доктрина среднего значения

Наукающий эталон знаний о оценке выступов ( Sciknoweval ) для моделей крупных языков (LLMS) вдохновлен глубокими принципами, изложенными в « Ученике среднего » из древней китайской философии. Этот эталон предназначен для оценки LLMS на основе их мастерства в широком изучении , усердно расследовать , глубоко размышляя , четко проницательно и усердно практиковать . Каждое из этих измерений дает уникальную перспективу оценки возможностей LLM в обработке научных знаний.

? Новости

[Сентябрь 2024] Мы выпустили отчет об оценке Openai O1 с Sciknoweval.
[Сентябрь 2024] Мы обновили Sciknoweval Paper в Arxiv.
[Июль 2024] Мы недавно добавили физику и материалы в Sciknoweval. Вы можете получить доступ к набору данных здесь и проверить здесь таблицу лидеров.
[Jun 2024] Мы выпустили наборы данных Sciknoweval и таблицу лидеров для биологии и химии.

? Оглавление

⌚ Обзор
? QuickStart
- Установка
- Подготовьте данные
- ? Подготовьте модели
- Оценивать
? Таблица лидеров
Цитировать
Благодарности

⌚ Обзор

✡ Оцененные способности

L1 : тщательно изучение (т.е. память о знании ). Это измерение оценивает широту знаний LLM в различных научных областях. Он измеряет способность модели запоминать широкий спектр научных концепций.
❓ L2 : Серьезно спрашивать (т.е. понимание знаний ). Этот аспект фокусируется на способности LLM к глубокому расследованию и исследованию в научных контекстах, таких как анализ научных текстов, выявление ключевых концепций и вопрос соответствующей информации.
L3 : глубоко мышление (т.е. рассуждения знаний ). Этот критерий исследует способность модели для критического мышления, логического вычета, численного расчета, прогнозирования функций и способности участвовать в рефлексивных рассуждениях для решения задач.
? L4 : четко проницательное (т.е. различение знаний ). Этот аспект оценивает способность LLM принимать правильные, безопасные и этические решения, основанные на научных знаниях, включая оценку вредности и токсичности информации и понимание этических последствий и проблем безопасности, связанных с научными усилиями.
? L5 : практика усердно (то есть применение знаний ). Окончательное измерение оценивает способность LLM эффективно применять научные знания в сценариях реального мира, таких как анализ сложных научных проблем и создание инновационных решений.

Домены и задачи

Статистика данных

Построение данных

? QuickStart

Шаг 1: Установка

Чтобы оценить LLM на Sciknoweval, сначала клонируйте репозиторий:

git clone https://github.com/HICAI-ZJU/SciKnowEval.git
cd SciKnowEval

Далее настройте среду Conda для управления зависимостями:

conda create -n sciknoweval python=3.10.9
conda activate sciknoweval

Затем установите требуемые зависимости:

pip install -r requirements.txt

Шаг 2: Подготовьте данные

Начало работы с тестом Sciknoweval

Загрузите данные Sciknoweval Clenchmark : Чтобы начать оценку языковых моделей, используя тестер Sciknoweval, вы должны сначала загрузить наш набор данных. Есть два доступных источника:
- ? HUBSET HUBSET HUBGACEFACT
- Папка данных репозитория : набор данных организован уровнем (L1 ~ L5) и задачей в папке ./raw_data/ этого репозитория. Вы можете загружать детали отдельно и объединить их в один файл JSON по мере необходимости.
Подготовьте прогнозы вашей модели : используйте официальный сценарий оценки eval.py , предоставленную в этом репозитории для оценки вашей модели. Вы должны подготовить прогнозы вашей модели в следующем формате JSON, где каждая запись должна сохранить все исходные атрибуты (которые можно найти в загруженном вами наборе данных) таких данных, как вопрос, выбор, ответ, тип, домен, уровень, задача и подзадача. Добавьте предсказанный ответ вашей модели в поле «Ответ».

Пример JSON Format для оценки модели:

[
  {
    "question" : " What triggers the activation of platelet integrins? " ,
    "choices" : {
      "text" : [ " White blood cells " , " Collagen exposure " , " Adrenaline release " , " Nutrient absorption " ],
      "label" : [ " A " , " B " , " C " , " D " ]
    },
    "answerKey" : " B " ,
    "type" : " mcq-4-choices " ,
    "domain" : " Biology " ,
    "details" : {
      "level" : " L2 " ,
      "task" : " Cellular Function " ,
      "subtask" : " Platelet Activation "
    },
    "response" : " B "  // Insert your model's prediction here
  },
  // Additional entries...
]

❗key указывает на то, чтобы помнить

Сохраните все исходные поля : убедитесь, что каждый объект JSON сохраняет все исходные поля данных для поддержания целостности оценки.
Прогнозы модели : поместите прогнозы вашей модели в поле «Ответ» каждого объекта JSON.

Следуя этим руководящим принципам, вы можете эффективно использовать Sciknoweval Clinkmark для оценки эффективности языковых моделей по различным научным задачам и уровням.

? Шаг 3: Подготовьте модели

1. Для задач извлечения отношений мы должны рассчитать сходство текста с помощью модели word2vec . Мы используем модель Googlenews-Vectors, предварительную в качестве модели по умолчанию.

Скачать GoogleNews-vectors-negative300.bin.gz по этой ссылке на локальный.

Код оценки экстракции отношений был первоначально разработан командой Cup AI4S, спасибо за их отличную работу!?

2. Для задач, которые используют GPT для оценки, мы используем API OpenAI для оценки ответов.

Пожалуйста, установите свой ключ API OpenAI в переменной среды OpenAI_API_KEY . Используйте export OPENAI_API_KEY="YOUR_API_KEY" , чтобы установить переменную среды.
Если вы не установите переменную среды OPENAI_API_KEY , оценка автоматически пропустит задачи, которые требуют оценки GPT .
Мы выбираем gpt-4o в качестве оценщика по умолчанию!

Шаг 4: Оцените

Вы можете запустить eval.py , чтобы оценить свою модель:

data_path= " your/model/predictions.json "
word2vec_model_path= " path/to/GoogleNews-vectors-negative300.bin "
gen_evaluator= " gpt-4o " # the correct model name in OpenAI
output_path= " path/to/your/output.json "

export OPENAI_API_KEY= " YOUR_API_KEY "
python eval.py 
  --data_path $data_path 
  --word2vec_model_path $word2vec_model_path 
  --gen_evaluator $gen_evaluator 
  --output_path $output_path

? Таблица лидеров

Последние таблицы лидеров показаны здесь.

Цитировать

 @misc{feng2024sciknoweval,
    title={SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models},
    author={Kehua Feng and Keyan Ding and Weijie Wang and Xiang Zhuang and Zeyuan Wang and Ming Qin and Yu Zhao and Jianhua Yao and Qiang Zhang and Huajun Chen},
    year={2024},
    eprint={2406.09098},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

Благодарности

Особая благодарность авторам Llasmol: продвижение больших языковых моделей для химии с крупномасштабным, комплексным, высококачественным набором данных настройки инструкций и организаторами AI4S Cup-LLM для их вдохновляющей работы.

Разделы, оценивающие молекулярную генерацию в evaluation/utils/generation.py , а также evaluation/utils/relation_extraction.py , основаны на их исследованиях. Благодарен за их ценные вклад ☺ !