Бумага • Веб -сайт •? Набор данных • ⌚ Обзор •? QuickStart •? Таблица лидеров • цитировать
博学之 , 审问之 慎思之 , 明辨之 , 笃行之。
—— 《礼记 · 中庸》 Доктрина среднего значения

Наукающий эталон знаний о оценке выступов ( Sciknoweval ) для моделей крупных языков (LLMS) вдохновлен глубокими принципами, изложенными в « Ученике среднего » из древней китайской философии. Этот эталон предназначен для оценки LLMS на основе их мастерства в широком изучении , усердно расследовать , глубоко размышляя , четко проницательно и усердно практиковать . Каждое из этих измерений дает уникальную перспективу оценки возможностей LLM в обработке научных знаний.
[Сентябрь 2024] Мы выпустили отчет об оценке Openai O1 с Sciknoweval.
[Сентябрь 2024] Мы обновили Sciknoweval Paper в Arxiv.
[Июль 2024] Мы недавно добавили физику и материалы в Sciknoweval. Вы можете получить доступ к набору данных здесь и проверить здесь таблицу лидеров.
[Jun 2024] Мы выпустили наборы данных Sciknoweval и таблицу лидеров для биологии и химии.
L1 : тщательно изучение (т.е. память о знании ). Это измерение оценивает широту знаний LLM в различных научных областях. Он измеряет способность модели запоминать широкий спектр научных концепций.
❓ L2 : Серьезно спрашивать (т.е. понимание знаний ). Этот аспект фокусируется на способности LLM к глубокому расследованию и исследованию в научных контекстах, таких как анализ научных текстов, выявление ключевых концепций и вопрос соответствующей информации.
L3 : глубоко мышление (т.е. рассуждения знаний ). Этот критерий исследует способность модели для критического мышления, логического вычета, численного расчета, прогнозирования функций и способности участвовать в рефлексивных рассуждениях для решения задач.
? L4 : четко проницательное (т.е. различение знаний ). Этот аспект оценивает способность LLM принимать правильные, безопасные и этические решения, основанные на научных знаниях, включая оценку вредности и токсичности информации и понимание этических последствий и проблем безопасности, связанных с научными усилиями.
? L5 : практика усердно (то есть применение знаний ). Окончательное измерение оценивает способность LLM эффективно применять научные знания в сценариях реального мира, таких как анализ сложных научных проблем и создание инновационных решений.




Чтобы оценить LLM на Sciknoweval, сначала клонируйте репозиторий:
git clone https://github.com/HICAI-ZJU/SciKnowEval.git
cd SciKnowEvalДалее настройте среду Conda для управления зависимостями:
conda create -n sciknoweval python=3.10.9
conda activate sciknowevalЗатем установите требуемые зависимости:
pip install -r requirements.txtЗагрузите данные Sciknoweval Clenchmark : Чтобы начать оценку языковых моделей, используя тестер Sciknoweval, вы должны сначала загрузить наш набор данных. Есть два доступных источника:
? HUBSET HUBSET HUBGACEFACT
Папка данных репозитория : набор данных организован уровнем (L1 ~ L5) и задачей в папке ./raw_data/ этого репозитория. Вы можете загружать детали отдельно и объединить их в один файл JSON по мере необходимости.
Подготовьте прогнозы вашей модели : используйте официальный сценарий оценки eval.py , предоставленную в этом репозитории для оценки вашей модели. Вы должны подготовить прогнозы вашей модели в следующем формате JSON, где каждая запись должна сохранить все исходные атрибуты (которые можно найти в загруженном вами наборе данных) таких данных, как вопрос, выбор, ответ, тип, домен, уровень, задача и подзадача. Добавьте предсказанный ответ вашей модели в поле «Ответ».
Пример JSON Format для оценки модели:
[
{
"question" : " What triggers the activation of platelet integrins? " ,
"choices" : {
"text" : [ " White blood cells " , " Collagen exposure " , " Adrenaline release " , " Nutrient absorption " ],
"label" : [ " A " , " B " , " C " , " D " ]
},
"answerKey" : " B " ,
"type" : " mcq-4-choices " ,
"domain" : " Biology " ,
"details" : {
"level" : " L2 " ,
"task" : " Cellular Function " ,
"subtask" : " Platelet Activation "
},
"response" : " B " // Insert your model's prediction here
},
// Additional entries...
]Следуя этим руководящим принципам, вы можете эффективно использовать Sciknoweval Clinkmark для оценки эффективности языковых моделей по различным научным задачам и уровням.
1. Для задач извлечения отношений мы должны рассчитать сходство текста с помощью модели word2vec . Мы используем модель Googlenews-Vectors, предварительную в качестве модели по умолчанию.
GoogleNews-vectors-negative300.bin.gz по этой ссылке на локальный.Код оценки экстракции отношений был первоначально разработан командой Cup AI4S, спасибо за их отличную работу!?
2. Для задач, которые используют GPT для оценки, мы используем API OpenAI для оценки ответов.
Пожалуйста, установите свой ключ API OpenAI в переменной среды OpenAI_API_KEY . Используйте export OPENAI_API_KEY="YOUR_API_KEY" , чтобы установить переменную среды.
Если вы не установите переменную среды OPENAI_API_KEY , оценка автоматически пропустит задачи, которые требуют оценки GPT .
Мы выбираем gpt-4o в качестве оценщика по умолчанию!
Вы можете запустить eval.py , чтобы оценить свою модель:
data_path= " your/model/predictions.json "
word2vec_model_path= " path/to/GoogleNews-vectors-negative300.bin "
gen_evaluator= " gpt-4o " # the correct model name in OpenAI
output_path= " path/to/your/output.json "
export OPENAI_API_KEY= " YOUR_API_KEY "
python eval.py
--data_path $data_path
--word2vec_model_path $word2vec_model_path
--gen_evaluator $gen_evaluator
--output_path $output_path Последние таблицы лидеров показаны здесь.
@misc{feng2024sciknoweval,
title={SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models},
author={Kehua Feng and Keyan Ding and Weijie Wang and Xiang Zhuang and Zeyuan Wang and Ming Qin and Yu Zhao and Jianhua Yao and Qiang Zhang and Huajun Chen},
year={2024},
eprint={2406.09098},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
Особая благодарность авторам Llasmol: продвижение больших языковых моделей для химии с крупномасштабным, комплексным, высококачественным набором данных настройки инструкций и организаторами AI4S Cup-LLM для их вдохновляющей работы.
Разделы, оценивающие молекулярную генерацию в evaluation/utils/generation.py , а также evaluation/utils/relation_extraction.py , основаны на их исследованиях. Благодарен за их ценные вклад