Papel • Site •? DataSet • ⌚️ Visão geral •? Quickstart •? Tabela de classificação • Cite
博学之 , 审问之 , 慎思之 , 明辨之 , 笃行之。
—— 《礼记 · 中庸》 Doutrina da média

A referência de avaliação de borda a saber ( Sciknoweval ) para grandes modelos de idiomas (LLMS) é inspirada nos princípios profundos descritos na “ doutrina da média ” da filosofia chinesa antiga. Este benchmark foi projetado para avaliar os LLMs com base em sua proficiência em estudar extensivamente , perguntando sinceramente , pensando profundamente , discernindo claramente e praticando assiduamente . Cada uma dessas dimensões oferece uma perspectiva única sobre a avaliação das capacidades do LLMS para lidar com o conhecimento científico.
[Set 2024] Lançamos um relatório de avaliação do OpenAI O1 com ScikNowEval.
[Setembro de 2024] Atualizamos o papel Sciknoweval em Arxiv.
[Jul 2024] Recentemente, adicionamos a física e os materiais ao ScikNowEval. Você pode acessar o conjunto de dados aqui e conferir a tabela de classificação aqui.
[Jun 2024] Lançamos o conjunto de dados e tabela de líderes da Sciknoweval para biologia e química.
L1 : estudando extensivamente (ou seja, memória de conhecimento ). Essa dimensão avalia a amplitude do conhecimento de um LLM em vários domínios científicos. Ele mede a capacidade do modelo de lembrar uma ampla gama de conceitos científicos.
❓ L2 : perguntando seriamente (ou seja, compreensão do conhecimento ). Esse aspecto se concentra na capacidade do LLM de investigação e exploração profunda nos contextos científicos, como analisar textos científicos, identificar conceitos -chave e questionar informações relevantes.
L3 : Pensando profundamente (ou seja, raciocínio de conhecimento ). Esse critério examina a capacidade do modelo de pensamento crítico, dedução lógica, cálculo numérico, previsão da função e a capacidade de se envolver em raciocínio reflexivo para resolver problemas.
? L4 : discernir claramente (ou seja, discernimento do conhecimento ). Esse aspecto avalia a capacidade do LLM de tomar decisões corretas, seguras e éticas com base no conhecimento científico, incluindo a avaliação da prejudicação e a toxicidade da informação e a compreensão das implicações éticas e preocupações de segurança relacionadas aos empreendimentos científicos.
? L5 : Praticando assiduamente (ou seja, aplicação de conhecimento ). A dimensão final avalia a capacidade do LLM de aplicar o conhecimento científico de maneira eficaz em cenários do mundo real, como analisar problemas científicos complexos e criar soluções inovadoras.




Para avaliar o LLMS no Sciknoweval, primeiro clone o repositório:
git clone https://github.com/HICAI-ZJU/SciKnowEval.git
cd SciKnowEvalEm seguida, configure um ambiente de conda para gerenciar as dependências:
conda create -n sciknoweval python=3.10.9
conda activate sciknowevalEm seguida, instale as dependências necessárias:
pip install -r requirements.txtFaça o download dos dados de referência do ScikNowEval : para começar a avaliar modelos de idiomas usando a referência ScikNowEval, você deve primeiro baixar nosso conjunto de dados. Existem duas fontes disponíveis:
? Hub de conjunto de dados HUGGINGFACE : Acesse e faça o download do conjunto de dados diretamente da nossa página Huggingface: https://huggingface.co/datasets/hicai-zju/sciknoweval
Pasta de dados do repositório : o conjunto de dados é organizado por nível (l1 ~ l5) e tarefa dentro da pasta ./raw_data/ deste repositório. Você pode baixar peças separadamente e consolidá -las em um único arquivo JSON, conforme necessário.
Prepare as previsões do seu modelo : Utilize o script de avaliação oficial eval.py fornecido neste repositório para avaliar seu modelo. Você deve preparar as previsões do seu modelo no formato JSON a seguir, onde cada entrada deve preservar todos os atributos originais (que podem ser encontrados no conjunto de dados que você baixou) dos dados como perguntas, opções, resposta, tipo, tipo, domínio, nível, tarefa e subtarefa. Adicione a resposta prevista do seu modelo no campo "Resposta".
Exemplo de formato JSON para avaliação do modelo:
[
{
"question" : " What triggers the activation of platelet integrins? " ,
"choices" : {
"text" : [ " White blood cells " , " Collagen exposure " , " Adrenaline release " , " Nutrient absorption " ],
"label" : [ " A " , " B " , " C " , " D " ]
},
"answerKey" : " B " ,
"type" : " mcq-4-choices " ,
"domain" : " Biology " ,
"details" : {
"level" : " L2 " ,
"task" : " Cellular Function " ,
"subtask" : " Platelet Activation "
},
"response" : " B " // Insert your model's prediction here
},
// Additional entries...
]Seguindo estas diretrizes, você pode efetivamente usar a referência SCIKNOWEVAL para avaliar o desempenho dos modelos de idiomas em várias tarefas e níveis científicos.
1. Para tarefas de extração de relação, precisamos calcular a similaridade do texto com o modelo word2vec . Utilizamos o modelo GoogleNews-Vectores, pré-terenciado como modelo padrão.
GoogleNews-vectors-negative300.bin.gz deste link para o local.O código de avaliação de extração de relação foi desenvolvido inicialmente pela equipe da AI4S Cup, obrigado por seu ótimo trabalho!?
2. Para tarefas que usam o GPT para pontuação, usamos a API OpenAI para avaliar as respostas.
Defina sua tecla API OpenAI na variável de ambiente OpenAI_API_KEY . Use export OPENAI_API_KEY="YOUR_API_KEY" para definir a variável de ambiente.
Se você não definir a variável de ambiente OPENAI_API_KEY , a avaliação pulará automaticamente as tarefas que exigem pontuação no GPT .
Selecionamos gpt-4o como o avaliador padrão!
Você pode executar eval.py para avaliar seu modelo:
data_path= " your/model/predictions.json "
word2vec_model_path= " path/to/GoogleNews-vectors-negative300.bin "
gen_evaluator= " gpt-4o " # the correct model name in OpenAI
output_path= " path/to/your/output.json "
export OPENAI_API_KEY= " YOUR_API_KEY "
python eval.py
--data_path $data_path
--word2vec_model_path $word2vec_model_path
--gen_evaluator $gen_evaluator
--output_path $output_path As últimas tabelas de classificação são mostradas aqui.
@misc{feng2024sciknoweval,
title={SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models},
author={Kehua Feng and Keyan Ding and Weijie Wang and Xiang Zhuang and Zeyuan Wang and Ming Qin and Yu Zhao and Jianhua Yao and Qiang Zhang and Huajun Chen},
year={2024},
eprint={2406.09098},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
Agradecimentos especiais aos autores do LLASMOL: Avançando grandes modelos de idiomas para química com um conjunto de dados de ajuste de instrução de larga escala, abrangente e de alta qualidade e os organizadores do AI4S Cup-LLM Challenge por seu trabalho inspirador.
As seções que avaliam a geração molecular em evaluation/utils/generation.py , bem como evaluation/utils/relation_extraction.py , estão fundamentadas em sua pesquisa. Grato por suas contribuições valiosas