KokoMind
KokoMind 0.1 Release
这是Kokomind的回购,Kokomind是一个具有多方社交互动的数据集,可以评估LLMS的社会理解能力。存储库包含:

Kokomind的徽标。
Kokomind包含150个复杂的多方社交互动(每个来源50个),带有自由文本的问题和答案。为了确保多样性和可扩展性并避免数据污染,GPT-4产生了所有社交互动,问题和答案,并在后来由人类专家进行了验证。这些几代是基于三个不同来源的:
对于每次社会互动,我们提出了旨在探讨社会理解以下方面的各种问题。
question_nonverbal_yes_v0.1.json总共包含770个样本。此JSON行文件是字典列表,每个字典都包含以下字段:
question_id :INT,问题的独特ID。text :STR,社交互动上下文和问题。answer :STR,GPT-4答案已由人类进一步验证。source :Str,这是三个数据来源之一: gpt-4 , movie , tomi 。category :STR,六个问题类别之一: ToM , Social Norm , Emotion Recognition , Social Relation , Counterfactual , Social Advice 。 question_nonverbal_no_v0.1.json包含相同的社交互动和问题,但是却带有括号中的非语言提示(例如,紧张地喝咖啡等)从上下文中删除。
pip install -r requirements.txt
export OPENAI_API_KEY= < your_api_key >
export ANTHROPIC_API_KEY= < your_api_key > # Generate local model anwers
# Use vicuna-7b as an example
python eval/get_model_answer.py --model-path ${PATH_TO_LOCAL_HF_MODEL} --model-id vicuna-7b --question-file data/question_nonverbal_yes_v0.1.jsonl --answer-file data/answer/answer_vicuna-7b.jsonl --num-gpus 8
# GPT-3 answer (reference model by alpaca-eval)
python eval/qa_baseline_gpt3.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt3.jsonl
# GPT-3.5 answer
python eval/qa_baseline_gpt35.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt35.jsonl
# GPT-4.0 answer
python eval/qa_baseline_gpt4.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt4.jsonl
# Claude answer
python eval/qa_baseline_claude.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_claude.jsonl我们的评估基于羊驼毛。
# Convert to alpaca_eval input format
python eval/generate_alpaca_eval.py -q data/question_nonverbal_yes_v0.1.jsonl -a data/answer/answer_gpt3.jsonl -o data/alpaca_eval/answer_gpt3.json
alpaca_eval make_leaderboard --leaderboard_path data/alpaca_results/leaderboard.csv --all_model_outputs " ./data/alpaca_eval/answer_* " --reference_outputs data/alpaca_eval/answer_gpt3.json --is_overwrite_leaderboard True该项目是一个早期的研究展示,仅专为非商业目的而设计。它遵守OpenAI的数据使用条款以及ShareGPT的隐私惯例。如果您发现任何潜在的违规行为,请告诉我们。该软件的代码可在Apache许可证2.0下获得。
我们要感谢UW的Yejin Choi,CMU的Louis-Philippe Morency,Meta的Jason Weston和Stanford的Diyi Yang的启发性对话和建设性投入。 Kokomind的理论基础是基于Liang的博士研究,该博士学位与北京大学,Tsinghua大学和北京通用人工智能研究所(BIGAI)和UCLA的Ying Nian Wu的Song-Chun Zhu基础。
如果您觉得有用,请引用我们的工作。
@misc { Shi_KokoMind_Can_Large_2023 ,
author = { Shi, Weiyan and Qiu, Liang and Xu, Dehong and Sui, Pengwei and Lu, Pan and Yu, Zhou } ,
title = { {KokoMind: Can Large Language Models Understand Social Interactions?} } ,
month = jul,
year = { 2023 } ,
url = { https://chats-lab.github.io/KokoMind/ }
}