KokoMind下载KokoMind源代码下载

KokoMind

其他源码

KokoMind 0.1 Release

下载

Kokomind

这是Kokomind的回购，Kokomind是一个具有多方社交互动的数据集，可以评估LLMS的社会理解能力。存储库包含：

社交互动的评估数据。
模型评估的代码。
查看Kokomind的博客文章以查看一些演示。

Kokomind的徽标。

消息

[2023.07.05] Kokomind在https://chats-lab.github.io/kokomind/上发布。

演示

demo2.mp4

数据集

Kokomind包含150个复杂的多方社交互动（每个来源50个），带有自由文本的问题和答案。为了确保多样性和可扩展性并避免数据污染，GPT-4产生了所有社交互动，问题和答案，并在后来由人类专家进行了验证。这些几代是基于三个不同来源的：

？仅GPT-4：此子集仅是由GPT-4通过提示创建的，而无需基于现有资源。
？基于电影的：为避免数据污染，这部分数据基于2022年后发行的电影所吸引的各种场景。GPT-4形状这些情况，在添加自己的元素的同时保持了核心本质。
？基于TOMI的：该细分市场包含由模拟数据集Tomi进行回调的数据，该数据涉及将物理对象移动到不同的位置，这是对思维理论的经典测试。这些社交互动再次被GPT-4修饰和扩展。

对于每次社会互动，我们提出了旨在探讨社会理解以下方面的各种问题。

？心理理论：评估对他人心理状态和观点的理解的问题。
？社会规范：旨在辨别情况下社会价值观和规范的问题。
？情感识别：旨在识别和理解上下文中情感元素的问题。
？‍？社会关系：关注人际关系和关系的疑问。
？反事实问题：旨在探索替代结果或可能性的假设查询。
社会建议：提出与给定情况相关的建议或行动建议的问题。

question_nonverbal_yes_v0.1.json总共包含770个样本。此JSON行文件是字典列表，每个字典都包含以下字段：

question_id ：INT，问题的独特ID。
text ：STR，社交互动上下文和问题。
answer ：STR，GPT-4答案已由人类进一步验证。
source ：Str，这是三个数据来源之一： gpt-4 ， movie ， tomi 。
category ：STR，六个问题类别之一： ToM ， Social Norm ， Emotion Recognition ， Social Relation ， Counterfactual ， Social Advice 。

question_nonverbal_no_v0.1.json包含相同的社交互动和问题，但是却带有括号中的非语言提示（例如，紧张地喝咖啡等）从上下文中删除。

评估

先决条件

pip install -r requirements.txt
export OPENAI_API_KEY= < your_api_key >
export ANTHROPIC_API_KEY= < your_api_key >

生成模型答案

 # Generate local model anwers
# Use vicuna-7b as an example
python eval/get_model_answer.py --model-path ${PATH_TO_LOCAL_HF_MODEL} --model-id vicuna-7b --question-file data/question_nonverbal_yes_v0.1.jsonl --answer-file data/answer/answer_vicuna-7b.jsonl --num-gpus 8

# GPT-3 answer (reference model by alpaca-eval)
python eval/qa_baseline_gpt3.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt3.jsonl

# GPT-3.5 answer
python eval/qa_baseline_gpt35.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt35.jsonl

# GPT-4.0 answer
python eval/qa_baseline_gpt4.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_gpt4.jsonl

# Claude answer
python eval/qa_baseline_claude.py -q data/question_nonverbal_yes_v0.1.jsonl -o data/answer/answer_claude.jsonl

运行评估

我们的评估基于羊驼毛。

 # Convert to alpaca_eval input format
python eval/generate_alpaca_eval.py -q data/question_nonverbal_yes_v0.1.jsonl -a data/answer/answer_gpt3.jsonl -o data/alpaca_eval/answer_gpt3.json

alpaca_eval make_leaderboard --leaderboard_path data/alpaca_results/leaderboard.csv --all_model_outputs " ./data/alpaca_eval/answer_* " --reference_outputs data/alpaca_eval/answer_gpt3.json --is_overwrite_leaderboard True

执照

该项目是一个早期的研究展示，仅专为非商业目的而设计。它遵守OpenAI的数据使用条款以及ShareGPT的隐私惯例。如果您发现任何潜在的违规行为，请告诉我们。该软件的代码可在Apache许可证2.0下获得。

致谢

我们要感谢UW的Yejin Choi，CMU的Louis-Philippe Morency，Meta的Jason Weston和Stanford的Diyi Yang的启发性对话和建设性投入。 Kokomind的理论基础是基于Liang的博士研究，该博士学位与北京大学，Tsinghua大学和北京通用人工智能研究所（BIGAI）和UCLA的Ying Nian Wu的Song-Chun Zhu基础。

引用

如果您觉得有用，请引用我们的工作。

 @misc { Shi_KokoMind_Can_Large_2023 ,
  author = { Shi, Weiyan and Qiu, Liang and Xu, Dehong and Sui, Pengwei and Lu, Pan and Yu, Zhou } ,
  title = { {KokoMind: Can Large Language Models Understand Social Interactions?} } ,
  month = jul,
  year = { 2023 } ,
  url = { https://chats-lab.github.io/KokoMind/ }
}