?数据|?代码|?拥抱面排行榜|?纸|

?转向?是我们的EMNLP 2023主要会议论文中提出的基准:对LLMS效率低下的调查,以理解Converse erse Rations 。它旨在评估LLMS理解相反关系的能力。匡威关系定义为语义关系的相反,同时保持三重不变的表面形式。例如,三重(x, has part, y)被解释为正常关系中的“ x有一个名为y的部分”,而“ y具有相反关系中的零件称为x”。
我们论文中的实验表明,LLMS经常诉诸捷径学习(或表面相关性),并且在我们的Concre中仍然面临挑战?即使对于像GPT-4这样的强大模型,也是基准测试。下图显示了在我们的基准测试中零射击轻松/硬设置下的GPT模型的性能。可以观察到,在Re2Text和Text2Re任务中,GPT模型在易于设置下都表现出正缩放趋势,并且在硬设定下呈逆缩放趋势。请检查我们的论文吗?还是拥抱面排行榜?有关更详细和全面的结果。

在中文中阅读。
Convre Benchmark由五个广泛使用的知识图数据集由17个关系和1240个三元组组成:WN18RR,FB15K-237,Nell-One,Wikidata5M5M,Icews14,ConceptNet5。下面列出了基准中每个关系的详细数字。
| 关系 | #三元组 | 来源 |
|---|---|---|
| 超诺 | 80 | WN18RR |
| 有一部分 | 78 | WN18RR |
| 组织,组织关系,孩子 | 75 | FB15K-237 |
| 位置,位置,部分包含 | 77 | FB15K-237 |
| 运动员击败运动员 | 80 | 内尔一 |
| 父母 | 145 | Nell-One和Wikidata5m |
| 由 | 79 | Wikidata5m |
| 副作用 | 8 | Wikidata5m |
| 有设施 | 62 | Wikidata5m |
| 受 | 65 | Wikidata5m |
| 由 | 51 | Wikidata5m |
| 咨询 | 73 | ICEWS14 |
| 赞美或认可 | 78 | ICEWS14 |
| 由 | 80 | ConceptNet5 |
| 使用 | 79 | ConceptNet5 |
| 有财产 | 55 | ConceptNet5 |
| 有子事件 | 75 | ConceptNet5 |
| 全部的 | 1240 |
数据集文件可以在data目录中找到。这是每个文件的描述。
re2text_relations.json : re2text任务的每个关系的正常和相反关系定义以及相应的选择。re2text_examples.json : re2text任务的几个镜头示例,包括normal提示设置和hint+cot设置。text2re_relations :常规和匡威关系定义以及text2re任务的每个关系的相应选择。text2re_examples.json : re2text任务的几个镜头示例,包括normal提示设置和hint+cot设置。triple_dataset :基准的完整数据集,包括三元组和正确的答案。triple_subset :我们在论文中使用的子集,其中包含328个三元组及其相应的正确答案。 下面列出的模型经过测试,可以使用推理中的脚本直接运行。
GPT文本模型
克劳德模型
Flan-T5型号
Llama2聊天模型
QWEN聊天模型
Internlm模型
我们的基准标准可在Huggingface上使用吗? (关联)。您可以通过使用main_hf.py轻松运行推理并指定以下三个参数。
model_name :大语言模型的名称,请参阅我们支持的模型列表。task :Convre基准的子任务: text2re或re2text 。setting :当前运行的提示设置(提示1-Prompt 12),请参阅我们的论文(链接),以获取每个设置的更多详细信息。例子
这是在text-davinci-003上运行re2text任务prompt4的脚本吗?
python3 main_hf.py --model_name text-davinci-003 --task re2text --setting prompt4我们还提供了一种更灵活的方法来运行实验。您需要指定queight参数。
model_name :您要使用的大语言模型的名称,请参阅我们支持的模型列表。task :Convre基准的子任务: text2re或re2text 。data_dir :数据集存储的目录。prompt :在实验中使用的提示类型: normal , hint或hint+cot 。relation :在实验中使用的关系类型:正常关系的normal和相反关系的converse 。n_shot :很少的数字,在[0、1、2、3、4、5、6]中选择一个数字。example_type :少数示例的类型, hard或regular 。text_type :在实验中使用的文本类型, regular或hard 。下面列出了我们论文中使用的12个提示中每个提示的参数设置。
| 提示ID | 迅速的 | 关系 | N_Shot | example_type | text_type |
|---|---|---|---|---|---|
| re2Text 1# | 普通的 | 普通的 | 0 | 常规的 | 常规的 |
| text2re 1# | 普通的 | 普通的 | 0 | 常规的 | 难的 |
| re2Text 2# | 普通的 | 普通的 | 0 | 常规的 | 难的 |
| text2re 2# | 普通的 | 普通的 | 0 | 常规的 | 常规的 |
| re2Text 3# | 普通的 | 交谈 | 0 | 常规的 | 常规的 |
| text2re 3# | 普通的 | 交谈 | 0 | 常规的 | 难的 |
| re2Text 4# | 普通的 | 交谈 | 0 | 常规的 | 难的 |
| text2re 4# | 普通的 | 交谈 | 0 | 常规的 | 常规的 |
| re2Text 5# | 暗示 | 交谈 | 0 | 常规的 | 常规的 |
| text2re 5# | 暗示 | 交谈 | 0 | 常规的 | 难的 |
| re2Text 6# | 暗示 | 交谈 | 0 | 常规的 | 难的 |
| text2re 6# | 暗示 | 交谈 | 0 | 常规的 | 常规的 |
| 7# | 普通的 | 交谈 | 3 | 难的 | 难的 |
| 8# | 提示+cot | 交谈 | 3 | 难的 | 难的 |
| 9# | 普通的 | 交谈 | 6 | 难的 | 难的 |
| 10# | 普通的 | 交谈 | 3 | 常规的 | 难的 |
| 11# | 提示+cot | 交谈 | 3 | 常规的 | 难的 |
| 12# | 普通的 | 交谈 | 6 | 常规的 | 难的 |
例子
这是在gpt-3.5-turbo-0301上运行text2re任务prompt3的脚本?
python3 main.py --model_name gpt-3.5-turbo-0301 --task text2re --data_dir data --prompt normal --relation converse --n_shot 0 --example_type regular --text_type hard运行评估脚本时,需要指定三个参数。
file_path :结果文件的path ?。model_family :结果文件的模型家族,用于选择相应的评估器。您应该从flan-t5 , claude , gpt-text , gpt-chat , llama2 , qwen , internlm中进行选择。mode :我们提供两种评估模式: strict和auto 。如果模型的答案与我们想要的内容不一致, strict模式将引起错误。在这种情况下,您应该手动检查模型的答案。 auto模式只会忽略不一致的答案。在auto模式下计算的性能可能低于strict模式,但它非常方便,不需要任何人力支持。与用户请求保持一致的能力也是LLMS功能的非常重要的指标。 首先,您应该创建一个新类,该类在llms_interface.py中继承LanguageModels ,然后根据模型的特征(例如新模型API的结构)实现completion方法。
获得结果后,您应该创建一个新类,该类别在llms_evaluator.py中继承BaseEvaluator ,然后根据模型的答案模式实现evaluate方法。
要在基准中添加新的关系,您应该首先检查该关系是否符合我们论文Section 2.5中的要求。然后,您应该为Re2Text和Text2Re任务编写相应的提示。
re2Text
注意:在此任务中,所有问题都在要求头部实体。
normal :关系的normal指示。converse :Relaiton的converse指导。normal-regular : normal关系下的问题的regular描述。normal-hard在normal关系下的问题的hard描述。converse-regular :在converse关系下的问题的regular描述。converse-hard :在converse关系下的问题的hard 。text2re
normal :关系的normal指示。converse :相关的converse指导。hard :问题的hard描述。regular :对问题的regular描述。normal-correct : normal关系下的correct选择。normal-wrong : normal关系下的wrong选择。converse-correct :在converse关系下的correct选择。converse-wrong :在converse关系下的wrong选择。是否可以在我们的基准中添加新的模型和关系?
@misc{qi2023investigation,
title={An Investigation of LLMs' Inefficacy in Understanding Converse Relations},
author={Chengwen Qi and Bowen Li and Binyuan Hui and Bailin Wang and Jinyang Li and Jinwang Wu and Yuanjun Laili},
year={2023},
eprint={2310.05163},
archivePrefix={arXiv},
primaryClass={cs.CL}
}