对AI生成的故事的评估的研究尚未采用经过心理验证的量表进行人类评估。这对研究结果的有效性和可靠性构成了严重威胁,因为现有措施可能无法准确捕获预期的概念,或者可能无法可靠地捕获它们以使结果有意义。 AI故事量表(AISS)通过提供可靠且有效的评级量表来解决这一差距,该评分量表借鉴了经验研究和最佳心理测量实践,使研究人员和从业人员能够充满信心地评估AI生成的故事的质量和性质。
大型语言模型(LLM)很棒!在过去的几年中,这项技术的快速发展只能描述为真正令人叹为观止(Min等,2021; Tang,Guerin,Li&Lin,2022)。截至写作时(2023年6月),诸如Chatgpt,GPT-4和其他新兴模型之类的工具继续成为头条新闻并捕捉公众的想象力(例如Bubeck等,2023,Lee,Bubeck&Petro,2023年,2023年,OpenAI,2023年)。这些模型具有非凡的壮举,表现出对诸如讲故事的复杂和多方面的任务的令人印象深刻的熟练程度(Alhussain&Azmi,2021; Xie,Cohn&Lau,2023)。
实际上,在各个行业中,AI生成的讲故事越来越多。在娱乐行业中,AI被用于剧本和讲故事。在写作和著作领域,AI故事发生器正在成为作家的流行工具,提供了创新的方法来克服作家的障碍并为他们的工作找到灵感。
但是,尽管现有的实施方式令人印象深刻,但生成文本的评估实践已被确定为有缺陷的,而且研究通常无法满足声音经验科学的基本要求(Gehrmann,Clark和Sellam,2023年)。这是一个紧急问题;尤其是随着神经产生模型的改善,到通常无法根据旧指标所依赖的表面级特征来区分其输出的程度。即使是试图深入研究的措施,例如人类评估,也遭受了严重的缺点。其中最关键的之一是在大型语言模型和AI的研究中通常会忽略的一种:缺乏心理测量验证。
心理测量验证对于确保仪器根本测量任何有意义的事物至关重要,并且精确地做到了。缺乏验证是对该领域研究有效性的迫切威胁。 AI故事量表(AISS)旨在解决这个问题。 AISS为衡量AI生成的故事的质量和性质提供了坚实的基础,从而解决了当前人类故事评估措施的缺点。通过提供可靠且经过验证的工具来评估AI生成的故事,AISS可以帮助研究人员和从业者更好地了解不同模型和发电设置的功能和局限性。
我怀疑许多读者在这一点上可能在想:“心理测量学现在是什么?”。如果是这样,您可能会对另一种评估AI生成的文本的方式持怀疑态度。我得到它。
但是,与我同在 - 我将尝试解释为什么这是如此重要,以及AI故事量表如何在该领域产生重大影响。
在本节中,我将迅速通过当前方法来评估生成模型产生的故事。我还将尝试阐述为什么我认为研究人员可以从AI故事量表的添加到评估指标的武器库中获利。
自动评估是评估语言模型性能的常见方法。这些评估通常涉及将模型的输出与参考或“地面真相”文本进行比较。这是一些最常用的自动评估指标:
Bleu(Papineni等,2002),Rouge(Lin,2004年)和流星(Banerjee&Lavie,2005年)等指标将生成的文本与参考文本进行了比较,通过测量N-Grams的重叠(来自给定文本样本的N项的连续序列),将生成的文本与参考文本进行了比较)。这些指标最初是为机器翻译而设计的,可用于测量生成的故事针对黄金标准的拟合度。但是,它们主要集中在表面级文本特征上,并且可能无法完全捕获生成的故事的质量。
诸如Lambada(Paperno等,2016),Hellaswag(Zellers等,2019)和PIQA(Bisk等,2020)等最新评估方法旨在测试模型捕获更广泛的背景和常识能力的能力。 Lambada评估了模型在句子中预测最终单词的能力,而Hellaswag和Piqa测试了模型做出常识预测的能力。尽管这些方法为模型的推理能力提供了有趣的见解,但它们并未直接评估产生的故事的质量。
自动评估提供了快速,可扩展和客观的优势。但是,尽管这些评估是评估语言模型的宝贵工具,但在评估生成故事的质量方面,它们存在局限性。他们通常专注于语言产生的特定方面,并且可能无法完全捕捉到讲故事至关重要的丰富性,创造力和叙事连贯性。这是人类评估和AI故事量表发挥作用的地方。
另一种方法是使用人类法官评估一个故事(Purdy等,2018; Yao等,2019; Castricato等,2021a; Castricato等,2021b; Callan&Foster,2021)。毕竟,语言模型的故事产生的最终目标是创造人们喜欢阅读和享受的令人信服和引人入胜的故事。当时使用人类作为我们对故事质量的最终度量不是很自然吗?
我个人认为,人类对AI生成的故事的评估值得关注。它不仅可以用来衡量故事的“整体质量”,而且还可以帮助了解不同的故事可能产生的故事以及它们的不同之处。当我们调整模型的体系结构或超参数时,它也可以用来探索故事质量如何变化。
现有措施是捕捉人类如何体验语言模型编写的故事的重要第一步。但是,我认为他们可以从进一步的完善和扩展中受益。但是,让我们不要超越自己。在回顾现有的人类评估工具之前,让我们首先从测量主观故事体验的规模中确定所需的东西。
事实证明,从讨厌的人类中衡量任何东西都是混乱的。尤其是在内部状态方面。在内部状态下,我的意思是无法通过观察到直接获得的人类经验。这些是奇怪的事情,例如情绪,观点,态度,信念或偏好。为了使其听起来比以前更复杂,心理学家将这些东西称为“潜在构造”(或只是“构造”)或“潜在变量”。潜在变量不是直接观察到的,而必须从其他观察结果中推断出来 - 例如,有人在1到5的规模上选择什么选择,这个故事有多有趣?”。
人们可能会认为我们测量这些变量的方式将很简单:我们想知道这个故事有多有趣。因此,我们只是问一个人他们找到了这个故事有多有趣,然后在所有参与者中平均得多。完成了,让我们继续吧!
但是,测量潜在变量会带来其独特的挑战。不熟悉衡量内部状态特殊性的研究人员可能没有意识到挑战。但是,请忽略自己的危险!粗心的内部状态测量可能会导致非常有偏见且可能毫无意义的结果!
幸运的是,有一个领域已经研究了这个问题已有数十年了:Psychometrics.t是一门学科,它已经开发了各种工具来衡量潜在的结构,以及关于这些测量中可能发生的错误的丰富理论以及如何减少它们(有关简介,请参见Furr,2011; El-Den等,2020; 2020; Flake&Frake&Frake&Fried,2020)。我会敦促AI研究人员认真对待人类评估,并将心理计量学吸取的教训置于核心。这样,人工智能研究可以从心理学家和统计学家的数十年努力工作中获利,以改善我们如何衡量对人类重要的事情,例如AI生成的故事的质量。
测量理论的见解可以帮助我们在测量潜在构造时认识到潜在的陷阱。首先,当我们通过1至5的规模询问“兴趣”之类的东西时,隐含的假设是什么,这个故事有多有趣?”:
此过程的问题可能在不同的位置出现,但通常将两类放在:有效性和可靠性下。
这两个概念都有许多方面,我不可能在这里涵盖这些主题的全部研究。下面,我将对主要思想提供相当简单的摘要。有关更详细的报道,请参见例如Drost(2011),Wolming andWikström(2010)和Meyer(2010)。
有效的仪器测量其实际打算测量的结构。无效的措施不能提供预期构建体的测量。由于多种原因,有效性问题可能出现。
例如,人们在判断故事时可能根本不会考虑自己的独立标准。也就是说,尽管从理论上讲可能似乎是合理的,但兴趣可能并不是作为现实世界中的一种结构而有意义地存在的。对“这个故事有多有趣?”的回答。相反,可以通过其他因素的混合来预测(例如,故事的创造力)。
另外,“兴趣”可能是现实世界中有意义的结构,但是无论出于何种原因,我们的问题根本无法捕获它并衡量其他东西。说,我们试图通过询问“这个故事刺痛吗?”来衡量“有趣”。问题可能会衡量音调和节奏的结合。
具有可疑有效性的措施是对研究结果完整性的严重威胁(Flake&Fried,2020)!更糟糕的是,如果理论框架是基于无效措施的结果,则可以将整个领域误入歧途。想象一下,当所有“兴趣”的措施变成无效时(即,测量其他东西)时,优化模型来产生“有趣”的故事。模型将针对某些东西进行优化,但是对于确切的理解尚待了解。
可靠的措施可以精确地捕获其衡量的任何方法。如果我们在同一对象上反复使用它,我们可以期望每次都会获得类似的结果,而几乎没有测量误差。不可靠的工具缺乏精确性,如果问题严重,可能基本上是没有用的。也就是说,可靠性描述了测量误差的程度。
如果我们从措施中获得的分数差异很大,那么它是否确实衡量了它应该衡量的内容并不重要 - 我们根本无法相信我们获得的结果。换句话说,我们希望一项措施有效且可靠。
©Nevit Dilmen
那么,我们如何确保我们对人类评级的措施是有效且可靠的?答案通常是:通过使用心理测量技术来验证使用现实世界数据的问卷。
理想情况下,从措施的构建开始,采取了系统的严格方法。例如,根据心理测量研究的见解,可以在Boateng等人中找到最佳实践的详细摘要。 (2018)和Hinkin(1998)。
该过程的非常简短(可能过于表面上)概述:
现在,我们已经涵盖了足够的基础,以讨论现有的故事质量措施的潜在问题。简而言之,我看到了方法上的缺点以及现有措施的潜在严重问题。
为了我的意识,尚未评估过人类对AI生成故事的评估工具,这些工具尚未评估它们是否实际测量任何有意义的东西(测试有效性)还是其精度(测试可靠性)。正如我刚刚讨论的那样,这代表了对这些措施有用性的严重威胁。
此外,在每个概念(例如“本地上下文”或“享受性”)的领域中非常普遍,可以用一个项目来衡量(例如,Purdy等,2018; Yao等,2019; Callan&Foster,2021年)。众所周知,以严重的心理测量成本来测量相当抽象的潜在构造(Furr,2011年):对于一个项目,单个项目可能非常不精确,并且不会捕获整个构建体的全部广度。也许更重要的是,一项评估措施质量的许多技术都不可用或很难。 2由于这些原因,建立的心理测量指南通常建议每个构造4-6个项目用于可靠的心理测量和测量(例如,Hinkins等,1998)。
现有的工具清楚地为评估AI生成的故事的质量和性质奠定了基础。但是,正如我们在上一节中看到的那样,他们目前这样做的风险可能会产生偏见和误导理论见解。虽然我不想摆脱他们的工作,但我相信他们将受益于对既定心理学原则的更全面验证。
我提出的评估AI生成故事的工具是根据规模构造的最佳实践开发的:AI故事规模(AISS)。目前,它是根据经验分析对AI生成的故事进行评估的唯一问卷。它应该提供一种强大的工具,以了解不同的语言模型和超参数如何影响人们对结果故事输出的体验。您可以在这里找到乐器。
我将尝试通过新数据缓慢改善和扩展这一规模。 3链接到我关于乔米的研究:
初步的研究起草了AISS的物品,并探索其阶乘结构。根据这项研究的结果,我构建了AISS的版本。
它还包含一些概念验证分析证明,以说明如何使用AISS来对不同的生成设置如何导致不同类型的故事有更详细的了解。
如果您还不到达,请转到回购的主页,然后查看“关于”字段的权利。单击“引用此存储库”的行。
那不是我说的。我说没有经过心理验证的量表。我知道有几种用于评估AI生成的故事的乐器。但是,尚未对其心理测量质量进行评估。我们不知道大多数人在回答这些量表的问题时使用的标准,以及这些标准是否与各个规模的作者的意图相匹配。我们不知道量表的结果有多可靠。这是一个严重的问题,因为这意味着我们无法确定我们从这些工具中获得的结果实际上是有意义的。有关这些问题的入门,请重新阅读本节并查看我链接的参考文献。
当然,如果我错了,并且对AI研究的某些规模得到了精神法法在心理上的验证,那么我很高兴听到这一点。拜托,请让我知道!
成对比较代表具有不同弱点和优势的不同研究设计。因此,在成对比较设计与单个故事的评估之间进行选择应取决于手头的研究问题。然而,只有对成对比较的建议,对我来说似乎是非常不明智的。
成对比较将为您提供二分法数据(选择的故事?A/B)。根据定义,二分法数据的信息少于5点李克特量表的选择。这意味着您必须使用这种设计来牺牲一些统计能力(或者,您将仅限于具有较低统计能力的分析方法)。
此外,对成对比较的选择甚至更难探测解释答案的基础构造。为什么参与者选择一个故事而不是另一个故事?他们使用了什么标准?他们喜欢一个故事和不喜欢另一个故事的什么?这些问题很难回答。
我还想指出,仅仅因为您使用成对的比较设计,这并不能以某种方式减轻您对人体评估的责任。也就是说,如果您希望使用任何科学严格的碎片进行研究,仍然需要检查心理测量值的有效性和可靠性。哪些潜在因素决定了故事B的选择?这与您打算衡量的(有效性)匹配吗?结果有多可靠?评估者一般就同一故事一致比其他故事更好(可靠性)?有效性可能很难通过成对比较设计来检查,而使用评估者间可靠性的措施可以相对容易地控制可靠性(如果需要的话,可以通过手动计算大多数措施)。但是,我尚未遇到AI研究中的一篇论文,该论文报告了其工具的任何心理测量分析。
当然,我并不是说您绝不应该使用成对的比较设计。这种设计的优势是:这些措施更接近“行为”措施,因为人们实际上选择了一个故事。如果您有兴趣研究或预测行为(例如选择一个模型而不是另一个模型),这是一个优势。但是,许多理论将对导致这种选择的故事的基本属性做出许多明确或暗示的假设。如果要测试这些理论,则需要能够测量这些属性。成对比较通常不是理想的研究设计。
如果您想在短片段中学习逻辑上的矛盾,请使用短片段。我对AI生成的文本产生的全球印象感兴趣。因此,我最初使用了更长的摘录。
我不同意人们从故事中获得全局不利。我认为,如果您让人们从语言模型编写的故事中阅读较长的摘录(例如5分钟阅读),那么他们将带有对该文本的某种印象。这种印象将根据用于生成摘录的模型的特殊性而有所不同。我认为这些差异很有趣且有意义,如果从未研究过这些差异,那将是不幸的,因为从未看过的只是简短的片段。
我认为我的数据与我一致,顺便说一句:对于更长的故事摘录的评估,我发现数据中有很大的差异,这些差异有意义地围绕某些故事因素。
该测量模型被称为反射测量模型:假定构造引起指标(对问题的回答)。翻转侧将是形成性测量模型。但是,我认为一个反思性测量模型更适合研究人员在收集人类评估时暗示的假设,因此我不会进一步考虑形成性测量模型。 ↩
诚然,在这种情况下,这并不重要,因为这些项目都没有被检查是否有其心理测量质量。 ↩
但是,当我说“慢”时,我的意思是真的很慢- 这仍然是我的爱好项目! ↩