對AI生成的故事的評估的研究尚未採用經過心理驗證的量表進行人類評估。這對研究結果的有效性和可靠性構成了嚴重威脅,因為現有措施可能無法準確捕獲預期的概念,或者可能無法可靠地捕獲它們以使結果有意義。 AI故事量表(AISS)通過提供可靠且有效的評級量表來解決這一差距,該評分量表借鑒了經驗研究和最佳心理測量實踐,使研究人員和從業人員能夠充滿信心地評估AI生成的故事的質量和性質。
大型語言模型(LLM)很棒!在過去的幾年中,這項技術的快速發展只能描述為真正令人嘆為觀止(Min等,2021; Tang,Guerin,Li&Lin,2022)。截至寫作時(2023年6月),諸如Chatgpt,GPT-4和其他新興模型之類的工具繼續成為頭條新聞並捕捉公眾的想像力(例如Bubeck等,2023,Lee,Bubeck&Petro,2023年,2023年,OpenAI,2023年)。這些模型具有非凡的壯舉,表現出對諸如講故事的複雜和多方面的任務的令人印象深刻的熟練程度(Alhussain&Azmi,2021; Xie,Cohn&Lau,2023)。
實際上,在各個行業中,AI生成的講故事越來越多。在娛樂行業中,AI被用於劇本和講故事。在寫作和著作領域,AI故事發生器正在成為作家的流行工具,提供了創新的方法來克服作家的障礙並為他們的工作找到靈感。
但是,儘管現有的實施方式令人印象深刻,但生成文本的評估實踐已被確定為有缺陷的,而且研究通常無法滿足聲音經驗科學的基本要求(Gehrmann,Clark和Sellam,2023年)。這是一個緊急問題;尤其是隨著神經產生模型的改善,到通常無法根據舊指標所依賴的表面級特徵來區分其輸出的程度。即使是試圖深入研究的措施,例如人類評估,也遭受了嚴重的缺點。其中最關鍵的之一是在大型語言模型和AI的研究中通常會忽略的一種:缺乏心理測量驗證。
心理測量驗證對於確保儀器根本測量任何有意義的事物至關重要,並且精確地做到了。缺乏驗證是對該領域研究有效性的迫切威脅。 AI故事量表(AISS)旨在解決這個問題。 AISS為衡量AI生成的故事的質量和性質提供了堅實的基礎,從而解決了當前人類故事評估措施的缺點。通過提供可靠且經過驗證的工具來評估AI生成的故事,AISS可以幫助研究人員和從業者更好地了解不同模型和發電設置的功能和局限性。
我懷疑許多讀者在這一點上可能在想:“心理測量學現在是什麼?”。如果是這樣,您可能會對另一種評估AI生成的文本的方式持懷疑態度。我得到它。
但是,與我同在 - 我將嘗試解釋為什麼這是如此重要,以及AI故事量表如何在該領域產生重大影響。
在本節中,我將迅速通過當前方法來評估生成模型產生的故事。我還將嘗試闡述為什麼我認為研究人員可以從AI故事量表的添加到評估指標的武器庫中獲利。
自動評估是評估語言模型性能的常見方法。這些評估通常涉及將模型的輸出與參考或“地面真相”文本進行比較。這是一些最常用的自動評估指標:
Bleu(Papineni等,2002),Rouge(Lin,2004年)和流星(Banerjee&Lavie,2005年)等指標將生成的文本與參考文本進行了比較,通過測量N-Grams的重疊(來自給定文本樣本的N項的連續序列),將生成的文本與參考文本進行了比較)。這些指標最初是為機器翻譯而設計的,可用於測量生成的故事針對黃金標準的擬合度。但是,它們主要集中在表面級文本特徵上,並且可能無法完全捕獲生成的故事的質量。
諸如Lambada(Paperno等,2016),Hellaswag(Zellers等,2019)和PIQA(Bisk等,2020)等最新評估方法旨在測試模型捕獲更廣泛的背景和常識能力的能力。 Lambada評估了模型在句子中預測最終單詞的能力,而Hellaswag和Piqa測試了模型做出常識預測的能力。儘管這些方法為模型的推理能力提供了有趣的見解,但它們並未直接評估產生的故事的質量。
自動評估提供了快速,可擴展和客觀的優勢。但是,儘管這些評估是評估語言模型的寶貴工具,但在評估生成故事的質量方面,它們存在局限性。他們通常專注於語言產生的特定方面,並且可能無法完全捕捉到講故事至關重要的豐富性,創造力和敘事連貫性。這是人類評估和AI故事量表發揮作用的地方。
另一種方法是使用人類法官評估一個故事(Purdy等,2018; Yao等,2019; Castricato等,2021a; Castricato等,2021b; Callan&Foster,2021)。畢竟,語言模型的故事產生的最終目標是創造人們喜歡閱讀和享受的令人信服和引人入勝的故事。當時使用人類作為我們對故事質量的最終度量不是很自然嗎?
我個人認為,人類對AI生成的故事的評估值得關注。它不僅可以用來衡量故事的“整體質量”,而且還可以幫助了解不同的故事可能產生的故事以及它們的不同之處。當我們調整模型的體系結構或超參數時,它也可以用來探索故事質量如何變化。
現有措施是捕捉人類如何體驗語言模型編寫的故事的重要第一步。但是,我認為他們可以從進一步的完善和擴展中受益。但是,讓我們不要超越自己。在回顧現有的人類評估工具之前,讓我們首先從測量主觀故事體驗的規模中確定所需的東西。
事實證明,從討厭的人類中衡量任何東西都是混亂的。尤其是在內部狀態方面。在內部狀態下,我的意思是無法通過觀察到直接獲得的人類經驗。這些是奇怪的事情,例如情緒,觀點,態度,信念或偏好。為了使其聽起來比以前更複雜,心理學家將這些東西稱為“潛在構造”(或只是“構造”)或“潛在變量”。潛在變量不是直接觀察到的,而必須從其他觀察結果中推斷出來 - 例如,有人在1到5的規模上選擇什麼選擇,這個故事有多有趣? ”。
人們可能會認為我們測量這些變量的方式將很簡單:我們想知道這個故事有多有趣。因此,我們只是問一個人他們找到了這個故事有多有趣,然後在所有參與者中平均得多。完成了,讓我們繼續吧!
但是,測量潛在變量會帶來其獨特的挑戰。不熟悉衡量內部狀態特殊性的研究人員可能沒有意識到挑戰。但是,請忽略自己的危險!粗心的內部狀態測量可能會導致非常有偏見且可能毫無意義的結果!
幸運的是,有一個領域已經研究了這個問題已有數十年了:Psychometrics.t是一門學科,它已經開發了各種工具來衡量潛在的結構,以及關於這些測量中可能發生的錯誤的豐富理論以及如何減少它們(有關簡介,請參見Furr,2011; El-Den等,2020; 2020; Flake&Frake&Frake&Fried,2020)。我會敦促AI研究人員認真對待人類評估,並將心理計量學吸取的教訓置於核心。這樣,人工智能研究可以從心理學家和統計學家的數十年努力工作中獲利,以改善我們如何衡量對人類重要的事情,例如AI生成的故事的質量。
測量理論的見解可以幫助我們在測量潛在構造時認識到潛在的陷阱。首先,當我們通過1至5的規模詢問“興趣”之類的東西時,隱含的假設是什麼,這個故事有多有趣? ”:
此過程的問題可能在不同的位置出現,但通常將兩類放在:有效性和可靠性下。
這兩個概念都有許多方面,我不可能在這裡涵蓋這些主題的全部研究。下面,我將對主要思想提供相當簡單的摘要。有關更詳細的報導,請參見例如Drost(2011),Wolming andWikström(2010)和Meyer(2010)。
有效的儀器測量其實際打算測量的結構。無效的措施不能提供預期構建體的測量。由於多種原因,有效性問題可能出現。
例如,人們在判斷故事時可能根本不會考慮自己的獨立標準。也就是說,儘管從理論上講可能似乎是合理的,但興趣可能並不是作為現實世界中的一種結構而有意義地存在的。對“這個故事有多有趣?”的回答。相反,可以通過其他因素的混合來預測(例如,故事的創造力)。
另外,“興趣”可能是現實世界中有意義的結構,但是無論出於何種原因,我們的問題根本無法捕獲它並衡量其他東西。說,我們試圖通過詢問“這個故事刺痛嗎?”來衡量“有趣”。問題可能會衡量音調和節奏的結合。
具有可疑有效性的措施是對研究結果完整性的嚴重威脅(Flake&Fried,2020)!更糟糕的是,如果理論框架是基於無效措施的結果,則可以將整個領域誤入歧途。想像一下,當所有“興趣”的措施變成無效時(即,測量其他東西)時,優化模型來產生“有趣”的故事。模型將針對某些東西進行優化,但是對於確切的理解尚待了解。
可靠的措施可以精確地捕獲其衡量的任何方法。如果我們在同一對像上反複使用它,我們可以期望每次都會獲得類似的結果,而幾乎沒有測量誤差。不可靠的工具缺乏精確性,如果問題嚴重,可能基本上是沒有用的。也就是說,可靠性描述了測量誤差的程度。
如果我們從措施中獲得的分數差異很大,那麼它是否確實衡量了它應該衡量的內容並不重要 - 我們根本無法相信我們獲得的結果。換句話說,我們希望一項措施有效且可靠。
©Nevit Dilmen
那麼,我們如何確保我們對人類評級的措施是有效且可靠的?答案通常是:通過使用心理測量技術來驗證使用現實世界數據的問卷。
理想情況下,從措施的構建開始,採取了系統的嚴格方法。例如,根據心理測量研究的見解,可以在Boateng等人中找到最佳實踐的詳細摘要。 (2018)和Hinkin(1998)。
該過程的非常簡短(可能過於表面上)概述:
現在,我們已經涵蓋了足夠的基礎,以討論現有的故事質量措施的潛在問題。簡而言之,我看到了方法上的缺點以及現有措施的潛在嚴重問題。
為了我的意識,尚未評估過人類對AI生成故事的評估工具,這些工具尚未評估它們是否實際測量任何有意義的東西(測試有效性)還是其精度(測試可靠性)。正如我剛剛討論的那樣,這代表了對這些措施有用性的嚴重威脅。
此外,在每個概念(例如“本地上下文”或“享受性”)的領域中非常普遍,可以用一個項目來衡量(例如,Purdy等,2018; Yao等,2019; Callan&Foster,2021年)。眾所周知,以嚴重的心理測量成本來測量相當抽象的潛在構造(Furr,2011年):對於一個項目,單個項目可能非常不精確,並且不會捕獲整個構建體的全部廣度。也許更重要的是,一項評估措施質量的許多技術都不可用或很難。 2由於這些原因,建立的心理測量指南通常建議每個構造4-6個項目用於可靠的心理測量和測量(例如,Hinkins等,1998)。
現有的工具清楚地為評估AI生成的故事的質量和性質奠定了基礎。但是,正如我們在上一節中看到的那樣,他們目前這樣做的風險可能會產生偏見和誤導理論見解。雖然我不想擺脫他們的工作,但我相信他們將受益於對既定心理學原則的更全面驗證。
我提出的評估AI生成故事的工具是根據規模構造的最佳實踐開發的:AI故事規模(AISS)。目前,它是根據經驗分析對AI生成的故事進行評估的唯一問卷。它應該提供一種強大的工具,以了解不同的語言模型和超參數如何影響人們對結果故事輸出的體驗。您可以在這裡找到樂器。
我將嘗試通過新數據緩慢改善和擴展這一規模。 3鏈接到我關於喬米的研究:
初步的研究起草了AISS的物品,並探索其階乘結構。根據這項研究的結果,我構建了AISS的版本。
它還包含一些概念驗證分析證明,以說明如何使用AISS來對不同的生成設置如何導致不同類型的故事有更詳細的了解。
如果您還不到達,請轉到回購的主頁,然後查看“關於”字段的權利。單擊“引用此存儲庫”的行。
那不是我說的。我說沒有經過心理驗證的量表。我知道有幾種用於評估AI生成的故事的樂器。但是,尚未對其心理測量質量進行評估。我們不知道大多數人在回答這些量表的問題時使用的標準,以及這些標準是否與各個規模的作者的意圖相匹配。我們不知道量表的結果有多可靠。這是一個嚴重的問題,因為這意味著我們無法確定我們從這些工具中獲得的結果實際上是有意義的。有關這些問題的入門,請重新閱讀本節並查看我鏈接的參考文獻。
當然,如果我錯了,並且對AI研究的某些規模得到了精神法法在心理上的驗證,那麼我很高興聽到這一點。拜託,請讓我知道!
成對比較代表具有不同弱點和優勢的不同研究設計。因此,在成對比較設計與單個故事的評估之間進行選擇應取決於手頭的研究問題。然而,只有對成對比較的建議,對我來說似乎是非常不明智的。
成對比較將為您提供二分法數據(選擇的故事?A/B)。根據定義,二分法數據的信息少於5點李克特量表的選擇。這意味著您必須使用這種設計來犧牲一些統計能力(或者,您將僅限於具有較低統計能力的分析方法)。
此外,對成對比較的選擇甚至更難探測解釋答案的基礎構造。為什麼參與者選擇一個故事而不是另一個故事?他們使用了什麼標準?他們喜歡一個故事和不喜歡另一個故事的什麼?這些問題很難回答。
我還想指出,僅僅因為您使用成對的比較設計,這並不能以某種方式減輕您對人體評估的責任。也就是說,如果您希望使用任何科學嚴格的碎片進行研究,仍然需要檢查心理測量值的有效性和可靠性。哪些潛在因素決定了故事B的選擇?這與您打算衡量的(有效性)匹配嗎?結果有多可靠?評估者一般就同一故事一致比其他故事更好(可靠性)?有效性可能很難通過成對比較設計來檢查,而使用評估者間可靠性的措施可以相對容易地控制可靠性(如果需要的話,可以通過手動計算大多數措施)。但是,我尚未遇到AI研究中的一篇論文,該論文報告了其工具的任何心理測量分析。
當然,我並不是說您絕不應該使用成對的比較設計。這種設計的優勢是:這些措施更接近“行為”措施,因為人們實際上選擇了一個故事。如果您有興趣研究或預測行為(例如選擇一個模型而不是另一個模型),這是一個優勢。但是,許多理論將對導致這種選擇的故事的基本屬性做出許多明確或暗示的假設。如果要測試這些理論,則需要能夠測量這些屬性。成對比較通常不是理想的研究設計。
如果您想在短片段中學習邏輯上的矛盾,請使用短片段。我對AI生成的文本產生的全球印象感興趣。因此,我最初使用了更長的摘錄。
我不同意人們從故事中獲得全局不利。我認為,如果您讓人們從語言模型編寫的故事中閱讀較長的摘錄(例如5分鐘閱讀),那麼他們將帶有對該文本的某種印象。這種印象將根據用於生成摘錄的模型的特殊性而有所不同。我認為這些差異很有趣且有意義,如果從未研究過這些差異,那將是不幸的,因為從未看過的只是簡短的片段。
我認為我的數據與我一致,順便說一句:對於更長的故事摘錄的評估,我發現數據中有很大的差異,這些差異有意義地圍繞某些故事因素。
該測量模型被稱為反射測量模型:假定構造引起指標(對問題的回答)。翻轉側將是形成性測量模型。但是,我認為一個反思性測量模型更適合研究人員在收集人類評估時暗示的假設,因此我不會進一步考慮形成性測量模型。 ↩
誠然,在這種情況下,這並不重要,因為這些項目都沒有被檢查是否有其心理測量質量。 ↩
但是,當我說“慢”時,我的意思是真的很慢- 這仍然是我的愛好項目! ↩