AIに生成されたストーリーの評価に関する研究は、人間の評価のために心理測定的に検証されたスケールをまだ採用していません。これは、既存の措置が意図した概念を正確に捉えていないか、結果が意味のあるものになるほど十分にそれらをキャプチャしない可能性があるため、研究結果の妥当性と信頼性に対する深刻な脅威をもたらします。 AIストーリースケール(AISS)は、実証的研究と最高の心理測定慣行に基づいた信頼できる有効な評価スケールを提供し、研究者と実践者が自信を持ってAIに生成されたストーリーの品質と性質を評価できるようにすることにより、このギャップに対処します。
大規模な言語モデル(LLMS)は素晴らしいです!過去数年間のこの技術の急速な進歩は、本当に息をのむようなものとしてしか説明できません(Min et al。、2021; Tang、Guerin、Li&Lin、2022)。執筆時点(2023年6月)の時点で、ChatGPT、GPT-4、その他の新興モデルなどのツールは、見出しを作り続け、公共の想像力をキャプチャし続けています(例:Bubeck et al。、2023、Lee、Bubeck&Petro、2023、Openai、2023)。これらのモデルは驚くべき偉業であり、ストーリーテリングのように複雑で多面的なタスクの印象的な習熟度を示しています(Alhussain&Azmi、2021; Xie、Cohn&Lau、2023)。
実際、AIに生成されたストーリーテリングは、さまざまな業界でますます採用されています。エンターテインメント業界では、AIは脚本とストーリーテリングに使用されています。執筆および著者セクターでは、AIストーリージェネレーターは作家に人気のあるツールになりつつあり、作家のブロックを克服し、彼らの仕事のインスピレーションを見つける革新的な方法を提供しています。
しかし、既存の実装と同じくらい印象的であるため、生成されたテキストの評価慣行は欠陥があると特定されており、健全な経験的科学の基本的な要件さえ満たすことさえできない研究(Gehrmann、Clark、&Sellam、2023)。これは緊急の問題です。特に、ニューラル生成モデルは、古いメトリックが依存している表面レベルの特徴に基づいて、その出力を区別できなくなることが多いポイントまで改善されたためです。人間の評価など、より深く掘り下げようとする措置でさえ、深刻な欠点に苦しんでいます。これらの中で最も重要なものの1つは、大規模な言語モデルとAIの研究で一般的に見落とされているものと、より一般的には心理測定検証の欠如です。
心理測定の検証は、機器が意味のあるものをまったく測定し、それを正確に測定するために不可欠です。この検証の欠如は、この分野での研究の妥当性に対する差し迫った脅威です。 AIストーリースケール(AISS)が対処することを目指しているのはこの問題です。 AISSは、AIに生成された物語の品質と性質を測定するための強固な基盤を提供し、人間の物語評価のための現在の測定の欠点に対する解決策を提供します。 AIに生成されたストーリーを評価するための信頼できる検証済みのツールを提供することにより、AISSは、研究者と実務家がさまざまなモデルと生成設定の能力と制限をよりよく理解するのに役立ちます。
この時点で多くの読者が「今何が心理測定されているのか?」と考えているのではないかと思います。それがあなたなら、あなたはAI生成されたテキストを評価する別の方法の必要性について懐疑的かもしれません。わかった。
しかし、私に耐えてください - 私はこれがなぜそれほど重要であるのか、そしてAIストーリースケールがどのようにフィールドに大きな違いをもたらすことができるかを説明しようとします。
このセクションでは、現在のアプローチをすばやく実行して、生成モデルによって生成されたストーリーを評価します。また、研究者がAIストーリースケールの追加から、評価指標の兵器庫に利益を得ることができると思う理由をレイアウトしようとします。
自動評価は、言語モデルのパフォーマンスを評価するための一般的なアプローチです。これらの評価では、通常、モデルの出力を参照または「グラウンドトゥルース」テキストと比較することが含まれます。最も一般的に使用される自動評価メトリックの一部は次のとおりです。
Bleu(Papineni et al。、2002)、Rouge(Lin、2004)、Meteor(Banerjee&Lavie、2005)などのメトリックは、N-Gramsのオーバーラップを測定することにより、参照テキストに対して生成されたテキストを比較します(特定のテキストのサンプルからのNアイテムのnアイテム)。これらのメトリックはもともと機械翻訳のために設計されており、生成されたストーリーのフィット感をゴールドスタンダードと測定するのに役立ちます。ただし、主に表面レベルのテキスト機能に焦点を当てており、生成されたストーリーの品質を完全にキャプチャしない場合があります。
Lambada(Paperno et al。、2016)、Hellaswag(Zellers et al。、2019)、Piqa(Bisk et al。、2020)などのより最近の評価方法は、より広範な文脈と常識の推論能力をキャプチャするモデルの能力をテストすることを目的としています。 Lambadaは、その文脈を考慮して文の最終単語を予測するモデルの能力を評価し、HellaswagとPiqaは常識的な予測を行うモデルの能力をテストします。これらの方法は、モデルの推論能力に関する興味深い洞察を提供しますが、生成されたストーリーの品質を直接評価しません。
自動評価は、迅速でスケーラブルで客観的であるという利点を提供します。ただし、これらの評価は言語モデルの評価において貴重なツールですが、生成されたストーリーの品質を評価することに関しては、制限があります。彼らはしばしば言語生成の特定の側面に焦点を当て、ストーリーテリングにおいて重要な豊かさ、創造性、物語の一貫性を完全に捉えていないかもしれません。これは、人間の評価とAIストーリースケールが登場する場所です。
別のアプローチは、人間の裁判官を使用してストーリーを評価することです(Purdy et al。、2018; Yao et al。、2019; Castricato et al。、2021a; Castricato et al。、2021b; Callan&Foster、2021)。結局のところ、言語モデルによるストーリー生成の最終目標は、人々が読んで楽しむのが好きな説得力のある魅力的な物語を生み出すことです。人間を物語の質の究極の尺度として使用するのは自然ではありませんか?
個人的には、AIに生成された物語の人間の評価は深刻な注目に値すると信じています。ストーリーの「全体的な品質」を測定するだけでなく、異なるモデルが生み出す可能性があり、どのような違いがあるかを理解するのにも役立ちます。また、モデルのアーキテクチャやハイパーパラメーターを微調整する際に、世代全体でストーリーの品質がどのように変化するかを探るためにも使用できます。
既存の対策は、人間が言語モデルによって書かれた物語をどのように経験するかを捉えるための重要な第一歩を表しています。しかし、彼らはさらに洗練され、拡張されることから利益を得ることができると思います。しかし、私たち自身よりも先に進まないようにしましょう。人間の評価のために既存の機器を確認する前に、最初に主観的なストーリー体験を測定するスケールから実際に望むものを確立しましょう。
結局のところ、厄介な人間から何かを測定することは乱雑です。特に内部状態に関しては。内部状態とは、観察によって直接アクセスできない人間の経験を意味します。これらは、気分、意見、態度、信念、好みなどの奇妙なことです。それをすでにより複雑にするために、心理学者はこれらのことを「潜在的な構造」(または単なる「構成」)または「潜在変数」と呼びます。潜在変数は直接観察可能ではありませんが、他の観測から推測する必要があります。たとえば、「1から5のスケールで、この話はどれほど興味深い」などの質問で誰かが選択するオプションを選択します。
これらの変数を測定する方法は簡単だと思うかもしれません。ストーリーがどれほど面白いかを知りたいと思います。だから、私たちはただ、彼らが物語をどれほど興味深く見つけたかを尋ね、それからすべての参加者でそれを平均します。終わり、先に進みましょう!
ただし、潜在変数の測定には独自の課題があります。研究者が内部状態を測定することの特性に精通していないという課題は気づかないかもしれません。しかし、あなた自身の危険でこれらの問題を無視してください!内部状態の不注意な測定は、非常に偏った潜在的に意味のない結果につながる可能性があります!
幸いなことに、この問題を何十年も研究してきた分野があります。Psychometrics。潜在的な構成要素を測定するためのさまざまなツールを開発した分野であり、これらの測定で発生する可能性のあるエラーの種類に関する豊富な理論です(2011年、2011年、El-Den et al。、2020; Flake&Fried、2020)。私は、AIの研究者に、人間の評価を真剣に測定し、心理測定によって学んだ教訓を心に留めておくように促します。このようにして、AIの研究は、心理学者や統計学者による数十年にわたる努力から利益を得て、人間にとって重要なことを測定する方法を改善することができます。
測定理論からの洞察は、潜在的な構造を測定する際に潜在的な落とし穴を認識するのに役立ちます。最初に、「1から5のスケールで、この物語はどれほど興味深い」と尋ねることで「興味深い」のようなものを測定するときに暗黙的に想定されることを考えてみましょう。
このプロセスの問題は異なるポイントで発生する可能性がありますが、通常、有効性と信頼性という2つのカテゴリに基づいています。
どちらの概念にも多くの側面があり、ここでこれらのトピックに関するすべての研究をカバーすることはできません。以下では、主なアイデアのかなり単純な要約を示します。より詳細な報道については、例えばDrost(2011)、Wolming andWikström(2010)、Meyer(2010)を参照してください。
有効な機器は、実際に測定しようとする構造を測定します。無効な測定では、意図した構成の測定は提供されません。妥当性の問題は、さまざまな理由で発生する可能性があります。
たとえば、人々は、物語を判断する際に、単に「興味深い」という独立した基準を単に考慮しないかもしれません。つまり、理論的にはもっともらしいと思われていたかもしれませんが、興味深いことは、現実の世界で構成要素として有意義に存在しないことが判明するかもしれません。 「この物語はどれほど面白いですか?」という質問への回答代わりに、他の要因(たとえば、ストーリーの創造性の知覚)の混合によって予測される場合があります。
あるいは、「興味深い」は現実の世界では意味のある構成要素かもしれませんが、何らかの理由で私たちの質問は単にそれをキャプチャして他の何かを測定することに失敗します。たとえば、「この物語は釘付けでしたか?」と尋ねて「興味深い」を測定しようとしました。問題は、代わりにトーンとペースの組み合わせを測定することが判明するかもしれません。
疑わしい妥当性のある測定は、研究結果の完全性に対する深刻な脅威です(Flake&Fried、2020)!さらに悪いことに、理論的なフレームワークが無効な尺度の結果に基づいて構築されている場合、フィールド全体を惑わすことができます。 「興味深い」ストーリーを作成するためのモデルを最適化することを想像してください。「興味深い」のすべての測定値が無効であることが判明します(つまり、他の何かを測定します)。モデルは何かのために最適化されますが、まさに非常によく理解されています。
信頼できるメジャーは、測定するものを正確にキャプチャします。同じオブジェクトで繰り返し使用すると、測定エラーがほとんどなく、毎回同様の結果が得られると予想されます。信頼できない楽器は精度がなく、問題が深刻な場合は基本的に役に立たない場合があります。つまり、信頼性は、測定の測定誤差の程度を説明します。
測定値から得られるスコアが大きく異なる場合、測定すべきことを測定するかどうかは関係ないかもしれません。言い換えれば、測定値を有効かつ信頼できるものにしたいと考えています。
©Nevit Dilmen
それでは、人間の評価に対する私たちの尺度が有効で信頼できることをどのように確認するのでしょうか?答えは一般的に次のとおりです。実際のデータを使用してアンケートを検証するための心理測定技術を使用します。
理想的には、尺度の構築から始まって、体系的で厳密なアプローチが取られます。たとえば、心理測定研究からの洞察によるベストプラクティスの良い要約は、Boateng et al。 (2018)およびHinkin(1998)。
プロセスの非常に短い(そしておそらく表面的な)概要:
ストーリーの質のための既存の措置の潜在的な問題について議論するのに、私たちは今、十分な基盤をカバーしています。要するに、私は方法論的な欠点と既存の措置に関する潜在的に深刻な問題を見ています。
私の認識のために、AIに生成された物語の人間の評価のための手段はどれも、実際に意味のあるもの(妥当性をテストする)を測定するか、精度(信頼性のテスト)を測定するかについて評価されていません。私がちょうど議論したように、これはこれらの措置の有用性に対する深刻な脅威を表しています。
さらに、各概念(「ローカルコンテキスト」や「楽しさ」など)の分野では、単一の項目(Purdy et al。、2018; Yao et al。、2019; Callan&Foster、2021)で測定することが非常に一般的です。 1つのアイテムのみを持つかなり抽象的な潜在的なコンストラクトを測定することは、深刻な心理測定コストでもたらされることが知られています(Furr、2011):1つは、単一のアイテムが非常に不正確であり、構造の完全な幅をキャプチャしない可能性があります。もっと重要なことは、測定の品質を評価するための多くの手法は、単一のアイテムでは利用できないか、困難です。 2これらの理由から、確立された心理測定ガイドラインは、一般に、信頼できる心理測定の評価と測定のために、コンストラクトごとに4〜6項目を推奨しています(例:Hinkins et al。、1998)。
既存の楽器は、AIが生成された物語の品質と性質を評価するための基礎を明確に築いてきました。しかし、前のセクションで見たように、彼らは現在、偏った結果を生み出し、理論的洞察を誤解させるリスクがあるとしています。私は彼らの仕事から奪いたくありませんが、彼らは確立された精神測量の原則に対してより徹底的に検証されることから利益を得ると信じています。
AIに生成されたストーリーを評価するための私の提案された手段は、スケール構造のベストプラクティスであるAIストーリースケール(AISS)に従って開発されました。現在、経験的分析に基づいてAIに基づいたAI生成ストーリーを評価するための唯一のアンケートです。異なる言語モデルとハイパーパラメーターが、結果として生じるストーリー出力の人々の経験にどのように影響するかを理解するための堅牢な機器を提供する必要があります。ここで楽器を見つけることができます。
新しいデータでこのスケールをゆっくりと改善し、拡張しようとします。 AISに関する私の研究への3つのリンク:
AISSのアイテムを起草し、その要因構造を調査するための最初の研究。この研究の結果に基づいて、AISのバージョンを作成しました。
また、いくつかの概念分析を含んでおり、AISを使用して、異なる世代の設定がさまざまな種類のストーリーにつながる方法をより詳細に理解する方法を示します。
あなたがまだそこにいない場合は、リポジトリのメインページに移動し、「about」フィールドの右側を見てください。 「このリポジトリを引用する」という点をクリックします。
それは私が言ったことではありません。私は、心理的に検証されたスケールはないと言いました。 AIに生成されたストーリーを評価するために使用されているいくつかの楽器を知っています。しかし、それらのどれも心理測定の品質について評価されていません。これらのスケールからの質問に答えるときに、ほとんどの人がどの基準を使用するか、およびそれらの基準がそれぞれのスケールの著者の意図と一致するかどうかはわかりません。スケールの結果がどれほど信頼できるかはわかりません。これは深刻な問題です。これは、これらの楽器から得られる結果が実際に意味があることを確信できないことを意味するためです。これらの問題の入門書については、このセクションを読み直し、リンクした参照を見てください。
もちろん、もし私が間違っていて、ある規模がAI研究のために心理測定的に検証されているなら、私はそれについて聞いて興奮するでしょう。お願いします、私に知らせてください!
ペアワイズ比較は、異なる弱点と強みを持つ異なる研究デザインを表しています。したがって、ペアワイズ比較デザインと単一ストーリーの評価を選択することは、手元の研究の質問に依存する必要があります。しかし、ペアワイズの比較のみを常にアドバイスすることは、私には非常に賢明ではないようです。
ペアワイズ比較により、二分データ(ストーリーが選択された?a/b)が得られます。定義による二分法データは、たとえば5ポイントのリッカートスケールからの選択よりも少ない情報を提供します。これは、そのような設計で統計力を犠牲にする必要があることを意味します(または、統計力が低い分析方法に限定されます)。
さらに、ペアワイズ比較からの選択は、答えを説明する基礎となる構造の調査がさらに難しくなります。参加者が他のストーリーよりも1つのストーリーを選択したのはなぜですか?彼らはどのような基準を使用しましたか?彼らは一方の物語について何が好きでしたか、そして他の物語について嫌いですか?これらは、あなたが持っているのがストーリーの単一の選択であるときに答えるのが非常に困難な質問です。
また、ペアワイズ比較デザインを使用しているからといって、これは人間の評価を心理測定的に検証する義務を何とかしないことを指摘したいと思います。つまり、科学的な厳密さで研究を実施したい場合は、心理測定の測定値をその妥当性と信頼性を確認する必要があります。ストーリーbのストーリーbの選択を決定する潜在的な要因は何ですか?これは、測定するつもりの(妥当性)と一致していますか?結果はどの程度信頼できますか?評価者は一般に、同じストーリーが他よりも優れていることに同意しますか(信頼性)?妥当性はペアワイズ比較デザインで確認するのが非常に困難ですが、信頼性は比較的簡単に制御できますが、評価者間信頼性の測定値(必要に応じてほとんどの測定値を手作業で計算できます)。しかし、私は彼らの機器の心理測定分析を報告したAI研究から1つの論文に遭遇していません。
もちろん、ペアワイズ比較デザインを使用しないでください。そのようなデザインには強みがあります。人々は実際に他のストーリーよりも実際に選択したため、測定値は「行動」尺度に近いです。これは、動作の研究や予測に興味がある場合(あるモデルを別のモデルよりも選択するなど)、利点です。しかし、多くの理論は、そのような選択につながる物語の根底にある属性について、多くの明示的または暗黙の仮定を行います。これらの理論をテストしたい場合は、これらの属性を測定できる必要があります。ペアワイズ比較は、多くの場合、これに理想的な研究デザインではありません。
短いスニペット内で論理的な矛盾を勉強したい場合は、短いスニペットを使用してください。私は、AIに生成されたテキストからのよりグローバルな印象に興味があります。したがって、私は最初、より長い抜粋を使用しました。
しかし、人々は物語から全体像を得るのが苦手であることに同意しません。言語モデルによって書かれたストーリーからのやや長い抜粋(たとえば5分の読み取り)を人々に読んでもらうと、彼らはそのテキストの特定の印象で立ち去ると思います。この印象は、抜粋を生成するために使用されるモデルの特性によって異なります。これらの違いは勉強するのが面白くて意味があると思いますが、それらの違いが決して研究されていない場合、これまでに見られるものはすべて短いスニペットであるため、残念です。
私のデータは私に同意していると主張します。
この測定モデルは、反射測定モデルとして知られています。コンストラクトは、インジケータを引き起こすと想定されています(質問への回答)。フリップサイドは、形成的測定モデルです。ただし、反射性測定モデルは、人間の評価を収集する際に研究者が暗示する仮定により適していると考えているため、形成測定モデルをさらに考慮しません。 ↩
確かに、この場合、これはそれほど重要ではありません。これらの項目はどれも心理測定の品質をチェックされていないからです。 ↩
しかし、私が「遅い」と言うとき、私は本当に遅いことを意味します - これはまだ私の趣味のプロジェクトです! ↩