大規模な言語モデル(LLM)の急速な発展は、前例のない利便性をもたらしましたが、「幻想」の主要な課題にも直面しています。いわゆる「幻想」とは、リアルに見えるが実際には誤っている、または事実と矛盾するLLM生成コンテンツを指します。この記事では、LLMの「幻想」現象に関するハーバード大学の研究者の最新の研究結果に関する詳細な議論を行い、その原因を分析し、将来の開発の方向性を楽しみにしています。研究により、LLMの「幻想」のルートは、実際の意味的な理解ではなく、統計的確率に基づいた予測メカニズムにあることが明らかになりました。 これにより、LLMは曖昧なトピックや物議を醸すトピックを扱うときに誤った情報を提供する傾向があります。
大規模な言語モデル(LLM)の出現、特にChatGPTなどのアプリケーションの普及により、人間のコンピューターの相互作用が完全に変わりました。 これらのモデルは、コヒーレントで包括的なテキストを生成するために印象的です。しかし、その強力な能力にもかかわらず、LLMは「幻想」を起こしやすい、つまり、現実のように見えるが、実際には架空の、意味がない、またはプロンプトと矛盾するコンテンツを生成する傾向があります。

ハーバード大学の研究者は、LLMの「幻想」現象に関する詳細な研究を実施し、その根本原因はLLMの仕組みにあることを発見しました。 LLMは、大規模なテキストデータで機械学習によって確率モデルを構築し、単語の共起の確率に基づいて次の単語を予測します。 言い換えれば、LLMは言語の意味を本当に理解していませんが、統計的確率に基づいて予測を行います。
研究者は、LLMを「クラウドソーシング」と比較し、LLMが実際に「ネットワークコンセンサス」を出力していると信じていました。 WikipediaやRedditなどのプラットフォームと同様に、LLMは大量のテキストデータから情報を抽出し、最も一般的な回答を生成します。 ほとんどの言語は世界を説明するために使用されるため、LLMによって生成される答えは通常正確です。
ただし、LLMが曖昧、物議を醸す、またはコンセンサスのトピックの欠如に遭遇すると、「幻想」が発生します。 この仮説をテストするために、研究者は、異なるトピックを扱うときに異なるLLMのパフォーマンスをテストする一連の実験を設計しました。 実験結果は、LLMが一般的なトピックを扱うときにうまく機能することを示していますが、あいまいまたは物議を醸すトピックを扱うと、精度が大幅に減少します。
この研究では、LLMはツールとして強力ですが、トレーニングデータの品質と量に依存する精度であることが示されています。 特にファジーまたは物議を醸すトピックを扱う場合、LLMを使用する場合、その出力は注意して取得する必要があります。 また、この研究は、LLMの将来の開発の方向性、つまり、LLMがファジーで物議を醸すトピックに対処し、その出力結果の解釈可能性を改善する能力を向上させる必要性を提供します。
紙の住所:https://dl.acm.org/doi/pdf/10.1145/3688007
ハーバード大学の研究は、LLMを理解および改善するための貴重な洞察を提供し、特に曖昧または物議を醸すトピックをターゲットにする場合はLLMを使用することを思い出させます。また、出力結果の精度を慎重に特定する必要があり、LLMがそれを克服することを願っています将来的には、「幻想」の問題はより信頼できる信頼できるツールになりました。