ChatGPT、Claude、Gemini などの大規模言語モデル (LLM) は強力ですが、共通の大きな欠陥もあります。それは、幻覚、つまり架空の情報が生成されることが多いということです。これは恥ずかしいだけでなく、LLM の幅広い適用を妨げます。 Appleでさえ、自社のAIシステムがこの問題にどのように対応するかについて懸念を表明している。この問題を解決するために、研究者らは、AI によって生成された偽のコンテンツを効果的に識別できる新しい AI 幻覚検出器を開発し、AI テクノロジーの進歩とより安全で信頼性の高いアプリケーションの基礎を築きました。

これらの幻想は、多くの恥ずかしい、興味深い間違いを引き起こしており、ChatGPT のような人工知能がまだ実用化されていない主な理由の 1 つです。 AIが石を食べても安全だと人々に言い始めたため、またピザに接着剤を塗っても安全だとGoogleが言い始めたため、GoogleがAI検索の概要を改訂しなければならなくなったのを私たちはかつて見た。 ChatGPT を使用して法廷文書の作成を支援した弁護士もいましたが、チャットボットが文書内の引用をでっち上げたため、罰金を科せられました。
論文によると、研究者らが開発した新しいアルゴリズムは、AIが生成した回答が約79パーセントの確率で正確かどうかを識別するのに役立つという。もちろん、これは完璧な記録ではありませんが、現在主流の他の方法よりも 10% 優れています。
Gemini や ChatGPT などのチャットボットは便利ですが、架空の回答を簡単に生成することもできます。この研究は、オックスフォード大学のコンピューター サイエンス学部のメンバーによって行われました。研究者らは論文の中で、使用した手法は比較的単純だったと説明している。
まず、チャットボットに同じプロンプトに複数回、通常は 5 ~ 10 回応答するように依頼しました。次に、意味論的エントロピーと呼ばれる値を計算しました。これは、答えが意味においてどれだけ似ているか、または異なっているかを示す尺度です。モデルが各プロンプト項目に異なる回答をした場合、セマンティック エントロピー スコアはより高くなり、AI が回答をでっちあげている可能性があることを示します。ただし、答えがすべて同じであるか、同様の意味を持っている場合、セマンティック エントロピー スコアは低くなり、提供される答えの一貫性が高く、真実である可能性が高いことを示します。これは 100% 正確な AI 幻覚検出器ではありませんが、それに対処する興味深い方法です。
他の方法は、いわゆる単純エントロピーに依存しており、通常、回答の意味ではなく、表現が異なるかどうかをチェックします。したがって、文中の単語の背後にある意味に焦点を当てていないため、意味論的エントロピーを計算するほど正確に幻覚を検出する可能性は低くなります。
研究者らによれば、このアルゴリズムは、ユーザーのプロンプトに対する回答に対して「確実性スコア」を与えるボタンを介して、ChatGPT のようなチャットボットに追加できる可能性があるという。 AI 幻覚検出器をチャットボットに直接組み込むことは魅力的であるため、そのようなツールをさまざまなチャットボットに追加することは理解できます。
意味論的エントロピーに基づくこの AI 幻覚検出器は完璧ではありませんが、その 79% の精度と既存の方法に対する 10% の利点は、AI 幻覚問題を解決するための新しいアイデアと方法を提供します。この研究は間違いなく AI テクノロジーの進歩を促進し、AI システムの信頼性と信頼性を高めるでしょう。