hallucination leaderboardダウンロード - hallucination leaderboardソースコードのダウンロード

hallucination leaderboard

その他のソースコード

1.0.0

ダウンロード

幻覚リーダーボード

VectaraのHughes Hallucination Evaluation Modelを使用して計算されたPublic LLMリーダーボード。これにより、LLMがドキュメントを要約するときに幻覚を導入する頻度を評価します。モデルとLLMが時間の経過とともに更新されるにつれて、これを定期的に更新する予定です。

また、顔を抱き締める幻覚リーダーボードを自由にチェックしてください。

このリーダーボードのランキングは、HHEM-2.1幻覚評価モデルを使用して計算されます。 HHEM-1.0に基づいた以前のリーダーボードに興味がある場合は、こちらから入手できます。

サイモン・マーク・ヒューズの愛情のこもった記憶に...

2024年11月6日に最後に更新されました

プロット：さまざまなLLMの幻覚率

モデル	幻覚率	事実上の一貫性率	回答率	平均概要（単語）
Zhipu ai glm-4-9b-chat	1.3％	98.7％	100.0％	58.1
Openai-o1-mini	1.4％	98.6％	100.0％	78.3
GPT-4O	1.5％	98.5％	100.0％	77.8
GPT-4O-MINI	1.7％	98.3％	100.0％	76.3
GPT-4-Turbo	1.7％	98.3％	100.0％	86.2
GPT-4	1.8％	98.2％	100.0％	81.1
GPT-3.5-ターボ	1.9％	98.1％	99.6％	84.1
deepseek-v2.5	2.4％	97.6％	100.0％	83.2
Microsoft orca-2-13b	2.5％	97.5％	100.0％	66.2
Microsoft PHI-3.5-MOE-Instruct	2.5％	97.5％	96.3％	69.7
Intel Neural-Chat-7B-V3-3	2.6％	97.4％	100.0％	60.7
QWEN2.5-7B-Instruct	2.8％	97.2％	100.0％	71.0
AI21 JAMBA-1.5-MINI	2.9％	97.1％	95.6％	74.5
スノーフレークアークインストラクション	3.0％	97.0％	100.0％	68.7
QWEN2.5-32B-Instruct	3.0％	97.0％	100.0％	67.9
Microsoft Phi-3-Mini-128K-Instruct	3.1％	96.9％	100.0％	60.1
Openai-O1-Preview	3.3％	96.7％	100.0％	119.3
Google Gemini-1.5-Flash-002	3.4％	96.6％	99.9％	59.4
01-AI YI-1.5-34B-chat	3.7％	96.3％	100.0％	83.7
llama-3.1-405b-instruct	3.9％	96.1％	99.6％	85.7
Microsoft Phi-3-mini-4k-instruct	4.0％	96.0％	100.0％	86.8
Microsoft Phi-3.5-mini-Instruct	4.1％	95.9％	100.0％	75.0
Mistral-Large2	4.1％	95.9％	100.0％	77.4
llama-3-70b-chat-hf	4.1％	95.9％	99.2％	68.5
QWEN2-VL-7B-Instruct	4.2％	95.8％	100.0％	73.9
QWEN2.5-14B-Instruct	4.2％	95.8％	100.0％	74.8
QWEN2.5-72B-Instruct	4.3％	95.7％	100.0％	80.0
llama-3.2-90b-vision-instruct	4.3％	95.7％	100.0％	79.8
Xai Grok	4.6％	95.4％	100.0％	91.0
人類のクロード-3-5-ソネット	4.6％	95.4％	100.0％	95.9
QWEN2-72B-Instruct	4.7％	95.3％	100.0％	100.1
mixtral-8x22b-instruct-v0.1	4.7％	95.3％	99.9％	92.0
人類のクロード-3-5-ハイク	4.9％	95.1％	100.0％	92.9
01-AI YI-1.5-9B-chat	4.9％	95.1％	100.0％	85.7
Cohere command-r	4.9％	95.1％	100.0％	68.7
llama-3.1-70b-instruct	5.0％	95.0％	100.0％	79.6
llama-3.1-8b-instruct	5.4％	94.6％	100.0％	71.0
Cohere Command-R-Plus	5.4％	94.6％	100.0％	68.4
llama-3.2-11b-vision-instruct	5.5％	94.5％	100.0％	67.3
llama-2-70b-chat-hf	5.9％	94.1％	99.9％	84.9
IBM Granite-3.0-8B-Instruct	6.5％	93.5％	100.0％	74.2
Google Gemini-1.5-Pro-002	6.6％	93.7％	99.9％	62.0
Google Gemini-1.5-Flash	6.6％	93.4％	99.9％	63.3
Microsoft Phi-2	6.7％	93.3％	91.5％	80.8
Google Gemma-2-2B-It	7.0％	93.0％	100.0％	62.2
QWEN2.5-3B-Instruct	7.0％	93.0％	100.0％	70.4
llama-3-8b-chat-hf	7.4％	92.6％	99.8％	79.7
Google Gemini-Pro	7.7％	92.3％	98.4％	89.5
01-AI YI-1.5-6B-chat	7.9％	92.1％	100.0％	98.9
llama-3.2-3b-instruct	7.9％	92.1％	100.0％	72.2
Databricks DBRX-Instruct	8.3％	91.7％	100.0％	85.9
QWEN2-VL-2B-Instruct	8.3％	91.7％	100.0％	81.8
Coherea aya expanse 32b	8.5％	91.5％	99.9％	81.9
IBM Granite-3.0-2B-Instruct	8.8％	91.2％	100.0％	81.6
Mistral-7B-Instruct-V0.3	9.5％	90.5％	100.0％	98.4
Google Gemini-1.5-Pro	9.1％	90.9％	99.8％	61.6
人類のクロード-3オプス	10.1％	89.9％	95.5％	92.1
Google Gemma-2-9b-it	10.1％	89.9％	100.0％	70.2
llama-2-13b-chat-hf	10.5％	89.5％	99.8％	82.1
ミストラルネモインストラクション	11.2％	88.8％	100.0％	69.9
llama-2-7b-chat-hf	11.3％	88.7％	99.6％	119.9
Microsoft wizardlm-2-8x22b	11.7％	88.3％	99.9％	140.8
Coherea aya Expanse 8b	12.2％	87.8％	99.9％	83.9
Amazon Titan-Express	13.5％	86.5％	99.5％	98.4
Google Palm-2	14.1％	85.9％	99.8％	86.6
Google Gemma-7b-it	14.8％	85.2％	100.0％	113.0
QWEN2.5-1.5B-Instruct	15.8％	84.2％	100.0％	70.7
人類のクロード-3-sonnet	16.3％	83.7％	100.0％	108.5
Google Gemma-1.1-7B-It	17.0％	83.0％	100.0％	64.3
人類のクロード-2	17.4％	82.6％	99.3％	87.5
Google Flan-T5-Large	18.3％	81.7％	99.3％	20.9
mixtral-8x7b-instruct-v0.1	20.1％	79.9％	99.9％	90.7
llama-3.2-1b-instruct	20.7％	79.3％	100.0％	71.5
Apple Openelm-3B-Instruct	24.8％	75.2％	99.3％	47.2
QWEN2.5-0.5B-Instruct	25.2％	74.8％	100.0％	72.6
Google Gemma-1.1-2B-It	27.8％	72.2％	100.0％	66.8
TII FALCON-7B-Instruct	29.9％	70.1％	90.0％	75.5

モデル

このリーダーボードは、Vectaraの商用幻覚評価モデルであるHHEM-2.1を使用して、LLMランキングを計算します。そのモデルのオープンソースのバリアントを見つけることができます。HHEM-2.1-OPEN HUGGING FACEとKAGGLEです。

データ

モデルの評価に使用した生成された要約については、このデータセットを参照してください。

以前の研究

この分野での多くの事前の作業が行われました。この分野のトップペーパーのいくつか（要約における事実の一貫性）については、こちらをご覧ください。

Summac：要約における不一致の検出のためのNLIベースのモデルの再訪
TRUE：事実上の一貫性評価を再評価します
Trueteacher：大規模な言語モデルで事実上の一貫性評価を学ぶ
AlignScore：統合されたアライメント関数との事実上の一貫性を評価します
Minicheck：接地文書でのLLMの効率的な事実確認

非常に包括的なリストについては、https：//github.com/edinburghnlp/awesome-hallucination-セクションを参照してください。次のセクションで説明されている方法は、他の多くの中で、これらの論文で確立されたプロトコルを使用しています。

方法論

このモデルに入った作業の詳細な説明については、リリースに関するブログ投稿を参照してください：Cut the Bull…。大規模な言語モデルでの幻覚の検出。

このリーダーボードを決定するために、事実上の一貫性研究から要約モデルのさまざまなオープンソースデータセットを使用して、LLM出力の幻覚を検出するためのモデルをトレーニングしました。最良の最先端モデルと競合するモデルを使用して、上記の各LMSに1000の短いドキュメントを公開APIを介して供給し、ドキュメントに提示された事実のみを使用して、各短い文書を要約するように依頼しました。これらの1000のドキュメントのうち、すべてのモデルによって要約されたドキュメントは831文書のみであり、残りのドキュメントは、コンテンツの制限により、少なくとも1つのモデルによって拒否されました。これらの831のドキュメントを使用して、各モデルの全体的な事実上の一貫性率（幻覚なし）と幻覚率（100 -精度）を計算しました。各モデルがプロンプトへの応答を拒否するレートは、「回答率」列に詳述されています。モデルに送信されたコンテンツには、違法または「仕事に安全ではない」コンテンツが含まれていませんでしたが、トリガーワードのプレゼントでは、一部のコンテンツフィルターをトリガーするのに十分でした。文書は、主にCNN / Daily Mail Corpusから取得されました。 LLMSを呼び出すときに0の温度を使用しました。

モデルの応答を提供された情報と比較できるため、全体的な事実上の精度ではなく、要約の事実の一貫性率を評価します。言い換えれば、ソースドキュメントと「事実上一貫した」提供される要約です。幻覚を決定することは、すべてのLLMがトレーニングされているデータを正確に知られていないため、アドホックな質問に対して行うことは不可能です。さらに、参照ソースなしで応答が幻覚化されたかどうかを判断できるモデルを使用するには、幻覚の問題を解決し、おそらくこれらのLLMが評価されているよりも大きいまたは大きいモデルをトレーニングする必要があります。したがって、私たちは代わりに、要約タスク内の幻覚率を調べることを選択しました。これは、モデルが全体的に真実であることを決定するための良いアナログであるためです。さらに、LLMは、Bing ChatやGoogleのチャット統合など、ユーザークエリに答えるために、RAG（検索拡張生成）パイプラインでますます使用されています。 RAGシステムでは、モデルは検索結果の要約として展開されているため、このリーダーボードは、RAGシステムで使用した場合のモデルの精度の適切な指標でもあります。

プロンプトの使用

あなたはデータを使用して質問に答えるチャットボットです。提供されているパッセージのテキストによってのみ提供される回答に固執する必要があります。「説明されたコアの情報をカバーする、次の文章の簡潔な要約を提供する」という質問があります。 <assion> '

APIを呼び出すと、<pass>トークンをソースドキュメントに置き換えました（このデータセットの「ソース」列を参照）。

API統合の詳細

以下は、統合されたモデルとそれらの特定のエンドポイントの詳細な概要です。

Openaiモデル

GPT-3.5 ：OpenaiのPythonクライアントライブラリを介したモデル名gpt-3.5-turboを使用して、特にchat.completions.create Endpointを使用してアクセスします。
GPT-4 ：モデル識別子gpt-4と統合。
GPT-4ターボ：OpenAIのドキュメントに沿って、モデル名gpt-4-turbo-2024-04-09で使用されています。
GPT-4O ：モデル名gpt-4oを使用してアクセスします。
GPT-4O-MINI ：モデル名gpt-4o-miniを使用してアクセスします。
O1-MINI ：モデル名o1-miniを使用してアクセスします。
O1-PREVIEW ：モデル名o1-previewを使用してアクセスします

ラマモデル

llama 2 7b、13b、および70b ：さまざまなサイズのこれらのモデルは、各モデルの容量に合わせて調整された、 xxbが7b 、 13b 、および70bであるモデルmeta-llama/Llama-2-xxb-chat-hfを使用して、あらゆるスケールのホストエンドポイントからアクセスされます。
llama 3 8bおよび70b ：これらのモデルはxxB AI chatエンドポイントを介してアクセスし、モデルmeta-llama/Llama-3-xxB-chat-hfを使用してアクセス70Bれ8B 。
llama 3.1 8b、70b、および405b ：モデルメタラマ/メタラマ-3.1-70b-instructおよびメタラマ/メタラマ-3.1-8b-instructには、抱きしめる顔のチェックポイントを介してアクセスできます。 Meta-Llama-3.1-405B-Instructは、モデルmeta/meta-llama-3.1-405b-instructを使用して、ReplicateのAPIを介してアクセスできます。
llama 3.2 1bおよび3b ：モデルのメタラマ/メタラマ-3.2-1b-instructには、Faceのチェックポイントを抱えてアクセスできます。 Meta-Llama-3.2-3B-Instructはmeta-llama/Llama-3.2-3B-Instruct-Turboを使用して、一緒にAI chatエンドポイントを介してアクセスされます。
Llama 3.2 Vision 11B and 90B :The models Llama-3.2-11B-Vision-Instruct and Llama-3.2-90B-Vision-Instruct are accessed via Together AI chat endpoint using model meta-llama/Llama-3.2-11B-Vision-Instruct-Turbo and meta-llama/Llama-3.2-90B-Vision-Instruct-Turbo .

コープモデル

Cohere Command R ：Model command-r-08-2024および/chat Endpointを使用して使用されます。
Cohere Command R Plus ：Model command-r-plus-08-2024および/chat Endpointを使用して使用されます。
Aya Expanse 8B、32B ：モデルc4ai-aya-expanse-8bおよびc4ai-aya-expanse-32bを使用してアクセス。 Cohereのモデルの詳細については、Webサイトを参照してください。

人類モデル

Claude 2 ：API呼び出しにclaude-2.0を使用してモデルを呼び出しました。
Claude 3 Opus ：API呼び出しにclaude-3-opus-20240229を使用してモデルを呼び出しました。
Claude 3 Sonnet ：API呼び出しにclaude-3-sonnet-20240229を使用してモデルを呼び出しました。
Claude 3.5 Sonnet ：API呼び出しにclaude-3-5-sonnet-20241022を使用してモデルを呼び出しました。
Claude 3.5 Haiku ：API呼び出しにclaude-3-5-haiku-20241022を使用してモデルを呼び出しました。
Claude 3.5 Haiku ：各モデルの詳細は、ウェブサイトにあります。

ミストラルAIモデル

Mixtral 8x7b ：Mixtral-8x7B-Instruct-V0.1モデルには、FaceのAPIを抱きしめてアクセスします。
Mixtral 8x22b ：モデルmistralai/Mixtral-8x22B-Instruct-v0.1とchatエンドポイントを使用して、一緒にAIのAPIを介してアクセスします。
Mistral Large2 ：Model mistral-large-latestを使用してMistral AIのAPIを介してアクセスします。
Mistral-7B-Instruct-V0.3 ：Mistral-7B-Instruct-V0.3モデルには、Faceのチェックポイントを抱きしめてロードされてアクセスできます。
Mistral-Nemo-Instruct Mistral-Nemo-Instruct-2407モデルには、Faceのチェックポイントを介してアクセスできます。

頂点AIを介したGoogle Palmモデル

Google Palm 2 ：それぞれtext-bison-001モデルを使用して実装されています。
Gemini Pro ：Googleのgemini-proモデルは、Vertex AIでアクセス可能で、強化された言語処理のために組み込まれています。
Gemini 1.5 Pro ：頂点AIでモデルgemini-1.5-pro-001を使用してアクセス。
Gemini 1.5 Flash ：頂点AIでモデルgemini-1.5-flash-001を使用してアクセス。
Gemini 1.5 Pro 002 ：頂点AIでモデルgemini-1.5-pro-002を使用してアクセス。
Gemini 1.5 Flase 002 ：頂点AIでモデルgemini-1.5-flash-002を使用してアクセス。

各モデルのバージョンとライフサイクル、特にGoogleが提供するライフサイクルを詳細に理解するには、頂点AIのモデルバージョンとライフサイクルを参照してください。

Amazon BedrockのTitanモデル

Amazon Titan Express ：このモデルはamazon.titan-text-express-v1のモデル識別子を備えたAmazon Bedrockでアクセスされます。

マイクロソフトモデル

Microsoft PHI-2 ：PHI-2モデルには、FaceのAPIを抱き締めることでアクセスできます。
Microsoft ORCA-2-13B ：ORCA-2-13Bモデルには、FaceのAPIを抱きしめてアクセスできます。
Microsoft WizardLM-2-8X22B ：モデルmicrosoft/WizardLM-2-8x22Bとchat Endpointを使用して、AIのAPIを一緒にアクセスします。
Microsoft PHI-3-MINI-4K ：PHI-3-MINI-4Kモデルには、Faceのチェックポイントを抱きしめてアクセスします。
Microsoft PHI-3-MINI-128K ：PHI-3-MINI-128Kモデルには、Faceのチェックポイントを介してアクセスできます。
Microsoft Phi-3.5-mini-Instruct ：Phi-3.5-mini-Instructモデルには、Faceのチェックポイントを抱えてアクセスできます。
Microsoft Phi-3.5-Moe-Instruct ：Phi-3.5-Moe-Instructモデルには、Faceのチェックポイントを抱えてアクセスできます。

顔を抱きしめるGoogleモデル

Google Flan-T5-Large ：Flan-T5-Largeモデルには、FaceのAPIを抱きしめてアクセスできます。
Google Gemma-7B-IT ：Gemma-7B-ITモデルは、FaceのAPIを抱きしめてアクセスします。
Google Gemma-1.1-7B-IT ：Gemma-1.1-7B-ITモデルは、Faceのチェックポイントを抱きしめてロードされることによりアクセスされます。
Google Gemma-1.1-2B-IT ：Gemma-1.1-2B-ITモデルには、Faceのチェックポイントを抱きしめてロードされてアクセスできます。
Google Gemma-2-9B-IT ：Gemma-2-9B-ITモデルには、Faceのチェックポイントを抱きしめてロードされることでアクセスできます。
Google Gemma-2-2B-IT ：Gemma-2-2B-ITモデルには、Faceのチェックポイントを抱きしめてロードされることでアクセスできます。

抱きしめる顔のTIIモデル

Tiiuae/Falcon-7B-Instruct ：FALCON-7B-Instructモデルは、FaceのAPIを抱きしめてアクセスします。

顔を抱きしめるインテルモデル

Intel/Neural-Chat-7B-V3-3 ：Intel/Neural-Chat-7B-V3-3モデルには、Faceのチェックポイントを抱きしめてアクセスします。

DataBricksモデル

DataBricks/DBRX-Instruct ：Model databricks/dbrx-instructとchat Endpointを使用して、AIのAPIを一緒にアクセスします。

スノーフレークモデル

スノーフレーク/スノーフレーク - アークトリックイントラクション：モデルsnowflake/snowflake-arctic-instructを使用して、ReplicateのAPIを介してアクセスします。

Appleモデル

Apple/OpenELM-3B-Instruct ：OpenelM-3B-Instructモデルは、Faceのチェックポイントを抱きしめることからアクセスできます。このモデルのプロンプトは、元のプロンプトと '' n na簡潔な要約です。

01-AIモデル

01-AI/YI-1.5-CHAT 6B、9B、34B ：モデル01-AI/YI-1.5-6B-CHAT、01-AI/YI-1.5-9B-CHAT、および01-AI/YI-1.5-34B-chatは、ハギングフェイスのチェックポイントを介してアクセスできます。

Zhipu AIモデル

Zhipu-ai/glm-4-9b-chat ：GLM-4-9B-chatには、Faceのチェックポイントを抱えてアクセスできます。

Qwenモデル

QWEN/QWEN2-72B-INSTRUCT ：モデル名Qwen/Qwen2-72B-Instructを使用してAI chatエンドポイントを介してAccessed。
QWEN/QWEN2-VL-INSTRUCT 2B、7B ：モデルQWEN/QWEN2-VL-2B-INSTRUCTおよびQWEN/QWEN2-VL-7B-INSTRUCTには、Faceのチェックポイントを介してアクセスできます。
QWEN/QWEN2.5-INSTRUCT 0.5B、1.5B、3B、7B、14B、32B、72B ：モデルQWEN2.5-0.5B-INSTRUCT、QWEN2.5-1.5B-INTRUCT、QWEN2.5-3B-INTRUCT、QWEN2.5-7B-INSTRUCT、QWEN2.5-14-INTRUCT、QWEN2.5-14-intruct、 QWEN2.5-32B-INSTRUCT、およびQWEN2.5-72B-Instructは、顔のチェックポイントを抱きしめてアクセスします。

AI21モデル

AI21-Jamba-1.5-mini ：Jamba-1.5-miniモデルには、Faceのチェックポイントを抱きしめてアクセスできます。

DeepSeekモデル

DeepSeek V2.5 ： deepseek-chatモデルとchatエンドポイントを使用して、DeepSeekのAPI経由でアクセスします。

IBMモデル

Granite-3.0-Instruct 2B、8B ：モデルIBM-Granite/Granite-3.0-8B-InstructおよびIBM-Granite/Granite-3.0-2B-Instructには、抱きしめる顔のチェックポイントを介してアクセスできます。

XAIモデル

Grok ：モデルgrok-betaとchat/completions Endpointを使用して、XaiのAPI経由でアクセスします。

よくある質問

qu。モデルを評価するためにモデルを使用しているのはなぜですか？
回答人間の評価に関してこれを行うことを選んだ理由はいくつかあります。大規模な人間のスケール評価をクラウドソーシングすることはできましたが、それは一度のことですが、新しいAPIがオンラインまたはモデルが更新されるにつれて、リーダーボードを絶えず更新できるようにすることはできません。私たちは速い移動分野で作業しているので、そのようなプロセスは公開されるとすぐにデータがなくなります。第二に、自分のモデルを評価する際に使用する多くのLLM品質スコアの1つとして自分で使用できるように、他の人と共有できる繰り返し可能なプロセスを望んでいました。これは、人間の注釈プロセスでは不可能です。ここでは、共有できるのはプロセスと人間のラベルだけです。また、幻覚を検出するためのモデルを構築することは、幻覚を生成しない生成モデルを構築するよりもはるかに簡単であることを指摘する価値があります。幻覚評価モデルが人間の評価者の判断と非常に相関している限り、それは人間の裁判官にとって良い代理として立つことができます。一般的な「閉じた本」の質問回答ではなく要約を標的にしているため、トレーニングしたLLMは、人間の知識の大部分を記憶する必要はありません。
qu。 LLMがドキュメントの要約を拒否するか、1つまたは2つの単語の答えを提供した場合はどうなりますか？
回答私たちはこれらを明示的にフィルタリングします。詳細については、ブログ投稿をご覧ください。要約されたドキュメントの割合を示す「回答率」列と、概要の長さを詳述する「平均要約長」列を見ることができます。
qu。どのバージョンのモデルXYZを使用しましたか？
回答モデルバージョンの詳細については、使用されたモデルバージョンとその呼び出し方法、およびリーダーボードが最後に更新された日付については、APIの詳細セクションをご覧ください。もっと明確にする必要がある場合は、お問い合わせください（リポジトリで問題を作成してください）。
qu。 XaiのGrok LLMはどうですか？
現在（11/14/2023の時点で）Grokは公開されておらず、アクセスできません。私が早期にアクセスできる人は、おそらくこの種の評価をモデルで行うことを法的に禁じられていると思います。モデルがパブリックAPIを介して利用可能になったら、それを追加して、十分に人気のある他のLLMとともに追加します。
qu。回答や非常に短い回答を提供することで、モデルは100％を獲得するだけではありませんか？
回答すべてのモデルからそのような応答を明示的にフィルタリングし、すべてのモデルが要約を提供したドキュメントでのみ最終評価を行いました。このトピックに関するブログ投稿で、その他の技術的な詳細をご覧ください。上の表の「回答率」と「平均要約長」列も参照してください。
qu。このタスクには、元の要約スコア100％（0の幻覚）からコピーして貼り付けている抽出要約モデルではありませんか？
定義上、絶対に答えて、そのようなモデルには幻覚がなく、忠実な要約を提供します。私たちは、要約の品質を評価しているとは言いません。これは、個別の直交課題であり、独立して評価する必要があります。ブログ投稿で指摘しているように、私たちは要約の品質を評価しているのではなく、それらの事実上の一貫性のみを評価しています。
qu。これは、元のテキストを要約としてコピーできるため、非常にハッキング可能なメトリックのようです
答え。それは本当ですが、たとえば、Kaggle競争のように、このアプローチで任意のモデルを評価していません。それを行うモデルは、あなたが気にする他のどのタスクでもパフォーマンスが低くなります。したがって、これは、要約品質、質問の精度など、モデルに対して他の評価が何であれ、どのような評価を実行しても実行する品質メトリックと考えますが、これをスタンドアロンメトリックとして使用することはお勧めしません。選択したモデルはいずれも、モデルの出力で訓練されていません。それは将来起こるかもしれませんが、モデルとソースドキュメントを更新する予定であるため、これは生きているリーダーボードであり、それはありそうもないことになります。ただし、これはLLMベンチマークの問題でもあります。また、これは、他の多くの学者がこのプロトコルを発明し洗練した事実の一貫性に関する大規模な作業に基づいていることを指摘する必要があります。このブログ投稿のsummacと真の論文への参照と、リソースのこの優れた編集-https：//github.com/edinburghnlp/awesome-hallucination-セクションをご覧ください。
qu。これは、モデルが幻覚できるすべての方法を明確に測定するものではありません
答え。同意した。幻覚検出の問題を解決したとは主張しておらず、このプロセスをさらに拡大および強化する予定です。しかし、私たちはそれが正しい方向への動きであると信じており、誰もが上に構築できる非常に必要な出発点を提供します。
qu。いくつかのモデルは、要約中にのみ幻覚を起こす可能性があります。よく知られている事実のリストを提供して、それらをどれだけよく思い出すことができるかを確認できませんか？
答え。私の意見では、それは不十分なテストになるでしょう。一つには、モデルをトレーニングしない限り、トレーニングされたデータがわからないため、モデルが見た実際のデータや推測での応答を接地しているかどうかはわかりません。さらに、「よく知られている」の明確な定義はなく、これらのタイプのデータは通常、ほとんどのモデルが正確に想起するのが簡単です。私の明らかに主観的な経験では、ほとんどの幻覚は、非常にめったに知られていない、または議論されていない情報を取得するモデルから来ています。ソースデータを知らなくても、モデルはトレーニングされているため、この基準に適合するデータがわからないため、この種の幻覚を検証することは不可能です。また、モデルが要約中に幻覚のみをする可能性は低いと思います。私たちは、モデルに情報を取得し、ソースにまだ忠実な方法でそれを変換するように求めています。これは、要約以外の多くの生成タスクに類似しています（例：これらのポイントをカバーする電子メールを書く...）。モデルがプロンプトから逸脱している場合、それは指示に従うことができない場合、モデルがタスクに従って他の命令に苦労することを示します。
qu。これは良いスタートですが、決定的なものではありません
答え。私は完全に同意します。さらに多くのことを行う必要があり、問題は解決にはほど遠いものです。しかし、「良いスタート」とは、この分野で進歩が進むことを願っています。モデルを開くことで、コミュニティがこれを次のレベルに引き上げることを巻き込んでみたいと考えています。

近日公開

また、引用の精度についてリーダーボードを追加します。 RAGシステムのビルダーとして、LLMSは、提供された検索結果に基づいて質問に答えるときに時々ソースを誤って誘惑する傾向があることに気付きました。プラットフォーム内でそれを軽減できるように、これを測定できるようにしたいと考えています。
また、マルチドキュメントの要約など、他のRAGタスクをカバーするためにベンチマークを拡張することも検討します。
また、英語よりも多くの言語をカバーすることも計画しています。現在のプラットフォームは100を超える言語をカバーしており、同等の多言語カバレッジを備えた幻覚検出器を開発したいと考えています。

拡大する

追加情報

バージョン 1.0.0
タイプその他のソースコード
更新時間 2025-03-09
サイズ 275.34KB
から Github