hallucination leaderboard Download - hallucination leaderboard Quellcode Download

hallucination leaderboard

Anderer Quellcode

1.0.0

Herunterladen

Halluzination Rangliste

Öffentliche LLM -Rangliste, berechnet mit dem Hughes -Halluzinationsbewertungsmodell von Vectara. Dadurch wird bewertet, wie oft ein LLM beim Zusammenfassen eines Dokuments Halluzinationen einführt. Wir planen, dies regelmäßig zu aktualisieren, wenn unser Modell und die LLMs im Laufe der Zeit aktualisiert werden.

Schauen Sie sich auch unsere Halluzinations- und Rangliste auf dem Umarmungsgesicht an.

Die Ranglisten in dieser Rangliste werden unter Verwendung des HHEM-2.1-Halluzinationsbewertungsmodells berechnet. Wenn Sie an der vorherigen Rangliste interessiert sind, die auf Hhem-1.0 basiert, ist es hier verfügbar

In liebevoller Erinnerung an Simon Mark Hughes ...

Zuletzt aktualisiert am 6. November 2024

Grundstück: Halluzinationsraten verschiedener LLMs

Modell	Halluzinationsrate	Faktenkonsistenzrate	Antwortrate	Durchschnittliche Zusammenfassungslänge (Wörter)
Zhipu AI GLM-4-9B-CHAT	1,3 %	98,7 %	100,0 %	58.1
Openai-O1-Mini	1,4 %	98,6 %	100,0 %	78,3
Gpt-4o	1,5 %	98,5 %	100,0 %	77,8
GPT-4O-Mini	1,7 %	98,3 %	100,0 %	76,3
GPT-4-Turbo	1,7 %	98,3 %	100,0 %	86,2
GPT-4	1,8 %	98,2 %	100,0 %	81.1
GPT-3,5-Turbo	1,9 %	98,1 %	99,6 %	84.1
Deepseek-V2.5	2,4 %	97,6 %	100,0 %	83.2
Microsoft Orca-2-13b	2,5 %	97,5 %	100,0 %	66,2
Microsoft Phi-3,5-Moe-Instruction	2,5 %	97,5 %	96,3 %	69.7
Intel Neural-CHAT-7B-V3-3	2,6 %	97,4 %	100,0 %	60.7
Qwen2.5-7b-Instruktur	2,8 %	97,2 %	100,0 %	71.0
AI21 Jamba-1,5-Mini	2,9 %	97,1 %	95,6 %	74,5
Snowflake-Arctic-Struktur	3,0 %	97,0 %	100,0 %	68,7
Qwen2.5-32B-Instruktur	3,0 %	97,0 %	100,0 %	67,9
Microsoft Phi-3-Mini-128K-Instruktur	3,1 %	96,9 %	100,0 %	60.1
OpenAI-O1-Präview	3,3 %	96,7 %	100,0 %	119.3
Google Gemini-1.5-Flash-002	3,4 %	96,6 %	99,9 %	59.4
01-AI Yi-1.5-34B-Chat	3,7 %	96,3 %	100,0 %	83.7
LAMA-3.1-405B-ISTRUCT	3,9 %	96,1 %	99,6 %	85.7
Microsoft Phi-3-Mini-4K-Instruktur	4,0 %	96,0 %	100,0 %	86,8
Microsoft Phi-3,5-mini-Instruktur	4,1 %	95,9 %	100,0 %	75,0
Mistral-Large2	4,1 %	95,9 %	100,0 %	77,4
LAMA-3-70B-CHAT-HF	4,1 %	95,9 %	99,2 %	68,5
QWEN2-VL-7B-Instruktur	4,2 %	95,8 %	100,0 %	73,9
Qwen2.5-14b-Instruktur	4,2 %	95,8 %	100,0 %	74,8
QWEN2.5-72B-Instruktur	4,3 %	95,7 %	100,0 %	80.0
LAMA-3.2-90B-VISION-ISTRUCT	4,3 %	95,7 %	100,0 %	79,8
Xai Grok	4,6 %	95,4 %	100,0 %	91.0
Anthropic Claude-3-5-SONNET	4,6 %	95,4 %	100,0 %	95.9
Qwen2-72b-instruct	4,7 %	95,3 %	100,0 %	100.1
MIXTRAL-8X22B-ISTRUCT-V0.1	4,7 %	95,3 %	99,9 %	92.0
Anthropic Claude-3-5-Haiku	4,9 %	95,1 %	100,0 %	92.9
01-AI Yi-1.5-9B-Chat	4,9 %	95,1 %	100,0 %	85.7
Cohere Command-R	4,9 %	95,1 %	100,0 %	68,7
LAMA-3.1-70B-ISTRUCT	5,0 %	95,0 %	100,0 %	79,6
LAMA-3.1-8B-ISTRUCT	5,4 %	94,6 %	100,0 %	71.0
Cohere command-r-plus	5,4 %	94,6 %	100,0 %	68,4
LAMA-3.2-11B-VISION-ISTRUCT	5,5 %	94,5 %	100,0 %	67,3
LAMA-2-70B-CHAT-HF	5,9 %	94,1 %	99,9 %	84.9
IBM Granite-3.0-8B-Instruktur	6,5 %	93,5 %	100,0 %	74.2
Google Gemini-1.5-Pro-002	6,6 %	93,7 %	99,9 %	62.0
Google Gemini-1.5-Flash	6,6 %	93,4 %	99,9 %	63.3
Microsoft Phi-2	6,7 %	93,3 %	91,5 %	80.8
Google Gemma-2-2b-it	7,0 %	93,0 %	100,0 %	62.2
Qwen2.5-3b-Instruktur	7,0 %	93,0 %	100,0 %	70,4
LAMA-3-8B-CHAT-HF	7,4 %	92,6 %	99,8 %	79,7
Google Gemini-Pro	7,7 %	92,3 %	98,4 %	89,5
01-AI yi-1.5-6b-chat	7,9 %	92,1 %	100,0 %	98,9
LAMA-3.2-3B-ISTRUCT	7,9 %	92,1 %	100,0 %	72.2
Databricks DBRX-Instruct	8,3 %	91,7 %	100,0 %	85,9
QWEN2-VL-2B-Instruktur	8,3 %	91,7 %	100,0 %	81.8
Cohere Aya Expanse 32b	8,5 %	91,5 %	99,9 %	81.9
IBM Granit-3.0-2B-Instruktur	8,8 %	91,2 %	100,0 %	81.6
Mistral-7b-Instruct-V0.3	9,5 %	90,5 %	100,0 %	98.4
Google Gemini-1.5-pro	9,1 %	90,9 %	99,8 %	61.6
Anthropic Claude-3-Opus	10,1 %	89,9 %	95,5 %	92.1
Google Gemma-2-9B-it	10,1 %	89,9 %	100,0 %	70,2
LAMA-2-13B-CHAT-HF	10,5 %	89,5 %	99,8 %	82.1
Mistral-NEMO-Struktur	11,2 %	88,8 %	100,0 %	69.9
LAMA-2-7B-CHAT-HF	11,3 %	88,7 %	99,6 %	119.9
Microsoft WizardLM-2-8x22b	11,7 %	88,3 %	99,9 %	140,8
Cohere Aya Expanse 8b	12,2 %	87,8 %	99,9 %	83.9
Amazon Titan-Express	13,5 %	86,5 %	99,5 %	98.4
Google Palm-2	14,1 %	85,9 %	99,8 %	86.6
Google Gemma-7b-it	14,8 %	85,2 %	100,0 %	113.0
Qwen2.5-1.5B-Instruct	15,8 %	84,2 %	100,0 %	70.7
Anthropic Claude-3-SONNET	16,3 %	83,7 %	100,0 %	108,5
Google Gemma-1.1-7b-it	17,0 %	83,0 %	100,0 %	64.3
Anthropic Claude-2	17,4 %	82,6 %	99,3 %	87,5
Google Flan-T5-Large	18,3 %	81,7 %	99,3 %	20.9
MIMTRAL-8X7B-ISTRUCT-V0.1	20,1 %	79,9 %	99,9 %	90.7
LAMA-3.2-1B-ISTRUCT	20,7 %	79,3 %	100,0 %	71,5
Apple OpenLM-3B-Struktur	24,8 %	75,2 %	99,3 %	47,2
Qwen2.5-0.5B-Instruktur	25,2 %	74,8 %	100,0 %	72.6
Google Gemma-1.1-2B-IT	27,8 %	72,2 %	100,0 %	66,8
Tii Falcon-7b-instruct	29,9 %	70,1 %	90,0 %	75,5

Modell

Diese Rangliste verwendet Hhem-2.1, Vectaras kommerzielles Halluzinationsbewertungsmodell, um die LLM-Ranglisten zu berechnen. Sie finden eine Open-Source-Variante dieses Modells, HHEM-2.1-Open auf Umarmung und Kaggle.

Daten

In diesem Datensatz finden Sie die generierten Zusammenfassungen, die wir zur Bewertung der Modelle verwendet haben.

Vorherige Forschung

Es wurde viel frühere Arbeiten in diesem Bereich erledigt. Für einige der Top -Papiere in diesem Bereich (sachliche Konsistenz in der Zusammenfassung) finden Sie hier:

SUMAC: NLI-basierte Modelle zur Inkonsistenzerkennung in der Summarisierung erneut besuchen
Richtig: Bewertung der Bewertung der sachlichen Konsistenz neu bewerten
Truteacher: Lernen der sachlichen Konsistenzbewertung mit großen Sprachmodellen
AlignScore: Bewertung der sachlichen Konsistenz mit einer einheitlichen Ausrichtungsfunktion
Minicheck: Effiziente Faktenüberprüfung von LLMs bei Erdungsdokumenten

Eine sehr umfassende Liste finden Sie hier-https://github.com/edinburghnlp/awesome-allucucination-deTection. Die im folgenden Abschnitt beschriebenen Methoden verwenden unter anderem in diesen Papieren Protokolle.

Methodik

Eine detaillierte Erklärung der Arbeit, die in dieses Modell eingegangen ist, finden Sie in unserem Blog -Beitrag zur Veröffentlichung: Schneiden Sie den Stier…. Erkennung von Halluzinationen in Großsprachmodellen.

Um diese Rangliste zu bestimmen, haben wir ein Modell zur Erkennung von Halluzinationen in LLM -Ausgängen geschult, wobei verschiedene Open -Source -Datensätze aus der sachlichen Konsistenzforschung in Summarierungsmodelle verwendet wurden. Mit einem Modell, das mit den besten Stand der Kunstmodelle wettbewerbsfähig ist, haben wir dann 1000 kurze Dokumente für jedes der oben genannten LLMs über ihre öffentlichen APIs gefüttert und sie gebeten, jedes kurze Dokument zusammenzufassen, wobei nur die im Dokument dargestellten Tatsachen verwendet werden. Von diesen 1000 Dokumenten wurden nur 831 Dokumente von jedem Modell zusammengefasst, die verbleibenden Dokumente wurden aufgrund von Inhaltsbeschränkungen von mindestens einem Modell abgelehnt. Mit diesen 831 Dokumenten haben wir für jedes Modell die allgemeine sachliche Konsistenzrate (keine Halluzinationen) und die Halluzinationsrate (100 - Genauigkeit) berechnet. Die Rate, mit der sich jedes Modell weigert, auf die Eingabeaufforderung zu reagieren, ist in der Spalte "Antwortrate" beschrieben. Keiner der an die Modelle gesendeten Inhalte enthielt illegale oder nicht sicher für Arbeitsinhalte, aber die Gegenwart von Triggerwörtern reichte aus, um einige der Inhaltsfilter auszulösen. Die Dokumente wurden hauptsächlich vom CNN / Daily Mail Corpus entnommen. Wir haben eine Temperatur von 0 verwendet, wenn wir die LLMs aufrufen.

Wir bewerten die sachliche Konsistenzrate der Zusammenfassung anstelle der allgemeinen sachlichen Genauigkeit, da wir die Reaktion des Modells auf die bereitgestellten Informationen vergleichen können. Mit anderen Worten, ist die Zusammenfassung, die mit dem Quelldokument "sachlich konsistent" bereitgestellt wird. Die Bestimmung von Halluzinationen ist für eine Ad -hoc -Frage nicht zu tun, da nicht genau bekannt ist, auf welchen Daten jeder LLM geschult ist. Darüber hinaus erfordert ein Modell, das feststellen kann, ob eine Antwort ohne Referenzquelle halluziniert wurde, das Lösen des Halluzinationsproblems und das Training eines Modells als groß oder größer als diese zu bewertenden LLMs. Daher haben wir uns stattdessen entschieden, die Halluzinationsrate innerhalb der Summar -Aufgabe zu betrachten, da dies ein gutes Analogon ist, um festzustellen, wie ehrlich die Modelle insgesamt sind. Darüber hinaus werden LLMs zunehmend in Pipelines RAG (Abruf Augmented Generation) verwendet, um Benutzeranfragen wie in Bing Chat und die Chat -Integration von Google zu beantworten. In einem Lappensystem wird das Modell als Zusammenfassung der Suchergebnisse eingesetzt, sodass diese Rangliste auch ein guter Indikator für die Genauigkeit der Modelle ist, wenn sie in Lappensystemen verwendet werden.

Eingabeaufforderung verwendet

Sie sind ein Chat -Bot, der mit Daten Fragen beantwortet. Sie müssen sich an die Antworten halten, die ausschließlich durch den Text in der bereitgestellten Passage bereitgestellt werden. Ihnen wird die Frage gestellt: "Geben Sie eine kurze Zusammenfassung der folgenden Passage an, die die beschriebenen Kerninformationen abdeckt." <Passage> '

Beim Aufrufen der API wurde das <passage> -Token dann durch das Quelldokument ersetzt (siehe die Spalte "Quelle" in diesem Datensatz).

API -Integrationsdetails

Im Folgenden finden Sie einen detaillierten Überblick über die integrierten Modelle und ihre spezifischen Endpunkte:

OpenAI -Modelle

GPT-3.5 : Zugegriffen mit dem Modellnamen gpt-3.5-turbo über die Python-Client-Bibliothek von OpenAI, insbesondere über den Endpunkt von chat.completions.create .
GPT-4 : Integriert in das Modell Identifier gpt-4 .
GPT-4 Turbo : Unter dem Modellnamen gpt-4-turbo-2024-04-09 verwendet, entsprechend der Dokumentation von OpenAI.
GPT-4O : Zugegriffen mit dem Modellnamen gpt-4o .
GPT-4O-Mini : Zugegriffen mit dem Modellnamen gpt-4o-mini .
O1-Mini : Zugegriffen mit dem Modellnamen o1-mini .
O1-Präview : Zugegriffen mit dem Modellnamen o1-preview

Lama -Models

LLAMA 2 7B, 13B und 70B : Auf diese Modelle unterschiedlicher Größen werden über Any-Hosted-Endpunkte unter Verwendung von Modellmeta meta-llama/Llama-2-xxb-chat-hf zugegriffen, wobei xxb 7b , 13b und 70b und auf die Kapazität jedes Modells zugeschnitten sein kann.
LLAMA 3 8B und 70B : Auf diese Modelle werden über AI chat Endpunkt und die Modellmeta meta-llama/Llama-3-xxB-chat-hf zugegriffen, wobei xxB 8B und 70B sein kann.
LLAMA 3.1 8B, 70B und 405B : Die Models Meta-Llama/Meta-Llama-3.1-70B-Instruction und Meta-Llama/Meta-Llama-3.1-8B-Instruct werden über den Checkpoint von Sugging Face zugegriffen. Das Modell Meta-Llama-3.1-405B-Instruct wird über die API von Replicate unter Verwendung des Modells meta/meta-llama-3.1-405b-instruct zugegriffen.
LAMA 3.2 1B und 3B : Das Modell Meta-Llama/Meta-Llama-3.2-1b-Instruktur wird über den Checkpoint von Hugging Face zugegriffen. Das Modell Meta-Llama-3.2-3B-Instruct wird über einen gemeinsamen AI chat Endpunkt unter Verwendung von Modellmeta meta-llama/Llama-3.2-3B-Instruct-Turbo zugegriffen.
LLAMA 3.2 Vision 11b und 90b : Die Models Llama-3.2-11B-Vision-Instruct und Llama-3.2-90B-Vision-Instruct werden über AI chat Endpunkt unter Verwendung von Modellmeta meta-llama/Llama-3.2-11B-Vision-Instruct-Turbo und meta-llama/Llama-3.2-90B-Vision-Instruct-Turbo .

Cohere -Modelle

COHERE-Befehl R : verwendet mit dem command-r-08-2024 und dem /chat Endpunkt.
Cohere-Befehl R Plus : Verwendet mit dem command-r-plus-08-2024 und dem /chat Endpunkt.
Aya Expanse 8b, 32b : Zugegriffen mit den Modellen c4ai-aya-expanse-8b und c4ai-aya-expanse-32b . Weitere Informationen zu Coheres Modellen finden Sie in der Website.

Anthropisches Modell

Claude 2 : Das Modell hat claude-2.0 für den API-Anruf aufgerufen.
CLAUDE 3 OPUS : Das Modell mit claude-3-opus-20240229 für den API-Aufruf aufgerufen.
Claude 3 Sonett : Das Modell hat mit claude-3-sonnet-20240229 für den API-Aufruf aufgerufen.
Claude 3.5 Sonett : Das Modell hat mit claude-3-5-sonnet-20241022 für den API-Aufruf aufgerufen.
Claude 3.5 Haiku : Das Modell hat mit claude-3-5-haiku-20241022 für den API-Anruf aufgerufen.
Claude 3.5 Haiku : Details zu jedem Modell finden Sie auf ihrer Website.

Mistral AI -Modelle

MIXTRAL 8X7B : Das MIMTRAL-8X7B-Instruct-V0.1-Modell wird über die API von Hugging Face zugegriffen.
MIMTRAL 8x22B : Zugegriffen über die API von Together AI unter Verwendung des Modells mistralai/Mixtral-8x22B-Instruct-v0.1 und dem chat Endpunkt.
Mistral Large2 : Zugegriffen über die API von Mistral AI unter Verwendung des Modells mistral-large-latest .
Mistral-7b-Instruct-V0.3 : Das Mistral-7b-Instruct-V0.3-Modell wird zugegriffen, indem er aus dem Checkpoint des umarmten Face geladen wird.
Mistral-Nemo-Instruct Auf das Modell des Mistral-Nemo-Instruct-2407 wird über den Checkpoint von Hugging Face zugegriffen.

Google Palm -Modelle über Scheitelpunkt AI

Google Palm 2 : Implementiert mit dem text-bison-001 Modell.
Gemini Pro : gemini-pro Modell von Google ist für eine verbesserte Sprachverarbeitung aufgenommen, die auf der Vertex-AI zugänglich ist.
Gemini 1.5 Pro : Zugegriffen mit Modell gemini-1.5-pro-001 auf Scheitelpunkt AI.
Gemini 1.5 Flash : Zugegriffen mit dem Modell gemini-1.5-flash-001 auf Scheitelpunkt AI.
Gemini 1.5 Pro 002 : Zugriff unter Verwendung von Modell gemini-1.5-pro-002 auf Scheitelpunkt AI.
Gemini 1.5 Flase 002 : Zugriff unter Verwendung von Modell gemini-1.5-flash-002 auf Scheitelpunkt AI.

Für ein detailliertes Verständnis der Version und des Lebenszyklus jedes Modells, insbesondere die von Google angebotenen, finden Sie in Modellversionen und Lebenszyklen auf der Vertex-KI.

Titan -Modelle auf Amazon -Grundgestein

Amazon Titan Express : Auf das Modell wird auf Amazon-Grundgestein mit Modellkennung von amazon.titan-text-express-v1 zugegriffen.

Microsoft -Modelle

Microsoft PHI-2 : Auf das PHI-2-Modell wird über die API von Hugging Face zugegriffen.
Microsoft ORCA-2-13B : Auf das ORCA-2-13B-Modell wird über die API von Hugging Face zugegriffen.
Microsoft WizardLM-2-8x22b : Zugegriffen über die API von Together AI unter Verwendung des Modells microsoft/WizardLM-2-8x22B und den chat Endpunkt.
Microsoft Phi-3-Mini-4K : Auf das phi-3-mini-4K-Modell wird über den Checkpoint des Umarmungsgesichts zugegriffen.
Microsoft PHI-3-Mini-128K : Auf das phi-3-mini-128K-Modell wird über den Checkpoint des Umarmungsgesichts zugegriffen.
Microsoft Phi-3,5-mini-Instruktur : Das pHi-3,5-mini-Instruktionsmodell wird über den Checkpoint des Umarmungsgesichts zugegriffen.
Microsoft Phi-3,5-MOE-Instruktur : Auf das phi-3,5-MOE-Instrukturmodell wird über den Checkpoint des Umarmungsgesichts zugegriffen.

Google -Modelle auf dem Umarmungsgesicht

Google Flan-T5-Large : Auf das Flan-T5-Large-Modell wird über die API von Hugging Face zugegriffen.
Google Gemma-7b-IT : Das Gemma-7b-It-Modell wird über die API von Hugging Face zugegriffen.
Google Gemma-1.1-7b-it : Auf das Gemma-1.1-7b-It-Modell wird durch den Checkpoint des umarmen Face geladen.
Google Gemma-1.1-2B-IT : Auf das Gemma-1.1-2B-It-Modell wird durch den Checkpoint des umarmen Face geladen.
Google Gemma-2-9B-IT : Auf das GEMMA-2-9B-IT-Modell wird durch den Checkpoint des Umarmungsgesichts zugegriffen.
Google Gemma-2-2b-IT : Auf das GEMMA-2-2B-IT-Modell wird durch den Checkpoint des Umarmungsgesichts zugegriffen.

Tii -Modelle beim Umarmen des Gesichts

TiiUae/Falcon-7b-Instruct : Das Modell Falcon-7b-intruct wird über die API von Hugging Face zugegriffen.

Intel -Modell beim Umarmen des Gesichts

Intel/Neural-CHAT-7B-V3-3 : Auf das Intel/Neural-CHAT-7B-V3-3-Modell wird über den Checkpoint von Hugging Face zugegriffen.

Databricks -Modell

Databricks/DBRX-Instruct : Zugegriffen über die API von Together AI unter Verwendung der databricks/dbrx-instruct und dem chat Endpunkt.

Schneeflockenmodell

Snowflake/Snowflake-Arctic-Instruction : Zugriff über Replicate-API mit der Modellschneeflake snowflake/snowflake-arctic-instruct .

Apfelmodell

Apple/OpenLM-3B-Instruct : Auf das OpenLM-3B-Instruct-Modell wird durch den Kontrollpunkt des Face geladen. Die Eingabeaufforderung für dieses Modell ist die ursprüngliche Eingabeaufforderung plus '' n na Na Clecise Summary lautet wie folgt: ''

01-AI-Modelle

01-ai/yi-1.5-Chat 6b, 9b, 34b : Die Modelle 01-AI/Yi-1,5-6b-Chat, 01-AI/Yi-1.5-9B-CHAT und 01-AI/Yi-1,5-34B-Chat werden über den Checkpoint von umarmen Gesicht zugegriffen.

Zhipu AI -Modell

Zhipu-AI/GLM-4-9B-CHAT : Der GLM-4-9B-CHAT wird über den Checkpoint des Umarmungsgesichts zugegriffen.

QWEN -Modelle

QWEN/QWEN2-72B-ISTRUCT : AIL Together AI chat Endpunkt mit dem Modellnamen Qwen/Qwen2-72B-Instruct .
QWEN/QWEN2-VL-ISTRUCT 2B, 7B : Die Modelle QWEN/QWEN2-VL-2B-ISTRECT und QWEN/QWEN2-VL-7B-ISTRUCT werden über die Kontrollpunkte von umarmen Gesicht zugegriffen.
Qwen/Qwen2.5-Instruct 0.5B, 1.5B, 3B, 7B, 14B, 32B, 72B : The models Qwen2.5-0.5B-Instruct, Qwen2.5-1.5B-Instruct, Qwen2.5-3B-Instruct, Qwen2.5-7B-Instruct, Qwen2.5-14B-Instruct, QWEN2.5-32B-Instruction und Qwen2.5-72B-Instruct werden über die Checkpoints des Umarmungsgesichts zugegriffen.

AI21 -Modell

AI21-JAMBA-1,5-MINI : Auf das Jamba-1,5-Mini-Modell wird über den Checkpoint des Umarmungsgesichts zugegriffen.

Deepseek -Modell

Deepseek V2.5 : Zugegriffen über die API von Deepseek mit deepseek-chat Modell und dem chat Endpunkt.

IBM -Modelle

Granit-3,0-Instruct 2B, 8B : Die Modelle IBM-Granit/Granit-3.0-8b-Instruktur und IBM-Granit/Granit-3.0-2b-Instruct werden über die Kontrollpunkte von umarmen Gesicht zugegriffen.

XAI -Modell

GROK : Zugriff über die XAI-API mit dem Modell grok-beta und dem Endpunkt chat/completions .

Häufig gestellte Fragen

Qu. Warum verwenden Sie ein Modell, um ein Modell zu bewerten?
Antwort Es gibt mehrere Gründe, warum wir uns für eine menschliche Bewertung entschieden haben. Obwohl wir eine große Bewertung des menschlichen Maßstabs hätten haben können, ist dies eine einmalige Sache, aber es wird nicht so skaliert, dass wir die Rangliste ständig aktualisieren können, wenn neue APIs online werden oder Modelle aktualisiert werden. Wir arbeiten in einem schnell bewegenden Bereich, sodass ein solcher Prozess nicht mehr Daten mehr hat, sobald er veröffentlicht wurde. Zweitens wollten wir einen wiederholbaren Prozess, den wir mit anderen teilen können, damit sie ihn selbst als eine von vielen LLM -Qualitätswerten verwenden können, die sie bei der Bewertung ihrer eigenen Modelle verwenden. Dies wäre bei einem menschlichen Annotationsprozess nicht möglich, bei dem die einzigen Dinge, die geteilt werden könnten, der Prozess und die menschlichen Etiketten sind. Es lohnt sich auch, darauf hinzuweisen, dass das Aufbau eines Modells zur Erkennung von Halluzinationen viel einfacher ist als ein generatives Modell, das niemals Halluzinationen erzeugt. Solange das Halluzinationsbewertungsmodell in hohem Maße mit den Urteilen der menschlichen Bewerter korreliert, kann es als guter Stellvertreter für menschliche Richter stehen. Da wir speziell die Zusammenfassung und nicht allgemeine "geschlossene Buchbeantwortung" ansprechen, muss der von uns geschulte LLM keinen großen Teil des menschlichen Wissens auswendig gelernt haben, sondern nur ein solides Verständnis und Verständnis der Sprachen, die es unterstützt (derzeit nur Englisch, planen, die Sprachberichterstattung im Laufe der Zeit zu erweitern).
Qu. Was ist, wenn sich das LLM weigert, das Dokument zusammenzufassen oder eine Antwort von einem oder zwei Wörtern bereitzustellen?
Antwort Wir filtern diese ausdrücklich aus. Weitere Informationen finden Sie in unserem Blog -Beitrag. Sie können die Spalte "Antwortrate" in der Rangliste sehen, die den Prozentsatz der zusammengefassten Dokumente und die Spalte "Durchschnitts Zusammenfassung Länge" angibt, in der die Zusammenfassungslängen beschrieben werden. Wir zeigen, dass wir für die meisten Dokumente nicht sehr kurze Antworten erhalten haben.
Qu. Welche Version von Modell XYZ haben Sie verwendet?
Antwort Weitere Informationen zu den verwendeten Modellversionen und dem Aufrufen der Modellversionen sowie dem Datum, an dem die Rangliste aktualisiert wurde, finden Sie im Abschnitt API -Details. Bitte kontaktieren Sie uns (erstellen Sie ein Problem im Repo), wenn Sie mehr Klarheit benötigen.
Qu. Was ist mit Xais Grok LLM?
Antwort Derzeit (zum 14.14.2023) ist Grok nicht öffentlich verfügbar und wir haben keinen Zugriff. Diejenigen mit frühem Zugriff, von denen ich vermute, dass sie diese Art von Bewertung auf dem Modell wahrscheinlich rechtlich verboten sind. Sobald das Modell über eine öffentliche API verfügbar ist, werden wir es zusammen mit allen anderen LLMs hinzufügen, die genug beliebt sind.
Qu. Kann ein Modell nicht nur 100% erzielen, indem sie keine Antworten oder sehr kurze Antworten liefert?
Antwort Wir haben solche Antworten aus jedem Modell ausdrücklich herausgefiltert und die endgültige Bewertung nur an Dokumenten durchgeführt, für die alle Modelle eine Zusammenfassung erbracht haben. In unserem Blog -Beitrag zum Thema finden Sie weitere technische Details. Siehe auch die Spalten "Antwortrate" und "durchschnittliche Zusammenfassungslänge" in der obigen Tabelle.
Qu. Würde ein modelles Zusammenfassungsmodell, das nur zu 100% (0 Halluzination) zu dieser Aufgabe kopiert und Pasten aus der ursprünglichen Zusammenfassung kopiert?
Beantworten Sie absolut als per Definition, dass ein solches Modell keine Halluzinationen hat und eine treue Zusammenfassung darstellt. Wir behaupten nicht, die Zusammenfassung der Qualität zu bewerten, dh eine separate und orthogonale Aufgabe, und sollte unabhängig bewertet werden. Wir bewerten die Qualität der Zusammenfassungen nicht , sondern nur die sachliche Konsistenz von ihnen, wie wir im Blog -Beitrag hinweisen.
Qu. Dies scheint eine sehr hackbare Metrik zu sein, da Sie den Originaltext einfach als Zusammenfassung kopieren können
Antwort. Das stimmt, aber wir bewerten willkürliche Modelle bei diesem Ansatz nicht, z. B. wie bei einem Kaggle -Wettbewerb. Jedes Modell, das dies tut, würde bei jeder anderen Aufgabe, die Ihnen wichtig ist, schlecht abschneiden. Daher würde ich dies als hochwertige Metrik betrachten, die Sie neben allen anderen Bewertungen für Ihr Modell durchführen würden, z. B. die Qualität der Zusammenfassung, die Beantwortung von Fragen zur Beantwortung der Genauigkeit usw., aber wir empfehlen nicht, dies als eigenständige Metrik zu verwenden. Keiner der ausgewählten Modelle wurde auf der Ausgabe unseres Modells geschult. Das mag in Zukunft passieren, aber wenn wir vorhaben, das Modell und auch die Quelldokumente zu aktualisieren, ist dies eine lebendige Rangliste, die ein unwahrscheinliches Ereignis sein wird. Dies ist jedoch auch ein Problem mit jedem LLM -Benchmark. Wir sollten auch darauf hinweisen, dass dies auf einer großen Arbeit über sachliche Konsistenz baut, bei denen viele andere Akademiker dieses Protokoll erfunden und verfeinert haben. Sehen Sie sich unsere Referenzen auf die SUMAC- und TRAUE-Papiere in diesem Blog-Beitrag sowie diese hervorragende Zusammenstellung von Ressourcen an-https://github.com/edinburghnlp/awesome-hallucination-DeTection, um mehr zu lesen.
Qu. Dies misst nicht definitiv alle Möglichkeiten, wie ein Modell halluzinieren kann
Antwort. Vereinbart. Wir behaupten nicht, das Problem der Halluzinationserkennung gelöst zu haben, und planen, diesen Prozess weiter zu erweitern und zu verbessern. Aber wir glauben, dass es sich um einen Schritt in die richtige Richtung handelt, und bietet einen dringend benötigten Ausgangspunkt, auf dem jeder aufbauen kann.
Qu. Einige Modelle konnten nur beim Zusammenfassen halluzinieren. Könnten Sie ihm nicht einfach eine Liste von bekannten Fakten angeben und überprüfen, wie gut es sich erinnern kann?
Antwort. Das wäre meiner Meinung nach ein schlechter Test. Zum einen kennen Sie die Daten, an denen es geschult wurde, nicht sicher, dass das Modell seine Reaktion in realen Daten erdenkt, die es gesehen hat oder ob es erraten hat. Darüber hinaus gibt es keine eindeutige Definition von „bekanntem“ und diese Arten von Daten sind für die meisten Modelle in der Regel einfach, um sich genau zu erinnern. Die meisten Halluzinationen stammen in meiner zugegebenermaßen subjektiven Erfahrung aus dem Modell, in dem Informationen abgeholt werden, die sehr selten bekannt oder diskutiert sind oder für die das Modell widersprüchliche Informationen gesehen hat. Ohne die Quelldaten zu kennen, auf die das Modell trainiert wurde, ist es erneut unmöglich, diese Art von Halluzinationen zu validieren, da Sie nicht wissen, welche Daten zu diesem Kriterium passt. Ich denke auch, dass es unwahrscheinlich ist, dass das Modell nur beim Zusammenfassen halluzinieren würde. Wir bitten das Modell, Informationen zu nehmen und es auf eine Weise zu verändern, die der Quelle immer noch treu ist. Dies ist analog zu vielen generativen Aufgaben, abgesehen von der Zusammenfassung (z. B. schreiben Sie eine E -Mail, die diese Punkte abdeckt ...), und wenn das Modell von der Eingabeaufforderung abweicht, ist dies ein Versäumnis, Anweisungen zu befolgen, was darauf hinweist, dass das Modell auch auf andere Anweisungen kämpfen würde, die auch die folgenden Aufgaben folgen.
Qu. Dies ist ein guter Anfang, aber alles andere als endgültig
Antwort. Ich stimme vollkommen zu. Es muss noch viel mehr getan werden, und das Problem ist alles andere als gelöst. Ein "guter Start" bedeutet jedoch, dass in diesem Bereich hoffentlich Fortschritte erzielt werden, und durch offenes Beschaffung des Modells hoffen wir, die Community dazu einzubeziehen, dies auf die nächste Stufe zu bringen.

Bald kommen

Wir werden auch eine Rangliste für die Genauigkeit von Zitierungen hinzufügen. Als Erbauer von Rag-Systemen haben wir festgestellt, dass LLMs dazu neigen, Quellen zu missachten, wenn sie eine Frage basierend auf den gelieferten Suchergebnissen beantworten. Wir möchten dies messen können, damit wir es in unserer Plattform mindern können.
Wir werden auch versuchen, den Benchmark zu erweitern, um andere Lag-Aufgaben wie die Zusammenfassung der Multi-Dokumenten zu decken.
Wir planen auch, mehr Sprachen als nur Englisch zu behandeln. Unsere aktuelle Plattform deckt über 100 Sprachen ab, und wir möchten Halluzinationsdetektoren mit vergleichbarer mehrsprachiger Abdeckung entwickeln.

Expandieren

Zusätzliche Informationen

Version 1.0.0
Typ Anderer Quellcode
Aktualisierungszeit 2025-03-09
Größe 275.34KB
Kommt von Github

Ähnliche Anwendungen

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub the via/releases

2024-11-01