Descarga hallucination leaderboard - Descargar el código fuente hallucination leaderboard

hallucination leaderboard

Otro código fuente

1.0.0

Descargar

Tabla de clasificación de alucinación

Public LLM Raeperboard calculado utilizando el modelo de evaluación de alucinación Hughes de Vectara. Esto evalúa con qué frecuencia un LLM presenta alucinaciones al resumir un documento. Planeamos actualizar esto regularmente como nuestro modelo y los LLM se actualizan con el tiempo.

Además, siéntase libre de ver nuestra clasificación de alucinaciones sobre la cara abrazada.

Las clasificaciones en esta tabla de clasificación se calculan utilizando el modelo de evaluación de alucinación HHEM-2.1. Si está interesado en la tabla de clasificación anterior, que se basó en HHEM-1.0, está disponible aquí

En memoria amorosa de Simon Mark Hughes ...

Última actualización el 6 de noviembre de 2024

Parcela: tasas de alucinación de varios LLM

Modelo	Tasa de alucinación	Tasa de consistencia objetiva	Tasa de respuesta	Longitud de resumen promedio (palabras)
Zhipu ai glm-4-9b-chat	1.3 %	98.7 %	100.0 %	58.1
OpenAi-O1-Mini	1.4 %	98.6 %	100.0 %	78.3
GPT-4O	1.5 %	98.5 %	100.0 %	77.8
GPT-4O-Mini	1.7 %	98.3 %	100.0 %	76.3
GPT-4-TURBO	1.7 %	98.3 %	100.0 %	86.2
GPT-4	1.8 %	98.2 %	100.0 %	81.1
GPT-3.5-TURBO	1.9 %	98.1 %	99.6 %	84.1
Deepseek-v2.5	2.4 %	97.6 %	100.0 %	83.2
Microsoft Orca-2-13b	2.5 %	97.5 %	100.0 %	66.2
Microsoft Phi-3.5-Moe-Instructo	2.5 %	97.5 %	96.3 %	69.7
Intel Neural-Chat-7B-V3-3	2.6 %	97.4 %	100.0 %	60.7
Qwen2.5-7b-instructo	2.8 %	97.2 %	100.0 %	71.0
AI21 Jamba-1.5-Mini	2.9 %	97.1 %	95.6 %	74.5
Insinución de copos de nieve	3.0 %	97.0 %	100.0 %	68.7
QWEN2.5-32B-INSTRUST	3.0 %	97.0 %	100.0 %	67.9
Microsoft Phi-3-Mini-128K-Instructo	3.1 %	96.9 %	100.0 %	60.1
Pregai-o1 previa	3.3 %	96.7 %	100.0 %	119.3
Google Géminis-1.5-Flash-002	3.4 %	96.6 %	99.9 %	59.4
01-AI yi-1.5-34b-chat	3.7 %	96.3 %	100.0 %	83.7
Llama-3.1-405b-Instructo	3.9 %	96.1 %	99.6 %	85.7
Microsoft Phi-3-mini-4K-Instructo	4.0 %	96.0 %	100.0 %	86.8
Microsoft Phi-3.5 mini-Instructo	4.1 %	95.9 %	100.0 %	75.0
Mistral-Large2	4.1 %	95.9 %	100.0 %	77.4
Llama-3-70B-CHAT-HF	4.1 %	95.9 %	99.2 %	68.5
QWEN2-VL-7B-INSTRUST	4.2 %	95.8 %	100.0 %	73.9
Qwen2.5-14b-instructo	4.2 %	95.8 %	100.0 %	74.8
QWEN2.5-72B-INSTRUST	4.3 %	95.7 %	100.0 %	80.0
LLAMA-3.2-90B-VISION-INSTRUST	4.3 %	95.7 %	100.0 %	79.8
Xai Grok	4.6 %	95.4 %	100.0 %	91.0
Antrópico Claude-3-5-Sonnet	4.6 %	95.4 %	100.0 %	95.9
QWEN2-72B-INSTRUST	4.7 %	95.3 %	100.0 %	100.1
Mixtral-8x22b-insiRCUT-V0.1	4.7 %	95.3 %	99.9 %	92.0
Antrópico Claude-3-5-Haiku	4.9 %	95.1 %	100.0 %	92.9
01-AI yi-1.5-9b-chat	4.9 %	95.1 %	100.0 %	85.7
Cohere Command-R	4.9 %	95.1 %	100.0 %	68.7
Llama-3.1-70B-Instructo	5.0 %	95.0 %	100.0 %	79.6
Llama-3.1-8b-Instructo	5.4 %	94.6 %	100.0 %	71.0
Cohere Command-R-plus	5.4 %	94.6 %	100.0 %	68.4
LLAMA-3.2-11B-Visión-Instructo	5.5 %	94.5 %	100.0 %	67.3
LLAMA-2-70B-CHAT-HF	5.9 %	94.1 %	99.9 %	84.9
IBM Granite-3.0-8b-Instructo	6.5 %	93.5 %	100.0 %	74.2
Google Gemini-1.5-Pro-002	6.6 %	93.7 %	99.9 %	62.0
Google Géminis-1.5 Flash	6.6 %	93.4 %	99.9 %	63.3
Microsoft Phi-2	6.7 %	93.3 %	91.5 %	80.8
Google GEMMA-2-2B-IT	7.0 %	93.0 %	100.0 %	62.2
Qwen2.5-3b-instructo	7.0 %	93.0 %	100.0 %	70.4
LLAMA-3-8B-CHAT-HF	7.4 %	92.6 %	99.8 %	79.7
Google Gemini-Pro	7.7 %	92.3 %	98.4 %	89.5
01-AI yi-1.5-6b-chat	7.9 %	92.1 %	100.0 %	98.9
Llama-3.2-3b-Instructo	7.9 %	92.1 %	100.0 %	72.2
Databricks DBRX-Instructo	8.3 %	91.7 %	100.0 %	85.9
QWEN2-VL-2B-Instructo	8.3 %	91.7 %	100.0 %	81.8
Cohere Aya Expanse 32B	8.5 %	91.5 %	99.9 %	81.9
IBM Granite-3.0-2B-Instructo	8.8 %	91.2 %	100.0 %	81.6
Mistral-7B-Instructo-V0.3	9.5 %	90.5 %	100.0 %	98.4
Google Géminis-1.5-Pro	9.1 %	90.9 %	99.8 %	61.6
Antrópico Claude-3-opus	10.1 %	89.9 %	95.5 %	92.1
Google Gemma-2-9B-IT	10.1 %	89.9 %	100.0 %	70.2
Llama-2-13B-CHAT-HF	10.5 %	89.5 %	99.8 %	82.1
Mistral-Nemo-Instructo	11.2 %	88.8 %	100.0 %	69.9
LLAMA-2-7B-CHAT-HF	11.3 %	88.7 %	99.6 %	119.9
Microsoft Wizardlm-2-8x22b	11.7 %	88.3 %	99.9 %	140.8
Cohere Aya Expanse 8B	12.2 %	87.8 %	99.9 %	83.9
Amazon Titan-Express	13.5 %	86.5 %	99.5 %	98.4
Google Palm-2	14.1 %	85.9 %	99.8 %	86.6
Google Gemma-7B-IT	14.8 %	85.2 %	100.0 %	113.0
Qwen2.5-1.5b-instructo	15.8 %	84.2 %	100.0 %	70.7
Antrópico Claude-3-Sonnet	16.3 %	83.7 %	100.0 %	108.5
Google Gemma-1.1-7B-IT	17.0 %	83.0 %	100.0 %	64.3
Antrópico Claude-2	17.4 %	82.6 %	99.3 %	87.5
Google Flan-T5-Large	18.3 %	81.7 %	99.3 %	20.9
Mixtral-8x7b-instructo-v0.1	20.1 %	79.9 %	99.9 %	90.7
LLAMA-3.2-1B-INSTRUST	20.7 %	79.3 %	100.0 %	71.5
Apple OpenELM-3B-Instructo	24.8 %	75.2 %	99.3 %	47.2
QWEN2.5-0.5B-INSTRUST	25.2 %	74.8 %	100.0 %	72.6
Google Gemma-1.1-2B-IT	27.8 %	72.2 %	100.0 %	66.8
Tii Falcon-7b-Instructo	29.9 %	70.1 %	90.0 %	75.5

Modelo

Esta tabla de clasificación utiliza HHEM-2.1, el modelo de evaluación de alucinación comercial de Vectara, para calcular las clasificaciones LLM. Puede encontrar una variante de código abierto de ese modelo, hhem-2.1-abre en la cara abrazada y kaggle.

Datos

Vea este conjunto de datos para los resúmenes generados que utilizamos para evaluar los modelos.

Investigación previa

Se ha realizado mucho trabajo previo en esta área. Para algunos de los mejores documentos de esta área (consistencia objetiva en resumen), consulte aquí:

Cumbre: volver a visitar modelos basados en NLI para detección de inconsistencia en resumen
Verdadero: Reevaluación de la evaluación de consistencia objetiva
TruetEacher: aprendizaje de la evaluación de consistencia objetiva con modelos de idiomas grandes
AlignScore: Evaluación de la consistencia fáctica con una función de alineación unificada
Minicheck: verificación de hechos eficiente de LLM en documentos de conexión a tierra

Para una lista muy completa, consulte aquí: https://github.com/edinburhnlp/awesome-hallucination Detection. Los métodos descritos en la siguiente sección usan protocolos establecidos en esos documentos, entre muchos otros.

Metodología

Para obtener una explicación detallada del trabajo que entró en este modelo, consulte nuestra publicación de blog sobre el comunicado: Cortar el toro ... Detección de alucinaciones en modelos de idiomas grandes.

Para determinar esta tabla de clasificación, capacitamos un modelo para detectar alucinaciones en las salidas de LLM, utilizando varios conjuntos de datos de código abierto de la investigación de consistencia objetiva en los modelos de resumen. Utilizando un modelo que sea competitivo con los mejores modelos de última generación, luego alimentamos 1000 documentos cortos a cada uno de los LLM anteriores a través de sus API públicas y les pedimos que resumieran cada documento corto, utilizando solo los hechos presentados en el documento. De estos 1000 documentos, solo 831 documentos fueron resumidos por cada modelo, los documentos restantes fueron rechazados por al menos un modelo debido a restricciones de contenido. Usando estos 831 documentos, calculamos la tasa general de consistencia de hechos (sin alucinaciones) y la tasa de alucinación (100 precisión) para cada modelo. La tasa a la que cada modelo se niega a responder a la solicitud se detalla en la columna de 'tasa de respuesta'. Ninguno de los contenidos enviados a los modelos contenía contenido ilícito o "no seguro para el trabajo", pero el presente de las palabras de activación fue suficiente para activar algunos de los filtros de contenido. Los documentos se tomaron principalmente del CNN / Daily Mail Corpus. Usamos una temperatura de 0 cuando llamamos a los LLM.

Evaluamos la tasa de consistencia objetiva de resumen en lugar de la precisión objetiva general porque nos permite comparar la respuesta del modelo con la información proporcionada. En otras palabras, es el resumen proporcionado 'fácticamente consistente' con el documento fuente. Determinar alucinaciones es imposible de hacer para cualquier pregunta ad hoc, ya que no se sabe con precisión en qué datos se capacita cada LLM. Además, tener un modelo que pueda determinar si alguna respuesta fue alucinada sin una fuente de referencia requiere resolver el problema de alucinación y presumiblemente capacitar un modelo tan grande o más grande que estos LLM que se evalúan. Por lo tanto, elegimos observar la tasa de alucinación dentro de la tarea de resumen, ya que este es un buen análogo para determinar cuán veraz son los modelos en general. Además, los LLM se utilizan cada vez más en las tuberías de RAG (generación aumentada de recuperación) para responder consultas de los usuarios, como en el chat de Bing y la integración de chat de Google. En un sistema de RAG, el modelo se está implementando como un resumen de los resultados de búsqueda, por lo que esta tabla de clasificación también es un buen indicador para la precisión de los modelos cuando se usa en los sistemas RAG.

Aviso utilizado

Usted es un bot de chat respondiendo preguntas utilizando datos. Debe cumplir con las respuestas proporcionadas únicamente por el texto en el pasaje proporcionado. Se le hace la pregunta "Proporcione un resumen conciso del siguiente pasaje, que cubre las piezas de información básicas descritas". <gase> '

Al llamar a la API, el token <gase> se reemplazó con el documento de origen (consulte la columna 'fuente' en este conjunto de datos).

Detalles de integración de API

A continuación se muestra una descripción detallada de los modelos integrados y sus puntos finales específicos:

Modelos OpenAI

GPT-3.5 : Acceso utilizando el nombre del modelo gpt-3.5-turbo a través de la Biblioteca de clientes de Python de OpenAi, específicamente a través del punto final chat.completions.create .
GPT-4 : integrado con el identificador del modelo gpt-4 .
GPT-4 Turbo : utilizado bajo el nombre del modelo gpt-4-turbo-2024-04-09 , en línea con la documentación de OpenAI.
GPT-4O : accedido utilizando el nombre del modelo gpt-4o .
GPT-4O-Mini : accedido usando el nombre del modelo gpt-4o-mini .
O1-Mini : accedido usando el nombre del modelo o1-mini .
Previsión de O1 : accedido con el nombre del modelo o1-preview

Modelos de llamas

Llama 2 7b, 13b y 70b : se accede a estos modelos de diferentes tamaños a través de puntos finales alojados en cualquier escala utilizando el modelo meta-llama/Llama-2-xxb-chat-hf , donde xxb puede ser 7b , 13b y 70b , adaptado a la capacidad de cada modelo.
Llama 3 8B y 70B : se accede a estos modelos a través del punto final chat AI juntos y utilizando el modelo meta-llama/Llama-3-xxB-chat-hf , donde xxB puede ser 8B y 70B .
Llama 3.1 8B, 70B y 405B : Se accede a los modelos Meta-llama/Meta-Llama-3.1-70B-Instructo y Meta-Llama/Meta-Llama-3.1-8B-Instructo a través del punto de control de Hugging Face. Se accede al modelo Meta-Llama-3.1-405B-Instruct a través de la API de Replicate utilizando el modelo meta/meta-llama-3.1-405b-instruct .
Llama 3.2 1b y 3b : se accede al modelo Meta-llama/Meta-llama-3.2-1b-Instructo a través del punto de control de Hugging Face. El modelo Meta-Llama-3.2-3B-Instruct se accede a través del punto final chat AI juntos utilizando el modelo meta-llama/Llama-3.2-3B-Instruct-Turbo .
Llama 3.2 Vision 11b y 90b : se acceden a los modelos Llama-3.2-11B-Vision-Instruct y Llama-3.2-90B-Vision-Instruct a través del punto final chat AI de AI utilizando el modelo meta-llama/Llama-3.2-11B-Vision-Instruct-Turbo y meta-llama/Llama-3.2-90B-Vision-Instruct-Turbo .

Modelos de coheo

Cohere Command R : empleado usando el command-r-08-2024 y el punto final /chat .
Cohere Command R Plus : empleado utilizando el command-r-plus-08-2024 y el punto final /chat .
AYA Expanse 8B, 32B : accedido con los modelos c4ai-aya-expanse-8b y c4ai-aya-expanse-32b . Para obtener más información sobre los modelos de Cohere, consulte su sitio web.

Modelo antrópico

Claude 2 : invocó el modelo usando claude-2.0 para la llamada API.
Opus Claude 3 : invocó el modelo usando claude-3-opus-20240229 para la llamada API.
Sonnet Claude 3 : invocó el modelo usando claude-3-sonnet-20240229 para la llamada API.
Soneto Claude 3.5 : invocó el modelo usando claude-3-5-sonnet-20241022 para la llamada API.
Claude 3.5 Haiku : invocó el modelo usando claude-3-5-haiku-20241022 para la llamada API.
Claude 3.5 Haiku : Se pueden encontrar detalles sobre cada modelo en su sitio web.

Modelos de IA Mistral

Mixtral 8x7b : se accede al modelo MixTral-8x7B-Instruct-V0.1 a través de la API de Hugging Face.
Mixtral 8x22b : accedido a través de la API de AI juntas utilizando el modelo mistralai/Mixtral-8x22B-Instruct-v0.1 y el punto final chat .
Mistral grande2 : accedido a través de la API de Mistral AI utilizando el modelo de mistral-large-latest .
Mistral-7B-Instructo-V0.3 : se accede al modelo Mistral-7B-Instructo-V0.3 al cargar desde el punto de control del abrazo de Face.
Mistral-Nemo-Instruir el modelo Mistral-Nemo-Instruct-2407 se accede a través del punto de control de Hugging Face.

Modelos de Google Palm a través de Vertex AI

Google Palm 2 : implementado con el modelo text-bison-001 , respectivamente.
GEMINI PRO : El modelo gemini-pro de Google se incorpora para un mejor procesamiento del lenguaje, accesible en Vertex AI.
Gemini 1.5 Pro : Acceso utilizando el modelo gemini-1.5-pro-001 en Vertex AI.
Géminis 1.5 Flash : accedido con el modelo gemini-1.5-flash-001 en Vertex AI.
Gemini 1.5 Pro 002 : accedido con el modelo gemini-1.5-pro-002 en Vertex AI.
Géminis 1.5 FLASE 002 : Acceso utilizando el modelo gemini-1.5-flash-002 en Vertex AI.

Para una comprensión profunda de la versión y el ciclo de vida de cada modelo, especialmente los que ofrecen Google, consulte las versiones de modelos y los ciclos de vida en Vertex AI.

Modelos Titan en Amazon Bedrock

Amazon Titan Express : se accede al modelo en Amazon Bedrock con el identificador del modelo de amazon.titan-text-express-v1 .

Modelos de Microsoft

Microsoft PHI-2 : se accede al modelo PHI-2 a través de la API de Hugging Face.
Microsoft Orca-2-13b : se accede al modelo Orca-2-13B a través de la API de Hugging Face.
Microsoft WizardLM-2-8X22B : accedido a través de la API de AI juntas utilizando el modelo microsoft/WizardLM-2-8x22B y el punto final chat .
Microsoft Phi-3-Mini-4K : se accede al modelo PHI-3-MINI-4K a través del punto de control de Hugging Face.
Microsoft Phi-3-Mini-128K : se accede al modelo Phi-3-Mini-128K a través del punto de control de Hugging Face.
Microsoft Phi-3.5-mini-Instructo : se accede al modelo PHI-3.5 mini-Instructo a través del punto de control de Hugging Face.
Microsoft Phi-3.5-Moe-Instructo : se accede al modelo Phi-3.5-Moe-Instructo a través del punto de control de Hugging Face.

Google Models on Hugging Face

Google Flan-T5-Large : se accede al modelo Flan-T5-Large a través de la API de Hugging Face.
Google GEMMA-7B-IT : se accede al modelo GEMMA-7B-IT a través de la API de Hugging Face.
Google Gemma-1.1-7B-IT : se accede al modelo GEMMA-1-7B-IT al cargar desde el punto de control de Face.
Google GEMMA-1.1-2B-IT : se accede al modelo Gemma-1.1-2B-IT a través de la carga del punto de control de Hugging Face.
Google GEMMA-2-9B-IT : se accede al modelo GEMMA-2-9B-IT a través de la carga del punto de control de Hugging Face.
Google GEMMA-2-2B-IT : se accede al modelo GEMMA-2-2B-IT a través de la carga de la carga de la cara.

TII Modelas en la cara abrazada

Tiiuae/Falcon-7b-Instructo : se accede al modelo Falcon-7B-Instructo a través de la API de Hugging Face.

Modelo Intel en la cara abrazada

Intel/Neural-Chat-7B-V3-3 : se accede al modelo Intel/Neural-Chat-7B-V3-3 a través del punto de control de Hugging Face.

Modelo de databricks

Databricks/DBRX-Instructo : accedido a través de la API de AI utilizando el modelo databricks/dbrx-instruct y el punto final chat .

Modelo de copo de nieve

Snowflake/Snowflake-Arctic-Instructo : accedido a través de la API de Replicate utilizando el modelo snowflake/snowflake-arctic-instruct .

Modelo de manzana

Apple/OpenELM-3B-Instructo : se accede al modelo OpenELM-3B-Instructo a través de cargar el punto de control de Hugging Face. El mensaje para este modelo es el indicador original más '' ' n na Resumen conciso es el siguiente:' '

Modelos 01-AI

01-AI/YI-1.5-CHAT 6B, 9B, 34B : Los modelos 01-AI/YI-1.5-6B-CHAT, 01-AI/YI-1.5-9B-CHAT y 01-AI/YI-1.5-34B-CHAT se accede a través del punto de control de Hugging Face.

Modelo Zhipu Ai

Zhipu-Ai/GLM-4-9B-CHAT : se accede al GLM-4-9B-CHAT a través del punto de control de Hugging Face.

Modelos qwen

QWEN/QWEN2-72B-INSTRUST : Acccessed a través del punto final chat AI juntos con nombre del modelo Qwen/Qwen2-72B-Instruct .
QWEN/QWEN2-VL-INSTRUCT 2B, 7B : Se accede a los modelos QWEN/QWEN2-VL-2B-INSTRUCT y QWEN/QWEN2-VL-7B-INSTRUCT a través de los puntos de control de Hugging Face.
QWEN/QWEN2.5-INSTRUCT 0.5B, 1.5B, 3B, 7B, 14B, 32B, 72B : los modelos QWEN2.5-0.5B-INSTRUCT, QWEN2.5-1.5B-INSTRUCT, QWEN2.5-3B-INSTRUCT, QWEN2.5-7B-Instructo, Qwen2.5-14B-InStruct, InStructo, Se accede a la instrucción Qwen2.5-32b y el instructo Qwen2.5-72b-Instructo a través de los puntos de control de Hugging Face.

Modelo AI21

AI21-Jamba-1.5-Mini : se accede al modelo Jamba-1.5-Mini a través del punto de control de Hugging Face.

Modelo de Deepseek

Deepseek v2.5 : accedido a través de la API de Deepseek utilizando el modelo deepseek-chat y el punto final chat .

Modelos de IBM

Granite-3.0-Instructo 2B, 8B : Se accede a los modelos IBM-Granite/Granite-3.0-8B-Instructo e IBM Granite/Granite-3.0-2B-Instructo a través de los puntos de control de Hugging Face.

Modelo XAI

Grok : accedido a través de la API de XAI utilizando el modelo grok-beta y el punto final chat/completions .

Preguntas frecuentes

Quemaría ¿Por qué está utilizando un modelo para evaluar un modelo?
Respuesta Hay varias razones por las que elegimos hacer esto a través de una evaluación humana. Si bien podríamos tener una evaluación de escala humana grande, eso es algo único, no se escala de una manera que nos permite actualizar constantemente la tabla de clasificación a medida que las nuevas API entran en línea o los modelos se actualizan. Trabajamos en un campo de movimiento rápido, por lo que cualquier proceso de este tipo estaría sin datos tan pronto como se publique. En segundo lugar, queríamos un proceso repetible que podamos compartir con otros para que puedan usarlo ellos mismos como uno de los muchos puntajes de calidad de LLM que usan al evaluar sus propios modelos. Esto no sería posible con un proceso de anotación humana, donde las únicas cosas que podrían compartirse son el proceso y las etiquetas humanas. También vale la pena señalar que construir un modelo para detectar alucinaciones es mucho más fácil que construir un modelo generativo que nunca produce alucinaciones. Mientras el modelo de evaluación de alucinación esté altamente correlacionado con los juicios de los evaluadores humanos, puede ser un buen proxy para los jueces humanos. Como estamos específicamente de resumen de alguacería y no una respuesta general de las preguntas del "libro cerrado", la LLM que capacitamos no necesita haber memorizado una gran proporción de conocimientos humanos, solo necesita tener una comprensión sólida y una comprensión de los idiomas que apoya (actualmente solo inglés, pero planeamos expandir la cobertura del idioma con el tiempo).
Quemaría ¿Qué pasa si el LLM se niega a resumir el documento o proporciona una respuesta de una o dos palabras?
Respuesta Los filtramos explícitamente. Vea nuestra publicación de blog para obtener más información. Puede ver la columna de 'tasa de respuestas' en la tabla de clasificación que indica el porcentaje de documentos resumidos, y la columna de 'longitud de resumen promedio' que detalla las longitudes de resumen, lo que demuestra que no obtuvimos respuestas muy cortas para la mayoría de los documentos.
Quemaría ¿Qué versión del modelo XYZ usaste?
Respuesta Por favor, consulte la sección Detalles de la API para obtener detalles sobre las versiones del modelo utilizadas y cómo se llamaron, así como la fecha en que se actualizó la tabla de clasificación. Póngase en contacto con nosotros (cree un problema en el repositorio) si necesita más claridad.
Quemaría ¿Qué hay de Xai's Grok LLM?
La respuesta actualmente (a partir del 14/11/2023) Grok no está disponible públicamente y no tenemos acceso. Aquellos con acceso temprano, sospecho que probablemente tengan prohibido legalmente hacer este tipo de evaluación en el modelo. Una vez que el modelo esté disponible a través de una API pública, buscaremos agregarlo, junto con cualquier otro LLM que sea lo suficientemente popular.
Quemaría ¿No puede un modelo solo anotar un 100% al proporcionar respuestas ni respuestas muy cortas?
Respuesta Filtramos explícitamente tales respuestas de cada modelo, realizando la evaluación final solo en documentos para los que todos los modelos proporcionaron un resumen. Puede encontrar más detalles técnicos en nuestra publicación de blog sobre el tema. Consulte también las columnas 'tasa de respuesta' y 'longitud de resumen promedio' en la tabla anterior.
Quemaría ¿No sería un modelo de resumen extractivo que solo copie y pasea del resumen original puntaje 100% (0 alucinación) en esta tarea?
Responda absolutamente, ya que por definición, tal modelo no tendría alucinaciones y proporcionaría un resumen fiel. No pretendemos evaluar la calidad de resumen, que es una tarea separada y ortogonal , y debemos evaluarse de forma independiente. No estamos evaluando la calidad de los resúmenes, solo la consistencia objetiva de ellos, como señalamos en la publicación del blog.
Quemaría Esta parece una métrica muy hackable, ya que podría copiar el texto original como resumen
Respuesta. Eso es cierto, pero no estamos evaluando modelos arbitrarios en este enfoque, por ejemplo, como en una competencia de Kaggle. Cualquier modelo que lo haga funcionaría mal en cualquier otra tarea que le importe. Por lo tanto, consideraría esto como una métrica de calidad que ejecutaría junto con cualquier otra evaluación que tenga para su modelo, como la calidad de resumen, la precisión de respuesta de preguntas, etc. Pero no recomendamos usar esto como una métrica independiente. Ninguno de los modelos elegidos fue entrenado en la salida de nuestro modelo. Eso puede suceder en el futuro, pero a medida que planeamos actualizar el modelo y también los documentos de origen, por lo que esta es una tabla de clasificación viva, será un hecho poco probable. Sin embargo, eso también es un problema con cualquier punto de referencia de LLM. También debemos señalar que esto se basa en una gran cantidad de trabajo sobre consistencia objetiva donde muchos otros académicos inventaron y refinaron este protocolo. Vea nuestras referencias a los documentos de la Cumbre y Verdadero en esta publicación de blog, así como esta excelente compilación de recursos: https://github.com/edinburhnlp/awesome-hallucination Detection para leer más.
Quemaría Esto no mide definitivamente todas las formas en que un modelo puede alucinar
Respuesta. Acordado. No afirmamos haber resuelto el problema de la detección de alucinación y planeamos expandir y mejorar este proceso aún más. Pero creemos que es un movimiento en la dirección correcta, y proporciona un punto de partida muy necesario que todos puedan construir sobre.
Quemaría Algunos modelos podrían alucinar solo mientras resumen. ¿No podría simplemente proporcionarle una lista de hechos bien conocidos y verificar qué tan bien puede recordarlos?
Respuesta. Esa sería una mala prueba en mi opinión. Por un lado, a menos que haya capacitado el modelo, no conoce los datos en los que fue entrenado, por lo que no puede estar seguro de que el modelo está basado en su respuesta en datos reales que ha visto o si está adivinando. Además, no existe una definición clara de 'bien conocido', y estos tipos de datos suelen ser fáciles de recordar con precisión para la mayoría de los modelos. La mayoría de las alucinaciones, en mi experiencia ciertamente subjetiva, provienen de la información que obtiene el modelo que rara vez se conoce o discuten, o hechos para los cuales el modelo ha visto información contradictoria. Sin conocer los datos de origen en los que se entrenó el modelo, nuevamente es imposible validar este tipo de alucinaciones, ya que no sabrá qué datos se ajustan a este criterio. También creo que es poco probable que el modelo solo se alucine mientras resume. Estamos pidiendo al modelo que tome información y la transforme de una manera que aún sea fiel a la fuente. Esto es análogo a muchas tareas generativas, además del resumen (por ejemplo, escriba un correo electrónico que cubra estos puntos ...), y si el modelo se desvía de la solicitud, entonces eso es un fracaso para seguir las instrucciones, lo que indica que el modelo lucharía en otras tareas de instrucciones también.
Quemaría Este es un buen comienzo pero lejos de ser definitivo
Respuesta. Estoy totalmente de acuerdo. Hay mucho más por hacer, y el problema está lejos de ser resuelto. Pero un "buen comienzo" significa que, con suerte, el progreso comenzará a hacerse en esta área, y al abre el modelo, esperamos involucrar a la comunidad para que lleve esto al siguiente nivel.

Muy pronto

También agregaremos una tabla de clasificación sobre la precisión de las citas. Como constructor de sistemas RAG, hemos notado que los LLM tienden a atribuir mal fuentes a veces al responder una pregunta basada en los resultados de búsqueda suministrados. Nos gustaría poder medir esto para poder ayudarlo a mitigarlo dentro de nuestra plataforma.
También buscaremos expandir el punto de referencia para cubrir otras tareas de RAG, como la resumen de documentos múltiples.
También planeamos cubrir más idiomas que solo el inglés. Nuestra plataforma actual cubre más de 100 idiomas, y queremos desarrollar detectores de alucinación con una cobertura multilingüe comparable.

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-03-09
tamaño 275.34KB
Proviene de Github

Aplicaciones relacionadas

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub the via/releases

2024-11-01

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo