Aunque los modelos de lenguaje grande (LLM) como ChatGPT, Claude y Gemini son poderosos, también tienen un defecto importante en común: a menudo producen alucinaciones, es decir, información ficticia. Esto no sólo es vergonzoso, sino que también obstaculiza una aplicación más amplia del LLM. Incluso Apple ha expresado su preocupación sobre cómo responderán sus propios sistemas de inteligencia artificial a este problema. Para resolver este problema, los investigadores han desarrollado un nuevo detector de alucinaciones de IA que puede identificar eficazmente contenido falso generado por IA, sentando las bases para el avance de la tecnología de IA y aplicaciones más seguras y confiables.

Estas ilusiones conducen a muchos pasos en falso vergonzosos e intrigantes, y son una de las principales razones por las que la inteligencia artificial como ChatGPT aún no se ha vuelto más práctica. Una vez vimos que Google tuvo que revisar su descripción general de búsqueda de IA porque la IA comenzó a decirle a la gente que era seguro comer piedras y que era seguro poner pegamento en la pizza. Incluso hubo abogados que utilizaron ChatGPT para ayudar a redactar documentos judiciales, sólo para ser multados porque el chatbot inventó citas en los documentos.
Según el artículo, el nuevo algoritmo desarrollado por los investigadores puede ayudar a discernir si las respuestas generadas por IA son precisas aproximadamente el 79 por ciento de las veces. Por supuesto, este no es un récord perfecto, pero es un 10% mejor que otros métodos convencionales actuales.
Los chatbots como Gemini y ChatGPT pueden resultar útiles, pero también pueden generar fácilmente respuestas ficticias. La investigación fue realizada por miembros del Departamento de Ciencias de la Computación de la Universidad de Oxford. Los investigadores explicaron en su artículo que el método que utilizaron fue relativamente simple.
Primero, le pidieron al chatbot que respondiera al mismo mensaje varias veces, normalmente de cinco a diez veces. Luego calcularon un valor que llamamos entropía semántica, que es una medida de cuán similares o diferentes son las respuestas en significado. Si el modelo responde a cada elemento de forma diferente, la puntuación de entropía semántica será mayor, lo que indica que la IA puede estar inventando las respuestas. Sin embargo, si las respuestas son todas iguales o tienen significados similares, la puntuación de entropía semántica será menor, lo que indica que las respuestas que proporciona son más consistentes y probablemente sean verdaderas. Este no es un detector de alucinaciones de IA 100% preciso, pero es un enfoque interesante.
Otros métodos se basan en la llamada entropía ingenua, que normalmente comprueba si la redacción de una respuesta difiere, en lugar de su significado. Por lo tanto, es menos probable que detecte alucinaciones con tanta precisión como el cálculo de la entropía semántica porque no se centra en el significado detrás de las palabras de la oración.
Los investigadores dicen que el algoritmo podría agregarse a chatbots como ChatGPT a través de un botón que daría a los usuarios una "puntuación de certeza" para las respuestas a sus preguntas. Es tentador incorporar detectores de alucinaciones de IA directamente en los chatbots, por lo que es comprensible agregar dichas herramientas a varios chatbots.
Aunque este detector de alucinaciones de IA basado en entropía semántica no es perfecto, su precisión del 79% y su ventaja del 10% sobre los métodos existentes proporcionan nuevas ideas y métodos para resolver el problema de las alucinaciones de IA. Sin duda, esta investigación promoverá el avance de la tecnología de IA y hará que los sistemas de IA sean más confiables y dignos de confianza.