El rápido desarrollo de modelos de idiomas grandes (LLM) ha traído una comodidad sin precedentes, pero también enfrenta el mayor desafío de "ilusión". La llamada "ilusión" se refiere al contenido de generación de LLM que parece real pero en realidad es falso o inconsistente con los hechos. Este artículo llevará a cabo discusiones en profundidad sobre los últimos resultados de la investigación de los investigadores de Harvard en el fenómeno de "ilusión" de LLM, analizará sus causas y espera futuras direcciones de desarrollo. La investigación revela que la raíz de la "ilusión" de LLM radica en su mecanismo de predicción basado en la probabilidad estadística, en lugar de una comprensión semántica real. Esto hace que LLM sea propenso a la información errónea cuando se trata de temas vagos o controvertidos.
La aparición de modelos de idiomas grandes (LLM), especialmente la popularización de aplicaciones como ChatGPT, ha cambiado por completo la forma en que las interacciones humanas-computadora. Estos modelos son impresionantes para generar texto coherente e integral. Sin embargo, a pesar de sus poderosas habilidades, LLM es propensa a la "ilusión", es decir, generar contenido que parece real pero que en realidad es ficticio, sin sentido o inconsistente con el aviso.

Investigadores de la Universidad de Harvard realizaron una investigación en profundidad sobre el fenómeno de "ilusión" de LLM y descubrieron que su causa raíz radica en cómo funciona LLM. LLM construye un modelo de probabilidad mediante el aprendizaje automático en datos de texto masivo y predice la siguiente palabra basada en la probabilidad de concurrencia de palabras. En otras palabras, LLM realmente no entiende el significado del lenguaje, pero hace predicciones basadas en la probabilidad estadística.
Los investigadores compararon LLM con el "crowdsourcing" y creían que LLM realmente está generando "consenso de red". Al igual que las plataformas como Wikipedia o Reddit, LLM extrae información de grandes cantidades de datos de texto y genera las respuestas más comunes. Dado que la mayoría de los idiomas se utilizan para describir el mundo, las respuestas generadas por LLM suelen ser precisas.
Sin embargo, la "ilusión" ocurre cuando LLM se encuentra con un tema vago, controvertido o falta de consenso. Para probar esta hipótesis, los investigadores diseñaron una serie de experimentos que probaron el rendimiento de diferentes LLM al tratar con diferentes temas. Los resultados experimentales muestran que LLM funciona bien cuando se trata de temas comunes, pero disminuyen significativamente en precisión cuando se trata de temas vagos o controvertidos.
Este estudio muestra que LLM, aunque poderoso como herramienta, es su precisión que depende de la calidad y cantidad de datos de capacitación. Cuando se usa LLM, especialmente cuando se trata de temas difusos o controvertidos, su producción debe tomarse con precaución. Este estudio también proporciona dirección para el desarrollo futuro de LLM, a saber, la necesidad de mejorar la capacidad de LLM para lidiar con temas difusos y controvertidos y mejorar la interpretabilidad de sus resultados de salida.
Dirección en papel: https://dl.acm.org/doi/pdf/10.1145/3688007
La investigación de la Universidad de Harvard proporciona información valiosa para comprender y mejorar LLM, y también nos recuerda que usemos LLM con precaución, especialmente cuando se dirige a temas vagos o controvertidos, y necesitamos identificar cuidadosamente la precisión de sus resultados de producción, y esperamos que LLM lo supere En el futuro.